Automatinio kodavimo taikymas praeities kelionių tyrimuose

Rimvydas Laužikas (Vilniaus universitetas, Lietuva)  

Pastaraisiais dešimtmečiais vykstantis masyvus rašytinių istorijos šaltinių skaitmeninimas, jų tekstų optinis atpažinimas ir pateikimas internete sukuria naujas istorinio tyrimo galimybes ir iššūkius. Pagrindinė tyrimo problema yra susijusi su tuo, kad kelionių aprašymai paprastai sudaro tik nedidelę konkretaus šaltinio dalį ir yra netolygiai pasiskirstę skirtinguose dokumentuose. Todėl, atsižvelgiant į suskaitmenintų dokumentų ir jų rinkinių teksto apimtis ir įvairiomis kalbomis publikuotų dokumentų skaičių, jų. kaip šaltinių, tyrimai tik vienu (kelionių) aspektu reikalauja didelių žmogiškųjų ir laiko resursų.     

Šiame pranešime pristatoma metodologija yra grindžiama informacinės paradigmos ir skaitmeninėmis technologijomis grįstų metodų taikymu. Metodologiją sutaro du žingsniai: (1) šaltinių tekstyno su optiškai atpažintu turiniu (OCR) surinkimas; (2) empirinių duomenų rinkimas ir tyrimai taikant žodynu grįsto automatinio kodavimo metodą ir realizuojant jį „MaxQDA“ programa. Tyrime taikyto žodyno struktūrą sudaro šeši su praeities kelionėmis susiję konceptai (kategorijos): (1) kelionė (bendras apibūdinimas), (2) kelias ir jo infrastruktūra (tiltai, brastos ir kt.), (3) transporto priemonės, (4) sustojimo ir nakvynės vietos (miesteliai, kaimai, karčemos, pašto stotys ir kt.), (5) kelyje sutikti žmonės (smuklininkai, plėšikai, vedliai ir kt.), (6) kelionių maistas. Kiekvienas konceptas yra apibūdinamas reikšminių žodžių ir frazių rinkiniu. Testavimo metu nustatyta, kad metodologija leidžia spręsti paminėtą tyrimo problemą.