Daiva Šveikauskienė. Pradėta kurti Lietuvių kalbos gramatikos informacinė sistema

Seimo Švietimo, mokslo ir kultūros komitetas 2015 m. rugsėjo 30 d. posėdyje pritarė Valstybinės lietuvių kalbos komisijos iniciatyvai rengti Lietuvių kalbos dienas. Buvo nuspręsta, kad programa, skirta lietuvių kalbai, bus vykdoma laikotarpiu tarp dviejų Lietuvai svarbių švenčių: nuo vasario 16 d. iki kovo 11 d. Šiuo laikotarpiu – vasario 21 d. – minima ir Tarptautinė gimtosios kalbos diena. Pirmą kartą Lietuvių kalbos dienos buvo surengtos 2016 m. O 2020 m. į pagrindinių renginių sąrašą Valstybinė lietuvių kalbos komisija įtraukė ir Gramatikos dieną Lietuvių kalbos institute. Renginyje buvo pristatyta pradėta kurti Lietuvių kalbos gramatikos informãcinė sistema – LIGIS.

 

Truputis istorijos

 

Šiuo metu kompiuteriai skverbiasi į visas žmogaus gyvenimo sritis. Ne išimtis ir kalba. Praeito amžiaus viduryje atsiradus kompiuteriams labai greitai paaiškėjo, kad jie gali apdoroti ne tiktai skaičius, bet ir kitus simbolius, pavyzdžiui, raides, taigi kompiuteriai gali apdoroti ir kalbas. Kalbos patekimas į kompiuterinę terpę yra jos išlikimo garantas, ir tai darosi ypač aktualu dabar, kai pasaulis susiduria su nykstančių kalbų problema.

 

Kompiuterizuojant lietuvių kalbą atlikta nemaža darbų: suskaitmeninti pagrindiniai žodynai, sukurti morfologiniai ir sintaksiniai analizatoriai, surinkti ir anotuojami tekstynai, pradėta kurti skaitmeninė gramatika (žr. literatūros ir nuorodų sąrašą) ir kt.

 

Kiekvienõs kalbos pagrindą sudaro du dalykai: žodynas ir gramatika. Yra du esminiai skirtumai tarp spausdintų popierinių ir kompiuterizuotų žodynų ir gramatikų: pateikimo forma ir naudotojas. Iki XXI a. visi žodynai ir gramatikos buvo spausdintos popierinės knygos ir vienintelis jų naudotojas buvo žmogus. Todėl gramatikose būdavo įprasta pateikti taisyklę su keliais ją iliustruojančiais pavyzdžiais, tačiau nebuvo išvardijami visi žodžiai, kuriems ta taisyklė tinka. Žmogus, vadovaudamasis gimtosios kalbos jausmu, pats nuspręsdavo, kuriems žodžiams turi būti taikomos konkrečios taisyklės, net jei tų žodžių ir nebūdavo paminėta gramatikos vadovėlyje. Tradiciniams spausdintiems žodynams būdinga tai, kad jie neaprėpia visų kalboje esančių žodžių, trūksta daugelio darinių, vedinių, pavyzdžiui, žodžio nebeatsinešti nerasime nė viename lietuvių kalbos žodyne.

 

Žodynams ir gramatikoms persikėlus į kompiuterinę terpę atsirado naujas jų naudotojas – kompiuteris, kuris neturi gimtosios kalbos jausmo ir pats negali nuspręsti, kurios gramatikos taisyklės galioja vienam ar kitam žodžiui. Jam viskas turi būti nurodyta labai tiksliai. Todėl jau XX a. pabaigoje buvo pradėtos kurti formãlios gramatikos, kurios gerai tinka kompiuteriniam kalbos apdorojimui, tačiau jų aprašai labai sunkiai suprantami net kalbininkams profesionalams. Ir jau antro šio amžiaus dešimtmečio viduryje pasigirdo siūlymų atkreipti dėmesį į plačiajai visuomenei skirtų, gramatinę informaciją populiariai pateikiančių kompiuterinių sistemų kūrimą. Baltų ir slavų kalbų kompiuterinio apdorojimo konferencijos kvietimuose (BSNLP 2015, 2017, 2019) rašoma: „ypač skatinama teikti pranešimus, kuriuose aprašomi plačiajai visuomenei skirti ištekliai“. Atsiliepiant į šias idėjas Lietuvių kalbos institute buvo pradėta kurti Lietuvių kalbos gramatikos informãcinė sistema LIGIS.

 

Lietuvių kalbos gramatikos informacinė sistema LIGIS

 

Tai tęstinis daugiakalbis mokslinis žinynas, laisvai prieinamas internete ir pateikiantis išsamią gramatinę informaciją apie lietuvių kalbos žodžius. Idėja sukurti ištek­ lių, kuris tarnautų kaip lietuvių kalbos gramatikos dokumentacija, gimė 2016 m., o 2017 m. kovo mėn. į internetą buvo įkelta bandomoji versija, apimanti tik vienos šaknies bėg- žodžius: visas veiksmažodžio formas, vedinius ir dūrinius, iš viso apie 28 tūkst. įrašų. Tókiu principu pateikiama informacija padeda pamatyti vienos šaknies produktyvumą, t. y. kiek gali būti žodžių (lemų ir jų kaitybinių formų), turinčių bendrą šaknį, šiuo atveju bėg-.

 

Į žinyną stengiamasi įtraukti visus lietuvių kalboje esančius žodžius, taigi ir nepatekusius į žodynus. Tam tikslui kompiuteriu generuojamos visos priešdėlių ir šaknų bei priesagų kombinacijos ir vėliau peržiūrint lemas rankomis atmetami lietuvių kalboje neegzistuojantys žodžiai. Svetainė patogi tuo, kad naudotojui viename puslapyje pateikiama trijų tipų informacija apie žodį: morfologinė, morfeminė ir darybinė. Kiek­ vieno žodžio nurodoma pradinė forma, o vedinių ir dūrinių – dar ir pamatiniai žodžiai. Morfologinė informacija (kalbos dalis, giminė, skaičius, linksnis, laikas ir pan.) pateikiama ne santrumpomis, o ištisais žodžiais ar žodžių junginiais. Apie morfeminę dalį reikia pasakyti, kad tai yra pirmas viešai prieinamas šaltinis, kuriame nurodomas morfemos tipas (šaknis, priesaga, galūnė ir t. t.) ir jos charakteristikos (priesaga – darybinė, kaitybinė; galūnė – įvardžiuotinė, sutrumpėjusi ir kt.). Kiekviena morfema žymima kita spalva. Sistemoje numatyta galimybė apžiūrėti visas naudotoją dominančio žodžio formas. Tam reikia pele paspausti mygtuką „Kitos formos“. Bandomajame pavyzdyje pateikti tik dviejų žodžių bėgis ir bėgti visų kaitybinių formų vartojimo pavyzdžiai. Ateityje planuojama parinkti pavyzdžių kiekvienam sistemoje esančiam žodžiui.

 

Svetainė pateikiama septyniomis kalbomis: lietuvių, anglų, vokiečių, prancūzų, italų, rusų ir japonų. Numatoma įtraukti dar tris kalbas – ispanų, lenkų ir latvių. Užsieniečiams, besimokantiems lietuvių kalbos, labai patogus sistemos bruožas yra tai, kad pereinant į kitą kalbą sistema įsimena naudotojo įvestą žodį ir žmogus iškart gali matyti visą gramatinę informaciją ta kalba, kurią jis geriau supranta. Svetainė pritaikyta naudotis ir mobiliuosiuose telefonuose. Siekiant kuo didesnio tikslumo ir patikimumo visa pateikiama informacija, taigi ir gramatikos terminai, buvo verčiami dviejų gimtakalbių: lietuvio, mokančio užsienio kalbą, ir tos kalbos lingvisto, mokančio kalbėti lietuviškai: į vokiečių kalbą buvo verčiama kartu su Krista Šnaider (Christa Schneider), į italų kalbą – su Adrianu Čeriu (Adriano Cerri), į japonų kalbą vertė Simona Vasilevskytė su Kajako Takagi ir kt.

 

Svarbu, kad gramatiniai duomenys sistemoje turi du vaizdavimo lygmenis: pirma, plačiajai visuomenei skirta dalis, labai populiariai ir visiems suprantamai pateikianti informaciją, o antrasis lygmuo – kompiuterio vidiniam kalbos apdorojimui tinkanti koduotė. Ji patogi atliekant mokslinius lietuvių kalbos tyrimus, nes ją taikant galimà žodžių paieška pagal įvairius gramatinius požymius. Tam numatytas ir specialus skirtukas „Paieška“: jis šiuo metu dar tik kuriamas. Iš viso svetainė turi keturis skirtukus: „Analizė“, „Paieška“, „Teorija“ ir „Apie projektą“. Teorinėje dalyje, kurią taip pat artimiausioje ateityje numatoma parengti, bus glaustai pateikta akademinės lietuvių kalbos gramatikos informacija, t. y. išdėstyti esminiai teoriniai dalykai, neiliustruojant jų gausiais pavyzdžiais.

 

Pagrindinė problema iškilo, kai rengiant duomenų bazę teko peržvelgti daug šaltinių, aprašančių lietuvių kalbos gramatikos klausimus, ir aptikti, kad kartais tas pats gramatikos reiškinys traktuojamas nevienodai. Todėl buvo pasirinktas artimiausias šiuo metu mokykloje dėstomai teorijai variantas, t. y. gramatinė informacija apie žodį pateikiama taip, kaip nurodyta svetainėje www.šaltiniai.info, pavyzdžiui, dalyvio pradine forma čia laikomas jo vienaskaitos vardininkas, o Vytauto Didžiojo universitete sukurtoje Lietuvių kalbos morfemikos duomenų bazėje kaip dalyvio pradinė forma nurodoma veiksmažodžio bendratis.

 

LIGIS sudarymo metodikos rengimą galima įsivaizduoti kaip darbą, atvirkštinį tam, kurio reikia rengiant spausdintas gramatikas. Rašant tradicinę gramatiką nuosekliai aptariamos taisyklės ir pateikiami keli žodžių pavyzdžiai. Kuriant Lietuvių kalbos gramatikos informãcinę sistemą imamas lietuvių kalbos žodis ir „einant“ per gramatiką išrenkami visi jam būdingi požymiai. Šiuo žinynu siekiama sukaupti lietuvių kalbos dokumentaciją, kad ateityje iš jo būtų galima pasiimti visokeriopą su lietuvių kalbos gramatika susijusią informaciją.

 

Kol kas rengiama tik LIGIS morfologijos dalis. Sintaksės dalį planuojama pradėti kurti kitais metais.

 

LIGIS gali būti naudinga moksleiviams, studentams, užsieniečiams, besimokantiems lietuvių kalbos, ir visiems, besidomintiems šia kalba, taip pat ir kalbininkams, atliekantiems mokslinius lietuvių kalbos tyrimus.

 

Tekstas buvo publikuotas leidinyje „Gimtoji kalba“ (2020 m. balandis, p. 14-17).