Rašykime be klaidų: IT ir lietuvių kalba – suderinama

Ne paslaptis, kad lietuvių kalbos vingrybės – nosinės vidury žodžio, raidės su kepurėlėmis ir taškais bei kitos vingrybės, kurių nėra kitose kalbose – kartais gali pakišti koją ir neblogai ją mokančiam. Bet ką daryti, jei norisi parašyti be klaidų, o lietuvių kalba net ne gimtoji? Į pagalbą ateina rašybos, skyrybos ir kitų klaidų tikrinimo sistemos internete.

Vartotojas: „Semantika.lt“ – mokymosi priemonė

„Ši programa man buvo tikras atradimas“, – sako vilnietis Vladimiras Petrenko, dirbantis informacinių technologijų (IT) srityje. Nors jaunas vyras puikiai kalba lietuviškai, rašyti jam sekasi sunkiau, o prireikus ką nors išversti, prasidėdavo dar didesnės bėdos.

Anot Vladimiro, versdamas iš rusų kalbos į lietuvių įvairius darbui ir asmeniniams reikalams tvarkyti reikalingus tekstus, pats jautė, kad jo sakiniai „kreivi“, nemažai pasitaikydavo ir stiliaus klaidų.

„Anksčiau naudojausi įvairiomis internete laisvai prieinamomis vertimo ir redagavimo programomis, tačiau lietuviško teksto kokybė vis tiek buvo palyginti prasta. Tačiau kai prieš kelias savaites aptikau ir pradėjau naudotis „Semantika.lt“, jau ir pats darau mažiau klaidų. Man labai patiko, kad šioje sistemoje yra paaiškinimai, kokias klaidas padariau, todėl ja naudojuosi ir kaip mokymosi priemone: pamatęs, ką pataisė, pats stengiuosi analizuoti savo klaidas ir darau jų tikrai mažiau“, – pasakoja vilnietis.

Į klausimą, ar sunku naudotis šia programa, V. Petrenko atsakė, jog lengva ir net malonu. „Tikrai nereikia būti IT specialistu. Jei darbo kompiuteriu ir internete pagrindus turi, to pakaks“, – pridūrė jis.

Ir paprastiems vartotojams, ir specialistams

Apie nuolat atnaujinamą informacinę sistemą „Semantika.lt“, kurioje galima pasitikrinti, ar tekste nėra rašybos, skyrybos, stiliaus klaidų ir kitų negerovių, bei šiuolaikines technologijas, padedančias lietuvių kalbai įsitvirtinti virtualioje erdvėje, kalbamės su Vytauto Didžiojo universiteto (VDU) Kompiuterinės lingvistikos centro vadovu, vienu iš šio projekto bendraautorių Andriumi Utka.

Kam skirta ši sistema ir kuo ji naudinga interneto vartotojams?

A. Utka: Portale bet kuris vartotojas gali pasitikrinti, ar teisingai parašė tekstą – jo rašybą bei gramatiką ir išsitaisyti klaidas, patyrinėti savo tekstus arba jau surinktus tekstynus, nustatyti visų žodžių kalbos dalis. Norintys tobulinti lietuvių kalbos vartosenos įgūdžius arba paprasčiausiai besidomintys taisyklinga lietuvių kalbos vartosena, tai gali atlikti tyrinėdami žodžio vartoseną Dabartinės lietuvių kalbos tekstyne. Lietuvių kalbos specialistai bei kalbos technologijomis grįstų paslaugų kūrėjai gali automatiškai anotuoti lietuvių kalbos tekstus ir atlikti juose semantinę paiešką. Be to, kompiuteris automatiškai atpažįsta tekste įvardintas esybes (asmenis, organizacijas ir kt.). Pastarasis komponentas labai svarbus kitiems paslaugų kūrėjams, nes be jo neįmanoma kurti automatinės nuomonių analizės ir panašių sprendimų. Beje, kompiuterinės tekstų analizės rezultatai pateikiami kompiuteriui suprantamu pavidalu.

Ši ir kitos svetainės padeda žmonėms, kurie vartoja lietuvių kalbą, verčia, ją analizuoja ar jos mokosi. Patogi prieiga prie kalbos išteklių yra svarbi žmonėms, kurie kalbą supranta ne tik kaip taisyklių, normų ir draudimų rinkinį, o kaip naujų atradimų šaltinį. Be to, mūsų kuriamos paslaugos gali pasitarnauti ir mažinant socialinę atskirtį, pavyzdžiui, lietuvių kalbos įgūdžius gali nemokamai tobulinti kalbinių mažumų atstovai, imigrantai ar emigrantų vaikai.

Visos informacinės sistemos Semantika.lt paslaugos yra nemokamos. Jos teikiamos ne tik per vartojo grafinę sąsają (interneto naršyklę), bet ir per pažangias tinklo tarnybas, Elektroninius valdžios vartus. Čia kiekviena iš jų pateikiama atskirai, tad vartotojui patogu pasirinkti tą, kuri jam reikalinga: „Teksto analizė ir tikrinimas“, „Teksto anotavimas“, „Paieška tekstyne“ (DLKT), „Interneto žiniasklaidos naujovių analizė“, „Lietuviško interneto svetainių semantinė paieška“.

Kaip kilo sumanymas ją sukurti, kas jo autoriai ir kokių tikslų dar siekiama?

A. Utka: Pagrindiniai tikslai buvo du. Pirmasis – sukurti ir išvystyti bazines lietuvių kalbos teksto analizės technologijas, nes šioje srityje dėl įvairių priežasčių labai atsilikome nuo kitų ES šalių. O antrasis, dar svarbesnis tikslas, kurio siekėme – sukurti Lietuvos piliečiams nemokamas tipines bazinių kalbos technologijų paslaugas bei paskatinti tyrimus ir inovacijas šioje srityje. O sumanymas sukurti tokį portalą kilo VDU Kompiuterinės lingvistikos centre ir Informatikos fakultete. Kompiuterinės lingvistikos centre jau du dešimtmečius kaupiame ir analizuojame lietuvių kalbos rašytinės kalbos išteklius, tad šis portalas – daugelio ankstesnių darbų tęsinys, realizavome sumanymus, kuriuos galėjome įgyvendinti tik sukaupę didelę patirtį.

Semantika.lt“ portalo ir technologinių sprendimų kūrėjai VDU ir Kauno technologijos universitetų mokslininkai, o jį įgyvendinti padėjo Baltijos pažangių technologijų institutas, UAB ATEA, UAB „Fotonija“, MB „Tetragrama“ ir kt. Džiaugiamės, kad į projekto vykdytojų komandą pavyko suburti negausius lietuvių kalbos technologijų specialistus, todėl per labai trumpą laiką pavyko sukurti iš tiesų milžinišką informacinę sistemą. Žinoma, labai daug įtakos turėjo ir tai, kad ją kurdami gavome finansavimą ne tik iš Lietuvos valstybės biudžeto, bet sulaukėme finansinės paramos ir iš Europos regioninės plėtros fondo. Beje, šis fondas suteikė paramą ir mūsų sukurtai mašininio vertimo sistemai bei tęstiniam projektui „Dabartinės lietuvių kalbos tekstynas“.

Internete – gausūs lietuvių kalbos ištekliai

Minėjote, kad yra sukurta ir daugiau naudingų programų. Kokios jos?

A. Utka: Paminėsiu tik keletą. Kompiuterinės lingvistikos centras yra žinomas dėl savo Dabartinės lietuvių kalbos tekstyno, mašininio vertimo, automatinės kirčiuoklės, morfologinio analizatoriaus ir lygiagrečių tekstynų. Šias paslaugas taip pat galima rasti mūsų centro tinklalapyje , o pirmoji anglų-lietuvių mašininio vertimo paslauga, veikianti nuo 2008 m., taip pat pasiekiama VDU tinklalapyje. Be to, Kompiuterinės lingvistikos centras atstovauja Lietuvai CLARIN ERIC Europos duomenų infrastruktūroje ir įkūrė CLARIN-LT centrą, kuriame tyrėjai gali talpinti ar parsisiųsti lietuvių kalbos išteklių. Kartu su partneriais pavyko parengti Lietuvos teisines realijas atitinkančią licencijavimo sistemą.

Ar yra virtualioje erdvėje daugiau įvairių programų, susijusių su lietuvių kalba?

A. Utka: Be abejo. Be garsiosios Google Translate mašininio vertimo paslaugos, kuri palaiko net 100 pasaulio kalbų, internete atsiranda vis daugiau specializuotų programų ar svetainių, kuriose galima rasti lietuvių kalbos išteklių, įrankių ar paslaugų. Pavyzdžiui, portale „Raštija.lt“ galima rasti keturių didelių lietuvių kalbos projektų rezultatus: „Semantika.lt“, mašininio vertimo, LIEPOS, LKI išteklių ir lokalizavimo. Internete yra ir Lietuvių kalbos mokslo tekstynas. Virtualioje erdvėje gausu leksinių ir terminologijos išteklių: Dabartinės lietuvių kalbos žodynas, tarptautinių žodžių žodynas, Lietuvos Respublikos terminų bankas, taip pat daugiakalbiai ES terminologijos žodynai. Naudingos ir specialiai vertėjams sukurtos svetainės („Proz.com“, „Linguee.com“, „Glosbe.com“). Taip pat galima atrasti ir entuziastų sukurtas programėles, pavyzdžiui, „Lari“ – lietuviškų kabučių ir brūkšnelių keityklę, tarptautinių žodžių žodyną ir daugelį kitų.

IT ir lietuvių kalba? Suderinama!

Sakoma, kad lietuvių kalba ir informacinės technologijos (IT) nedera. Ar tai tiesa?

A. Utka: Tai mitas. Pasaulyje yra daug sudėtingesnių kalbų nei lietuvių kalba. Pavyzdžiui, kinų kalboje yra 2000 hieroglifų! Nepaisant to, kinai sėkmingai naudojasi informacinėmis technologijomis, egzistuoja kinų rašto ISO standartas, sukurtos mašininio vertimo bei kinų kalbos automatinio šnekos atpažinimo programos.

Kita vertus, net 85 proc. informacijos internete yra tekstinė. Informacijos kiekis lietuvių kalba, kaip ir kitomis kalbomis, auga eksponentiškai. Todėl lietuvių kalba ir IT tikrai dera. Pasakysiu dar daugiau – jeigu norime, kad lietuvių kalba išliktų, ji ir IT privalo derėti. Problema yra ta, kad lietuviškai kalba palyginti nedaug žmonių, todėl ji nepatraukli verslui. Dėl to lietuvių kalbos technologijų vystymas labai priklauso nuo ES ir valstybės paramos, o mes patys labai džiaugiamės, kad prisidedame prie lietuvių kalbos technologijų standartų įtvirtinimo bei kalbos technologijų paslaugų kaštų mažinimo kūrėjams.

tv3-lt