Eesti keel kaardistati 2,4 miljardi sõna mahus (1)

21. aprill 2022, 10:19

Kogu keeleinfo on koos pidevalt uuenevas EKI ühendsõnastikus Sõnaveeb. Foto: Peeter Langovits

Eesti keele instituut (EKI) koondas spetsiaalse keeletarkvara abil kokku rohkem kui 2,4 miljardi sõna mahus eestikeelseid tekste, mis lubab enneolematult täpselt uurida keele arengut ning veebisõnastikes muutusi kajastada peaaegu reaalajas.

EKI vanemarvutileksikograafi Kristina Koppeli sõnul kaardistab ja talletab EKI iga kahe aasta järel kõik avalikud elektroonilised eestikeelsed tekstid, mida pidevalt arenev tehnoloogia võimaldab leida. «Kümme aastat tagasi alustades suutsime selliseks tekstide digitaalseks kogumiks ehk keelekorpuseks kokku korjata alla poole miljardi sõna mahus tekste, aga nüüd juba üle 2,4 miljardi,» ütles Koppel.

Leksikograafi sõnul peab EKI pidevalt läbirääkimisi, et kaasata keelekorpusse aina rohkem rikka keelekasutusega ja hoolikalt koostatud tekste. «Võrreldes eelmise keelekorpuse uuendamisega tuli praegune maht ligi 50 protsenti suurem. Kõige rohkem – neli korda – kasvas ilukirjanduse maht, teadustekstide hulk suurenes poole võrra,» tõi Koppel välja.

«Võimalikult erinevate eestikeelsete tekstide regulaarne kokkukogumine on oluline, sest neis kajastub elav eesti keel, mis on aluseks nii keeleteadusele, sõnastikele kui keeleõppele. Nii on võimalik anda täpsemat infot EKI Sõnaveebis ja EKI teatmikus ning luua paremaid eesti keele õppimise materjale,» ütles EKI juhtivleksikograaf Margit Langemets.

«Kuigi veebirobotid koondavad aina suuremaid tekstimassiive, mis on aluseks sõnastike koostamisele, ei tähenda see, et sõnastikesse jõuaks automaatselt kõik, mis veebi kirjutatakse. Alati on keeleteadlane see, kes andmeid uurib ja mõtestab. Erilaadi tekstid ei ole sama kaaluga, näiteks seaduste, kirjanduse või teadustööde keelekasutus on kaalukam kui foorumite või kommentaariumide keel, kuigi ka viimasest saab väärtuslikku lisainfot,» selgitas Langemets.

Langemetsa sõnul on keelekorraldajate töö sisendiks alati olnud erilaadi tekstid ja väljundiks sõnaraamatud. «Digiajastul saame koguda suurusjärkude võrra rohkem tekste kui varem. Samuti analüüsida neid läbipaistvalt ja objektiivselt, sest ka keeleteadlane ei tohiks oma isiklikke eelistusi liigselt esile tõsta. Nõnda saame märksa kiiremini ja mugavamalt anda ülevaate keele arengust, uutest kasutusse tulnud sõnadest ja sõnatähenduste muutustest,» ütles Langemets.

Keeleteadlane selgitas, et kui vanasti tuli uus sõnaraamat välja heal juhul kümne aasta tagant ning iga teema kohta oli oma paks sõnastik, siis nüüd on kogu keeleinfo koos pidevalt uuenevas EKI ühendsõnastikus Sõnaveebis. «Näiteks saab Sõnaveebist teada, mida tähendavad hiljuti argikasutusse levinud sõnad «sõjaudu» või «hulkurdroon». Veel kuu aega tagasi seda infot Sõnaveebis polnud ja sarnaselt täieneb Sõnaveeb iga päev,» selgitas Langemets.

«Praegune 2,4 miljardi sõna mahus keelekorpus, mis võimaldab eesti keelt operatiivselt analüüsida, ei ole kindlasti võimaluste tipp. Infotehnoloogia rakendamine keele uurimisel on EKI üks prioriteete, sellega tegelev meeskond täieneb ja veebirobotid on aina osavamad. Usun, et kahe aasta pärast kaardistame eesti keele kasutust ligemale nelja miljardi sõna mahus,» hindas Koppel.

Eesti keel kaardistati 2,4 miljardi sõna mahus (1)

Märksõnad