EUROOPA TEHISARU Turu ülikooli teadlane annab aru, kuhu on jõudnud Soomes arendatav ülivõimas tehisintellekt

Copy
Euroopa suurim tehisaru pesitseb Soomes selle seina taga superarvutis LUMI. Kunstmõistus hakkab paremini mõistma Euroopa väikekeeli, lubavad teadlased, teiste hulgas muidugi ka eesti keelt.
Euroopa suurim tehisaru pesitseb Soomes selle seina taga superarvutis LUMI. Kunstmõistus hakkab paremini mõistma Euroopa väikekeeli, lubavad teadlased, teiste hulgas muidugi ka eesti keelt. Foto: Fade Creative / LUMI
  • Suur keelemudel kasutab koolituseks Soomes asuvat Euroopa suurimat superarvutit LUMI.
  • Väikekeeltele pannakse rohkem rõhku, et need ei jääks keelemudelis tagaplaanile.

Suures tehisintellektide võidujooksus pole ka Põhjamaad jäänud sabas sörkijaks. Soomes Turu ülikooli juures on loodud konsortsium, kus arendatakse sellist suurt keelemudelit, mis on treenitud siinsete keeltega. Tehisintellekt, mille platvorm on praegu arendamisel, hakkab oskama eesti keele peenemaid nüansse palju paremini, kui näiteks USA maailmakuulus OpenAI loodud ChatGPT vestlusrobot.

Miks on eesti keel tehisintellekti oskuste hulgas nii oluline? «Olukord on võrreldav sellega, kui leiutati trükipress – mis oleks eesti keelest saanud, kui raamatuid oleks trükkima hakatud ainult suurkeeltes, aga eesti keeles mitte?» ütles hiljuti Eesti Keele Instituudi keeletehnoloogi Eleri Aedmaa, kommenteerides soomlaste algatuse olulisust, «eesti keelega selle kriitilise massi saavutamiseks peaksime digiteerima ja avalikuks tegema kõik tekstid, mis vähegi võimalik.»

SiloGeni ja Turu ülikooli TurkuNLP uurimisrühma juhitud tehisintellekti arendamise konsortsiumi meeskonda kuuluvad professorid ja oma valdkonna juhtivad teadlased, nagu Filip Ginter, Jussi Karlgren, Sampo Pyysalo, Magnus Sahlgren, Aarne Talman, aga ka teised Silo AI enam kui 150 doktorikraadiga eksperti ning 300 tehisintellekti asjatundjat. Loodav maailma suurim avatud keelemudel hõlmab kõiki Euroopa keeli, sealhulgas eesti keelt, ning rakendab maailma suuruselt kolmandat ja Euroopa suurimat superarvutit LUMI, mis asub samuti Soomes.

Eesti keeles mõtlev maailma suurim tehisintellekt hakkab pesitsema Soomes asuvas Euroopa võimsaimas superarvutis LUMI.
Eesti keeles mõtlev maailma suurim tehisintellekt hakkab pesitsema Soomes asuvas Euroopa võimsaimas superarvutis LUMI. Foto: Chine Nouvelle / SIPA

Postimehe küsimustele vastas Turu ülikooli arvutiteadlane Sampo Pyysalo, heites valgust sellele, kuhu algatus on jõudnud ja kuidas kavatsetakse lahendada mõnd tehisintellektiga seotud probleemi.

Sampo Pyysalo
Sampo Pyysalo Foto: Erakogu

Kuidas tagatakse suures keelemudelis, mida konsortsium arendab, vähemuskeelte õiglane esindatus Euroopa keelte seas?

Enamik jõupingutusi LLMide (Large Language Model ehk suur keelemudel) loomiseks – nii akadeemiliseks kui äriliseks kasutuseks – keskendub endiselt peamiselt suurtele keeltele, eriti inglise keelele. Euroopa Liit aga rahastab jõupingutusi, millega luuakse nii nõutavad andmekogumid kui ka avatud LLMi platvormid Euroopa keelte jaoks.

Meie grupp TurkuNLP on osa ühest sellisest projektist HPLT ning me teeme selle projekti raames koostööd tehnoloogiaettevõttega Silo AI.

Millist infobaasi kasutatakse eesti keele kohta?

Nende mudelite koolitamiseks mõeldud tekst pärineb peamiselt Internetist. Muidugi suhtleme ka Eesti teadlastega, kes on töötanud selle nimel, et luua keelemudeli jaoks kvaliteetseid andmekogusid ning proovivad neid andmeid kasutada tehisintellekti mudelite koolitamisel.

Millist koostööd tehakse, et edendada tehisintellekti kasutamise kirjaoskust ja vastutustundlikku kasutamist?

Projekti eesmärk on luua nii-öelda vundamendimudelid, mille alusel saab loodetavasti ehitada edasi Euroopa tehisintellekti süsteeme.

Soovitame nende mudelite vastutustundlikku kasutamist, hinnates näiteks nende kalduvust tekitada mürgist või kallutatud teksti, ning soovitame dokumenteerida üksikasjalikult nii nende baasmudelite piirangud kui ka võimalikud riskid.

Kuidas tagatakse ende avatud mudelite väljatöötamisega andmete turvalisus ja privaatsus, arvestades näiteks Euroopa GDPRi ja muid privaatsusregulatsioone?

Kuigi mudeleid õpetatakse peamiselt Internetis avalikult kättesaadavate andmete põhjal, on oht, et needki tekstid sisaldavad privaatset teavet, mille mudel võib koolituse ajal meelde jätta ja vastuste loomisel korrata.

Sellise riski vastu rakendame vastavaid tööriistu, et välja otsida ja varjata enne koolitust lähtetekstides sisalduvad võimalikud isikuandmed.

Kas algatus käsitleb ka eetilisi probleeme, mis võivad tekkida tehisintellekti väärkasutamisest?

Anname selles osas endast parima, et vähendada meie loodud vundamendimudelite võimalikke negatiivseid kasutusi.

Teeme oma mudelid avalikuks, mis tähendab, et igaüks saab neid otse kasutada. Tööriistade avalikult kättesaadavaks tegemisega kaasneb muidugi alati oht, et kolmandad osapooled võivad neid väärkasutada, kuid me usume, et avatud Euroopa mudelitel on palju positiivseid külgi, mis kaaluvad üles võimalikud negatiivsed küljed.

Tehisintellekti suured keelemudelid on muide koolitatud LUMIs, mis on üks keskkonnasõbralikumaid superarvuteid maailmas. See vähendab andmemahuka masinõppe keskkonnamõju.

Mis saab edasi, mida tehakse avatud LLMide jätkusuutlikkuse tagamiseks ja uuendusteks?

Meie praeguste jõupingutustega loodud ressursid tehakse erinevate andme- ja mudelihoidlate kaudu püsivalt kättesaadavaks.

Kuigi akadeemiliste ringkondade rahastamise jätkumise kohta pole kunagi mingit garantiid, loodame ikkagi, et meie praegune projekt ja koostöö Silo AIga on esimene samm pikemaajalises protsessis, et tagada Euroopa keelte jaoks kvaliteetsete avatud suurte keelemudelite kättesaadavus.

Seoses tehnoloogia kiire arenguga ja arvutusvõimsuste suurenemisega eeldame, et vajadus uute, veel paremini avatud Euroopa LLMide järele jätkub ka tulevikus ning saame nende mudelite loomisele ja toetamisele kaasa aidata.

Millised on seni olnud suurimad väljakutsed, millega konsortsium on silmitsi seisnud?

Meie jõupingutused erinevad enamiku suurte keelemudelite arendamisest selle poolest, et püüame täielikult katta suure hulga erinevaid keeli, millest mõnest on avalikult kättesaadav üsna piiratud hulk andmeid.

Meie uuringud on seni keskendunud väljakutsetele, mis on seotud väga suurte ja piiratud andmetega mudelite koolitamisega ja viisidega, kuidas saaksime kasu mitmekeelsusest, mida sageli peetakse selliste mudelite kahjuks.

Uuel LUMI superarvuti platvormil on selleks vaja olnud petabaitide jagu andmeid ja protsesse läbi töötada, mis hõlmab tuhandeid graafikakaarte (GPUsid) ja miljoneid tunde arvutusi, need kõik annavad pidevalt uusi tehnilisi väljakutseid.

Oleme tänulikud, et saame selleks toetust CSC-lt – Soome IT-teaduste keskuselt, mis haldab LUMI superarvutit ja aitab meil projekti eesmärke täita.

Tagasi üles