Wikikogukond alustab võitlust tehisaru vastu – õigemini selle rumaluse vastu (1)

11. oktoober 2024, 18:50

Artikli foto — Foto: Made with Designer. Powered by DALL·E 3.

Vikipeedia toimetajad otsustasid vastu astuda halvale AI toodetud sisule, mis ähvardab kahjustada veebientsüklopeedia usaldusväärsust ja kasutajasõbralikkust. Seetõttu käivitati projekt nimega «WikiProject AI Cleanup», mille eesmärk on võidelda Vikipeedia artiklites kasvava probleemiga: tehisaru abiga loodud sisuga.

AI-l põhinev sisu, mis sageli sisaldab valesid ja halbu allikaid, ohustab Vikipeedia kvaliteeti, mistõttu on rühm toimetajaid hakanud genereeritud artiklitele tähelepanu pöörama. Portaalis 404 Media teatatakse, et toimetajad on loonud algatuse «WikiProject AI Cleanup», mis kirjeldab end kui koostööprojekti, mille eesmärk on võidelda Vikipeedia artiklites kasvava probleemiga: allikateta, halvasti kirjutatud ja tehisaru kasutamise tulemusel tekkinud sisuga.

Projekti liikmed rõhutavad, et nende eesmärk pole vastutustundliku AI kasutamise täielik keelamine, vaid halvasti viidatud, vigaderohke või muul viisil kahjuliku sisu kõrvaldamine, mis kahjustab veebientsüklopeedia aastakümnete jooksul kogutud usaldusväärsust. Projekti foorumis märgitakse, et eesmärk pole AI kasutamise piiramine, vaid selle väljundi kontrollimine ja vajadusel parandamine või eemaldamine.

Mõnel juhul on toimetajatel AI väärkasutust lihtne tuvastada. Näiteks tõid nad 404-le, et üheks selgeks märgiks on juturobotite automaatvastuste kasutamine artiklites, nagu lõigud, mis algavad fraasidega «kuna olen AI keelemudel...» või «minu viimase teadmise järgi...». Toimetajad on õppinud ära tundma ka teatud keelelisi mustreid ja kõnepruuki, mis võimaldavad neil kiiresti avastada ja kõrvaldada AI-lohakas tekst.

WikiProject AI Cleanup asutajaliige Ilyas Lebleu selgitas, et mõned toimetajad olid märganud loomuliku kirjakeele puudumist, mis viitas selgelt AI-loomingule. Nad suutsid sarnast stiili reprodutseerida ChatGPT abil, avastades mõned AI-le omased fraasid, mis aitasid kiiresti tuvastada kõige silmatorkavamaid näiteid genereeritud artiklitest.

Nagu varasemalt on märgitud, on Vikipeedia toimetajad mõnel juhul otsustanud teatud allikate, näiteks CNET-i, usaldusväärsuses kahelda, kuna need on avaldanud vigadega AI-artikleid.

Arvestades, et AI-sisu tootmine on odav ja kiire, on lohaka sisu piiramine raske. Lisaks sellele, et Vikipeedia on alati olnud vabatahtlik, kõigile avatud projekt, muudab AI-prügi vastu võitlemise veelgi keerulisemaks asjaolu, et see töö on mahukas ja ei lõppe iial.

Kuidas on lood meil?

Eestikeelse Vikipeedia administraatori Ivo Kruusamägi sõnul on tehisaru loodud sisu seni püütud veel üsna harva Vikipeediasse lisada ja selle likvideerimine pole ka seepärast väga keeruline olnud. «Laiemalt nähakse seda aga tõesti kasvava ohuna, sest sel kombel võidakse tulevikus püüda poolautomatiseeritult Vikipeediat üle ujutada ebakvaliteetse materjaliga, mille tuvastamine ja eemaldamine võib võtta rohkem ressursse, kui selle loomine» kommenteeris Kruusamägi.

Eestikeelse Vikipeedia administraator Ivo Kruusamägi Foto: diff.wikimedia.org

Tema sõnul on selliseid temaatilisi vikiprojekte küll suurel hulgal ning reeglina need uudiskünnist ei ületa. Antud teema laiema tähelepanu alla tulek kõneleb aga inimeste suurest huvist tehisaru loodu vastu ja küsimustest selle mõju kohta.

«Wikimedia liikumises tuntakse ehk suurematki muret seepärast, et keelemudelite arendamisel sõltutakse suuresti selliste andmeressursside kasutamisest nagu Vikipeedia, aga nende samade AI-vahendite abil avaldakse negatiivset mõju nende treeningandmete loomisele. Näiteks raskeneb kvaliteetse teabe leidmine, sest hõlpsasti on võimalik luua näiliselt usutavat, kuid sisuliselt enam kui küsitavat materjali äärmiselt suures mahus.»

«Vikipeediast võetud infokildude kasutamisel ei viidata sageli ka allikale tagasi ehk lõppkasutaja ei pruugi teada, kust tema päringule saadud vastus tuli. Nii on aga veebientsüklopeedial vähem külastajaid ja ajas langev kokkupuude arvatavasti vähendab tulevikus kaastööliste hulka. Keegi peab aga jätkuvalt infot lisama, uuendama ja ajakohastama. Kui kaastööliste hulk langeb, siis mõjutab see negatiivselt Vikipeedia võimekust.»

Kruusamägi sõnul on ta viimasel ajal kustutanud mõned värskelt loodud kirjutised, mis näisid olevat tehisaru loodud, kuid madala kvaliteediga sisu loomisega saavad ka inimesed ise üsna edukalt hakkma. «Alati ei pea kahtlustama erinevate töövahendite kasutamist. Mittekvaliteetne sisu on tuleb ju nii või teisiti kustutada või ümber teha ning peamine väljakutse on jätkuvalt piisava toimetamise ressursi leidmises, sest kvaliteeti tagame peamiselt sellega,» leiab Kruusamägi.

Ivo Kruusamägi: «Täna suudavad kvaliteeti tagada ainult inimesed.»

Eestlastele võiks aga huvi pakkuda, et seda tüüpi ohtudest ohustatumaks peetakse just väiksemaid keeleversioone, kuna neil on vähem kaastööd tegevaid inimesi ja seega tagasihoidlikumad võimalused kontrolli läbi viia. Vähemalt eestikeelse Vikipeedia jaoks ei ole seni AI looming küll erilist probleemi kujutanud, kuid õpilaste loodud puudulikke artikleid ja kohati ka pahatahtlikku vandalismi tuleb ette igapäevaselt.

«Eelkõige näeme vajadust kaasata rohkem asjatundlikke inimesi, sest see aitab tõsta kvaliteetse sisu hulka. Selle heaks näiteks on kasvõi alates 10. oktoobrist koostöös Eesti kõrgkoolidega toimuv Vikipeedia terminivõistlus.» ütles Kruusamägi. «Täna suudavad kvaliteeti tagada ainult inimesed.»

Wikikogukond alustab võitlust tehisaru vastu – õigemini selle rumaluse vastu (1)

Kuidas on lood meil?

Märksõnad