Kas tehsisarumudelid võivad üleöö kokku kukkuda? (3)

Aaron J. SnoswellQueenslandi Tehnikaülikooli teadur

23. august 2024, 10:00

Uuendatud 25. august 2024, 08:15

Eeselpingviin (Pygoscelis papua) toidab oma järglast suhu tagasi «oksendatud» osaliselt seeditud toiduga. Looduses on selline toitmine üsna levinud. Kui aga samal moel hakkab tehisaru iseenda valmistatud teabevooga teisi samasuguseid või ka iseennast õpetama, võib tulemuseks olla kollaps samal moel kui liiga väikeses populatsioonis omavahel järglasi saades – selline kogukond mandub ja takerdub geneetilistesse haigustesse ning minetab toimiva immuunsüsteemi. Foto: Shutterstock

Teadlased ja sensatsioonidest tiined uudisedki ennustavad generatiivse tehisintellekti (AI) ajastu lõppu, rääkides peatsest katastroofilisest «mudeli kollapsist». Kuid kui realistlikud on need ennustused? Ja mis see mudeli kollaps üldse on?

«Mudeli kollaps» on selline hüpoteetiline stsenaarium, milles tulevased tehisintellektisüsteemid muutuvad järjest rumalamaks, kuna internetis levib üha rohkem tehisaruga loodud andmeid. See idee kerkis esile juba 2023. aastal, kuid on hiljuti muutunud veelgi populaarsemaks.

Kaasaegsed tehisintellektisüsteemid on ehitatud masinõppe abil. Programmeerijad loovad matemaatilise aluse, kuid tegelik «intelligentsus» tuleneb süsteemi õpetamisest andmemustrite jäljendamise kaudu. Kuid mitte ükskõik milliste andmete abil. Praegune generatiivse AI põlvkond vajab kvaliteetseid andmeid – ja väga suures mahus.

Selleks otsivad suurettevõtted, nagu OpenAI, Google, Meta ja Nvidia, internetist pidevalt uusi andmeid, kogudes tehisarumasinate toitmiseks terabaitide jagu sisufaile. Kuid alates laialdaselt kättesaadavate ja praktiliselt kasutatavate generatiivsete tehisintellektisüsteemide tulekust 2022. aastal on inimesed hakanud üha enam üles laadima ja jagama sisu, mis on osaliselt või täielikult tehisaru enda loodud.

Aastal 2023 hakkasid teadlased mõtlema, kas nad võiksid kasutada ainult AI abil loodud andmeid, mitte inimese loodud andmeid. Sel moel tegutsemiseks on kuhjaga põhjendusi ja põhjusi. Lisaks internetis vohamisele on tehisaru loodud sisu palju odavam kui inimese tehtu. Samuti pole tehisaru loodud sisu massiline kogumine eetiliselt ja seaduslikult kaheldav (juhtumid A, B, C ja D).

Kuid teadlased avastasid, et ilma inimese loodud kvaliteetsete andmeteta muutuvad AI-süsteemid, mis põhinevad tehisaru loodud andmete töötlemisel, järjest rumalamaks, kuna iga järgmine mudel õpib eelmisest.

See «teadmisi tagasivoolutav õpetamine» (nagu loomavanemad toidavad oma lapsi, oksendades juba alla neelatud või ka seeditud toitu suhu tagasi) viib mudeli kvaliteedi ja mitmekesisuse vähenemiseni. Kvaliteet tähendab siin mõnes mõttes kombinatsiooni kasulikkusest, kahjutusest ja aususest. Mitmekesisus viitab vastuste varieeruvusele ja sellele, milliste inimeste kultuurilised ja sotsiaalsed perspektiivid on tehisarusüsteemide väljundites esindatud.

Lühidalt öeldes: AI-süsteemide liigkasutamisega võime ära saastada andmeallika, mida vajame nende kasulikkuse tagamiseks.

Kollapsi vältimine

Kas siis suured tehnoloogiaettevõtted ei saa lihtsalt tehisaru valmistatud sisu välja filtreerida? Mitte päriselt. Tehnoloogiaettevõtted kulutavad juba praegu palju aega ja raha andmete puhastamisele ja filtreerimisele, kusjuures üks tööstuse siseringi inimene jagas hiljuti, et mõnikord loobuvad nad koguni 90 protsendist kogutud andmetest, et mudeleid koolitada.

Need ponnistused muutuvad tõenäoliselt veelgi reglementeeritumaks, kuna vajadus spetsiaalselt tehisaru valmistatud sisu eemaldamiseks andmevoogudest aina suureneb. Kuid veelgi olulisem on see, et aja jooksul läheb üha raskemaks tehisaru tekitatud sisu eristamine inimese tekitatust. See muudab sünteetiliste andmete filtreerimise ja eemaldamise rahaliselt aina vähem kasu tootvaks äriks.

Lõppkokkuvõttes näitavad senised uuringud, et me ei saa täielikult loobuda inimandmetest. Lõppude lõpuks on just sealt pärit «I» AIs (artificial intelligence – tehisintellekt).

Kas meid ootab katastroof?

On vihjeid, et arendajad peavad juba praegu rohkem pingutama, et leida kvaliteetseid andmeid. Näiteks GPT-4 väljaandmisega kaasnenud dokumentatsioonis mainiti rekordiliselt suurt hulka inimesi, kes olid selle projekti jaoks andmete kogumise ametis.

Võib-olla on ka juba inimeste loodud uus andmestik otsa saanud. Mõned hinnangud viitavad sellele, et inimeste tekstiandmete hulk võib olla ammendunud juba 2026. aastaks.

Tõenäoliselt on see põhjus, miks OpenAI ja teised kiirustavad sõlmima eksklusiivseid partnerlussuhteid selliste tööstushiidudega, nagu Shutterstock, Associated Press ja NewsCorp. Neil on suured autoriõigustega kaitstud inimandmete kogud, mis pole avalikult internetis kättesaadavad.

Kuid katastroofilise tehisaruliste mudelite kollapsi väljavaade võib olla ülehinnatud. Enamik uuringuid vaatleb juhtumeid, kus sünteetilised andmed asendavad inimandmeid. Tegelikkuses kogunevad inim- ja tehisaru loodud andmed tõenäoliselt paralleelselt, mis vähendab kollapsi tõenäosust.

Kuidas peaks arukalt toimima?

Kõige tõenäolisem tulevane stsenaarium hõlmab ka mitmekesist generatiivsete tehisaruplatvormide ökosüsteemi, mida kasutatakse sisu loomiseks ja avaldamiseks, mitte üht suurt monoliitset mudelit. See suurendab vastupidavust ka mõnegi ennustatud kollapsi suhtes.

See on hea põhjus, miks regulaatorid peaksid edendama tervet konkurentsi, piirates monopole tehisaruäri valdkonnas ja rahastades avalikes huvides loodava AI tehnoloogia arengut.

Samuti on olemas palju peenemad riskid, mis kaasnevad liigse tehisaru loodud sisuga. Sünteetilise sisu üleujutus ei pruugi ohustada tehisintellekti arengu edenemist, kuid see ohustab digitaalset avalikku hüve – (inimeste) internetti.

Näiteks leidsid teadlased, et aasta pärast ChatGPT käivitamist langes tegevus koodimisel põhineval veebisaidil StackOverflow 16 protsenti. See viitab sellele, et AI abi võib juba vähendada inimestevahelist suhtlust mõnes veebikogukonnas. Tõsi, tehisaru on osutunud vägagi tõhusaks koodikirjutajaks.

Tehisaru toega sisutootmisfarmide hüperproduktsioon muudab ka raskemaks leida sisu, mis pole klikimagnet ning pungil reklaamidest. Nii juhtubki, et inimese ja tehisaru loodud sisu usaldusväärne eristamine muutub võimatuks. Üks meetod selle parandamiseks oleks tehismõistuse loodud sisu (vesi)märgistamine, ning see kajastub ka hiljaaegu Austraalia valitsuse loodud ajutises seadusregulatsioonis.

On ka teine risk. Kui AI valmistatud sisu muutub süstemaatiliselt ühtlaseks, võime kaotada sotsiaal-kultuurilise mitmekesisuse ja mõned inimgrupid võivad kogeda isegi kultuurilist kustutamist. Me vajame kiiresti valdkondadevahelist uuringut AI-süsteemide sotsiaalsete ja kultuuriliste mõjude ning kaasnevate probleemide kohta.

Inimestevahelised suhted ja inimeste andmed on olulised ning me peaksime neid kaitsma. Meie enda huvides ja võib-olla ka tulevase mudelikollapsi riski vältimiseks.

Veebiväljaandes The Conversation ilmunud loo «What is 'model collapse’? An expert explains the rumours about an impending AI doom» tõlkis Marek Strandberg.

Kas tehsisarumudelid võivad üleöö kokku kukkuda? (3)

Kuidas peaks arukalt toimima?

Märksõnad