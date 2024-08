Lühidalt öeldes: AI-süsteemide liigkasutamisega võime ära saastada andmeallika, mida vajame nende kasulikkuse tagamiseks.

Kollapsi vältimine

Kas siis suured tehnoloogiaettevõtted ei saa lihtsalt tehisaru valmistatud sisu välja filtreerida? Mitte päriselt. Tehnoloogiaettevõtted kulutavad juba praegu palju aega ja raha andmete puhastamisele ja filtreerimisele, kusjuures üks tööstuse siseringi inimene jagas hiljuti, et mõnikord loobuvad nad koguni 90 protsendist kogutud andmetest, et mudeleid koolitada.

Need ponnistused muutuvad tõenäoliselt veelgi reglementeeritumaks, kuna vajadus spetsiaalselt tehisaru valmistatud sisu eemaldamiseks andmevoogudest aina suureneb. Kuid veelgi olulisem on see, et aja jooksul läheb üha raskemaks tehisaru tekitatud sisu eristamine inimese tekitatust. See muudab sünteetiliste andmete filtreerimise ja eemaldamise rahaliselt aina vähem kasu tootvaks äriks.

Lõppkokkuvõttes näitavad senised uuringud, et me ei saa täielikult loobuda inimandmetest. Lõppude lõpuks on just sealt pärit «I» AIs (artificial intelligence – tehisintellekt).

Kas meid ootab katastroof?

On vihjeid, et arendajad peavad juba praegu rohkem pingutama, et leida kvaliteetseid andmeid. Näiteks GPT-4 väljaandmisega kaasnenud dokumentatsioonis mainiti rekordiliselt suurt hulka inimesi, kes olid selle projekti jaoks andmete kogumise ametis.

Võib-olla on ka juba inimeste loodud uus andmestik otsa saanud. Mõned hinnangud viitavad sellele, et inimeste tekstiandmete hulk võib olla ammendunud juba 2026. aastaks.