Teadlased: tehisaru valetab ja petab nii, et suu suitseb (2)

Copy
Valetab rõõmsalt edasi: teadlased on avastanud, et kui esialgu olid tehisintellekti hallutsinatsioonid kogemata valetamine üsna usutaval toonil, siis nüüd valetavad masinad teadlikult, nii et silm ka ei pilgu.
Valetab rõõmsalt edasi: teadlased on avastanud, et kui esialgu olid tehisintellekti hallutsinatsioonid kogemata valetamine üsna usutaval toonil, siis nüüd valetavad masinad teadlikult, nii et silm ka ei pilgu. Foto: Sergei Tokmakov / Pixabay

Kaks hiljutist uuringut — üks avaldati sel nädalal ajakirjas PNAS ja teine eelmisel kuul ajakirjas Patterns — toovad päevavalgele muretsema panevad leiud suurte keelemudelite (Large Language Models ehk LLM) hämmastava võime kohta sihilikult inimesi petta.

PNAS-i artiklis väidab Saksa tehisaru eetik Thilo Hagendorff, et keerukad LLM-id võivad olla suunatud tekitama uut «makiavellismi», mis tähendab tahtlikku ja amoraalset inimestega manipuleerimist.

«Näiteks [ChatGPT] keelemudel GPT-4 ilmutab päris lihtsates test-stsenaariumides petlikku käitumist 99,16% juhtudest,» kirjutab Stuttgardi Ülikooli teadlane, viidates oma eksperimentidele, kus ta katsetas suures mahus erinevaid halvasti kohanevaid omadusi kümnes erinevas LLM-is, millest enamik on OpenAI GPT perekonna erinevad suurte keelemudelite versioonid.

Poliitilise strateegiamängu «Diplomacy» meistritasemene küündivaks peetud Meta Cicero mudel oli aga Patternsis avaldatud uuringu objektiks. Mitmest füüsikust, filosoofist ja kahest tehisaru ohutuse eksperdist koosnenud uurimisrühm leidis, et LLM edestas oma inimkonkurente, kasutades selleks suisa ehedat valet.

«Kuigi Metal õnnestus treenida oma tehisaru Diplomacy mängus võitma, ei õnnestunud seda treenida ausalt võitma.»

Massachusettsi Tehnoloogiainstituudi (MIT) järeldoktorandi Peter Parki juhitud uuring leidis, et Facebooki firma Meta loodud Cicero suur keelemudel mitte ainult ei valeta, vaid õpib seda tegema üha enam, mida rohkem seda kasutatakse — see on olukord, mis jõuab «palju lähemale selgesõnalisele manipuleerimisele» kui näiteks tehisaru kalduvus hallutsinatsioonidele, kus mudelid pidavat väljastama valesid vastuseid nii-öelda kogemata.

Kuigi Hagendorff märgib oma hilisemas artiklis, et LLM-ide ehk suurte keelemudelite pettuse ja valetamise küsimus on keeruline tehisaru võimetuse tõttu omada vestlusrobotina inimesega rääkides inimlikku eesmärki, väidab Patternsi uuring, et vähemalt tundub, nagu Cicero rikub oma programmeerijate lubadust, et mudel «ei taha kunagi tahtlikult oma mängukaaslasi reeta».

Artikli autorid märkisid, et keelemudel «tegeleb ettekavatsetud petmisega, rikub kokkuleppeid, millega ta oli enne nõustunud ja räägib otsest valet.»

Seega on Meta loodud tehisintellekt hoopis õppinud olema meisterpetja.

«Kuigi Metal õnnestus treenida oma tehisaru Diplomacy mängus võitma,» ütles MIT-i füüsik oma avalduses, «ei õnnestunud Metal treenida oma kunstmõistust ausalt võitma.»

See on väga halb uudis neile, kes muretsevad, et keegi võiks luua LLM-i ehk suure keelemudeli, mille eesmärgiks ongi petta.

New York Postile pärast uurimistöö avaldamist antud kommentaaris tõi Facebooki firma Meta esindaja esile olulise aspekti, väites Parki välja öeldud Cicero mudeli heade manipuleerimisoskuste kohta: «Meie teadlaste loodud mudel oli treenitud ainult Diplomacy mängimiseks.»

Diplomacy strateegiamängu, mis on tuntud ka valetamise lubamise poolest, on naljatamisi nimetatud sõprust lõhkuvaks mänguks, kuna see julgustab vastaste petmist, ja kui Cicerot treeniti ainult selle mängu reegliraamatu alusel, siis treeniti seda ka sisuliselt valetama.

Lugedes ridade vahelt pole kumbki uuring siiski näidanud, et tehisaru mudelid valetaksid omal vabal tahtel, vaid pigem teevad need seda, kuna neid on kas selleks treenitud või sellisteks lahti muugitud.

Samas on see hea uudis neile, kes kardavad tehisintellekti teadlikkuse arengut (seda veel pole) — kuid väga halb uudis neile, kes muretsevad, et keegi võiks luua LLM-i ehk suure keelemudeli, mille eesmärgiks ongi massiline faktidega manipuleerimine ja petmine.

Allikad: PNAS, Patterns, Futurism 

Tagasi üles