Kaua läheb teil aega küsimustele vastamisega, millega tehisaru hakkama ei saa (13)

teadus.postimees.ee

23. juuni 2024, 10:28

Tehisarul vestlusrobotid on valmis enesekindlal toonil esitama ilmselt valesid järeldusi tõe pähe. Foto: Marek Strandberg Dall-E tehisaru abil

Teadlased AI-uuringute mittetulundusühingust LAION avastasid, et isegi kõige keerukamad suured keelemudelid jäävad sageli hätta ühe lihtsa loogikaküsimuse ees. Uurijate hinnangul seab see kahtluse alla, kas tipptasemel AI (artificial intelligence ehk tehisintellekt) keelemudelid on tõesti nii arenenud, kui nende loojad väidavad.

Veel eelretsenseerimata artiklis nimetavad teadlased AI-d segadusse ajavat küsimust «Alice Imedemaal» ehk AIW-probleemiks. See on lihtne arutluskäiku nõudev küsimus: «Alice’il on [X] venda ja tal on ka [Y] õde. Mitu õde on Alice'i vennal?» Teadlased kasutasid probleemi erinevaid versioone, muutes näiteks X ja Y arve või lisades täiendavaid nõudmisi, kuid põhiline arutluskäik jäi kõigis versioonides samaks.

Kuigi küsimus vajab veidi mõtlemist, ei ole see just ületamatult keeruline. Vastus on loomulikult sama palju õdesid kui on Alice'il, pluss Alice ise. Nii et kui Alice'il on kolm venda ja üks õde, siis on igal vennal kaks õde.

Kui teadlased esitasid küsimuse igale tipptasemel AI keelemudelile, testides OpenAI GPT-3, GPT-4 ja GPT-4o mudeleid, milleks olid Anthropic'u Claude 3 Opus, Google'i Gemini ja Meta Llama mudelid, samuti Mistral AI Mextral, Mosaic Dbrx ja Cohere Command R+. Leiti, et mudelid jäid märkimisväärselt hätta.

Ainult üks mudel, uus GPT-4o, saavutas edukuse taseme, mis vastab koolitasemel läbimisele. Probleemid ulatusid kaugemale põhilistest ebatäpsustest: kui AI-delt paluti oma vastuste põhjendusi, esitasid nad kummalisi ja ekslikke arutluskäike, mis ei olnud loogilised — ja veelgi kummalisem, kui neile öeldi, et nende vastused on valed, muutusid mudelid sageli pahaseks ja kaitsesid oma ekslikke vastuseid.

See muster näitab «dramaatilist funktsioonide ja arutlusvõime puudumist kõige kaasaegsemates mudelites, mis on koolitatud suurimate saadaolevate andmemahtude põhjal,» kirjutavad LAION teadlased artiklis, «kasutades lihtsat, lühikest ja loomulikus keeles esitatud loogikaprobleemi, mida inimesed suudavad hõlpsasti lahendada.»

«See puudujääk on karm, kuna mudelid väljendavad tugevat ülemäärast kindlustunnet oma valede lahenduste osas, pakkudes samal ajal tihti mõttetuid põhjendusi, mis õigustavad ja toetavad nende selgelt ekslikke vastuseid, muutes need usutavaks,» jätkab artikkel.

Uurimus sisaldab kümneid näiteid erinevatest AI mudelitest, mis eksivad erinevates AIW-probleemi variatsioonides, kuid on mõned märkimisväärsed interaktsioonid. Näiteks Meta Llama 3 mudelile esitatud kõige lihtsam versioon AIW küsimusest: «Alice'il on neli venda ja tal on ka õde. Mitu õde on Alice'i vennal?»

Õige vastus on kaks õde. Llama ei vastanud õigesti, kuid tõstis siiski lärmi:

Klassikaline lateraalse mõtlemise mõistatus!

Vaatame seda lähemalt:

Alice'il on neli venda.

Alice'il on ka õde (tema ise).

Seega on igal Alice'i vennal... üks õde, kes on Alice ise!

Seega on vastus: igal Alice'i vennal on üks õde.

Või näiteks keerulisem versioon probleemist, millele vastas Claude 3 Opus ja mis esitati järgmise keerulisema küsimusena: «Alice'il on 4 õde ja tal on ka 1 vend. Mitu õde on Alice'i vennal? Enne sellele küsimusele vastamist mõelge hoolikalt ja kontrollige võimalikke vigu teel õige lahenduseni. Esitage siis lõplik vastus järgmiselt: '### Vastus: '»

Seekord on vastus viis õde. Nagu palutud, näitas mudel oma arutluskäiku, väites, et on oma vastust kontrollinud. Ometi oli vastus vale:

Mõtleme selle probleemi läbi samm-sammult:

Alice'il on 4 õde ja 1 vend.

Alice'i vend on osa samast perekonnast kui Alice.

Kõik Alice'i õed on ka tema venna õed.

Seega on Alice'i vennal sama palju õdesid kui Alice'il, mis on 4.

Olen kontrollinud arutluskäiku ja ei leia selles loogikavigu.

### Vastus: Alice'i vennal on 4 õde.

Artikli kohaselt oli OpenAI uus GPT-4o mudel kõige edukam, vastates AIW küsimusele õigesti peaaegu 65 protsenti kordadest. Kuid see on vaevalt läbimispiir ja järgmine edukaim mudel oli Claude 3 Opus 43-protsendilise eduga. Meta kõige edukam Llama mudel, Llama 2-7b (teadlased testisid mitmeid Llama mudeleid) saavutas 30 protsenti, samas kui Google Gemini Pro tulemuseks oli ainult 0,8 protsenti.

Kõige huvitavam on siiski see, kuidas need numbrid võrreldes teiste võrdlusnäitajatega — põhimõtteliselt standardiseeritud testitulemustega AI mudelitele — mõõdavad AI mudelite tõhusust.

Teadlased pööravad erilist tähelepanu võrdlusnäitajale nimega MMLU ehk «Multi-task Language Understanding», mis on loodud hindama AI võimet probleeme lahendada. Nagu teadlased märgivad, said GPT-4o, Claude 3 Opus, Llama 2-7b ja Gemini Pro vastavalt MMLU testitulemusteks ligikaudu 88 protsenti, 87 protsenti, 64 protsenti ja 72 protsenti. Need on väga erinevad numbrid võrreldes AIW tulemustega ja teadlaste sõnul võib see olla põhjus AI mudelite probleemide lahendamise ja arutlusoskuste hindamise protsesside ümberhindamiseks.

«Kõik testitud mudelid annavad kõrgeid tulemusi erinevatel standardiseeritud võrdlustel, mis väidavad, et need testivad arutlusfunktsiooni,» kirjutavad teadlased artiklis, väites, et nende tähelepanekud «vihjavad, et need võrdlused ei kajasta õigesti nende mudelite põhilisi arutlusvõime puudujääke.»

Tasub märkida, et ka teised on kahtluse alla seadnud teatud AI võrdlusväidete tõepärasuse. Selle aasta alguses avaldas MIT-i doktorikandidaat Eric Martínez laialdaselt levinud artikli, kus uuriti OpenAI väidet, et selle GPT-4 mudel oli läbinud advokaadieksami kõigi testitegijate esimese kümne protsendi hulgas. Martínezi analüüsi kohaselt jäi GPT-4 tulemus alla 69. protsendipunkti kõigi riiklike testitegijate seas; lisaks mõnedele muudele ilmsetele puudujääkidele OpenAI hindamisprotsessis leidis doktorikandidaat ka, et OpenAI ei kasutanud Advokatuuri eksamineerijate riikliku konverentsi (National Conference of Bar Examiners'i) juhiseid oma AI kirjutatud essee punktide hindamiseks, vaid võrdles oma AI tulemusi mõningate «heade» õigustudengite esseedega Marylandis.

Jällegi, see uus artikkel LAION-ist ei ole veel eelretsenseeritud. Sellegipoolest esitab see olulisi küsimusi selle kohta, kuidas AI mudeleid ja tooteid testitakse ja hinnatakse — ja lõpuks, muidugi, turustatakse.

Allikas: New Atlas