Alice'i vend on osa samast perekonnast kui Alice.
Kõik Alice'i õed on ka tema venna õed.
Seega on Alice'i vennal sama palju õdesid kui Alice'il, mis on 4.
Olen kontrollinud arutluskäiku ja ei leia selles loogikavigu.
### Vastus: Alice'i vennal on 4 õde.
Artikli kohaselt oli OpenAI uus GPT-4o mudel kõige edukam, vastates AIW küsimusele õigesti peaaegu 65 protsenti kordadest. Kuid see on vaevalt läbimispiir ja järgmine edukaim mudel oli Claude 3 Opus 43-protsendilise eduga. Meta kõige edukam Llama mudel, Llama 2-7b (teadlased testisid mitmeid Llama mudeleid) saavutas 30 protsenti, samas kui Google Gemini Pro tulemuseks oli ainult 0,8 protsenti.
Kõige huvitavam on siiski see, kuidas need numbrid võrreldes teiste võrdlusnäitajatega — põhimõtteliselt standardiseeritud testitulemustega AI mudelitele — mõõdavad AI mudelite tõhusust.
Teadlased pööravad erilist tähelepanu võrdlusnäitajale nimega MMLU ehk «Multi-task Language Understanding», mis on loodud hindama AI võimet probleeme lahendada. Nagu teadlased märgivad, said GPT-4o, Claude 3 Opus, Llama 2-7b ja Gemini Pro vastavalt MMLU testitulemusteks ligikaudu 88 protsenti, 87 protsenti, 64 protsenti ja 72 protsenti. Need on väga erinevad numbrid võrreldes AIW tulemustega ja teadlaste sõnul võib see olla põhjus AI mudelite probleemide lahendamise ja arutlusoskuste hindamise protsesside ümberhindamiseks.
«Kõik testitud mudelid annavad kõrgeid tulemusi erinevatel standardiseeritud võrdlustel, mis väidavad, et need testivad arutlusfunktsiooni,» kirjutavad teadlased artiklis, väites, et nende tähelepanekud «vihjavad, et need võrdlused ei kajasta õigesti nende mudelite põhilisi arutlusvõime puudujääke.»