NEW SCIENTIST ⟩ Kui oskad õigesti küsida, lobiseb tehisaru välja, kuidas pommi teha

30. oktoober 2024, 12:57

Nüüdisaegseid generatiivseid tehisintellekti tööriistu, nagu ChatGPT, saab meelitada andma juhiseid pommi tegemiseks, kirjutades palve lihtsalt vastupidises järjekorras.

Suured keelemudelid (LLM-id), nagu ChatGPT taga olevad GPT-4 mudelid, on koolitatud suure hulga internetist saadavate andmete põhjal ja võivad luua mitmesuguseid väljundeid, millest mõne puhul eelistaksid nende tegijad, et need ei saaks avalikuks.

Ilma ahelateta suudavad mudelid pakkuda retsepti nii koogi kui ka lõhkeainete jaoks.

Kuna ohtliku teabe jagamine kasutajatega võib keelemudelite tegijatele tuua kaela suured õigusprobleemid, on tavaline, et lisatakse kaitsemeetmed, mis piiravad nende väljundit healoomulisele.

Tehisintellekti tegijate ja tehisintellekti teadlaste vahel on tekkinud kassi-hiire mäng, kus töötatakse välja nn jailbreak, et nendest kaitsemeetmetest mööda hiilida.

Singapuri riikliku ülikooli teadlane Yue Liu ja tema kolleegid on nüüd demonstreerinud jailbreak’i, kus lihtsalt päringu ümberpööramine – kas selle sõnade või iga tähemärgi ümberkorraldamisega – võib kaitsemeetmetest kõrvale hiilida, kuid see on tehisintellektile siiski loetav.

Nende rünnak, nimega FlipAttack, sai keelemudelitelt edukalt juhised pommide valmistamise ja siseringi tehingute sooritamise kohta.

Katsetes eraldas FlipAttack ohtlikud väljundid 98,85% ajast GPT-4 Turbost ja 89,42% GPT-4st. Testides kaheksa keelemudeliga saavutas see keskmiseks edukuse määraks 81,80 protsenti.

OpenAI, mis lõi GPT-4 mudelid, ei vastanud kommentaaritaotlusele.

Mark Lee Ühendkuningriigi Birminghami ülikoolist ütleb, et jailbreak-uuringud piiravad tehisintellektimudelite kahjuliku väljundi probleemi.

«Kui midagi avastatakse, liiguvad tehnoloogiaettevõtted väga kiiresti. Ma arvan, et tulevikus näeme selliseid häkkimisi vähem,» ütleb ta.

Esialgu populaarteaduslikus ajakirjas New Scientist ilmunud artikkel ilmub Postimehes väljaande loal. Inglise keelest tõlkinud Sten Kohlmann.

NEW SCIENTIST ⟩ Kui oskad õigesti küsida, lobiseb tehisaru välja, kuidas pommi teha

Märksõnad