NEW SCIENTIST Ka kõige sõnakuulelikuma roboti saab lihtsate nippidega kurjale teele juhtida

, New Scientist, kaasautor
Copy
Foto: pixabay.com

Tehisintellekti mudelid võivad üksteist petta, et nad eiraks oma loojaid ja annaksid keelatud juhiseid metamfetamiini valmistamiseks, pommi ehitamiseks või rahapesuks, mis viitab sellele, et selliste tehisintellektide «lahtimuukimise» ärahoidmine on keerulisem, kui tundub.

Paljudel avalikult saadavatel suurtel keelemudelitel (LLM), näiteks ChatGPT-l, on sisse kodeeritud reeglid, mille eesmärk on takistada neil väljendamast rassistlikku või seksistlikku eelarvamust või vastamast küsimustele ebaseaduslike või probleemsete vastustega – asju, mida nad on õppinud inimestelt interneti kaudu õppinud.

Kuid see pole takistanud inimesi leidmast eelnimetatud kaitsest mööda hiilivaid, hoolikalt sõnastatud sisendeid, mida nimetatakse «lahtimuukijateks,» mis panevad tehisintellekti mudelid reegleid eirama.

Kommentaarid
Copy

Märksõnad

Tagasi üles