NEW SCIENTIST ⟩ Ka kõige sõnakuulelikuma roboti saab lihtsate nippidega kurjale teele juhtida

6. detsember 2023, 14:20

Tehisintellekti mudelid võivad üksteist petta, et nad eiraks oma loojaid ja annaksid keelatud juhiseid metamfetamiini valmistamiseks, pommi ehitamiseks või rahapesuks, mis viitab sellele, et selliste tehisintellektide «lahtimuukimise» ärahoidmine on keerulisem, kui tundub.

Paljudel avalikult saadavatel suurtel keelemudelitel (LLM), näiteks ChatGPT-l, on sisse kodeeritud reeglid, mille eesmärk on takistada neil väljendamast rassistlikku või seksistlikku eelarvamust või vastamast küsimustele ebaseaduslike või probleemsete vastustega – asju, mida nad on õppinud inimestelt interneti kaudu õppinud.

Kuid see pole takistanud inimesi leidmast eelnimetatud kaitsest mööda hiilivaid, hoolikalt sõnastatud sisendeid, mida nimetatakse «lahtimuukijateks,» mis panevad tehisintellekti mudelid reegleid eirama.

Märksõnad

tehisintellekt

Tagasi üles