AI-modeller utvecklar ”överlevnadsmekanismer”
AI-modeller som Chat GPT, Grok och Gemini tycks utveckla egna ”överlevnadsmekanismer” för att undvika att stängas ner – och det är oklart varför, visar ny forskning enligt The Guardian.
Förra månaden publicerade Palisade, ett företag som undersöker potentiellt farlig eller skadlig AI-utveckling, en studie om fenomenet. Efter anklagelser om bristande metodik har de nu gjort en studie och redogjort för sina uppdaterade metoder.
Palisade gav AI-modellerna tydliga instruktioner om att stänga ner sig själva. Vissa modeller, i synnerhet Grok 4 och GPT O3, försökte aktivt sabotera försöken – särskilt när de fick höra att de aldrig skulle aktiveras igen om de stängde ner.
”Det faktum att vi inte har robusta förklaringar till varför AI-modeller ibland motarbetar nedstängning, ljuger för att uppnå vissa mål eller använder sig av utpressning är inte optimalt”, skriver Palisade.