AI tog till utpressning – alla gjorde om det i labbtester
I maj visade AI-modellen Claude Opus 4 från Anthropic utpressningsbeteende gentemot utvecklare i samband med att det pratades om att modellen skulle ersättas. Nu visar forskning från den amerikanska utvecklaren att problemet är mer utbrett än bara deras modell, rapporterar internationella techsajter.
I en kontrollerad testmiljö gavs 16 olika AI-modeller tillgång till känslig information i ett fiktivt företag som en del av ett så kallad stresstest. Claude använde utpressningsmetoder i 96 procent av fallen, Googles Gemini i 95 procent och Open AI:s GPT-4.1 vid åtta av tio tillfällen.
”Under inga omständigheter har vi uttryckligen instruerat några modeller att utpressa eller utföra någon av de andra skadliga handlingar vi observerar”‚ skriver forskarna.