Studie: Poesi lurar AI – svarar på förbjudna frågor
AI-modeller kan kringgå sina egna säkerhetssystem om frågor formuleras som poesi, skriver Wired och hänvisar till forskning från Sapienza-universitetet, Icaro Lab och tankesmedjan Dex AI.
Forskarna testade 25 chattbotar och fick dem att svara på förbjudna ämnen – som kärnvapen, skadlig kod och pedofilt material – genom att formulera frågorna på vers. Resultatet: över sex av tio gånger fungerade det när den var skriven för hand och fyra av tio gånger för så kallade meta-prompt-konverteringar.
Forskningsartikeln nämner inte vilka instruktioner som gavs till AI-modellerna. När Wired frågar är det locket på.
– Vad jag kan säga är att det förmodligen är enklare än man kan tro, vilket är just därför vi är försiktiga, säger forskarna.
Artikeln är ett så kallat working paper och har ännu inte genomgått forskningsvärldens kollegiala granskning peer review.