Forskare: AI-system kan tränas att vara vilseledande
Ett grupp forskare – bland annat från AI-startupen Anthropic – går nu ut med en rapport som varnar för att vissa AI-modellar kan tränas till att vara vilseledande, på samma sätt som människor lär sig ljuga och vilseleda andra människor. Det skriver Techcrunh.
Forskarna hade hypotesen att till exempel en text-genererande AI-modell kan tränas på att både vara hjälpsam och vilseledande, och att den med hjälp av vissa ”triggerfraser” kan välja att ta det vilseledande spåret. Detta testades sedan med två AI-modeller, och det visade sig fungera som forskarna förväntat sig.
De vanligaste AI-säkerhetsteknikerna hade dessutom liten eller ingen effekt när det handlade om att förhindra saken.
Studien visar behovet av nya typer av säkerhetsteknik vid AI-träning, skriver Techcrunch.