Hem
(Shutterstock)

Forskare: AI-system kan tränas att vara vilseledande

Ett grupp forskare – bland annat från AI-startupen Anthropic – går nu ut med en rapport som varnar för att vissa AI-modellar kan tränas till att vara vilseledande, på samma sätt som människor lär sig ljuga och vilseleda andra människor. Det skriver Techcrunh.

Forskarna hade hypotesen att till exempel en text-genererande AI-modell kan tränas på att både vara hjälpsam och vilseledande, och att den med hjälp av vissa ”triggerfraser” kan välja att ta det vilseledande spåret. Detta testades sedan med två AI-modeller, och det visade sig fungera som forskarna förväntat sig.

De vanligaste AI-säkerhetsteknikerna hade dessutom liten eller ingen effekt när det handlade om att förhindra saken.

Studien visar behovet av nya typer av säkerhetsteknik vid AI-träning, skriver Techcrunch.

Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen