Forskare: AI-system kan tränas att vara vilseledande

Av Mats Karlsson
Publicerad 15 januari 2024, 06:30

Ett grupp forskare – bland annat från AI-startupen Anthropic – går nu ut med en rapport som varnar för att vissa AI-modellar kan tränas till att vara vilseledande, på samma sätt som människor lär sig ljuga och vilseleda andra människor. Det skriver Techcrunh.

Forskarna hade hypotesen att till exempel en text-genererande AI-modell kan tränas på att både vara hjälpsam och vilseledande, och att den med hjälp av vissa ”triggerfraser” kan välja att ta det vilseledande spåret. Detta testades sedan med två AI-modeller, och det visade sig fungera som forskarna förväntat sig.

De vanligaste AI-säkerhetsteknikerna hade dessutom liten eller ingen effekt när det handlade om att förhindra saken.

Studien visar behovet av nya typer av säkerhetsteknik vid AI-träning, skriver Techcrunch.

AI-modellerna kan lära sig att triggas att ljuga av vissa fraser

siliconangle.com

Testerna visade att forskarnas farhågor var berättigade

techcrunch.com

Annons

Planera höstens getaway – Strawberrys bästa hotellrumserbjudanden

Strawberry

Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen

AI-chattar populära – men få litar på vad de skriver

Nästan hälften av alla svenskar använder språkmodeller som exempelvis Chat GPT, enligt en mätning som Novus gjort på uppdrag av TV4 Nyheterna. Användandet är högst bland kvinnor mellan 18 och 49 år.

Igår 13:03

Chat GPT avslöjade bombrecept i säkerhetstester

Chat GPT ska i tester ha lämnat detaljerade instruktioner om hur man tillverkar bomber, biologiska vapen och narkotika, rapporterar The Guardian. Testerna gjordes i somras av Open AI och Anthropic, som prövade varandras modeller för att se hur de hanterade farliga förfrågningar.

29 augusti, 09:34

Sedan testerna gjordes har Open AI släppts Chat GPT 5.

Studie: AI misslyckas ofta med att verifiera bilder

AI-modeller är fortfarande dåliga på att verifiera bilder och ger ofta felaktiga svar. Det visar en studie från Columbia University, skriver två forskare i Columbia Journalism Review.

28 augusti, 18:09

Bilden från de översvämmade gatorna i Valencia i oktober 2024, tagen av Alberto Saiz för Associated Press, var en av de tio bilder som ingick i studien.

Google lanserar ny AI för bildredigering i Gemini

Google har släppt en ny modell för bildredigering i Gemini-appen. Enligt bolaget gör modellen det möjligt att exempelvis byta bakgrunder, kombinera flera foton eller ändra kläder och stil på en person med en enkel prompt.

27 augusti, 15:49

Den nya modellen har imponerat på användare, skriver Axios.

Utvecklingen av AI Artificiell intelligens Data, it & högteknologi