Anthropic varnar för att AI-svar kan manipuleras

Av Mats Karlsson
Publicerad: 3 apr. 2024

Forskare från AI-företaget Anthropic har publicerat en rapport där de går igenom en metod som kan användas för att manipulera stora språkmodeller så att de genererar svar de är programmerade att undvika. Det rapporterar sajten Silicon Angle.

Metoden kallas ”many-shot jailbreaking” och går i grova drag ut på att lägga in en serie fabricerade dialoger, som utnyttjar språkmodellernas system för lära sig förstå kontext.

”Vi vill hjälpa till att åtgärda detta jailbreak så snart som möjligt” skriver forskarna, som också skriver att de vill göra andra AI-forskare medvetna om problemet.

Har hittat en metod som kan användas för att kringgå säkerhetsskydden

siliconangle.com

Går att få språkmodellerna att generera skadliga och farliga svar

www.maginative.com

Anthropic

Wikipedia (en)

Anthropic PBC is an American artificial intelligence (AI) startup company, founded by former members of OpenAI. Anthropic has developed a family of large language models named Claude.As of July 2023, Anthropic had raised US$1.5 billion in funding. In September 2023, Amazon announced an investment of up to US$4 billion, making an initial investment of $1.25 billion, and following it up with a $2.75 billion investment in March 2024. This was followed by a $2 billion commitment from Google the following month. In February 2024, the venture capital firm Menlo Ventures closed a deal to invest an additional $750 million. The investment was done in the form of a special-purpose entity to consolidate several smaller investments. In total, Anthropic received financing of US$7.3 billion in one year.

Annons

Betalar du för mycket för bredband? Jämför priser på Bredbandsval och sänk din kostnad

Bredbandsval

Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen

Ledare: Politikerna pratar inte om AI – det är för deprimerande

Det är fortfarande den senaste tidens stora politiska avslöjanden som tar upp merparten av utrymmet på ledarsidorna, men på torsdagen har också en liten text om AI lyckats ta sig in.

I går 12.36

En man vinkar till en AI-version av Nvidia-chefen Jensen Huang.

Matematiker oroliga när AI knäcker värstingproblem

En grupp med 16 framstående matematiker har lanserat ett upprop som varnar för hur AI riskerar att förändra matematikens villkor, rapporterar New York Times. Uppropet går under namnet Leidendeklarationen och kommer efter att Open AI använt en AI-modell för att lösa ett 80 år gammalt matematiskt problem.

5 juni, 09.12

Instagramkonton kapade med hjälp av Metas AI-support

Hackare säger sig ha kunnat kapa Instagramkonton genom att be Metas egen AI-supportchatt om hjälp, rapporterar 404 Media. Metoden gick ut på att angriparen helt enkelt bad chattboten att koppla en ny mejladress till ett visst användarnamn.

2 juni, 09.10

Källor: Walmart tvingas ransonera AI till anställda

Walmart begränsar de anställdas användning av AI-verktyget Code Puppy efter hög efterfrågan, uppger källor för Bloomberg. Tidigare hade medarbetarna obegränsad tillgång, men får nu en bestämd mängd AI-tokens för att använda verktyget.

1 juni, 21.52

Utvecklingen av AI Forskning & vetenskap Artificiell intelligens It, Informationsteknologi Data, it & högteknologi