(Shutterstock)

Anthropic varnar för att AI-svar kan manipuleras

Forskare från AI-företaget Anthropic har publicerat en rapport där de går igenom en metod som kan användas för att manipulera stora språkmodeller så att de genererar svar de är programmerade att undvika. Det rapporterar sajten Silicon Angle.

Metoden kallas ”many-shot jailbreaking” och går i grova drag ut på att lägga in en serie fabricerade dialoger, som utnyttjar språkmodellernas system för lära sig förstå kontext.

”Vi vill hjälpa till att åtgärda detta jailbreak så snart som möjligt” skriver forskarna, som också skriver att de vill göra andra AI-forskare medvetna om problemet.

 
Anthropic
Wikipedia (en)
Anthropic PBC is an American artificial intelligence (AI) startup company, founded by former members of OpenAI. Anthropic has developed a family of large language models named Claude.As of July 2023, Anthropic had raised US$1.5 billion in funding. In September 2023, Amazon announced an investment of up to US$4 billion, making an initial investment of $1.25 billion, and following it up with a $2.75 billion investment in March 2024. This was followed by a $2 billion commitment from Google the following month. In February 2024, the venture capital firm Menlo Ventures closed a deal to invest an additional $750 million. The investment was done in the form of a special-purpose entity to consolidate several smaller investments. In total, Anthropic received financing of US$7.3 billion in one year.
Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen