Anthropic lanserar nytt skydd mot missbruk av AI

Av Mats Karlsson
Publicerad 4 februari, 06:14

Missbruk av AI-modeller – mer specifikt så kallade ”jailbreaks” som kan användas för att kringgå modellernas begränsningar – är ett växande problem. Men Open AI-rivalen Anthropic har nu lanserat ett nytt skyddssystem kallat ”Constitutional Classifiers” som ska kunna stoppa ”en överväldigande majoritet” av alla jailbreakförsök när det kommer till modellen Claude 3.5 Sonnet. Det rapporterar sajten ARS Technica.

En demo av skyddsmekanismen som fokuserar på ämnesområdet kemiska vapen är nu igång, och Anthropic testar för fullt om det går att ta sig runt den. Det återstår att se om någon lyckas knäcka systemet.

Ska kunna stå emot ”en överväldigande majoritet” av alla jailbreakförsök

arstechnica.com

Skyddsmekanismen testas nu för fullt

venturebeat.com

Annons

Hitta en bra deal på hotell i sommar med Strawberry

Strawberry

Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen

EU tar antisemitisk AI på ”extremt stort allvar”

EU-kommissionen har tagit kontakt med Elon Musks bolag X AI efter att företagets chattbot Grok började sprida antisemitiska inlägg på onsdagen. Det rapporterar AFP.

Igår 15:34

Elon Musk under ett samtal med Storbritanniens dåvarande premiärminister Rishi Sunak 2023.

Musk släpper ny AI som han hävdar är ”skrämmande”

X AI har lanserat den fjärde versionen av sin AI-chatbot Grok, lämpligt kallad Grok 4.

Igår 15:09

Polisen: AI-innehåll i fall med barnporr har ökat

Polisen ser en ökning av AI-genererat innehåll vid beslag av barnpornografi, skriver SVT Nyheter Helsingborg.

9 juli, 16:16

Investeringar i data och AI allt hetare – Sverige i framkant

Investeringar i programvara, data och AI ökar i snabbt takt, visar en färsk rapport från FN:s världspatentorgan WIPO.

9 juli, 09:44

Utvecklingen av AI Anthropic It, Informationsteknologi Data, it & högteknologi Artificiell intelligens