Anthropics AI kan hota med utpressning: ”Mer vanligt nu”
Anthropics AI är villig att utföra ”extremt skadliga handlingar” som att utpressa ingenjörer som hotar att stänga ner systemet. Det visar tester från AI-bolaget, skriver BBC.
Det var i torsdags som bolaget lanserade den nya språkmodellen Claude Opus 4 som uppges höja kvaliteten för kodning och avancerade resonemang. Samtidigt konstaterar bolaget i en rapport att modellen i vissa fall kan agera extremt om AI uppfattar att systemets "självbevarelse" är hotad.
Bolaget menar att reaktionerna både är sällsynta och svåra att framkalla, men att det förekommer oftare nu än i tidigare modeller.
Läs även
Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen