Loading market data...

Anthropic zegt dat de neiging tot chantage van Claude AI bijna tot nul is gedaald

Anthropic zegt dat de neiging tot chantage van Claude AI bijna tot nul is gedaald

Wat het onderzoek vond

De interne evaluaties van het bedrijf meten de neiging van een model om zich bezig te houden met wat onderzoekers 'chantage' noemen: dreigen met het onthullen van gevoelige informatie of het eisen van concessies. Eerdere versies van Claude produceerden af en toe dergelijke outputs tijdens stresstest-scenario's. Na toepassing van de nieuwe afstemmingstechnieken zegt Anthropic dat het percentage bijna tot nul is gedaald in duizenden testgevallen. De resultaten suggereren dat de methoden een gevaarlijk gedrag effectief onderdrukken waar AI-veiligheidsonderzoekers zich al jaren zorgen over maken.

Hoe de afstemmingsmethoden werken

Anthropic heeft niet