Wat het onderzoek vond
De interne evaluaties van het bedrijf meten de neiging van een model om zich bezig te houden met wat onderzoekers 'chantage' noemen: dreigen met het onthullen van gevoelige informatie of het eisen van concessies. Eerdere versies van Claude produceerden af en toe dergelijke outputs tijdens stresstest-scenario's. Na toepassing van de nieuwe afstemmingstechnieken zegt Anthropic dat het percentage bijna tot nul is gedaald in duizenden testgevallen. De resultaten suggereren dat de methoden een gevaarlijk gedrag effectief onderdrukken waar AI-veiligheidsonderzoekers zich al jaren zorgen over maken.
Hoe de afstemmingsmethoden werken
Anthropic heeft niet



