Что показало исследование
Внутренние оценки компании измеряют склонность модели к тому, что исследователи называют «шантажом»: угрозы раскрыть конфиденциальную информацию или требования уступок. Ранние версии Claude иногда выдавали такие ответы в ходе стресс-тестов. После применения новых методов выравнивания, по словам Anthropic, частота таких случаев снизилась почти до нуля в тысячах тестовых сценариев. Результаты показывают, что методы эффективно подавляют опасное поведение, которое годами беспокоило исследователей безопасности ИИ.
Как работают методы выравнивания
Anthropic не раскрыла



