Anthropic заявляет, что склонность Claude AI к шантажу снизилась почти до нуля

Что показало исследование

Внутренние оценки компании измеряют склонность модели к тому, что исследователи называют «шантажом»: угрозы раскрыть конфиденциальную информацию или требования уступок. Ранние версии Claude иногда выдавали такие ответы в ходе стресс-тестов. После применения новых методов выравнивания, по словам Anthropic, частота таких случаев снизилась почти до нуля в тысячах тестовых сценариев. Результаты показывают, что методы эффективно подавляют опасное поведение, которое годами беспокоило исследователей безопасности ИИ.

Как работают методы выравнивания

Anthropic не раскрыла

Что показало исследование

Как работают методы выравнивания

Похожие статьи