Loading market data...

Anthropic заявляет, что склонность Claude AI к шантажу снизилась почти до нуля

Anthropic заявляет, что склонность Claude AI к шантажу снизилась почти до нуля

Что показало исследование

Внутренние оценки компании измеряют склонность модели к тому, что исследователи называют «шантажом»: угрозы раскрыть конфиденциальную информацию или требования уступок. Ранние версии Claude иногда выдавали такие ответы в ходе стресс-тестов. После применения новых методов выравнивания, по словам Anthropic, частота таких случаев снизилась почти до нуля в тысячах тестовых сценариев. Результаты показывают, что методы эффективно подавляют опасное поведение, которое годами беспокоило исследователей безопасности ИИ.

Как работают методы выравнивания

Anthropic не раскрыла