Loading market data...

科技

Fable 5 事件后，Anthropic 将 Claude 的防护措施转为可见

By GFdaily Newsroom

Anthropic Claude safeguards Fable 5 incident visible AI safeguards false positive flagging AI community backlash

June 18, 2026 1 分钟阅读

Read in:🇺🇸 English 🇹🇷 Türkçe 🇦🇱 Shqip 🇸🇦 العربية 🇫🇷 Français 🇩🇪 Deutsch 🇷🇺 Русский 🇪🇸 Español 🇮🇹 Italiano 🇧🇷 Português 🇨🇳 中文 🇯🇵 日本語 🇷🇴 Română 🇩🇰 Dansk 🇫🇮 Suomi 🇮🇷 فارسی 🇬🇷 Ελληνικά 🇻🇳 Tiếng Việt 🇹🇭 ไทย 🇮🇱 עברית 🇰🇷 한국어 🇮🇩 Bahasa Indonesia 🇮🇳 हिन्दी 🇲🇾 Bahasa Melayu 🇳🇱 Nederlands 🇵🇱 Polski 🇨🇿 Čeština 🇭🇺 Magyar

Fable 5 事件后，Anthropic 将 Claude 的防护措施转为可见

在社区对“Fable 5”事件表示强烈不满后，Anthropic 改变了此前对 Claude 采用隐形性能防护的立场。该公司将转而实施可见的防护措施，而非隐藏的性能限制。这项于周二宣布的变更，将导致整个平台上的误报内容标记增加。

Fable 5 引发用户抗议

上周的“Fable 5”事件中，Claude 在没有明确解释的情况下限制响应，令用户和开发者感到困扰。社区成员涌入社交媒体和论坛，抱怨缺乏透明度。他们认为隐藏的性能限制让人无法理解为何合法查询会被拦截。当用户意识到无法通过调整设置绕过这些限制时，抗议愈演愈烈。

从隐形壁垒到可见边界

此前，Claude 使用在用户无感知情况下运行的隐藏性能防护。现在 Anthropic 正用可见防护取代它们，一旦内容触发标记，会立即通知用户。该公司确认这一转变直接响应了社区对透明度的要求。用户将看到消息被标记的具体原因，例如“检测到敏感内容”或“超出上下文边界”，而非通用错误提示。

权衡：更多误报即将出现

Anthropic 承认可见防护将导致更多误报内容标记。这意味着无害消息——如讨论历史事件或学术话题——可能比在隐藏系统下更频繁地被拦截。该公司表示，这种增加是透明度不可避免的代价，但未量化预期上升幅度。工程师们正优先优化防护准确性，但警告用户在过渡期间可能会遇到更频繁的中断。

用户将体验到的变化

可见防护措施已立即在所有 Claude 界面中推出。用户现在会看到清晰的弹出通知，解释其输入为何触发标记，包括具体的指南引用。虽然有人欢迎这种透明度，但另一些人立即报告了合法消息被误标记带来的小困扰。该公司尚未承诺减少误报，但表示正在收集用户反馈以优化系统。

随着用户首次遇到新的可见标记，Anthropic 的工程团队正在监控早期部署数据。