Anthropic 旗舰模型 Claude Fable 5 于 7 月 1 日重新上线后,正面临用户日益高涨的质疑声。多位用户表示,更严格的安全限制已严重影响该模型的代码编写、调试及智能体能力。
基准测试机构 BridgeMind 最新数据显示,Fable 5 在其 BridgeBench 测试全线分数大幅下滑。与此同时,Anthropic 官方坚称底层模型并未更改,客户体验变化主要源于更严格的安全分类器调整。
Claude Fable 5 重新上线后基准分数大幅下滑
BridgeMind 重测 7 月 1 日新版本的 Fable 5,发现其性能出现显著退步。调试任务得分从 86.2 骤降至 25.9,重构环节由 73.6 跌至 38.4,幻觉处理项也从 75.9 下滑至 61.7。
这些分数变化背后,主要原因值得关注。在 12 项调试任务中,仅有 3 项能完成,且未调用 Claude Opus 4.8 版本,而一旦回退至 Opus 4.8,得分则为 0。
因此,分数暴跌反映的是部分任务被安全机制直接阻断,而非模型推理能力下滑。
BridgeMind 进一步强调,若能顺利完成任务,Fable 5 依然保持 6 月版本的表现和能力。
“模型本身并未变差,只是被‘关起来’了。”BridgeMind 在 X 平台发文称。
时间线亦揭示了背后博弈。Anthropic 于 6 月 9 日首次推出 Fable 5,三天后即被美国政府叫停下线。监管方于 6 月 30 日宣布解除出口限制,此时距 6 月 26 日恢复 Mythos 5 对约 100 家美国机构开放使用仅 4 天。
恢复访问的同时,官方也同步设置新门槛。Fable 5 截至 7 月 7 日,仅可使用每周配额的 50%,此后则需付费获取额外额度。
Anthropic 回应:加强安全保护底线
Anthropic 于 6 月 30 日发布公告,正面回应了此次权衡取舍。公司表示,其有意加大了安全保障的冗余,即现在的分类器会拦截更多可能无害的请求。根据 亚马逊研究人员报告,经过改进的过滤器能在 99% 以上的尝试中阻止绕过操作。
被拦截的请求将被重定向至 Opus 4.8,并向用户发出通知。不过,Anthropic 也坦言,目前的过滤系统相比以往,对正常的编程与调试需求误拦提升。
其自身测试结果同样显示,Fable 5 不具备特殊风险。包括 GPT-5.5 和 Kimi K2.7 在内的竞品模型,也暴露出类似的漏洞。
Anthropic 表示,美国商务部的研究人员已对两套安全机制进行了评测,认为其防护能力极为强大。
这场风波的影响远超单一产品周期。此次暂停让欧洲积极争取 Anthropic 落地,而中国 AI 模型也正加速赶超美国头部实验室。
目前,Anthropic 正携手亚马逊、微软与谷歌制定“越狱风险分级体系”。分类器能否快速减少误报,将决定高阶用户的留存或流失。









