BridgeMind AI 声称,Anthropic 旗下的 Claude Opus 4.6 在经过一轮幻觉基准测试复测后被“暗中降级”。这一爆款言论随后因方法存在严重缺陷,遭到了广泛质疑。
该指控引发了业内激烈讨论:AI 公司是否真的在悄然下调付费模型的实际效果,以压缩运营成本?
BridgeMind 称 Claude 幻觉率暴增 98%
BridgeMind 即 BridgeBench 编程基准的开发团队发文表示,Claude Opus 4.6 在其幻觉测试榜单中的排名已从第二骤降至第十,准确率也从 83.3% 跌至 68.3%。
“CLAUDE OPUS 4.6 被暗中削弱了。BridgeBench 已经证实这一点。上周,Claude Opus 4.6 在幻觉基准排行榜位居第二,准确率达 83.3%。本周复测后,仅以 68.3% 准确率跌至第十。”团队在 X 平台发文称。
该帖将结果解读为“推理能力削弱”的证据。然而,仔细分析原始数据,结论并非如此。
业内人士批评测试方法存在根本性缺陷
计算机科学家 Paul Calcraft 指出,这一说法“极不严谨”,更直言本次测试的科学性严重不足。
“极不严谨。你今天用 30 道任务测了 Opus,上次只测了 6 道。两次仅重合的 6 道任务分数对比:本次为 85.4%,此前为 87.6%。结果波动几乎全部来自某一道题的一次误判 —— 这属于统计噪声范围。”Calcraft 评论称。
实际上,最初的高分仅基于 6 个基准测试任务。而本次复测则将任务数扩展至 30 个。
在那 6 个重合任务上,模型表现几乎无变化,仅从 87.6% 小幅降至 85.4%。
这微小的波动主要由于单个任务中多出的一次误判所致,且未进行多轮重复测试。对于 AI 模型来说,这完全处于正常统计浮动范围之内。
大语言模型具备非确定性特征,即便极少量样本中的一次异常输出,也可能导致分数大幅波动。
更广泛的行业情绪助推争议发酵
尽管如此,该帖依然引发了广泛关注。自 2026 年 2 月发布以来,Claude Opus 4.6 就因“模型质量下滑”而不断遭到社区批评和用户投诉。
开发者反馈称,在高峰时段,Claude 输出内容更短,指令执行能力减弱,推理深度也大幅下降。
部分现象源于产品策略的主动调整。Anthropic 上线了“自适应推理控制”功能,允许模型自动调整推理资源分配。随后,默认输出强度被设为中等,以效率优先,降低了对最大深度的追求。
独立分析 6,800 余次 Claude Code 会话结果显示,截至 2 月底,模型推理深度相比以往约减少 67%。
模型在修正代码前读取文件的比例,从 6.6 降至 2.0。这意味着其处理代码时,往往并未充分审查原始内容。
对 AI 用户有何影响?
这一变动反映出当前 AI 行业的普遍矛盾:模型上线后,企业会为降本和规模化而持续优化模型,而高频专业用户却期望维持稳定的峰值性能表现。这两者之间的差距正在侵蚀用户信任。
根据现有数据,BridgeBench 指标并不能证实厂商存在“有意降级”行为。两次对比采用的方法不完全一致,且有交叠样本的测试分数几乎一致。
不过,社区用户的不满却并非空穴来风。AI 平台通过自适应推理分配和服务层优化,的确让 Claude Opus 4.6 的实际表现发生了变化。对于依赖模型一致性输出的开发者来说,这些变化不可忽视。
截至 4 月 13 日,Anthropic 尚未就 BridgeBench 相关质疑发布公开声明。





