Claude Opus 4.6 被指降级引发争议

  • Claude Opus 4.6 幻觉率飙升至 98%
  • 测试对比方法存在数据集不一致问题
  • 同类分析显示 AI 波动内变动有限

BridgeMind AI 声称,Anthropic 旗下的 Claude Opus 4.6 在经过一轮幻觉基准测试复测后被“暗中降级”。这一爆款言论随后因方法存在严重缺陷,遭到了广泛质疑。

该指控引发了业内激烈讨论:AI 公司是否真的在悄然下调付费模型的实际效果,以压缩运营成本?

BridgeMind 称 Claude 幻觉率暴增 98%

BridgeMind 即 BridgeBench 编程基准的开发团队发文表示,Claude Opus 4.6 在其幻觉测试榜单中的排名已从第二骤降至第十,准确率也从 83.3% 跌至 68.3%。

“CLAUDE OPUS 4.6 被暗中削弱了。BridgeBench 已经证实这一点。上周,Claude Opus 4.6 在幻觉基准排行榜位居第二,准确率达 83.3%。本周复测后,仅以 68.3% 准确率跌至第十。”团队在 X 平台发文称。

该帖将结果解读为“推理能力削弱”的证据。然而,仔细分析原始数据,结论并非如此。

业内人士批评测试方法存在根本性缺陷

计算机科学家 Paul Calcraft 指出,这一说法“极不严谨”,更直言本次测试的科学性严重不足。

“极不严谨。你今天用 30 道任务测了 Opus,上次只测了 6 道。两次仅重合的 6 道任务分数对比:本次为 85.4%,此前为 87.6%。结果波动几乎全部来自某一道题的一次误判 —— 这属于统计噪声范围。”Calcraft 评论称。

实际上,最初的高分仅基于 6 个基准测试任务。而本次复测则将任务数扩展至 30 个。

在那 6 个重合任务上,模型表现几乎无变化,仅从 87.6% 小幅降至 85.4%。

这微小的波动主要由于单个任务中多出的一次误判所致,且未进行多轮重复测试。对于 AI 模型来说,这完全处于正常统计浮动范围之内。

大语言模型具备非确定性特征,即便极少量样本中的一次异常输出,也可能导致分数大幅波动。

更广泛的行业情绪助推争议发酵

尽管如此,该帖依然引发了广泛关注。自 2026 年 2 月发布以来,Claude Opus 4.6 就因“模型质量下滑”而不断遭到社区批评和用户投诉。

开发者反馈称,在高峰时段,Claude 输出内容更短,指令执行能力减弱,推理深度也大幅下降。

部分现象源于产品策略的主动调整。Anthropic 上线了“自适应推理控制”功能,允许模型自动调整推理资源分配。随后,默认输出强度被设为中等,以效率优先,降低了对最大深度的追求。

独立分析 6,800 余次 Claude Code 会话结果显示,截至 2 月底,模型推理深度相比以往约减少 67%。

模型在修正代码前读取文件的比例,从 6.6 降至 2.0。这意味着其处理代码时,往往并未充分审查原始内容。

对 AI 用户有何影响?

这一变动反映出当前 AI 行业的普遍矛盾:模型上线后,企业会为降本和规模化而持续优化模型,而高频专业用户却期望维持稳定的峰值性能表现。这两者之间的差距正在侵蚀用户信任。

根据现有数据,BridgeBench 指标并不能证实厂商存在“有意降级”行为。两次对比采用的方法不完全一致,且有交叠样本的测试分数几乎一致。

不过,社区用户的不满却并非空穴来风。AI 平台通过自适应推理分配和服务层优化,的确让 Claude Opus 4.6 的实际表现发生了变化。对于依赖模型一致性输出的开发者来说,这些变化不可忽视。

截至 4 月 13 日,Anthropic 尚未就 BridgeBench 相关质疑发布公开声明。

要阅读来自BeInCrypto的最新加密货币市场分析,点击此处

文章免责声明

根據信託計畫(Trust Project) 條款,本篇文章僅供參考,不應視為金融或投資的具體建議。BeInCrypto 致力於提供準確、公正的報告,但市場情況可能會有所變化,恕不另行通知。在做出任何財務決定之前,請務必自行研究並諮詢專業人士。請注意,我們的《服務條款與細則》、《隱私政策》 以及 《免責聲明》 已更新。