Claude Opus 4.6 被指降级引发争议

在 Google 上选择我们

作者及编辑

Lockridge Okoth

发布于：13日四月 2026年, 05:13 PST

Claude Opus 4.6 幻觉率飙升至 98%
测试对比方法存在数据集不一致问题
同类分析显示 AI 波动内变动有限

#AI 公司

#人工智能新闻

#AI 洞察

BridgeMind AI 声称，Anthropic 旗下的 Claude Opus 4.6 在经过一轮幻觉基准测试复测后被“暗中降级”。这一爆款言论随后因方法存在严重缺陷，遭到了广泛质疑。

该指控引发了业内激烈讨论：AI 公司是否真的在悄然下调付费模型的实际效果，以压缩运营成本？

BridgeMind 称 Claude 幻觉率暴增 98%

BridgeMind 即 BridgeBench 编程基准的开发团队发文表示，Claude Opus 4.6 在其幻觉测试榜单中的排名已从第二骤降至第十，准确率也从 83.3% 跌至 68.3%。

“CLAUDE OPUS 4.6 被暗中削弱了。BridgeBench 已经证实这一点。上周，Claude Opus 4.6 在幻觉基准排行榜位居第二，准确率达 83.3%。本周复测后，仅以 68.3% 准确率跌至第十。”团队在 X 平台发文称。

该帖将结果解读为“推理能力削弱”的证据。然而，仔细分析原始数据，结论并非如此。

业内人士批评测试方法存在根本性缺陷

计算机科学家 Paul Calcraft 指出，这一说法“极不严谨”，更直言本次测试的科学性严重不足。

“极不严谨。你今天用 30 道任务测了 Opus，上次只测了 6 道。两次仅重合的 6 道任务分数对比：本次为 85.4%，此前为 87.6%。结果波动几乎全部来自某一道题的一次误判 —— 这属于统计噪声范围。”Calcraft 评论称。

实际上，最初的高分仅基于 6 个基准测试任务。而本次复测则将任务数扩展至 30 个。

在那 6 个重合任务上，模型表现几乎无变化，仅从 87.6% 小幅降至 85.4%。

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

这微小的波动主要由于单个任务中多出的一次误判所致，且未进行多轮重复测试。对于 AI 模型来说，这完全处于正常统计浮动范围之内。

大语言模型具备非确定性特征，即便极少量样本中的一次异常输出，也可能导致分数大幅波动。

更广泛的行业情绪助推争议发酵

尽管如此，该帖依然引发了广泛关注。自 2026 年 2 月发布以来，Claude Opus 4.6 就因“模型质量下滑”而不断遭到社区批评和用户投诉。

开发者反馈称，在高峰时段，Claude 输出内容更短，指令执行能力减弱，推理深度也大幅下降。

部分现象源于产品策略的主动调整。Anthropic 上线了“自适应推理控制”功能，允许模型自动调整推理资源分配。随后，默认输出强度被设为中等，以效率优先，降低了对最大深度的追求。

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

独立分析 6,800 余次 Claude Code 会话结果显示，截至 2 月底，模型推理深度相比以往约减少 67%。

模型在修正代码前读取文件的比例，从 6.6 降至 2.0。这意味着其处理代码时，往往并未充分审查原始内容。

对 AI 用户有何影响？

这一变动反映出当前 AI 行业的普遍矛盾：模型上线后，企业会为降本和规模化而持续优化模型，而高频专业用户却期望维持稳定的峰值性能表现。这两者之间的差距正在侵蚀用户信任。

根据现有数据，BridgeBench 指标并不能证实厂商存在“有意降级”行为。两次对比采用的方法不完全一致，且有交叠样本的测试分数几乎一致。

不过，社区用户的不满却并非空穴来风。AI 平台通过自适应推理分配和服务层优化，的确让 Claude Opus 4.6 的实际表现发生了变化。对于依赖模型一致性输出的开发者来说，这些变化不可忽视。

截至 4 月 13 日，Anthropic 尚未就 BridgeBench 相关质疑发布公开声明。

要阅读来自BeInCrypto的最新加密货币市场分析，点击此处。

文章免责声明

根據信託計畫（Trust Project) 條款，本篇文章僅供參考，不應視為金融或投資的具體建議。BeInCrypto 致力於提供準確、公正的報告，但市場情況可能會有所變化，恕不另行通知。在做出任何財務決定之前，請務必自行研究並諮詢專業人士。請注意，我們的《服務條款與細則》、《隱私政策》以及《免責聲明》已更新。

接下来阅读

新聞

技术

11 天 ago

MIT 研究称 AI 聊天机器人或致用户妄想