OpenAI 于 4 月 23 日正式发布 GPT-5.5,代号“Spud”。官方表示,该模型成为迄今为止最强大的自主多步任务执行系统。
此次发布仅距离 Anthropic 推出 Claude Opus 4.7 一周时间,拉开了两大前沿模型之间的正面较量。
GPT-5.5 聚焦智能体工作与代码能力
GPT-5.5 旨在实现规划、执行、验证及多轮迭代,无需用户全程监督即可独立调用各类工具。OpenAI 官方介绍,该模型被定位为“用于真实工作和智能体的全新范式智能”。
关注我们 X 官方账号,第一时间获取行业动态
“我们坚持渐进式部署策略。尽管 GPT-5.5 已经非常强大,但我们预计其能力将持续快速提升。渐进式部署也是我们 AI 安全策略的重要组成部分,这有助于全球团队配合,共同提升 AI 适应性。”OpenAI 首席执行官 Sam Altman 在发文中表示。
目前,GPT-5.5 已向 ChatGPT Plus、Pro、Business 及 Enterprise 用户开放,更高性能的 Pro 版本也同步上线。API 定价方面,输入每 100 万 tokens 收费 5 美元,输出每 100 万 tokens 收费 30 美元,单次上下文窗口可达 100 万 tokens。
OpenAI 的官方基准测试数据显示,GPT-5.5 在多项智能体任务超越了 Claude Opus 4.7。在 Terminal-Bench 2.0 测试中,GPT-5.5 得分 82.7%,而 Opus 4.7 为 69.4%。
在 FrontierMath 1-3 级测试中,GPT-5.5 的成绩为 51.7%,Opus 4.7 为 43.8%。第三方早期测评也显示,代码与专业知识类任务表现呈现类似领先趋势。
Claude Opus 4.7 仍具领先优势的领域
评测机构认为,Anthropic 的该版本模型在学术写作、法律及金融推理、指令理解等方面依然优于竞品。
Opus 4.7 还支持高达 375 万像素的高分辨率视觉输入,较上一代提升了三倍有余。
而在计算机操作类任务中,两者差距逐步缩小。GPT-5.5 在 OSWorld-Verified 测试中的得分为 78.7%,Opus 4.7 为 78.0%。
在浏览基准测试方面,这两款模型也互有领先。其中,GPT-5.5 Pro 的表现略胜一筹,得分高达 90.1%,而其竞争对手仅为 79.3%。
2026 年 AI 竞速加剧
连续的新品发布,反映出更广泛的市场趋势。今年,OpenAI 已先后推出多款 GPT-5.x 版本,而 Anthropic 也在不断通过产品迭代升级 Claude 系列。
此外,谷歌的 Gemini 3.1 Pro 同样在争夺企业级市场,激烈竞争一触即发。
对于开发者来说,如何选择则取决于实际应用场景。GPT-5.5 在智能代理自动化与长周期编程等场景表现更为突出。
而对于需要高精准度分析流程的工作,Claude Opus 4.7 可能更加适合。未来,是否有第三方权威基准测试能够证实 OpenAI 的官方数据,有待进一步观察。
欢迎订阅我们的 YouTube 频道,获取行业领袖与记者的深度解读





