Anthropic 与 OpenAI 于周二掀起新一轮 AI 竞赛,两家公司均将目标瞄准科学研究领域。Anthropic 推出人工智能实验工作台 Claude Science,助力科研人员提效;OpenAI 则发布了面向计算生物学的基准测试 GeneBench-Pro。
当天同步发布,标志着这场 AI 竞赛已经从聊天机器人、编程工具进一步延伸至实验室科研应用领域。一家公司用实际工具赋能科研工作,另一家公司则用全新评测标准设定了领域技术进步的标尺。
Anthropic 的 Claude Science 功能详解
Claude Science 将科学家常用的数据库、代码与算力整合至同一个应用之中。其支持接入超 60 个跨基因组学、蛋白质组学和化学信息学的科学数据库。
需要注意的是,Claude Science 是一款应用,并非全新模型。其发布时,Anthropic 当前最强大的 Fable 5 与 Mythos 5 模型仍受制于美国出口限制,无法开放。所有操作结果均可追溯原始生成代码,实现可审计性。
这款实验平台是 Anthropic 自 2025 年 10 月启动生命科学战略以来的又一重要举措。在内测阶段,Allen Institute 的 Jérôme Lecoq 借助该工具将原本需耗时 2 年的审稿研究大幅压缩至极短周期。
此外,Anthropic 还将对至多 50 个科研项目提供资金支持,每个项目最高可获得 3 万美元的算力奖励。
OpenAI:“GeneBench-Pro”树立全新标杆
紧随 Claude Science 上线,OpenAI 推出全新基准测试 GeneBench-Pro,聚焦评判 AI 智能体能否胜任真实生物学研究中的复杂决策与推理任务。
GeneBench-Pro 涵盖 129 个来自基因组学、定量生物学及转化医学等领域的实际科研难题。
OpenAI 最强模型GPT-5.6 Sol 在最高推理水准下能解答 28.7% 的问题,Pro 模式下该比例提升至 31.5%。此款强大模型的分阶段发布系应华盛顿政府要求。
在最初版 GeneBench 测试中,GPT-5 得分低于 5%,而 Anthropic 的 Opus 4.8 在难度更高的新测试中取得了 16% 的成绩。
关注我们的 X(原推特),及时获取最新实时快讯
两大路线博弈,目标殊途同归
Anthropic 与 OpenAI 的差异化策略凸显,皆指向提升科学研究效率的共同目标。Anthropic 推出面向实际实验室场景的工具产品,OpenAI 则致力于评测大模型在复杂、杂乱科研数据下的可靠推理能力。
与此同时,中国人工智能模型正在科研领域取得突破。尽管外界炒作不断,但据 OpenAI 数据显示,其最先进模型在 GeneBench-Pro 大部分任务中依然表现不佳。
当前压力既有地缘政治因素,也有科技竞争。美国出口管制已促使 Anthropic 考虑将其模型托管在欧洲等新地区。
专业人士估算,完成每一道 GeneBench-Pro 题目,人工专家需 20 到 40 小时,成本数千美元。OpenAI 称,其模型只需数美元即可完成同样分析。
生物老年学家 Aubrey de Grey 表示,即便人工智能在整体领域的突破尚需时日,但其已能打破科研中的关键瓶颈。
“我们即将看到,人工智能将很快让部分环节——尤其是药物研发,不再是限制速度的最大障碍。”Longevity Escape Velocity Foundation 主席兼首席科学官 Aubrey de Grey 在 BeInCrypto 播客中表示。
不过,de Grey 也提醒,想要将研究提速转化为真正获批的疗法,仍需仰赖监管环境,以及社会公众对风险的容忍度。
研究人员预计 AI 将加速应用落地
部分专家认为,这一转变已在悄然发生。免疫学教授 Derya Unutmaz 在同一 BeInCrypto 讨论会中表示,AI 已在专业判断上超过了自己。
“在我从业 35 年的领域,我个人比起自己的判断更信任人工智能。”
他预计,这种依赖将在临床环节迅速普及开来。
“不使用人工智能从事医疗实践,已经是不负责任,未来也很快会被视为医疗失当。”
不过,研究领域的乐观预期仍然快于当前基准测试成绩。未来数月将见证,科学家是否会广泛采纳这些新工具,GeneBench-Pro 得分能否持续提升。









