Back to blog
12 min read
AIAnalysis

霸榜不到半小时的 Opus 4.6,真实能力究竟如何?

Claude Opus 4.6 在发布后二十分钟内登顶多个基准测试榜单,但随后被 GPT-5.3 Codex 反超。本文深度分析了 Opus 4.6 的真实能力,以及在不同开发场景中应该如何选择工具。

孙晓阳
Full-stack Developer

2 月 5 日,Anthropic 毫无预警地发布了 Claude Opus 4.6。发布后二十分钟内,它登顶了多个基准测试榜单。

但半小时后,OpenAI 发布了 GPT-5.3 Codex,在编程和逻辑推理领域迅速反超。Opus 4.6 独享榜首的时间只有 37 分钟

这看起来像一场精心策划的狙击战。但实测三天后,我发现 Opus 4.6 的目标可能不是争夺榜首,而是在实际工作场景中提供更全面的能力。

基准测试:全面领先但很快被反超

Opus 4.6 的核心卖点是能力的全面提升。几个关键数据:

Terminal-Bench 2.0(智能体编程)

69.9%,超过 GPT-5.2 的 64.9% 和前代 Opus 4.5 的 63.1%。但很快被 GPT-5.3-Codex 的 75.1% 反超。

ARC-AGI-2(新问题求解)

69.2%,相比前代 37.6% 接近翻倍,也超过 GPT-5.2 (X-High) 的 52.9%。这是单代模型在抽象推理上最大的进步。

GDPval-AA(知识工作评测)

1606 Elo,比 GPT-5.2 的 1462 高出 144 分。换算下来,Opus 4.6 有约 70% 的概率胜过 GPT-5.2。

BrowseComp(搜索能力)

84.0%,配合多 Agent 框架可达 86.8%,碾压所有对手。

这些数字看起来很美。但问题是,OpenAI 的反击来得同样迅速。

100 万 Token 记忆:不再失忆

Opus 4.6 另一个重大突破是 1M 长上下文,或者说记忆的质量。

虽然 Google 的 Gemini 早在两年前就做到了 1M 甚至 2M 的上下文窗口,但业内的痛点一直是 "Context Rot"(上下文腐烂)——输入内容越多,模型越容易遗忘前面的指令,或在提取信息时出现幻觉。

Opus 4.6 在这方面交出了一份不错的答卷:

MRCR v2 测试(大海捞针)

在 100 万 Token 的长文本中寻找隐藏信息的准确率达到了 76%。作为对比,前代 Sonnet 4.5 只有 18.5%。

实际应用

你可以一次性输入 5 年的财报、完整的法律卷宗或中型项目的全部代码,它能真正记住每个细节。

在处理长文档和复杂项目回溯时,Opus 4.6 目前没有对手。

500+ 零日漏洞:从辅助到猎手

Opus 4.6 在网络安全领域的表现同样值得关注。

Anthropic 官方披露(经第三方安全团队验证),Opus 4.6 在发布前的内部测试中,仅通过阅读开源代码库,就发现了超过 500 个此前未知的高危安全漏洞(Zero-day),没有使用任何专用工具。

这些漏洞遍布 Ghostscript、OpenSC 等核心基础库。大模型的能力发生了质变:

过去:帮你写代码,帮你修 Bug。

现在:像人类安全专家一样,通过逻辑推理预判代码中可能存在的逻辑陷阱。

Opus 4.6 成了开发者手中的双刃剑——最好的代码审计员,也可能是潜在的黑客工具(尽管 Anthropic 声称已做严格的安全对齐)。

自适应思考与 Agent 团队

Opus 4.6 引入了 Adaptive Thinking(自适应思考) 模式。

不同于 OpenAI o3 系列的强制"慢思考",Opus 4.6 会根据问题难度自主决定是快速响应还是深度思考。

简单任务

极速响应,节省 Token 成本。

复杂任务

自动调用思维链,甚至在后台生成多个子 Agent 分工协作。

实测中,要求 Opus 4.6"设计一个类似 Figma 的原型并生成代码"时,它没有直接吐出代码,而是先生成"产品经理 Agent"梳理需求,再生成"UI 设计师 Agent"和"前端工程师 Agent"进行交互。这种原生多智能体协作能力,让它在处理复杂工程任务时的可用性大幅提升。

为什么会被 GPT-5.3 Codex 反超?

Opus 4.6 这么强,为什么风头还是被 OpenAI 抢走了?

纯代码能力的差距

在 Terminal-Bench 2.0 等纯编程基准测试中,GPT-5.3 Codex 拿下 75.1% 的高分,超出 Opus 4.6 的 69.9% 整整 5 个百分点。对只在乎代码健壮性的程序员来说,GPT-5.3 Codex 依然是首选。

速度权衡

OpenAI 的新模型在推理速度上优化得更激进,而 Opus 4.6 为了保证长上下文的准确性,在处理超长任务时略显迟缓。这反而在某种程度上拉近了两者之间的速度差距。

价格因素

Opus 4.6 维持了 $5/$25(每百万 Token)的定价,但使用 1M 上下文或 Fast Mode 后,Token 消耗量会成倍增加,实际成本甚至比前代 Opus 4.5 更高。

Arena.ai 权威排名揭晓

争论持续了两天。2 月 7 日,Arena.ai 给出了答案。

Arena.ai 的排名显示,Opus 4.6 在代码、文本、专家三大竞技场全部登顶第一:

  • 代码竞技场:比前代 Opus 4.5 暴涨 106 分。
  • 文本竞技场:得分 1496,压过 Gemini 3 Pro。
  • 专家竞技场:领先第二名约 50 分,断层式领先。

在数以万计的真实人类盲测中,Opus 4.6 是那个让你最想点赞的模型。

总结:生产力工具的分化

霸榜不到半小时,不代表 Opus 4.6 失败了。AI 赛道正在发生明显的专业性分化:

Claude Opus 4.6

如果你在做快速原型开发、Vibe-coding、结对编程,或需要在协作会议中实时生成代码和方案,Opus 4.6 的响应速度和快速迭代能力让它成为最佳搭档。它不会让你在白板前等待,而是跟上你的思维节奏。

OpenAI GPT-5.3 Codex

如果你在处理复杂的后端架构、底层系统优化、需要深度推理的算法设计,或希望模型能独立完成一整块工作而不频繁打断你,GPT-5.3 Codex 的"慢工出细活"特性反而是优势。它会花更多时间思考,但交付的代码质量和系统性更强。

Opus 4.6 是你的"快速响应型队友",Codex 5.3 是你的"深度专业型外包"。

更聪明的做法是:不要选边站队,而是让它们各司其职。前期快速验证想法时用 Opus 4.6 冲刺,需要打磨细节和处理复杂逻辑时切换到 Codex 5.3。甚至可以加上 Gemini 3 Pro 形成三角互证——三个模型的答案相互对照,通过差异看到盲区,通过共识获得信心。

在这个 AI 疯狂迭代的 2026 年,榜单排名的更替可能只需要几分钟,但真正的生产力提升,来自于理解每个工具的节奏,并让它们在正确的场景下发挥作用。

你的下一个开发流程,可能不是选一个模型,而是编排一支 AI 团队。

Share this article