系统极客一直在努力
专注操作系统及软件使用技能

Claude Opus 4.5 发布:力压 GPT-5.1 和 Gemini 3,重夺编程王座

Anthropic

Anthropic 旗舰模型迎来重磅升级——Claude Opus 4.5 正式发布!官方将它定义为「迄今为止最智能的模型」,并特别强调了在代码生成领域的统治级表现:

  • 在权威的 SWE-Bench Verified 测试中,Opus 4.5 斩获了 80.9% 的惊人准确率;
  • 这个成绩不仅刷新了榜单纪录,更一举超越了 OpenAI 的 GPT-5.1-Codex-Max 和 Google 刚发布的 Gemini 3,成功夺回了「编程王座」。

除了性能封顶,Anthropic 这次在价格上也拿出了极大的诚意。Opus 4.5 的 API 调用成本大幅跳水:

  • 输入价格降至每百万 Token 5 美元,输出价格降至 25 美元,相比之前的输入 15 美元/输出 75 美元,降幅高达三分之二;
  • 此外,订阅用户在使用 Opus 4.5 时,也将获得更宽裕的使用额度。

跑分之战:术业有专攻

在 AI 领域,2025 年 11 月堪称「疯狂一月」。OpenAI 接连推出 GPT-5.1 与 GPT-5.1-Codex-Max,Google 也迅速回应,发布了 Gemini 3 和广受好评的 Nano Banana Pro 图像模型。尤其是 Gemini 3,在社交媒体上疯狂刷屏,市场口碑也一路飙升。

与 Google 的多点开花不同,Anthropic 始终保持着一种「极客式」的执着——从未涉足图像处理或视频生成领域,而是持续深耕编程与生产力场景。Opus 4.5 同样也延续了这一基因:

  • 在生成文档、电子表格和演示文稿时,不仅能保持高度一致性,更展现出「专业的打磨感与领域感知力」。
  • 当然,编程依然是 Claude 系列的王牌。尽管基准测试未必能完全反映真实世界的体验,但从纸面数据上来看,Opus 4.5 确实展现了对竞争对手的全方位碾压。
Claude Opus 4.5 SWE-Bench Verified
Claude Opus 4.5 SWE-Bench Verified

为验证新模型的实战含金量,Anthropic 让 Opus 4.5 参加了公司内部「性能工程师」岗位的招聘测试。该测试纯粹考察技术硬实力,限时两小时。结果令人咋舌:Opus 4.5 的得分,击败了 Anthropic 历史上所有人类求职者。

丰俭由人:新增「推理强度」参数

Claude Opus 4.5 引入了一项名为「Effort」(推理强度)的新参数,提供了低(Low)、中(Medium)、高(High)三档选项。开发者可以根据任务复杂度,精准调控模型投入的推理时间与 Token 消耗:

  • 中档(Medium):在 SWE-Bench Verified 测试中,性能与 Sonnet 4.5 持平,但 Token 消耗减少了 76%;
  • 高档(High):性能超越 Sonnet 4.5,但 Token 消耗只有它的一半左右。

OpenAI 在发布 Codex-Max 时,也强调了类似的效率优化,这种「降本增效」的趋势正在成为行业共识。此外,Opus 4.5 在视觉推理和数学能力上,相较 Opus 4.1 及家族其他成员也有了长足进步。

Claude Opus 4.5 Evals
Claude Opus 4.5 Evals

计算机操作能力:迈向自动化新阶段

Anthropic 表示,Opus 4.5 是其当前执行「计算机操作」(Computer Use)能力最强的模型。为了方便用户亲自体验,官方已向所有 Claude Max 订阅用户开放 Chrome 扩展程序的访问权限。

平心而论,当前「AI 操控电脑与浏览器」的技术还处于「婴儿期」,实际体验常显迟缓且易出错。但 Anthropic 正试图通过 Opus 4.5,将这一能力推向新高度——其内部测试分数远超前代产品。

  • 此前,Anthropic 产品线曾一度陷入尴尬局面——中端 Sonnet 模型的最新版本频频在性能上碾压老款旗舰 Opus 4.1,导致用户缺乏升级动力。
  • Opus 4.5 的发布成功扭转了这一倒挂现象,重新确立了清晰的「三足鼎立」产品阶梯——轻量级 Haiku、中坚力量 Sonnet 4.5,以及旗舰 Opus 4.5,三者分别覆盖了从轻量到重度的不同使用场景。

开发者平台:Plan Mode 升级

为了配合新模型上线,Claude 开发者平台也迎来了两项关键更新:

  1. Claude Code「计划模式」升级:能针对问题解决或功能开发,生成更精准的执行计划,并在执行过程中更严格地遵循该计划,显著减少「跑偏」现象;
  2. 桌面端支持:如果你在使用 Claude 桌面应用,现在可直接在本地或云端环境中启动 Claude Code 编程任务。这意味着,开发者能并行运行多个本地与远程的 Claude Code 会话,大幅提升工作流效率。

赞(0)
分享到

评论 抢沙发