Claude Opus 4.5 发布：力压 GPT-5.1 和 Gemini 3，重夺编程王座

Anthropic 旗舰模型迎来重磅升级——Claude Opus 4.5 正式发布！官方将它定义为「迄今为止最智能的模型」，并特别强调了在代码生成领域的统治级表现：

在权威的 SWE-Bench Verified 测试中，Opus 4.5 斩获了 80.9% 的惊人准确率；
这个成绩不仅刷新了榜单纪录，更一举超越了 OpenAI 的 GPT-5.1-Codex-Max 和 Google 刚发布的 Gemini 3，成功夺回了「编程王座」。

除了性能封顶，Anthropic 这次在价格上也拿出了极大的诚意。Opus 4.5 的 API 调用成本大幅跳水：

输入价格降至每百万 Token 5 美元，输出价格降至 25 美元，相比之前的输入 15 美元/输出 75 美元，降幅高达三分之二；
此外，订阅用户在使用 Opus 4.5 时，也将获得更宽裕的使用额度。

跑分之战：术业有专攻

在 AI 领域，2025 年 11 月堪称「疯狂一月」。OpenAI 接连推出 GPT-5.1 与 GPT-5.1-Codex-Max，Google 也迅速回应，发布了 Gemini 3 和广受好评的 Nano Banana Pro 图像模型。尤其是 Gemini 3，在社交媒体上疯狂刷屏，市场口碑也一路飙升。

与 Google 的多点开花不同，Anthropic 始终保持着一种「极客式」的执着——从未涉足图像处理或视频生成领域，而是持续深耕编程与生产力场景。Opus 4.5 同样也延续了这一基因：

在生成文档、电子表格和演示文稿时，不仅能保持高度一致性，更展现出「专业的打磨感与领域感知力」。
当然，编程依然是 Claude 系列的王牌。尽管基准测试未必能完全反映真实世界的体验，但从纸面数据上来看，Opus 4.5 确实展现了对竞争对手的全方位碾压。

为验证新模型的实战含金量，Anthropic 让 Opus 4.5 参加了公司内部「性能工程师」岗位的招聘测试。该测试纯粹考察技术硬实力，限时两小时。结果令人咋舌：Opus 4.5 的得分，击败了 Anthropic 历史上所有人类求职者。

丰俭由人：新增「推理强度」参数

Claude Opus 4.5 引入了一项名为「Effort」（推理强度）的新参数，提供了低（Low）、中（Medium）、高（High）三档选项。开发者可以根据任务复杂度，精准调控模型投入的推理时间与 Token 消耗：

中档（Medium）：在 SWE-Bench Verified 测试中，性能与 Sonnet 4.5 持平，但 Token 消耗减少了 76%；
高档（High）：性能超越 Sonnet 4.5，但 Token 消耗只有它的一半左右。

OpenAI 在发布 Codex-Max 时，也强调了类似的效率优化，这种「降本增效」的趋势正在成为行业共识。此外，Opus 4.5 在视觉推理和数学能力上，相较 Opus 4.1 及家族其他成员也有了长足进步。

计算机操作能力：迈向自动化新阶段

Anthropic 表示，Opus 4.5 是其当前执行「计算机操作」（Computer Use）能力最强的模型。为了方便用户亲自体验，官方已向所有 Claude Max 订阅用户开放 Chrome 扩展程序的访问权限。

平心而论，当前「AI 操控电脑与浏览器」的技术还处于「婴儿期」，实际体验常显迟缓且易出错。但 Anthropic 正试图通过 Opus 4.5，将这一能力推向新高度——其内部测试分数远超前代产品。

此前，Anthropic 产品线曾一度陷入尴尬局面——中端 Sonnet 模型的最新版本频频在性能上碾压老款旗舰 Opus 4.1，导致用户缺乏升级动力。
Opus 4.5 的发布成功扭转了这一倒挂现象，重新确立了清晰的「三足鼎立」产品阶梯——轻量级 Haiku、中坚力量 Sonnet 4.5，以及旗舰 Opus 4.5，三者分别覆盖了从轻量到重度的不同使用场景。

开发者平台：Plan Mode 升级

为了配合新模型上线，Claude 开发者平台也迎来了两项关键更新：

Claude Code「计划模式」升级：能针对问题解决或功能开发，生成更精准的执行计划，并在执行过程中更严格地遵循该计划，显著减少「跑偏」现象；
桌面端支持：如果你在使用 Claude 桌面应用，现在可直接在本地或云端环境中启动 Claude Code 编程任务。这意味着，开发者能并行运行多个本地与远程的 Claude Code 会话，大幅提升工作流效率。

Claude Opus 4.5 发布：力压 GPT-5.1 和 Gemini 3，重夺编程王座

跑分之战：术业有专攻

丰俭由人：新增「推理强度」参数

计算机操作能力：迈向自动化新阶段

开发者平台：Plan Mode 升级

相关推荐

评论抢沙发

快讯

Qwen3-Max-Thinking 在 Qwen Chat 上线

谷歌将停用 goo.gl 短链接服务

WSUS 驱动程序同步将弃用

微软开始强制更新 Windows 11 24H2

倒数日

最近更新

随机推荐

最新评论

跑分之战：术业有专攻

丰俭由人：新增「推理强度」参数

计算机操作能力：迈向自动化新阶段

开发者平台：Plan Mode 升级

相关推荐

评论 抢沙发

快讯

Qwen3-Max-Thinking 在 Qwen Chat 上线

谷歌将停用 goo.gl 短链接服务

WSUS 驱动程序同步将弃用

微软开始强制更新 Windows 11 24H2

倒数日

最近更新

随机推荐

最新评论

评论抢沙发