Claude 4.5 Sonnet 发布，号称全球最强编码模型

Anthropic 再次发力，正式推出了主流模型的最新版本——Claude 4.5 Sonnet，并大胆宣称它是目前全球最强的编码模型。

不仅如此，这次发布还带来了「全家桶」式的更新，包括对 Claude Code 的升级、全新的 Claude Agent SDK、一款 VS Code 扩展插件，以及其他多项新特性。

Claude Sonnet 4.5

Anthropic 表示，Claude Sonnet 4.5 在执行指令和重构代码方面表现得更加稳定可靠。在 SWE-Bench Verified 基准测试中，它的得分高达 77.2%，在并行执行模式下甚至达到 82%。

更令人惊喜的是，在某些特定领域，比如处理金融服务行业的问题时，Sonnet 4.5 的表现甚至超过了 Anthropic 自家的旗舰模型 Opus 4.1。

而在 OSWorld 基准测试中，Sonnet 4.5 更是拔得头筹，成功率达到了 61.4%。这个成绩相比上一代 Sonnet 4 的 43.9% 是一个飞跃式的进步，同时也远超 Opus 4.1（同样在 44% 左右）。

对于需要长时间运行的复杂任务，Claude Sonnet 4.5 如今可以连续运行长达 30 小时，远超 Opus 4 的 7 小时。Anthropic 官方表示，随着这次升级，Sonnet 4.5 在整个运行过程中都能「保持专注和高性能」。当然，这个说法到底靠不靠谱，还得看用户的实际使用体验。

在大多数编码类基准测试中，Sonnet 4.5 都击败了 GPT-4o 和 Gemini 2.5 Pro 等主流竞品。不过，在视觉推理类任务上，Anthropic 的模型依然稍逊一筹，没能扭转局面。

这次更新还带来了不少新功能，很多都是此前专属 Claude Code 的高级能力，比如虚拟机与内存访问、更强的上下文管理、以及多智能体支持等。

价格方面，Sonnet 4.5 的定价与前代 Sonnet 4 保持一致：每百万输入 Token 3 美元，输出 Token 15 美元。

更有趣的是，Anthropic 透露，Sonnet 4.5 是他们发布的第一款能够完全重建 Claude.ai 网站应用的模型。整个过程耗时约 5.5 小时，涉及超过 3000 次工具调用。

Claude Code 编码智能体自然也同步升级到了最新模型。除此之外，还有不少值得关注的更新。

首先，它现在有了一个原生的 Visual Studio Code 扩展插件，开发者可以通过内联差异对比（inline diffs）实时查看 Claude Code 做了哪些修改。
在「终端」中，Claude Code 的状态展示也更加清晰，并新增了可搜索的提示词历史记录。
另一个实用功能是「检查点」机制——当 Claude Code 的操作跑偏时，开发者可以更方便地回滚到之前的状态。

如果你有兴趣基于 Claude Code 的底层能力来打造自己的 AI 智能体，那这次推出的 Claude Agent SDK 就值得一看。

这个 SDK 采用了与 Claude Code 相同的底层基础设施，但给予了开发者更大的自由度，支持构建各种类型的智能体。它提供了智能体编排、内存与上下文管理、工具调用、权限控制等一系列核心功能。
从 API 层面来看，开发者将获得一个内存工具，帮助智能体在执行长周期任务时保持上下文连贯。此外，Anthropic 还加入了自动上下文管理功能，让 Claude 能根据需要动态调整上下文窗口，并清理过时的数据。