
Anthropic 再次发力,正式推出了主流模型的最新版本——Claude 4.5 Sonnet,并大胆宣称它是目前全球最强的编码模型。
不仅如此,这次发布还带来了「全家桶」式的更新,包括对 Claude Code 的升级、全新的 Claude Agent SDK、一款 VS Code 扩展插件,以及其他多项新特性。
Claude Sonnet 4.5
Anthropic 表示,Claude Sonnet 4.5 在执行指令和重构代码方面表现得更加稳定可靠。在 SWE-Bench Verified 基准测试中,它的得分高达 77.2%,在并行执行模式下甚至达到 82%。
更令人惊喜的是,在某些特定领域,比如处理金融服务行业的问题时,Sonnet 4.5 的表现甚至超过了 Anthropic 自家的旗舰模型 Opus 4.1。
而在 OSWorld 基准测试中,Sonnet 4.5 更是拔得头筹,成功率达到了 61.4%。这个成绩相比上一代 Sonnet 4 的 43.9% 是一个飞跃式的进步,同时也远超 Opus 4.1(同样在 44% 左右)。
对于需要长时间运行的复杂任务,Claude Sonnet 4.5 如今可以连续运行长达 30 小时,远超 Opus 4 的 7 小时。Anthropic 官方表示,随着这次升级,Sonnet 4.5 在整个运行过程中都能「保持专注和高性能」。当然,这个说法到底靠不靠谱,还得看用户的实际使用体验。
在大多数编码类基准测试中,Sonnet 4.5 都击败了 GPT-4o 和 Gemini 2.5 Pro 等主流竞品。不过,在视觉推理类任务上,Anthropic 的模型依然稍逊一筹,没能扭转局面。

这次更新还带来了不少新功能,很多都是此前专属 Claude Code 的高级能力,比如虚拟机与内存访问、更强的上下文管理、以及多智能体支持等。
价格方面,Sonnet 4.5 的定价与前代 Sonnet 4 保持一致:每百万输入 Token 3 美元,输出 Token 15 美元。
更有趣的是,Anthropic 透露,Sonnet 4.5 是他们发布的第一款能够完全重建 Claude.ai 网站应用的模型。整个过程耗时约 5.5 小时,涉及超过 3000 次工具调用。
Claude Code 有哪些新变化?
Claude Code 编码智能体自然也同步升级到了最新模型。除此之外,还有不少值得关注的更新。
- 首先,它现在有了一个原生的 Visual Studio Code 扩展插件,开发者可以通过内联差异对比(inline diffs)实时查看 Claude Code 做了哪些修改。
- 在「终端」中,Claude Code 的状态展示也更加清晰,并新增了可搜索的提示词历史记录。
- 另一个实用功能是「检查点」机制——当 Claude Code 的操作跑偏时,开发者可以更方便地回滚到之前的状态。
Claude Agent SDK
如果你有兴趣基于 Claude Code 的底层能力来打造自己的 AI 智能体,那这次推出的 Claude Agent SDK 就值得一看。
- 这个 SDK 采用了与 Claude Code 相同的底层基础设施,但给予了开发者更大的自由度,支持构建各种类型的智能体。它提供了智能体编排、内存与上下文管理、工具调用、权限控制等一系列核心功能。
- 从 API 层面来看,开发者将获得一个内存工具,帮助智能体在执行长周期任务时保持上下文连贯。此外,Anthropic 还加入了自动上下文管理功能,让 Claude 能根据需要动态调整上下文窗口,并清理过时的数据。














最新评论
不奇怪,设计师用 Mac 很正常,微软内部也有大把员工在用 Mac。
之前邮件里收到 Microsoft 50 周年的壁纸,下载下来里面有个 __MACOSX 文件夹我也是没绷住🤓
笑死我了
电脑设置完成,但电视端找不到服务器,怎么办?