系统极客一直在努力
专注操作系统及软件使用技能

Claude 4.5 Sonnet 发布,号称全球最强编码模型

Anthropic

Anthropic 再次发力,正式推出了主流模型的最新版本——Claude 4.5 Sonnet,并大胆宣称它是目前全球最强的编码模型。

不仅如此,这次发布还带来了「全家桶」式的更新,包括对 Claude Code 的升级、全新的 Claude Agent SDK、一款 VS Code 扩展插件,以及其他多项新特性。

Claude Sonnet 4.5

Anthropic 表示,Claude Sonnet 4.5 在执行指令和重构代码方面表现得更加稳定可靠。在 SWE-Bench Verified 基准测试中,它的得分高达 77.2%,在并行执行模式下甚至达到 82%。

更令人惊喜的是,在某些特定领域,比如处理金融服务行业的问题时,Sonnet 4.5 的表现甚至超过了 Anthropic 自家的旗舰模型 Opus 4.1。

而在 OSWorld 基准测试中,Sonnet 4.5 更是拔得头筹,成功率达到了 61.4%。这个成绩相比上一代 Sonnet 4 的 43.9% 是一个飞跃式的进步,同时也远超 Opus 4.1(同样在 44% 左右)。

对于需要长时间运行的复杂任务,Claude Sonnet 4.5 如今可以连续运行长达 30 小时,远超 Opus 4 的 7 小时。Anthropic 官方表示,随着这次升级,Sonnet 4.5 在整个运行过程中都能「保持专注和高性能」。当然,这个说法到底靠不靠谱,还得看用户的实际使用体验。

在大多数编码类基准测试中,Sonnet 4.5 都击败了 GPT-4o 和 Gemini 2.5 Pro 等主流竞品。不过,在视觉推理类任务上,Anthropic 的模型依然稍逊一筹,没能扭转局面。

Claude 4.5 Sonnet 数学和推理评估
Claude 4.5 Sonnet 数学和推理评估

这次更新还带来了不少新功能,很多都是此前专属 Claude Code 的高级能力,比如虚拟机与内存访问、更强的上下文管理、以及多智能体支持等。

价格方面,Sonnet 4.5 的定价与前代 Sonnet 4 保持一致:每百万输入 Token 3 美元,输出 Token 15 美元。

更有趣的是,Anthropic 透露,Sonnet 4.5 是他们发布的第一款能够完全重建 Claude.ai 网站应用的模型。整个过程耗时约 5.5 小时,涉及超过 3000 次工具调用。

Claude Code 有哪些新变化?

Claude Code 编码智能体自然也同步升级到了最新模型。除此之外,还有不少值得关注的更新。

  • 首先,它现在有了一个原生的 Visual Studio Code 扩展插件,开发者可以通过内联差异对比(inline diffs)实时查看 Claude Code 做了哪些修改。
  • 在「终端」中,Claude Code 的状态展示也更加清晰,并新增了可搜索的提示词历史记录。
  • 另一个实用功能是「检查点」机制——当 Claude Code 的操作跑偏时,开发者可以更方便地回滚到之前的状态。

Claude Agent SDK

如果你有兴趣基于 Claude Code 的底层能力来打造自己的 AI 智能体,那这次推出的 Claude Agent SDK 就值得一看。

  • 这个 SDK 采用了与 Claude Code 相同的底层基础设施,但给予了开发者更大的自由度,支持构建各种类型的智能体。它提供了智能体编排、内存与上下文管理、工具调用、权限控制等一系列核心功能。
  • 从 API 层面来看,开发者将获得一个内存工具,帮助智能体在执行长周期任务时保持上下文连贯。此外,Anthropic 还加入了自动上下文管理功能,让 Claude 能根据需要动态调整上下文窗口,并清理过时的数据。
赞(1)
分享到

评论 抢沙发