系统极客一直在努力
专注操作系统及软件使用技能

GPT-5.4 重磅发布:为专业工作流而生

OpenAI

GPT-5.4 正式发布!它是 OpenAI 迄今为止,在专业办公领域能力最强、效率最高的前沿模型。与此同时,为了满足复杂任务对极致性能的需求,ChatGPT 和 API 还同步推出了 GPT-5.4 Pro。

GPT-5.4 是逻辑推理、代码编写与 AI 智能体工作流的集大成者。它不仅继承了 GPT-5.3-Codex 领先业界的编程能力,还大幅优化了在各类工具、软件环境,以及表格、演示文稿、文档处理等专业场景下的表现。

简单来说,它能以极高的准确度与效率,一次性交付符合预期的成果,帮你告别反复沟通与返工操作。

在 ChatGPT 中

  • GPT-5.4 Thinking 现已支持前置输出「思考计划」,还能在生成回复的过程中「中途调整方向」——无需多轮对话,即可输出完美契合需求的结果。
  • 它还进一步强化了「深度网络搜索」能力,在处理需要长时间推理的追问时,展现出了更强的上下文维持能力。

在 Codex 和 API 端

  • GPT-5.4 是 OpenAI 首个具备原生顶尖「计算机操作能力」(Computer-use)的通用模型,赋予了 AI 智能体直接操控电脑、跨应用执行复杂工作流的能力。
  • 提供高达 100 万 Token 的上下文支持,让 AI 智能体能在超长周期内,从容完成任务规划、执行与验证。
  • 新增的「工具搜索」机制,优化了模型在庞大工具生态与连接器中的协作表现。能帮助 AI 智能体在不牺牲「智能度」的前提下,高效定位并调用最合适的工具。
  • 除此之外,它还是 OpenAI 迄今为止「Token 利用率」最高的推理模型。面对同类问题时,Token 消耗要远低于 GPT-5.2,不仅极大降低了使用成本,更带来了飞一般的响应速度。
GPT-5.4GPT-5.3-CodexGPT-5.2
GDPval83.0%70.9%70.9%
SWE-Bench Pro57.7%56.8%55.6%
OSWorld-Verified75.0%74.0%*47.3%
Toolathlon54.6%51.9%46.3%
BrowseComp82.7%77.3%65.8%

凭借在通用推理、编程和专业知识型工作上的全面进化,GPT-5.4 在 ChatGPT、API 和 Codex 全平台,为开发者带来了更可靠的 AI 智能体、更迅捷的开发工作流,以及更高质量的输出成果。

GPT-5.4 主要更新

知识型工作

基于 GPT-5.2 扎实的通用推理底座,GPT-5.4 在专业人士最看重的「现实任务」中,交出了一份更稳定、更出色的答卷。

  • 在 GDPval 测试中,GPT-5.4 刷新了行业天花板。它在 83.0% 的对比场景中打平或超越了人类资深专家,前代 GPT-5.2 的成绩仅为 70.9%。

GDPval:涵盖 44 个职业,旨在评估 AI 智能体高质量知识型工作的产出能力。

GDPval 知识工作任务
GDPval 知识工作任务

OpenAI 投入了大量资源,重点提升了 GPT-5.4 创建与编辑表格、演示文稿、文档的能力。

  • 在一项模拟初级投行分析师「电子表格建模」任务的内部基准测试中,GPT-5.4 获得了 87.3% 的平均分,大幅领先于 GPT-5.2 68.4% 的成绩。
  • 在演示文稿专项评估中,人类评估员在 68.0% 的场景下更青睐 GPT-5.4 的作品。核心原因是:它拥有更优秀的美学设计、更丰富的视觉多样性,以及对图像生成能力的出色运用。

目前,你可以在 ChatGPT 中切换到 GPT-5.4 Thinking 或 Pro 模式,来体验这些强悍功能。企业版用户强烈推荐同步上线的「ChatGPT for Excel 插件」。此外,官方对 Codex 和 API 中的表格、幻灯片处理能力,也完成了全面升级。

为了让 GPT-5.4 真正成为现实场景中的工作利器,OpenAI 在降低模型幻觉、减少事实错误上持续发力,是有史以来最严谨求实的模型:

  • 在用户标记为「存在事实错误」的脱敏提示词数据集中,相比 GPT-5.2,GPT-5.4 单条陈述的出错概率降低了 33%,整体回复包含错误的概率也下降了 18%。

计算机操作与视觉感知

作为 OpenAI 首个内建原生「计算机操作」(Computer-use)能力的通用模型,GPT-5.4 为开发者和 AI 智能体带来了关键性突破。对于想要构建可在真实环境中跨网页、跨软件系统执行任务的 AI 智能体而言,它无疑是当下最可靠的选择。

GPT-5.4 经过专项优化,可以轻松应对各类计算机操作任务:

  • 它不仅精通代码编写,还能通过 Playwright 等自动化库操控计算机,更能根据屏幕截图,精准发出鼠标和键盘指令。
  • 依托极强的可控性,开发者可通过提示词微调模型行为,让它完美适配特定业务逻辑。甚至还能自定义确认策略,在不同风险容忍度下,动态调整模型的安全边界。

在多项衡量计算机操作能力的基准测试中,GPT-5.4 的表现十分亮眼:

  • 在 OSWorld-Verified 测试中,它以 75.0% 的成功率,大幅领先 GPT-5.2 47.3% 的成绩,还一举超越了 72.4% 的人类基准水平。

OSWorld-Verified:通过截图和键鼠操作,评估模型桌面环境导航能力的测试。

  • 在 WebArena-Verified 浏览器操作测试中,GPT-5.4 结合 DOM 与截图驱动交互,取得了 67.3% 的成功率(GPT-5.2 为 65.4%)。
  • 在同样考察浏览器操作能力的 Online-Mind2Web 测试中,它仅凭截图观察,就交出了 92.8% 的惊艳成绩,远超 ChatGPT Atlas 智能体模式 70.9% 的表现。
OSWorld-Verified
OSWorld-Verified

GPT-5.4 计算机操作能力的飞跃,核心源于其通用视觉感知能力的全面进化:

  • 在 MMMU-Pro 视觉理解与推理评测中,即便不调用外部工具,GPT-5.4 也取得了 81.2% 的成功率,稳稳压过了 GPT-5.2 79.5% 的成绩。
  • 在 OmniDocBench 测试中,即便不启用 Thinking 模式,GPT-5.4 的平均错误率也已降到了 0.109,明显优于 GPT-5.2 的 0.140。
MMMU-Pro(no tools)
MMMU-Pro(no tools)
OmniDocBench
OmniDocBench

之外,针对高度依赖画面细节的密集型、高分辨率图像任务,OpenAI 进一步拉高了视觉理解的能力上限:

  • 从 GPT-5.4 开始,API 新增了original图像输入细节级别,最高支持 1024 万总像素,或单边最大 6000 像素的全保真感知。
  • 原有的high细节级别也完成了升级,现在支持 256 万总像素,或单边最大 2048 像素。
  • 在早期用户测试中,开启originalhigh细节模式后,模型在目标定位、图像理解、点击精准度等方面,均展现出了显著的性能提升。

代码编写

GPT-5.4 将 GPT-5.3-Codex 领先业界的编程能力,与顶尖的知识型工作、计算机操作能力深度融合。在面对长周期开发任务时,模型能更自如地调用工具、迭代代码,在极少人工干预的情况下,持续推进项目。

在 SWE-Bench Pro 测试中,它不仅追平,甚至小幅超越了 GPT-5.3-Codex,还在推理过程中保持了更低的延迟。

SWE-Bench Pro(public)
  • 在 Codex 中启用/fast模式后,GPT-5.4 的 Token 生成速度最高可提升 1.5 倍。内核能力与智能水平毫无缩水,实现了纯粹的速度飞跃。
  • 这意味着,开发者在编码、迭代与调试时,能获得更流畅的体验,思路不再被打断。API 用户也可通过「优先处理」机制,获得同等的极速响应。

GPT-5.4 尤其擅长处理复杂的前端任务,其输出在美学设计与功能完整性上,均远超 OpenAI 此前发布的模型。

工具调用

有了 GPT-5.4,模型与外部工具的协同方式也迎来了质的飞跃。现在,AI 智能体能在更庞大的工具生态中自如穿梭,更精准地挑选所需工具,以更低的成本和延迟完成「多步工作流」。

工具搜索

在 API 端,GPT-5.4 引入了全新的「工具搜索」机制。面对海量可用工具,该机制能让模型始终保持极高的运行效率。

  • 在过去,为模型配置工具时,必须在初始提示词中塞入所有工具定义。对于工具繁多的系统来说,这种做法不仅会在每次请求中强加成千上万的 Token——推高成本、拖慢响应速度,还会让上下文被大量(模型可能永远用不到的)信息填满。
  • 而现在,GPT-5.4 只需接收一份轻量级的「可用工具列表」,同时启用「工具搜索」能力即可。当模型需要用到某个工具时,会(在当下)精准调取该工具的完整定义,并将其动态追加到当前对话上下文中。

这种「按需加载」的策略,大幅削减了重度工具工作流所需的 Token 消耗,同时保留了上下文缓存空间——让请求更快、使用成本更低。更重要的是,它让 AI 智能体能毫无压力地接入超大规模工具生态。比如,对于包含数万 Token 工具定义的 MCP 服务器来说,这种效率提升堪称颠覆性。

为验证该机制的实际效果,OpenAI 在 Scale 的 MCP Atlas 基准测试中抽取了 250 个任务,并启用了全部 36 个 MCP 服务器,对比了以下两种模式:

  1. 将所有 MCP 函数直接暴露在模型上下文中。
  2. 将所有 MCP 服务器置于「工具搜索」之后。

结果显示,在准确率完全一致的前提下,工具搜索将整体 Token 消耗硬生生降低了 47%。

工具搜索 Token 节省示例
工具搜索 Token 节省示例

智能体级工具调用

GPT-5.4 进一步优化了「工具调用」机制,API 端的提升尤为显著:

  • 在推理过程中决定何时、如何调用工具时,表现变得更加精准高效。
  • 在 Toolathlon 测试中, 相比 GPT-5.2,GPT-5.4 以更少的交互轮数,实现了更高的准确率。

举个例子,当你要求 AI 智能体完成邮件读取、提取附件、上传文件、内容评分,再将成绩录入电子表格的全流程任务时,GPT-5.4 能行云流水般的一气呵成。

Toolathlon

Toolathlon:综合评测 AI 智能体利用真实世界工具和 API 完成多步任务能力的基准测试。

Toolathlon
Toolathlon
  • 对延迟极其敏感、倾向于关闭推理过程的业务场景,GPT-5.4 同样比前代取得了显著进步。
𝜏²-bench Telecom(without reasoning)
𝜏²-bench Telecom(without reasoning)

网络搜索再进化

GPT-5.4 是一款自主性更强的「网络搜索捕手」。在 BrowseComp 测试中,对比 GPT-5.2,GPT-5.4 实现了 17% 的绝对值跃升,而 GPT-5.4 Pro 更是以 89.3% 的成绩创下了全新纪录。

BrowseComp:衡量 AI 智能体持续浏览网页、挖掘极难获取信息能力的测试。

在实际体验中这意味着,当你抛出需要从海量网络信息中抽丝剥茧的问题时,GPT-5.4 Thinking 能展现出更强的掌控力。它极具耐心,能跨多轮持续搜寻并锁定最相关的信源。尤其在面对「大海捞针」般的棘手问题时,它能条理清晰地整理信息,最终输出一份逻辑严密、论证清晰的高质量答案。

BrowseComp
BrowseComp

可控性与操纵感

  • 正如 Codex 在开工前会先列出解题思路一样,ChatGPT 中的 GPT-5.4 Thinking 在面对冗长、复杂的指令时,也会先输出一段「前言」,清晰梳理工作计划。更关键的是,你可以在模型「生成回复的中途」,直接追加指令或强行干预思考方向。

这就彻底告别了以往「推倒重来」或「反复追问数十轮」的低效窘境,让你能实时引导模型,精准输出你要的理想答案。

  • 此外,在处理硬核任务时,GPT-5.4 能进行更深层次的长时间思考,并对对话早期的每一处细节,都保持着超强的记忆感知。在面对超长工作流或重度提示词时,它能始终维持逻辑一致性,以及内容的高度相关性。

GPT-5.4 使用与定价

从现在起,GPT-5.4 正在 ChatGPT 和 Codex 中逐步推送;在 API 侧,开发者已经可以调用gpt-5.4完成接入,gpt-5.4-pro也已在 API 中同步上线。

  • 在 ChatGPT 中,GPT-5.4 Thinking 现已对 Plus、Team 和 Pro 用户开放,正式接棒 GPT-5.2 Thinking。GPT-5.4 Pro 则专属开放给 Pro 与 Enterprise 计划用户。GPT-5.4 Thinking 在 ChatGPT 中的上下文窗口限制,与之前的 GPT-5.2 Thinking 完全保持一致。

GPT-5.2 Thinking 将在 2026 年 6 月 5 日正式退役。

  • Codex 中的 GPT-5.4 新增了 1M 上下文窗口的实验性支持。开发者可通过配置model_context_windowmodel_auto_compact_token_limit提前尝鲜。

当请求超出标准的 272K 上下文窗口时,超出部分将按正常消耗率的 2 倍计费。

API 模型输入价格缓存输入价格输出价格
gpt-5.2$1.75/M Token$0.175 / 100万 Token$14 / 100万 Token
gpt-5.4$2.50/M Token$0.25 / 100万 Token$15 / 100万 Token
gpt-5.2-pro$21/M Token$168 / 100万 Token
gpt-5.4-pro$30/M Token$180 / 100万 Token

GPT-5.4 核心能力评估

专业场景

测试基准GPT-5.4GPT-5.4ProGPT-5.3-CodexGPT-5.2GPT-5.2Pro
GDPval83.0%82.0%70.9%70.9%74.1%
FinanceAgent v1.156.0%61.5%54.0%59.5%
Investment Banking Modeling Tasks (Internal)87.3%83.6%79.3%68.4%71.7%
OfficeQA68.1%65.1%63.1%

代码编写

测试基准GPT-5.4GPT-5.4ProGPT-5.3-CodexGPT-5.2GPT-5.2Pro
SWE-Bench Pro57.7%56.8%55.6%
Terminal-Bench 2.075.1%77.3%62.2%

计算机操作与视觉感知

测试基准GPT-5.4GPT-5.4ProGPT-5.3-CodexGPT-5.2GPT-5.2Pro
OSWorld-Verified75.0%74.0%47.3%
MMMU Pro(禁用工具)81.2%79.5%
MMMU Pro(启用工具)82.1%80.4%

工具调用

测试基准GPT-5.4GPT-5.4ProGPT-5.3-CodexGPT-5.2GPT-5.2Pro
BrowseComp82.7%89.3%77.3%65.8%77.9%
MCP Atlas67.2%60.6%
Toolathlon54.6%51.9%45.7%
Tau2-bench Telecom98.9%98.7%

学术研究

测试基准GPT-5.4GPT-5.4ProGPT-5.3-CodexGPT-5.2GPT-5.2Pro
Frontier Science Research33.0%36.7%25.2%
FrontierMath(Tier 1–3)47.6%50.0%40.7%
FrontierMath(Tier 4)27.1%38.0%18.8%31.3%
GPQA Diamond92.8%94.4%92.6%92.4%93.2%
Humanity’s Last Exam(禁用工具)39.8%42.7%34.5%36.6%
Humanity’s Last Exam(启用工具)52.1%58.7%45.5%50.0%

超长上下文

测试基准GPT-5.4GPT-5.4ProGPT-5.3-CodexGPT-5.2GPT-5.2Pro
Graphwalks BFS(0K–128K)93.0%94.0%
Graphwalks BFS(256K–1M)21.4%
Graphwalks parents 0–128K(准确率)89.8%89.0%
Graphwalks parents 256K–1M(准确率)32.4%
OpenAI MRCR v2 8-needle 4K–8K97.3%98.2%
OpenAI MRCR v2 8-needle 8K–16K91.4%89.3%
OpenAI MRCR v2 8-needle 16K–32K97.2%95.3%
OpenAI MRCR v2 8-needle 32K–64K90.5%92.0%
OpenAI MRCR v2 8-needle 64K–128K86.0%85.6%
OpenAI MRCR v2 8-needle 128K–256K79.3%77.0%
OpenAI MRCR v2 8-needle 256K–512K57.5%
OpenAI MRCR v2 8-needle 512K–1M36.6%

抽象推理

测试基准GPT-5.4GPT-5.4ProGPT-5.3-CodexGPT-5.2GPT-5.2Pro
ARC-AGI-1(Verified)93.7%94.5%86.2%90.5%
ARC-AGI-2(Verified)73.3%83.3%52.9%54.2%(high)

无推理干预测试

测试基准GPT-5.4(无推理)GPT-5.2(无推理)GPT-4.1
OmniDocBench(归一化编辑距离)0.1090.140
Tau2-bench Telecom64.3%57.2%43.6%
赞(0)
分享到

评论 抢沙发