系统极客一直在努力
专注操作系统及软件使用技能

OpenAI 发布 GPT-5-Codex:为编程而生的新一代 AI 模型

GPT-5-Codex

OpenAI 正式发布 GPT-5-Codex!它是 GPT-5 的一个特殊版本,专为在 Codex 环境中执行 AI 智能体编码任务而深度优化。

GPT-5-Codex 的训练重点放在了解决现实世界的软件工程难题上:无论是需要快速响应的交互式对话,还是需要独立完成的长期复杂任务,它都能轻松应对。同时,它还具备强大的代码审查能力,能在代码部署前,精准发现关键漏洞。

现在,只要你使用 Codex,就能体验到 GPT-5-Codex 的强大能力——它已经成为云端任务和代码审查的默认模型。开发者也可以通过 Codex CLI 和 IDE 插件,在本地任务中使用。

深入了解 GPT-5-Codex

GPT-5-Codex 是 GPT-5 的一个特别优化版本,专为在 Codex 中进行 AI 智能体软件工程而设计。

  • 它的训练数据来自大量复杂、真实的工程任务,涵盖了从零开始构建完整项目、添加功能与测试、调试、执行大规模重构,以及进行代码审查等各种场景。
  • 它也更易于引导,能更好地遵循 AGENTS.md 指令,并生成更高质量的代码——只需告诉它你的需求,就无需再为编码风格或代码整洁度编写一大堆指令。
SWE-bench 验证 (n=500)
SWE-bench 验证 (n=500)
代码重构任务
代码重构任务

GPT-5-Codex 能够根据任务复杂度,动态调整「思考」时间,并融合了 AI 智能体所需的两项核心技能:

  • 既能在交互式对话中同开发者结对编程,也能在执行长期任务时独立运行。这意味着,对于简单请求或日常聊天,Codex 的响应会更加敏捷;
  • 而面对大型重构等复杂任务时,它会投入更多时间进行深度工作。在测试期间,GPT-5-Codex 在处理大型复杂任务时,能独立工作超 7 小时,期间不断迭代方案、修复测试失败,并最终成功交付。

根据 OpenAI 内部员工的使用数据,按模型生成的 Token 数量(包括隐藏的推理过程和最终输出)排序:

  • 对于后 10% 的用户交互轮次,GPT-5-Codex 使用的 Token 数量比 GPT-5 少了 93.7%;
  • 而面对前 10% 的复杂交互,GPT-5-Codex 会投入更多精力,花费 2 倍时间进行推理、编辑、测试代码和迭代。
OpenAI 员工使用 Codex CLI 的流量
OpenAI 员工使用 Codex CLI 的流量

GPT-5-Codex 专为执行代码审查和发现关键缺陷而训练。在审查代码时,它会浏览你的代码库,梳理依赖关系,并运行代码和测试,来验证其正确性。

OpenAI 基于主流开源仓库的近期提交,对它的代码审查能力进行了评估。在评估中,邀请了经验丰富的软件工程师对审查建议的正确性和重要性打分。结果发现,GPT-5-Codex 提出的审查建议中,错误或无关内容的比例更低,能帮助用户更加专注于关键问题。

错误评论
错误评论
高影响力评论
高影响力评论
每个 PR 的平均评论数
每个 PR 的平均评论数

在前端开发任务上,GPT-5-Codex 不仅能创建美观的桌面应用,构建移动端网站的表现也显著提升。在云端环境中工作时,它可以接收你提供的图片或屏幕截图作为输入,直观地检查自己的工作进展,并向你展示完成后的效果截图。


总的来说,GPT-5-Codex 是为 Codex CLI、Codex IDE 插件、Codex 云端环境,以及 GitHub 工作流程量身打造,并支持灵活的工具调用。与 GPT-5 通用大模型不同,建议仅在 Codex 或类似环境中使用 GPT-5-Codex,来执行 AI 智能体编码任务。

赞(0)
分享到

评论 抢沙发