系统极客一直在努力
专注操作系统及软件使用技能

OpenAI 推出 o1-preview 和 o1-mini 高级推理模型

经过漫长的等待,OpenAI 终于在 ChatGPT 和 API 中推出了全新的 AI 模型——「o1」系列。这些新模型在生成回应前会进行更深层次的思考,在处理复杂任务时,尤其是在科学、编程和数学等领域上,展现了更强的推理能力,比之前的模型表现更加优异。

「o1」系列模型包含了 OpenAI o1、o1-preview 和 o1-mini 三种版本。现在,ChatGPT Plus 的付费用户可以抢先体验 o1-preview 和 o1-mini 模型,而 o1-mini 模型很快也会对免费用户开放使用。

OpenAI o1 如何工作?

OpenAI 采用了模仿人类思考过程的创新训练方法。新模型在生成回答前,会花费更多时间进行深度思考。这种训练方式让模型能够优化自身的思维流程,尝试不同的解题策略,并且具备识别和纠正错误的能力。

  • 新模型在物理、化学和生物学等复杂领域的基准测试中,达到了接近博士生的水平。
  • 特别是在数学和编程方面表现突出。例如,在国际数学奥林匹克 (IMO) 测试中,GPT-4o 的正确率仅为 13%,而新的推理模型则达到了 83% 的高正确率。
  • 在编程能力上,新模型也经过了严格的测试,在 Codeforces 编程竞赛中的排名进入了前 11%。要了解更多技术细节,可以参考 OpenAI 的技术研究文章

作为早期版本,o1 系列目前还不具备 ChatGPT 的一些实用功能,比如浏览网页获取信息、上传文件或处理图像等。因此,在许多日常应用场合下,GPT-4o 在短期内可能更加实用。

安全性

在研发新模型的过程中,OpenAI 引入了一种创新的安全训练方法。这种方法利用了模型的推理能力,确保它们能够严格遵循安全和一致性指南。通过在具体情境中推理安全规则,模型能够更加灵活和有效地执行这些规则。

在最严格的「越狱」测试中,GPT-4o 的得分仅有 22 分(满分 100 分),而新的 o1-preview 模型则获得了 84 分的高分,这展示了新模型在安全性上的重大提升。要了解更多详细信息,可以查看 OpenAI 的系统卡研究文章

为了配合新模型的能力,OpenAI 加强了安全工作、内部治理,并增进了与政府的合作。具体措施包括:

  • 进行严格的测试和评估
  • 采纳 Preparedness Framework
  • 执行顶尖的红队测试
  • 建立由安全与安保委员会监督的董事会审查流程

此外,为了促进 AI 的安全发展,OpenAI 还与美国和英国的人工智能安全机构签订了正式协议,允许这些机构提前接触模型的研究版本。

OpenAI o1-mini

o1 系列模型在生成和调试复杂代码方面表现出色。为了更好地满足开发者对高效解决方案的需求,OpenAI 特别推出了 OpenAI o1-mini。这款经过优化的推理模型不仅运行速度快,而且使用成本低,非常适合处理编程相关的任务。

o1-mini 的主要特点如下:

  • 性能优化:作为 o1 系列的轻量版本,o1-mini 保持了高质量的输出,同时大大提高了响应速度。
  • 成本效益:相比 o1-preview,o1-mini 的使用成本降低了 80%。
  • 编程专长:o1-mini 在编码任务上表现突出,可以为开发者提供高效的代码生成和调试支持。
  • 灵活应用:尽管体积较小,但在需要推理能力的任务中,o1-mini 依然能发挥重要作用。

对于需要 AI 辅助进行复杂推理,特别是在编程领域,同时又希望降本增效的用户来说,o1-mini 是一个理想的选择。

如何使用 OpenAI o1

ChatGPT Plus 和 Team 用户

  • 可以在 ChatGPT 中手动选择 o1-preview 和 o1-mini 模型。
  • 每个用户消息限额为:o1-preview 每周 50 条,o1-mini 每天 50 条。

API 调用

  • 需要 Tier 3 及更高订阅等级才能通过 API 使用这两个模型:
模型输入价格(每百万 token)输出价格(每百万 token)RPM(Tier 5)RPM(Tier 4)RPM(Tier 3)
o1-preview$15.00$60.0010000100005000
o1-mini$3.00$12.0030000100005000

目前,这些模型的 API 尚不支持函数调用、流式传输、系统消息等功能。

赞(1) 赞赏

评论 抢沙发

微信赞赏