免费体验 GPT-4o 和 GPT-4o mini：OpenAI 最新全能模型

OpenAI 在 5 月 13 日的春季更新活动中，推出了基于 GPT-4 和 GPT-4 Turbo 的最新迭代模型——GPT-4o。该模型完全免费，速度更快，成本更低，效果更胜以往任何版本。OpenAI 技术总监 Mira Murati 表示，GPT-4o 的速度快到可以直接用麦克风进行语音对话。

GPT-4o 中的「o」代表「全能」（omni），突出了它处理多模态输入的能力。它不仅可以处理语音、视频、图像，还大幅提升了对非英语语言的支持，包括中文、韩语、俄语、阿拉伯语等。

GPT-4o

GPT-4o 为所有用户（包括免费用户）带来了 GPT-4 级别的智能体验。这意味着，免费用户将逐步获得比 GPT-3.5 更高级的版本。作为 OpenAI 的新旗舰模型，GPT-4o 是迄今为止最优秀的 GPT 模型，运行速度更快，功能全面提升，几乎适用于所有场景。

GPT-4o 的上下文窗口比 GPT-4 和 GPT-3.5 都要大：

GPT-4 Turbo 的上下文窗口是 128K Token，最大响应 Token 长度为 4096。
早期报告显示，GPT-4o 的输出 Token 限制减半至 2048；但 OpenAI 表示，它的上下文窗口为 128K Token，知识截止日期为 2023 年 10 月。

OpenAI 表示，GPT-4o 将会加入到 API 中，并公布了一些初步数据：GPT-4o 的速度是 GPT-4 Turbo 的两倍，成本降低了 50%（每百万个令牌 7 美元），并且支持每分钟高达 1000 万个Token，速率限制提高了五倍。

GPT-4o 最大的改进在于多模态使用，它结合了视觉和声音，能够与用户进行积极的对话。OpenAI 演示了如何与 GPT-4o 对话，以及它如何识别情感、帮助解决数学方程等。

GPT-4o mini

GPT-4o mini 是 OpenAI 最具成本效益的小型模型，可以让 AI 技术变得更加经济实惠。GPT-4o mini 在多任务语言理解（MMLU）测试中得分达到 82%，目前在 LMSYS 排行榜（偏聊天方面）表现甚至要优于 GPT-4。它的价格为每百万输入 Token 15 美分，每百万输出 Token 60 美分，比之前的前沿模型又便宜了一个数量级，比 GPT-3.5 Turbo 便宜超过 60%。

目前，GPT-4o mini 在 API 中支持文本和视觉输入，未来还将支持文本、图像、视频和音频的输入和输出。该模型拥有 128K Token 的上下文窗口，每次请求支持最多 16K 输出 Token，知识截止到 2023 年 10 月。得益于与 GPT-4o 共享的改进版分词器，处理非英语文本现在更具成本效益。

预测输出

OpenAI 最近为开发者推出了一项重磅新功能——「预测输出」 (Predicted Outputs)。这项技术主要解决了大语言模型最为棘手的问题之一：响应延迟。

通过采用推测解码技术，GPT-4o 和 GPT-4o-mini 模型能够智能跳过已知的文本片段，从而在代码编辑、文档更新等实际应用场景中，显著提升响应速度。

根据微软的内部测试数据，这项技术让 Copilot Workspace 的运行速度提升了惊人的 5.8 倍。这种速度的提升不仅仅是数字上的改进，更能从根本上改变用户的工作方式。特别是在那些对延迟极其敏感的场景中，即便是微小的延迟也可能显著影响工作效率。作为这项突破的核心，推测解码技术通过预先处理文本中的已知部分，让大语言模型能够更高效地完成任务。

GPT-4o-2024-08-06：结构化输出的革新

GPT-4o-2024-08-06 作为 GPT-4o 模型的子集，为开发者带来了一项革新性功能：通过结构化输出（如 JSON Schema）来显著提高生产力。

该模型版本聚焦于一个核心需求：简化 AI 模型生成结构化输出的过程。通过结构化输出，开发者可以直接指定所需的输出格式，定义 JSON Schema，从而简化数据生成流程，实现与其他系统的无缝集成，并优化用户体验。

结构化输出的两种形式：

结构化输出的两种形式

用户定义的 JSON Schema：开发者可为 AI 指定要遵循的精确 JSON Schema。支持 GPT-4o-2024-08-06 和 GPT-4o-mini-2024-07-18。
更精准的工具输出（严格模式）：这是一种简化版本，允许开发者为工具使用定义特定的函数签名。适用于所有支持函数调用的模型，包括 GPT-3.5 Turbo、GPT-4、GPT-4-Turbo 和 2023 年 6 月起的 GPT-4o 系列模型。

如何使用结构化输出

1定义 JSON Schema：确定 AI 输出需遵循的具体结构，包括必填字段、数据类型和其他约束条件。

2配置 AI 模型：在 API 调用中启用结构化输出功能，指定你的 JSON Schema，确保 AI 输出符合预定义结构。

3集成和测试：将输出整合到你的应用或系统中，并进行全面测试，确保输出完全符合你的 JSON Schema。

应用示例

假设你正在开发一个客服聊天机器人，需要生成特定格式的响应用于记录和分析。通过结构化输出，你可以定义一个包含 responseText、intent、confidenceScore和timestamp等字段的 JSON Schema。这样可以确保聊天机器人生成的每个响应都格式统一，便于后续的记录、分析和处理。

{
  "model": "gpt-4o-2024-08-06",
  "prompt": "Generate a customer support response",
  "structured_output": {
    "schema": {
      "type": "object",
      "properties": {
        "responseText": { "type": "string" },
        "intent": { "type": "string" },
        "confidenceScore": { "type": "number" },
        "timestamp": { "type": "string", "format": "date-time" }
      },
      "required": ["responseText", "intent", "confidenceScore", "timestamp"]
    }
  }
}

ChatGPT 免费版 vs. ChatGPT Plus

功能	ChatGPT 免费版	ChatGPT Plus
模型	GPT-4o GPT-4o mini GPT-3.5	GPT-4o GPT-4o mini GPT-4 GPT-3.5
互联网访问	✅	✅
文件和文档上传	✅	✅
分析数据并创建图表	✅	✅
上传和分析图像	✅	✅
访问自定义 GPT	✅	✅
创建自定义 GPT	❌	✅
探索 GPT 商店	✅	✅
内存	✅	✅
消息限制	GPT-4o 模型的查询次数限制为 10 次（取决于系统负载），每 5 小时重置一次；其余查询使用 GPT-3.5 模型。	GPT-4o 模型的查询次数是免费用户的 5 倍。
语音对话	旧语音模式	自然语音对话（即将推出）
访问即将推出的前沿模型	❌	✅

如何使用 GPT-4o 和 GPT-4o mini

从现在开始，所有用户都可以获得 GPT-4o 的访问权限。它也将在 ChatGPT Free、Plus 和 Team 版本中提供（企业版即将推出），并且会集成到 Chat Completions API、Assistants API 和 Batch API 中。

在网页上使用

目前，免费用户已能够在 ChatGPT 上访问 GPT-4o 的 GPT-4o mini 模型：

1访问 chatgpt.com 并使用你的账户登录。

2点击左上角的下拉菜单，选择「GPT-4o」。

在 Android 和 iOS 上使用

ChatGPT Plus 用户同样可以在 Android 和 iOS 上提前体验 GPT-4o 模型：

1在你的手机上安装 ChatGPT 应用（Android / iOS）。

2登录账户后，点击右上角的三点菜单，选择「GPT-4o」。

当然，免费用户在使用 GPT-4o 时会有一些限制，例如在高峰时段可能会回退到 GPT-3.5。免费用户在使用以下高级工具时也会受到限制：

数据分析
文件上传
浏览
发现和使用 GPT 模型
视觉功能

OpenAI 还指出，Plus 用户在 GPT-4o 上每三小时最多可以发送 80 条消息，在 GPT-4 上则为 40 条。如果访问需求爆炸，未来可能会减少数量。

一些受 OpenAI 信任的合作伙伴开发者，在未来几周内也将能够通过 API 调用其音频和视觉功能。你可以没事就去扫一眼 ChatGPT 账户，看看有没排到 GPT-4o 访问权限。

免费体验 GPT-4o 和 GPT-4o mini：OpenAI 最新全能模型

GPT-4o

GPT-4o mini

预测输出