系统极客一直在努力
专注操作系统及软件使用技能

GLM-4.6V 开源:迈向原生工具调用的多模态大模型

智普AI

智谱 AI 正式开源最新一代多模态大语言模型——GLM-4.6V 系列。本次发布包含 2 个版本:

  • GLM-4.6V(106B):面向云端和高性能集群的基座模型;
  • GLM-4.6V-Flash(9B):专为本地部署和低延迟场景优化的轻量级模型。

GLM-4.6V 将上下文窗口扩展到了 128k Token,在同规模模型中实现了视觉理解与推理能力的 SoTA(State-of-the-Art)表现。

更重要的是,智谱首次为其集成了原生的**「函数调用」能力**,从根本上打通了「视觉感知」与「可执行动作」之间的壁垒,为多模态 AI 智能体在真实商业场景中的落地,提供了统一的技术底座。

原生多模态工具调用

传统大语言模型的工具调用通常依赖纯文本输入。在处理图像、视频或复杂文档时,系统往往需要多次中间转换——这一过程不仅容易造成信息损耗,还会显著增加整体架构的复杂性。

GLM-4.6V 则原生支持多模态工具调用:

  • 多模态输入:图片、屏幕截图、文档页面等可以直接作为工具参数传入,无需预先转换为文本描述,有效避免了信息失真,并大幅简化了工作流。
  • 多模态输出:模型能够直接理解工具返回的视觉结果——例如搜索结果、统计图表、渲染后的网页截图,或者检索到的商品图片——并将这些信息无缝融入后续推理与最终输出中。

这种原生支持让 GLM-4.6V 能够闭环完成从感知 → 理解 → 执行的完整流程,从而胜任富文本内容创作、可视化网页搜索等复杂任务。

核心能力与应用场景

1. 富文本内容理解与创作

GLM-4.6V 能以端到端方式接收论文、报告、幻灯片等多模态输入,并自动生成高质量、结构清晰的图文内容。

  • 复杂文档理解:精准解析包含文本、图表、图形、表格和公式的文档,完整保留其中的多模态语义信息。
  • 视觉化工具调用:在内容生成过程中,模型可以自主调用工具,直接从原始多模态上下文中提取关键视觉素材。
  • 视觉审核与编排:模型会对候选图片进行「视觉审核」,评估其相关性与画质,剔除无关噪声,并将筛选后的文本与图像精心整合,最终输出适合社交媒体或知识库发布的结构化图文内容。

2. 可视化网页搜索

GLM-4.6V 构建了一套端到端的多模态搜索与分析工作流,实现了从视觉感知、在线检索到推理回答的无缝衔接。

  • 意图识别与搜索规划:模型会首先理解用户的搜索意图,判断所需信息类型,随后自主选择并触发合适的搜索工具(比如文搜图、图搜文)进行资料检索。
  • 多模态信息理解与对齐:面对搜索返回的图文混合结果,模型能快速识别与查询最相关的内容片段,并将其对齐整合,为后续推理提供支撑。
  • 推理与回答:基于检索到的视觉与文本线索,模型会执行多步推理,最终输出一份结构清晰、图文并茂的分析报告。

3. 前端复刻与视觉交互

面向前端开发场景,GLM-4.6V 经过专项优化,大幅缩短了从「设计稿到代码」的开发周期。

  • 像素级复刻:用户只需上传一张截图或设计稿,模型就能识别布局结构、UI 组件与配色方案,并生成高保真的 HTML/CSS/JS 代码。
  • 交互式编辑:用户可以在生成页面的截图上「圈选特定区域」,并用自然语言下达指令(例如:「把这个按钮向左移,改成深蓝色」),模型会自动定位对应代码并完成修改。

4. 长上下文理解

GLM-4.6V 将视觉编码器与 128K Token 的长上下文能力深度对齐,赋予模型海量的多模态记忆容量。在实际应用中,这意味着,单次推理即可处理约 150 页的复杂文档、200 页的幻灯片,或一段长达一小时的视频。

  • 财报分析:在一项测试中,GLM-4.6V 同时处理了 4 家不同上市公司的完整财务报告,跨文档提取关键指标,并在不丢失细节的前提下,自动生成了一份结构化的横向对比分析报表。
  • 视频理解:模型不仅能对长视频进行全局摘要,还能保留对时间线索的精细推理能力——例如,在一场完整的足球比赛中,准确识别并标注所有进球事件及对应的时间戳。

GLM-4.6V 综合性能

在超过 20 个主流多模态基准测试(包括 MMBench、MathVista 和 OCRBench)上对 GLM-4.6V 进行的全面评估。在多模态理解、逻辑推理和长上下文理解等关键维度上,该模型在同等规模的开源模型中均达到 SOTA(State-of-the-Art)水平。

GLM-4.6V 基准测试
GLM-4.6V 基准测试

核心技术

模型架构与长序列建模

  • GLM-4.6V 将训练上下文窗口扩展至 128K Token,能够在高信息密度场景下,有效建模跨模态依赖关系。
  • 为了充分释放这一能力,智普基于海量长上下文图文数据,开展了系统性的持续预训练。借鉴 Glyph 的视文压缩对齐思想,利用大规模交错语料库,进一步强化了视觉编码与语言语义之间的协同表达。

世界知识增强

  • 在预训练阶段,引入了一个十亿规模的多模态感知与世界知识数据集。
  • 该数据集覆盖了多层次的概念体系(包括百科全书级知识),不仅提升了模型的基础视觉感知能力,还显著增强了在跨模态问答任务中的准确性与信息完整性。

智能体数据合成与 MCP 协议扩展

GLM-4.6V 依托大规模合成数据进行 AI 智能体训练。为支持复杂多模态交互场景,对广泛采用的 MCP 进行了扩展:

  • 基于 URL 的多模态内容处理:通过 URL 标识传入和传出工具的多模态内容,有效规避了文件大小与格式的限制,让在多图文环境中对特定图像进行精准操作成为可能。
  • 图文交错输出:实现了一种端到端的图文混合输出机制。模型采用「起草 → 图像筛选 → 最终润色」的 3 阶段框架,自主调用图像裁剪或搜索工具,将相关视觉素材动态嵌入生成文本,确保内容高度相关且易于阅读。

面向多模态智能体的强化学习

  • 将工具调用行为纳入通用的强化学习(RL)目标中,使模型在复杂工具链中的任务规划、指令遵循与格式合规能力得到对齐优化。
  • 借鉴了 UI2Code^N 的思路,探索了一种「视觉反馈循环」:模型可以利用视觉渲染结果进行自我修正与迭代,初步验证了自进化多模态 AI 智能体的可行性。

使用 GLM-4.6V

  • 在 Z.ai 上对话:你可直接通过 Z.ai 平台或「智谱清言 App」体验 GLM-4.6V 的多模态理解与工具调用能力。
  • API 调用通过 API,你可以轻松将 GLM-4.6V 集成到自己的应用程序中。
赞(0)
分享到

相关推荐

  • 暂无文章

评论 抢沙发