
百度近日发布了多模态大语言模型 ERNIE-4.5-VL-28B-A3B 的全新升级版——ERNIE-4.5-VL-28B-A3B-Thinking,在多模态推理能力上实现了关键性突破。
ERNIE-4.5-VL-28B-A3B-Thinking 简介
- 在中期训练阶段,模型消化了海量、高度多样化的高质量视觉-语言推理数据。不仅大幅增强了模型的表示能力,更深化了视觉与语言两大模态之间的语义对齐,解锁了前所未有的细粒度视觉-文本推理能力。
- 技术实现上,ERNIE-4.5-VL-28B-A3B-Thinking 在可验证的任务中采用了先进的多模态强化学习技术,并融合 GSPO 与 IcePop 策略,以确保 MoE(专家混合)训练的稳定性。同时,模型结合动态难度采样技术,显著提升了学习效率。
- 为了响应开发者社区的强烈需求,百度团队大幅增强了模型的接地(grounding)性能与指令跟随能力,使得视觉接地功能的调用比以往要更加便捷、精准。
- 此外,通过创新的「图像思考」功能,模型在与图像缩放、图像搜索等工具协同工作时,能更高效地处理精细细节,并有效应对长尾视觉知识带来的挑战。
这些全面的能力升级,为构建复杂 AI 智能体奠定了坚实基础,将赋能开发者和研究人员打造下一代 AI 应用,持续拓展视觉-语言理解的前沿边界。

核心能力解读
作为一款仅需激活 30 亿(3B)参数的轻量化模型,ERNIE-4.5-VL-28B-A3B-Thinking 在多项基准测试中的表现,已经能与业界顶级的旗舰模型相媲美。
- 视觉推理:在大规模强化学习的加持下,模型在复杂视觉任务中展现出卓越的多步推理、图表分析与因果推断能力。
- STEM 推理:凭借强大的视觉理解能力,模型在科学、技术、工程和数学(STEM)领域的任务表现实现了质的飞跃,即便是「看图解题」这类复杂问题也能轻松应对。
- 视觉定位:具备更精准的定位能力与更灵活的指令执行功能。在复杂的工业场景中,可轻松调用定位功能,显著提升工作效率。
- 图像思考:能像人类一样进行「思考」,通过自由放大或缩小图像,洞察每一个细节,从而揭示图片中蕴含的全部信息。
- 工具使用:依托强大的工具调用能力,可即时调用图像搜索等外部功能,轻松识别长尾知识,实现全面的信息检索。
- 视频理解:具备出色的时序感知与事件定位能力,能准确识别视频中不同时间节点的内容变化,让视频分析变得更加智能和高效。














最新评论
不奇怪,设计师用 Mac 很正常,微软内部也有大把员工在用 Mac。
之前邮件里收到 Microsoft 50 周年的壁纸,下载下来里面有个 __MACOSX 文件夹我也是没绷住🤓
笑死我了
电脑设置完成,但电视端找不到服务器,怎么办?