系统极客一直在努力
专注操作系统及软件使用技能

Qwen3-VL-4B 和 8B 开源:视觉精准,文本稳健,足够轻巧!

Qwen3-VL

Qwen3-VL 家族再度壮大!全新推出的 Qwen3-VL-4B 和 Qwen3-VL-8B 两款小尺寸模型现已开源上线。每个尺寸均提供 Instruct 和 Thinking 两大版本。

Qwen3-VL-4B 和 8B 简介

作为密集型(Dense)视觉理解模型,Qwen3-VL-4B/8B 显存占用更低,但完整继承了 Qwen3-VL 系列的全部能力,在文本理解和视觉感知方面均表现出色。

  • Qwen3-VL-8B:在 STEM、VQA、OCR、视频理解及 Agent 任务等多项公开评测中表现亮眼,不仅超越了 Gemini 2.5 Flash Lite 和 GPT-5 Nano,甚至可与上一代超大模型 Qwen2.5-VL-72B 相媲美。
  • Qwen3-VL-4B:则凭借出色的性价比,成为端侧部署的理想选择——尤其适合需要 AI 视觉理解能力的智能终端设备。

值得一提的是,在空间理解任务上,小尺寸的 Qwen3-VL 表现尤为惊艳,有望为「具身智能」的落地提供更优的模型基础。

更关键的是,这两款模型成功实现了「视觉精准」与「文本稳健」的协同突破。针对小模型常见的「跷跷板」问题(即提升视觉能力往往牺牲文本性能,反之亦然),阿里团队通过架构创新与技术优化,在保持强大文本理解能力的同时,显著增强了多模态感知与视觉理解能力——真正做到了在「小身板」里塞进更强的视觉与文本双引擎。


从识别到推理,从文字到图片与视频,Qwen3-VL-4B 和 8B 让小尺寸模型也能胜任生产级应用。现在,新模型已经在魔搭社区Hugging Face 上线,还同步提供了 FP8 版本,进一步降低使用门槛。欢迎前往体验 🤗。

赞(0)
分享到

评论 抢沙发