Qwen3-VL-4B 和 8B 开源：视觉精准，文本稳健，足够轻巧！

Qwen3-VL 家族再度壮大！全新推出的 Qwen3-VL-4B 和 Qwen3-VL-8B 两款小尺寸模型现已开源上线。每个尺寸均提供 Instruct 和 Thinking 两大版本。

Qwen3-VL-4B 和 8B 简介

作为密集型（Dense）视觉理解模型，Qwen3-VL-4B/8B 显存占用更低，但完整继承了 Qwen3-VL 系列的全部能力，在文本理解和视觉感知方面均表现出色。

Qwen3-VL-8B：在 STEM、VQA、OCR、视频理解及 Agent 任务等多项公开评测中表现亮眼，不仅超越了 Gemini 2.5 Flash Lite 和 GPT-5 Nano，甚至可与上一代超大模型 Qwen2.5-VL-72B 相媲美。
Qwen3-VL-4B：则凭借出色的性价比，成为端侧部署的理想选择——尤其适合需要 AI 视觉理解能力的智能终端设备。

值得一提的是，在空间理解任务上，小尺寸的 Qwen3-VL 表现尤为惊艳，有望为「具身智能」的落地提供更优的模型基础。

更关键的是，这两款模型成功实现了「视觉精准」与「文本稳健」的协同突破。针对小模型常见的「跷跷板」问题（即提升视觉能力往往牺牲文本性能，反之亦然），阿里团队通过架构创新与技术优化，在保持强大文本理解能力的同时，显著增强了多模态感知与视觉理解能力——真正做到了在「小身板」里塞进更强的视觉与文本双引擎。

从识别到推理，从文字到图片与视频，Qwen3-VL-4B 和 8B 让小尺寸模型也能胜任生产级应用。现在，新模型已经在魔搭社区和 Hugging Face 上线，还同步提供了 FP8 版本，进一步降低使用门槛。欢迎前往体验 🤗。