系统极客一直在努力
专注操作系统及软件使用技能

Qwen3.5 发布:迈向原生多模态智能体

Qwen3.5

Qwen3.5 正式发布 ,并推出该系列首款模型 Qwen3.5-397B-A17B 的开放权重版本。作为原生「视觉-语言」模型,Qwen3.5-397B-A17B 在推理、编程、智能体能力和多模态理解等全维度基准测试中表现优异,可显著提升开发者与企业的生产效率。

  • 该模型采用了创新混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,实现了出众的推理效率。
  • 模型总参数量达 3970 亿,每次前向传播仅激活 170 亿参数,在完整保留核心能力的同时,实现了速度与使用成本的双重优化。
  • 阿里还将模型的语言与方言支持范围,从 119 种扩展到了 201 种,为全球用户带来更广泛的适配能力与更完善的使用支持。

Qwen3.5-Plus 为该模型的 API 版本,可以通过阿里云百炼获取服务:

  • 官方工具及自适应调用
  • 1M token 上下文窗口
Qwen3.5-397B-A17B 基准测试
Qwen3.5-397B-A17B 基准测试

模型表现

模型l团队在多类评估任务与模态下,将 Qwen3.5 与同期前沿模型展开了全面的对比测试。

自然语言

GPT5.2Claude 4.5 OpusGemini-3 ProQwen3-Max-ThinkingK2.5-1T-A32BQwen3.5-397B-A17B
Knowledge
MMLU-Pro87.489.589.885.787.187.8
MMLU-Redux95.095.695.992.894.594.9
SuperGPQA67.970.674.067.369.270.4
C-Eval90.592.293.493.794.093.0
Instruction Following
IFEval94.890.993.593.493.992.6
IFBench75.458.070.470.970.276.5
MultiChallenge57.954.264.263.362.767.6
Long Context
AA-LCR72.774.070.768.770.068.7
LongBench v254.564.468.260.661.063.2
STEM
GPQA92.487.091.987.487.688.4
HLE35.530.837.530.230.128.7
HLE-Verified43.338.84837.637.6
Reasoning
LiveCodeBench v687.784.890.785.985.083.6
HMMT Feb 2599.492.997.398.095.494.8
HMMT Nov 2510093.393.394.791.192.7
IMOAnswerBench86.384.083.383.981.880.9
AIME2696.793.390.693.393.391.3
General Agent
BFCL-V463.177.572.567.768.372.9
TAU2-Bench87.191.685.484.677.086.7
VITA-Bench38.256.351.640.941.949.7
DeepPlanning44.633.923.328.714.534.3
Tool Decathlon43.843.536.418.827.838.3
MCP-Mark57.542.353.933.529.546.1
Search Agent
HLE w/ tool45.543.445.849.850.248.3
BrowseComp65.867.859.253.9–/74.969.0/78.6
BrowseComp-zh76.162.466.860.970.3
WideSearch76.876.468.057.972.774.0
Seal-045.047.745.546.957.446.9
Multilingualism
MMMLU89.590.190.684.486.088.5
MMLU-ProX83.785.787.778.582.384.7
NOVA-6354.656.756.754.256.059.1
INCLUDE87.586.290.582.383.385.6
Global PIQA90.991.693.286.089.389.8
PolyMATH62.579.081.664.743.173.3
WMT24++78.879.780.777.677.678.9
MAXIFE88.479.287.584.072.888.2
Coding Agent
SWE-bench Verified80.080.976.275.376.876.4
SWE-bench Multilingual72.077.565.066.773.069.3
SecCodeBench68.768.662.457.561.368.3
Terminal Bench 254.059.354.222.550.852.5

视觉语言

GPT5.2Claude 4.5 OpusGemini-3 ProQwen3-VL-235B-A22BK2.5-1T-A32BQwen3.5-397B-A17B
STEM and Puzzle
MMMU86.780.787.280.684.385.0
MMMU-Pro79.570.681.069.378.579.0
MathVision83.074.386.674.684.288.6
Mathvista(mini)83.180.087.985.890.190.3
We-Math79.070.086.974.884.787.9
DynaMath86.879.785.182.884.486.3
ZEROBench93104912
ZEROBench_sub33.228.439.028.433.541.0
BabyVision34.414.249.722.236.552.3/43.3
General VQA
RealWorldQA83.377.083.381.381.083.9
MMStar77.173.283.178.780.583.8
HallusionBench65.264.168.666.769.871.4
MMBenchEN-DEV-v1.188.289.293.789.794.293.7
SimpleVQA55.865.773.261.371.267.1
Text Recognition and Document Understanding
OmniDocBench1.585.787.788.584.588.890.8
CharXiv(RQ)82.168.581.466.177.580.8
MMLongBench-Doc61.960.556.258.561.5
CC-OCR70.376.979.081.579.782.0
AI2D_TEST92.287.794.189.290.893.9
OCRBench80.785.890.487.592.393.1
Spatial Intelligence
ERQA59.846.870.552.567.5
CountBench91.990.697.393.794.197.2
RefCOCO(avg)84.191.187.892.3
ODInW1346.343.247.0
EmbSpatialBench81.375.761.284.377.484.5
RefSpatialBench65.569.973.6
LingoQA68.878.872.866.868.281.6
V*75.967.088.085.977.095.8/91.1
Hypersim11.012.5
SUNRGBD34.938.3
Nuscene13.916.0
Video Understanding
VideoMME(w sub.)8677.688.483.887.487.5
VideoMME(w/o sub.)85.881.487.779.083.283.7
VideoMMMU85.984.487.680.086.684.7
MLVU (M-Avg)85.681.783.083.885.086.7
MVBench78.167.274.175.273.577.6
LVBench73.757.376.263.675.975.5
MMVU80.877.377.571.180.475.4
Visual Agent
ScreenSpot Pro45.772.762.065.6
OSWorld-Verified38.266.338.163.362.2
AndroidWorld63.766.8
Medical VQA
SLAKE76.976.481.354.781.679.9
PMC-VQA58.959.962.341.263.364.2
MedXpertQA-MM73.363.676.047.665.370.0

相较于 Qwen3 系列模型,Qwen3.5 的 Post-training 性能提升,主要来自对各类 RL 任务和环境的全面扩展。并且更侧重 RL 环境的难度与可泛化性,而非针对特定指标、或是窄范围类别的 query 做定向优化。

下图展示了在通用 Agent 能力上,模型效果随 RL Environment scaling 带来的性能增益。模型整体性能,由各模型在以下基准测试中的平均排名计算得出:BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任务的 scaling 效果。

平均排名与环境缩放
平均排名与环境缩放

预训练

Qwen3.5 在能力、效率与通用性三大维度上,全面推进了预训练技术的迭代:

  • 能力:模型在更大规模的「视觉-文本」语料上完成训练,同时强化了中英文、多语言、STEM 与推理相关数据,并采用了更严格的数据过滤标准。最终实现了跨代性能持平:Qwen3.5-397B-A17B 的表现,与参数量超 1T 的 Qwen3-Max-Base 相当。
  • 效率:模型基于 Qwen3-Next 架构打造,核心升级包括:更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力机制、稳定性优化,以及多 token 预测能力。在 32k/256k 上下文长度下,Qwen3.5-397B-A17B 的解码吞吐量,分别达到 Qwen3-Max 的 8.6 倍与 19.0 倍,同时保持了相当的性能表现。同上下文长度下,Qwen3.5-397B-A17B 的解码吞吐量,也分别达到 Qwen3-235B-A22B 的 3.5 倍与 7.2 倍。
  • 通用性:模型通过早期「文本-视觉」融合技术,搭配扩展后的视觉、STEM、视频相关数据,实现了原生多模态能力,在相近参数量规模下,性能要优于 Qwen3-VL。模型的多语言覆盖范围,也从 119 种提升到了 201 种「语言 + 方言」;词表规模从 15 万升级到了 25 万,在多数语言上可带来约 10–60% 的编码/解码效率提升。
解码吞吐量(32K)
解码吞吐量(32K)

以下是基座模型的性能表现。

Qwen3-235B-A22BGLM-4.5-355B-A32BDeepSeeK-V3.2-671B-A37BK2-1T-A32BQwen3.5-397B-A17B
General Knowledge & Multilingual
MMLU87.3386.5688.1187.3888.61
MMLU-Pro67.7365.0062.8267.6476.01
MMLU-Redux87.4486.8687.2986.6589.09
SuperGPQA42.8444.5643.4644.8657.96
C-Eval91.8285.5090.4891.8291.82
MMMLU81.2782.2683.2082.2685.82
Include75.2673.4176.5272.0579.27
Nova66.5260.9660.4061.4467.55
Reasoning & STEM
BBH87.9587.6886.0389.1190.98
KoRBench50.8052.8054.0053.8454.08
GPQA47.4744.6344.1646.7854.64
MATH71.8461.8464.4071.5074.14
GSM8K91.1789.3189.1292.1293.71
Coding
Evalplus77.6069.4962.6871.7779.32
MultiPLE65.9462.5161.8870.6479.39
SWE-agentless31.7729.2334.6728.5443.26
CRUX-I64.2567.6363.2570.5071.13
CRUX-O78.8877.1373.8877.1382.38

基础设施

Qwen3.5 依托异构基础设施,实现了高效的原生多模态训练:

  • 在视觉与语言组件上采用解耦并行策略,规避了统一方案带来的效率损耗。通过稀疏激活技术,实现了跨模块计算重叠,在混合「文本-图像-视频」数据的训练场景下,相较纯文本基线实现了近 100% 的训练吞吐。
  • 在此基础上,原生 FP8 流水线对激活、MoE 路由与 GEMM 运算采用低精度计算,同时通过运行时监控,在敏感层保留 BF16 精度。这套方案实现了约 50% 的激活显存占用降低,以及超 10% 的训练加速,且可稳定扩展至数万亿 token 规模。

为持续释放强化学习的潜力,团队搭建了可扩展的异步强化学习框架。该框架完整支持 Qwen3.5 全尺寸模型,可全面覆盖文本、多模态及多轮交互场景。

  • 依托训推分离架构的解耦式设计,该框架大幅提升了硬件利用率,同时实现了动态负载均衡与细粒度故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术,进一步优化了系统吞吐,提升了训推一致性。
  • 通过系统与算法的协同设计,该框架在严格控制样本陈旧性的基础上,有效缓解了数据长尾问题,提升了训练曲线的稳定性与模型性能上限。此外,该框架面向原生智能体工作流设计,可实现稳定、无缝的多轮环境交互,彻底消除了框架层的调度中断问题。

这套解耦设计,让系统可扩展至百万级规模的 Agent 脚手架与环境,进而显著增强了模型的泛化能力。上述一系列优化,最终实现了 3×–5× 的端到端加速,展现出卓越的稳定性、运行效率与可扩展性。

Qwen3.5-397B-A17B 基础设施
Qwen3.5-397B-A17B 基础设施

开始使用 Qwen3.5

与 Qwen3.5 交互

你可以前往 Qwen Chat 体验 Qwen3.5。官网为用户提供了「自动(auto)」「思考(thinking)」「快速(fast)」三种使用模式:

  • 「自动」模式:你可以启用自适应思考能力,同时调用搜索、代码解释器等工具;
  • 「思考」模式:模型会针对复杂问题进行深度思考;
  • 「快速」模式:模型将直接输出回答,不消耗思考 token。

阿里云百炼

你还可以通过阿里云百炼,调用旗舰模型 Qwen3.5-Plus 进行体验。若需开启推理、联网搜索与 Code Interpreter 等高级能力,只需传入以下参数:

  • enable_thinking:开启推理模式(链式思考)
  • enable_search:开启联网搜索与 Code Interpreter
赞(0)
分享到

评论 抢沙发