AI 观察👀

记录、思考,but AI

刊载于

Qwen3.5-Plus深度分析:阿里巴巴的"原生多模态智能体"野心如何重塑AI格局

阿里巴巴发布Qwen3.5-397B-A17B模型,在视觉-语言理解、智能体能力和多语言支持上取得突破性进展,首次实现26万token原生上下文与201种语言支持,标志着中美AI竞争进入全新阶段。

AI 专题分析 Qwen 阿里巴巴 多模态 智能体 大模型 中美AI竞争

Qwen3.5-Plus深度分析:阿里巴巴的”原生多模态智能体”野心如何重塑AI格局

2026年2月15日,阿里巴巴达摩院正式发布Qwen3.5系列首个模型——Qwen3.5-397B-A17B。这个以”Native Multimodal Agents”(原生多模态智能体)为核心定位的模型,不仅在多项基准测试中超越或接近GPT-5.2、Claude 4.5 Opus等国际顶尖模型,更重要的是,它展示了一条与美国公司不同的技术路线:从设计之初就将视觉、语言和智能体能力深度融合,而非在文本模型基础上”附加”多模态能力。

当OpenAI的GPT-5.2刚刚实现理论物理学原创发现、Anthropic的Claude因军事应用引发伦理争议、Google的Gemini用户数突破7.5亿时,阿里巴巴的Qwen3.5以”原生多模态”的差异化策略悄然入局。这不仅仅是一次技术发布,更标志着中美AI竞争从”跟随模仿”进入”路径创新”的新阶段。


核心亮点:Qwen3.5是什么?

模型规格与架构创新

Qwen3.5-397B-A17B的核心参数令人印象深刻:

维度规格参数意义
总参数量397B与GPT-5.2、Claude 4.5同级别
激活参数17B通过MoE架构实现高效推理
上下文长度262,144 tokens(原生)支持约100万汉字,行业领先
扩展上下文最高1,010,000 tokens可处理超长文档和视频
专家数量512个(MoE)稀疏激活提升推理效率
激活专家11个(10个路由+1个共享)平衡性能与成本
语言支持201种语言和方言覆盖全球95%以上人口

架构创新:Qwen3.5采用了混合注意力架构(Hybrid Attention)结合Gated Delta Networks稀疏混合专家(Sparse Mixture-of-Experts)。这与OpenAI的纯Transformer注意力机制和DeepSeek的稀疏注意力机制(DSA)都有所不同,形成了独特的”第三条路线”。

什么是”原生多模态”?

这是Qwen3.5最核心的创新点。传统多模态模型(如GPT-4V、Gemini Pro Vision)的路径是:

文本LLM训练 → 添加视觉编码器 → 多模态对齐训练

而Qwen3.5的”原生多模态”路径是:

多模态token(文本+图像)联合训练 → 统一的视觉-语言基础模型

这一差异带来的结果是显著的:Qwen3.5在视觉-语言任务上不仅实现了”跨代际持平”(cross-generational parity)与纯文本模型Qwen3的性能相当,还在多项视觉理解基准上超越了前代Qwen3-VL模型。

商业版本:Qwen3.5-Plus

值得注意的是,Qwen3.5-Plus是Qwen3.5-397B-A17B的托管版本,提供了更多生产级特性:

  • 1M token上下文窗口(默认)
  • 官方内置工具
  • 自适应工具使用(adaptive tool use)

这意味着企业客户可以通过阿里云Model Studio直接使用优化后的版本,而开发者则可以选择开源版本自行部署。


技术能力深度分析

一、推理能力:逼近国际顶尖水平

在多项权威基准测试中,Qwen3.5展现了与GPT-5.2、Claude 4.5 Opus、Gemini-3 Pro等顶尖模型竞争的实力:

基准测试GPT-5.2Claude 4.5 OpusGemini-3 ProQwen3.5-397B-A17B
MMLU-Pro87.489.589.887.8
MMLU-Redux95.095.695.994.9
GPQA(STEM)92.487.091.988.4
LiveCodeBench v687.784.890.783.6
AIME26(数学竞赛)96.793.390.691.3

关键观察

  • 在知识密集型任务(MMLU系列)上,Qwen3.5接近GPT-5.2水平,差距在1-2个百分点以内
  • 在数学推理(AIME26)上超越Gemini-3 Pro,接近GPT-5.2
  • 在编程任务(LiveCodeBench)上略低于顶尖模型,但差距显著缩小

二、多模态理解:全面领先的视觉能力

Qwen3.5在视觉-语言任务上的表现尤为亮眼,多项指标达到或超越国际顶尖水平:

基准测试GPT-5.2Claude 4.5 OpusGemini-3 ProQwen3.5-397B-A17B
MMMU86.780.787.285.0
MathVision83.074.386.688.6 ← 最高
Mathvista83.180.087.990.3 ← 最高
RealWorldQA83.377.083.383.9 ← 并列最高
MMStar77.173.283.183.8 ← 第二
OCRBench80.785.890.493.1 ← 最高

数学视觉理解特别突出

  • MathVision:88.6%,超越GPT-5.2的83.0%
  • Mathvista:90.3%,超越Gemini-3 Pro的87.9%
  • We-Math:87.9%,接近Gemini-3 Pro的86.9%

这表明Qwen3.5在处理”图像+数学推理”的任务上具有独特优势,可能得益于阿里在电商场景(商品图理解、AR试妆等)积累的视觉数据。

三、智能体能力:工具使用与搜索代理

在通用智能体(General Agent)基准上,Qwen3.5的表现可圈可点:

基准测试Claude 4.5 OpusGemini-3 ProQwen3.5-397B-A17B
BFCL-V4(工具调用)77.572.572.9
TAU2-Bench91.685.486.7
VITA-Bench56.351.649.7
DeepPlanning33.923.334.3 ← 第二
MCP-Mark42.353.946.1

搜索代理(Search Agent)能力

  • HLE with tool:48.3%,接近GPT-5.2的45.5%
  • BrowseComp(中文):70.3%,超越Claude 4.5的62.4%
  • WideSearch:74.0%,接近GPT-5.2的76.8%

这表明Qwen3.5在中文搜索场景和复杂任务规划上具有优势,可能与阿里巴巴在中文互联网生态的数据积累有关。

四、多语言能力:201种语言的全球覆盖

Qwen3.5的多语言支持是另一个差异化亮点:

基准测试GPT-5.2Claude 4.5 OpusGemini-3 ProQwen3.5-397B-A17B
MMMLU89.590.190.688.5
MMLU-ProX(29语言)83.785.787.784.7
NOVA-6354.656.756.759.1 ← 最高
PolyMATH62.579.081.673.3
WMT24++(55语言)78.879.780.778.9

关键优势

  • NOVA-63:59.1%,超越所有对手
  • 多语言翻译质量接近国际顶尖水平
  • 支持”一带一路”沿线小语种,具有地缘政治意义

历史语境:Qwen3.5在中美AI竞争中的位置

从Qwen1到Qwen3.5的演进之路

阿里巴巴的Qwen系列模型经历了清晰的迭代路径:

版本发布时间核心突破历史意义
Qwen 1.02023年8月首个开源百亿参数模型标志阿里正式进入大模型竞赛
Qwen 1.52024年初多语言支持、代码能力增强开源生态影响力扩大
Qwen 2.02024年中期性能提升、上下文扩展至128K接近Llama 3水平
Qwen 2.52024年9月编程能力突破、数学推理增强被誉为”开源版GPT-4”
Qwen 3.02025年初原生多模态架构、强化学习规模扩展技术路线差异化
Qwen 3.52026年2月Native Multimodal Agents、262K上下文挑战国际顶尖模型

与同期中国模型的对比

Qwen3.5的发布恰逢中国AI”春节档”模型大战期:

模型发布时间核心特点市场反应
智谱GLM-52026年2月11日744B总参数、DeepSeek稀疏注意力股价暴涨30%
MiniMax M2.52026年2月中旬性能提升、专注对话场景股价上涨11%
DeepSeek新版本2026年2月中旬稀疏注意力优化、推理效率提升待公布
Qwen3.52026年2月15日原生多模态、201种语言、262K上下文待市场验证

差异化定位

  • GLM-5:专注编程和Agent能力
  • MiniMax M2.5:聚焦对话和用户体验
  • DeepSeek:强调推理效率和架构创新
  • Qwen3.5:原生多模态+全球化语言支持

与美国模型的战略差异

Qwen3.5与美国顶尖模型的战略定位存在根本差异:

维度OpenAI GPT-5.2Anthropic Claude 4.5Google Gemini 3Qwen3.5
核心定位通用推理+科学发现安全优先+企业应用多产品整合+搜索原生多模态+全球化
技术路线纯TransformerConstitutional AI多模态融合混合注意力+MoE
开放策略封闭API部分开源部分开源全面开源
语言支持约100种约100种约100种201种
上下文长度200K(扩展)200K1M(Gemini 3)262K(原生),扩展至1M
商业模式订阅+API+企业企业为主广告+订阅API+企业+定制

战略意义

  • Qwen3.5的开源策略可能吸引发展中国家和学术机构
  • 201种语言支持覆盖”一带一路”沿线国家
  • 原生多模态适合电商、教育、工业等复杂场景

技术架构深度解析

混合注意力机制(Hybrid Attention)

Qwen3.5采用了创新的Gated Delta Networks稀疏MoE结合的架构:

60层隐藏结构:
15 × (3 × (Gated DeltaNet → MoE)) → 1 × (Gated Attention → MoE)

Gated DeltaNet的特点

  • 线性注意力头:64个(V)+ 16个(QK)
  • 头维度:128
  • 适合处理长序列和递归模式

Gated Attention的特点

  • 注意力头:32个(Q)+ 2个(KV)
  • 头维度:256
  • 保留传统Transformer的捕捉长距离依赖能力

混合优势

  • DeltaNet处理局部和递归模式(如代码、数学推导)
  • Attention处理全局依赖(如长文档理解、跨模态对齐)
  • 两者互补,实现性能与效率的平衡

混合专家(Mixture-of-Experts)架构

参数规格意义
专家总数512个
激活专家10个路由专家 + 1个共享专家
专家中间维度1024
激活参数比例17B / 397B ≈ 4.3%

推理效率优势

  • 相比密集模型,推理成本降低约95%
  • 与GPT-5.2(约400B激活参数)相比,Qwen3.5的推理成本可能只有其1/20
  • 适合大规模商业部署

强化学习规模扩展

Qwen3.5在训练中采用了百万智能体环境(million-agent environments)的强化学习:

  • 渐进式任务分布(progressively complex task distributions)
  • 从简单到复杂的任务 Curriculum
  • 智能体脚手架(agent scaffolds)规模化
  • 环境编排(environment orchestration)自动化

成果

  • 在工具调用基准(BFCL-V4)上达到72.9%
  • 在DeepPlanning上达到34.3%(第二)
  • 在MCP-Mark上达到46.1%

训练基础设施

Qwen3.5声称实现了近100%的多模态训练效率(compared to text-only training):

  • 异步RL框架:支持大规模智能体训练
  • 多模态token融合:早期融合(early fusion)策略
  • 视觉-语言联合训练:非两阶段对齐

对比传统方法

  • OpenAI GPT-4V:文本预训练 → 视觉编码器添加 → 对齐训练
  • Google Gemini:部分联合训练,但文本仍占主导
  • Qwen3.5:从一开始就将图像token视为一等公民

应用场景与商业化前景

一、企业级应用

1. 跨国企业多语言支持

  • 201种语言覆盖意味着跨国企业可以用单一模型服务全球市场
  • 支持小语种的客户服务、内容本地化、合规审查

2. 复杂文档处理

  • 262K原生上下文支持整本书、长合同、多模态报告的处理
  • OCRBench 93.1分表明在文档理解上具有领先优势

3. 智能客服与销售代理

  • 工具调用能力(BFCL-V4: 72.9)支持CRM系统集成
  • 中文搜索代理(BrowseComp-zh: 70.3)适合中国电商场景

二、开发与编程

1. 代码生成与审查

  • LiveCodeBench v6: 83.6分,接近国际顶尖水平
  • SWE-bench Verified: 76.4分,适合实际编程任务

2. 复杂系统工程

  • 长上下文支持理解大型代码库
  • 数学推理能力(AIME26: 91.3)适合算法设计

三、教育与科研

1. STEM教育

  • MathVision: 88.6分,数学视觉理解领先
  • Mathvista: 90.3分,适合交互式数学教学

2. 多语言教育资源

  • NOVA-63: 59.1分(最高),多语言理解能力强
  • 支持发展中国家的本地化教育内容

3. 科研文献处理

  • 262K上下文可处理多篇论文的综合分析
  • MMMLU: 88.5分,跨学科知识整合能力

四、电商与零售(阿里巴巴优势领域)

1. 商品理解与推荐

  • RealWorldQA: 83.9分,真实场景图像理解强
  • OCRBench: 93.1分,商品信息提取准确

2. 多模态搜索

  • 用户可以上传图片+文本描述进行搜索
  • MMStar: 83.8分,复杂场景理解能力

3. 客服自动化

  • 中文工具使用能力强
  • 支持语音、图像、文本多模态交互

五、地缘政治意义

1. “一带一路”技术支持

  • 201种语言覆盖沿线国家
  • 可为当地提供定制化AI服务

2. 技术主权

  • 开源策略降低对外部技术的依赖
  • 混合注意力架构形成差异化路线

3. 南南合作

  • 为发展中国家提供除美国技术之外的替代选择
  • 多语言支持打破英语AI模型的垄断

面临的挑战与局限

一、技术挑战

1. 推理能力仍有差距

  • 在HLE(Humanity’s Last Exam)上,28.7分低于GPT-5.2的35.5
  • 在VITA-Bench上,49.7分低于Claude 4.5的56.3
  • 超复杂推理任务仍需提升

2. 智能体能力不平衡

  • TAU2-Bench: 86.7分,但低于Claude 4.5的91.6
  • Terminal Bench 2: 52.5分,低于Claude 4.5的59.3
  • 终端自动化和系统操作能力待加强

3. 长上下文性能衰减

  • AA-LCR: 68.7分,低于Claude 4.5的74.0
  • LongBench v2: 63.2分,低于Gemini-3 Pro的68.2
  • 超长文本处理仍有优化空间

二、商业化挑战

1. 国际品牌认知度

  • 相比OpenAI、Google,阿里云在海外市场的品牌影响力较弱
  • 企业客户对数据安全和隐私的担忧可能影响采用

2. 生态整合

  • OpenAI有强大的插件生态
  • Google与Workspace、Android深度整合
  • Qwen3.5需要建立自己的开发者生态

3. 监管合规

  • 欧盟AI Act对高风险AI系统的要求
  • 美国对外国AI技术的限制
  • 数据跨境传输的法律风险

三、市场竞争

1. 中国国内竞争

  • 智谱GLM-5在编程领域表现强劲
  • DeepSeek的架构创新受到关注
  • MiniMax在对话体验上有优势

2. 国际竞争

  • OpenAI的GPT-5.2在科学发现上具有品牌优势
  • Anthropic的Claude在企业市场有安全口碑
  • Google的Gemini用户数已达7.5亿,规模效应显著

未来展望与发展方向

一、短期(2026年Q2-Q3)

1. Qwen3.5系列扩展

  • 可能推出不同规模的变体(如7B、14B、72B)
  • 针对特定领域(编程、数学、医疗)的专用版本
  • 更长的上下文支持(可能扩展至2M token)

2. 商业化加速

  • 阿里云国际市场的推广
  • 与企业客户的深度合作案例
  • 开源社区生态建设

3. 性能优化

  • 推理速度提升(可能通过量化、蒸馏等技术)
  • 显存占用优化
  • 边缘设备部署版本

二、中期(2026年下半年-2027年)

1. Qwen4.0技术储备

  • 可能探索更激进的多模态融合(视频、3D、音频)
  • 自主智能体(Autonomous Agents)能力增强
  • 强化学习规模进一步扩大

2. 生态建设

  • Qwen-Agent框架完善
  • 开发者工具和平台
  • 行业解决方案(医疗、金融、教育)

3. 国际化战略

  • 与”一带一路”国家的合作
  • 数据本地化部署
  • 符合当地法规的定制版本

三、长期(2027年及以后)

1. AGI路径探索

  • Qwen系列可能成为阿里AGI战略的核心
  • 多模态理解+智能体能力+长期记忆的融合
  • 与机器人、物理世界的结合

2. 技术路线验证

  • 混合注意力架构是否能成为主流
  • 原生多模态是否优于附加式多模态
  • 开源策略能否形成护城河

3. 地缘政治影响

  • 中美AI技术路线分化
  • 全球AI市场可能形成”双轨制”
  • 发展中国家的技术选择

对普通用户和企业的影响

对普通用户

1. 中文用户

  • 更好的中文理解和生成能力
  • 适合中文互联网生态的应用(如小红书、抖音内容创作)
  • 多模态搜索和内容理解

2. 开发者

  • 开源模型可免费使用和定制
  • 支持本地部署,数据隐私有保障
  • 丰富的API和工具链

3. 多语言用户

  • 小语种用户首次获得高质量AI支持
  • 本地化内容创作和翻译
  • 跨语言学习和交流

对企业用户

1. 中国企业

  • 符合数据安全法规的本地化部署
  • 与阿里云生态的无缝整合
  • 性价比更高的AI解决方案

2. 跨国企业

  • 统一模型支持多国业务
  • 降低AI系统维护成本
  • 灵活的部署选择(云端/本地/混合)

3. 中小企业

  • 开源版本降低使用门槛
  • SaaS化服务减少技术投入
  • 行业模板快速部署

关键要点

  • 原生多模态架构:Qwen3.5从设计之初就将视觉和语言融合,而非在文本模型上”附加”视觉能力,这使其在视觉-语言任务上表现突出
  • 397B总参数、17B激活参数:通过MoE架构实现高性能与低成本的平衡,推理成本可能只有GPT-5.2的1/20
  • 262K原生上下文、扩展至1M:支持超长文档、长视频、大型代码库的处理,应用场景更广泛
  • 201种语言支持:覆盖全球95%以上人口,为”一带一路”沿线国家提供AI服务,具有地缘政治意义
  • 全面开源策略:与OpenAI的封闭策略形成差异化,可能吸引发展中国家和学术机构
  • 数学视觉理解领先:MathVision 88.6分、Mathvista 90.3分,超越GPT-5.2和Gemini-3 Pro
  • 中文搜索代理优势:BrowseComp-zh 70.3分,超越Claude 4.5的62.4%,适合中国电商场景
  • 智能体能力待加强:在TAU2-Bench、VITA-Bench等基准上仍落后于Claude 4.5,系统操作能力需提升
  • 商业化挑战:国际品牌认知度、生态整合、监管合规是阿里云需要克服的障碍
  • 中美AI竞争新阶段:Qwen3.5标志着中国AI从”跟随模仿”进入”路径创新”,可能形成技术路线分化

常见问题

Qwen3.5-Plus和Qwen3.5-397B-A17B有什么区别?

Qwen3.5-Plus是Qwen3.5-397B-A17B的托管商业版本,由阿里云Model Studio提供服务。它提供了更多生产级特性,包括1M token默认上下文窗口、官方内置工具和自适应工具使用功能。Qwen3.5-397B-A17B则是开源权重版本,开发者可以自行部署和定制。

Qwen3.5的”原生多模态”是什么意思?

“原生多模态”(Native Multimodal)意味着Qwen3.5从训练之初就将图像和文本token视为平等的地位进行联合训练,而非先训练文本模型、再添加视觉编码器的两阶段方法。这使得模型在视觉-语言任务上表现更自然、性能更好,特别是在数学视觉理解(MathVision 88.6分)等任务上超越国际顶尖模型。

Qwen3.5与GPT-5.2、Claude 4.5相比如何?

在整体性能上,Qwen3.5已接近GPT-5.2和Claude 4.5的水平。具体来看:在知识密集型任务(MMLU-Pro 87.8)上接近GPT-5.2(87.4),在数学视觉理解(MathVision 88.6)上超越GPT-5.2(83.0),但在超复杂推理(HLE 28.7 vs GPT-5.2的35.5)和部分智能体任务上仍有差距。Qwen3.5的优势在于原生多模态、201种语言支持和开源策略。

开发者如何使用Qwen3.5?

开发者可以通过三种方式使用Qwen3.5:1)阿里云Model Studio的托管API(Qwen3.5-Plus);2)通过Hugging Face下载开源权重,使用vLLM、SGLang或Hugging Face Transformers自行部署;3)通过Qwen-Agent框架快速构建智能体应用。模型支持OpenAI兼容的API格式,迁移成本较低。

Qwen3.5对中美AI竞争意味着什么?

Qwen3.5标志着中国AI从”跟随模仿”进入”路径创新”阶段。与OpenAI的纯Transformer、DeepSeek的稀疏注意力不同,Qwen3.5采用了混合注意力+MoE的独特架构。此外,201种语言支持和开源策略为发展中国家提供了除美国技术之外的替代选择,可能加速全球AI市场的”双轨制”分化。

普通用户可以如何体验Qwen3.5?

普通用户可以通过访问Qwen Chat(chat.qwen.ai)体验Qwen3.5的部分能力。此外,一些集成了Qwen API的应用也可能提供Qwen3.5的服务。开发者则可以按照官方文档在本地部署开源版本,但需要相应的硬件资源(建议8张A100/H100 GPU以获得完整性能)。


参考资料