阿里通义大模型团队正式开源推出 qwen3-vl-embedding 与 qwen3-vl-reranker 模型家族。该系列基于强大的 qwen3-vl 多模态基础模型构建,专为多模态信息检索和跨模态语义理解任务深度优化,面向图文、视频及混合内容场景,提供统一、高性能的端到端解决方案。

- 多模态泛化能力
两大模型均支持在统一框架下处理文本、图像、可视化文档(如图表、代码片段、UI界面元素等)以及视频等多种输入形式。在图文跨模态检索、视频-文本对齐、视觉问答(VQA)、多模态聚类等广泛任务中,性能全面达到行业前沿水准。
- 统一语义表征(Embedding)
Qwen3-VL-Embedding 充分融合 Qwen3-VL 的强大表征能力,可生成高语义保真度的联合向量表示,将视觉与语言信号映射至共享语义空间,从而支撑高效、精准的跨模态相似性建模与快速检索。

图1:多模态统一语义空间示意。Qwen3-VL-Embedding 将文本、图像、视觉文档与视频等异构数据统一编码至同一高维语义向量空间。
- 高精度相关性重排序(Reranker)
作为 Embedding 模型的重要增强组件,Qwen3-VL-Reranker 支持任意模态组合的查询-文档对(例如:图文查询匹配图文文档),并输出精细化的相关性打分。在典型应用流程中,二者形成协同闭环:Embedding 实现大规模初筛召回,Reranker 完成细粒度相关性精排,共同构成“两阶段检索范式”,显著提升最终结果质量与用户体验。
- 强实用性与工程友好性
本系列完整继承 Qwen3-VL 的多语言理解能力,覆盖超30种语言,满足全球化业务部署需求。同时提供灵活的向量维度配置、可定制的任务指令模板,并在量化压缩后仍保持优异性能,极大降低集成门槛与推理开销。

Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 在架构设计上各具侧重,分别针对检索链路中的不同环节进行专项优化。

图 2:Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 架构对比示意图。左侧为双塔独立编码结构,右侧为单塔交叉注意力结构。
Qwen3-VL-Embedding 采用双塔编码架构,支持不同模态内容的并行独立编码,生成统一语义向量,特别适用于海量数据下的高吞吐、低延迟检索场景。
Embedding 模型可接收单模态或混合模态输入,并将其映射为固定维度的语义向量。具体实现中,我们提取基座模型最后一层对应 [EOS] token 的隐藏状态作为整体输入的语义表征,兼顾表达能力与计算效率,保障大规模检索系统的实时响应能力。
Qwen3-VL-Reranker 采用单塔联合编码架构,依托内置的交叉注意力机制,对查询与文档进行深度交互建模,充分挖掘跨模态细粒度关联,最终输出高置信度的相关性评分。
Reranker 模型以 (Query, Document) 对为输入单元,执行联合前向传播。通过基座模型内部的交叉注意力模块,实现 Query 与 Document 之间的双向、多层次语义对齐与信息互补。模型最终基于两个特殊 token(yes / no)的生成概率分布,推导出该输入对的相关性得分。
GitHub 仓库:
https://www.php.cn/link/2b7f3676262f189cbb4e3454f6330155
魔搭 ModelScope:
https://www.php.cn/link/ad5dae030351324d7b709be52a633081
https://www.php.cn/link/d23941275ef524a546d5921aa8c5af2d
源码地址:点击下载









