阿里国际正式推出全新升级的多模态大模型ovis2.5。这款模型专为原生分辨率视觉理解、复杂推理任务以及高性价比应用场景打造,展现出卓越的性能表现。根据opencompass主流多模态评测基准,ovis2.5在综合得分上较前代ovis2实现显著提升,并在同类开源模型中持续领跑,保持sota地位。

此次发布的开源版本包含两款:
- Ovis2.5-9B:在OpenCompass上获得78.3的高分,力压多个参数量更大的模型,成为40B以下开源多模态模型中的性能冠军。
- Ovis2.5-2B:以73.9的综合得分延续Ovis系列“小模型,强能力”的特色,在同规模模型中表现突出,特别适合部署于端侧设备或资源受限环境。
Ovis2整体架构示意如下:

据官方介绍,Ovis2.5在模型架构、训练方法与数据构建三大维度实现了系统性优化与创新:
- 架构设计:继承Ovis系列独特的结构化嵌入对齐机制。Ovis2.5由三大核心模块组成:支持动态分辨率的ViT用于高效视觉特征提取,Ovis视觉词表模块实现视觉与文本表征的精准对齐,最终由强大的Qwen3语言模型作为解码基座,完成多模态信息融合与自然语言生成。
- 训练流程:采用精细化的五阶段训练策略,涵盖视觉预训练、多模态联合预训练、大规模指令微调,以及基于DPO、GRPO等算法的偏好对齐与推理能力增强。同时,通过多模态数据打包技术和混合并行优化,训练效率提升3-4倍。
- 数据构建:相比Ovis2,训练数据量增加50%,重点强化视觉推理、图表理解、OCR识别与目标定位等关键能力。特别引入大量与Qwen3深度协同的“思考(thinking)”类合成数据,显著提升模型的自我反思与逻辑推理水平。
了解更多
代码地址:https://www.php.cn/link/0fa66dc7ac7cc66a4c72f28e7742f27f
模型下载: https://www.php.cn/link/d5e714549e9937f437d4fc2edf35b8fb
Ovis2.5-2B 模型: https://www.php.cn/link/d5e714549e9937f437d4fc2edf35b8fb
Ovis2.5-9B 在线体验: https://www.php.cn/link/614702957b7f03d0e9e4bcd2370c3a6d
Ovis2.5-2B 在线体验: https://www.php.cn/link/614702957b7f03d0e9e4bcd2370c3a6d
技术报告: https://www.php.cn/link/df17389413b21cab96900be63f2c7ec4










