书生近日推出了全新视觉模型系列——internvl 3.5,涵盖从1b到241b共8种不同规模的版本。

根据多项评测数据显示,InternVL 3.5 中最大规模的241B模型在视觉理解任务中的表现仅次于商用模型 GPT-5 和 Gemini 2.5 Pro,位居前列。


目前,该系列全部模型均已开源并上线 Hugging Face 平台:
https://www.php.cn/link/e7c3645a3ea1024d6704a3133c7930a8
模型核心技术创新包括:
- 级联强化学习(Cascade Reinforcement Learning, Cascade RL):结合离线强化学习与在线强化学习的双阶段训练策略,提升模型收敛稳定性与对齐精度,显著增强复杂推理能力,在 MMMU、MathVista 等高难度任务上表现突出。
- 视觉分辨率路由机制(Visual Resolution Router, ViR):支持动态调节视觉 token 的输入分辨率,灵活平衡计算开销与识别精度,提升视觉理解效率。
- 解耦式视觉-语言部署架构(Decoupled Vision-Language Deployment, DvD):将视觉编码器与语言解码器分离部署至不同 GPU 设备,优化资源分配,大幅提高推理吞吐速度。
整体推理性能相较前代提升最高达 16.0%,并在实际部署中实现比 InternVL3 快 4.05 倍的推理速度。










