千寻智能推出的 spirit v1.5 模型,在具身智能权威评测平台 rooochallenge 的最新排行榜中荣登榜首,力压 pi 0.5,位列全球第一。

目前,Spirit v1.5 的完整模型权重、部分已公开的微调任务权重,以及配套的推理与部署示例均已正式开源。其余内容将按计划分阶段陆续开放。作为一款面向现实世界任务的端到端具身智能基础模型,Spirit v1.5 致力于在统一架构下实现三大核心能力:
- 泛化性:具备出色的跨任务与跨机器人本体适应能力
- 稳定性:支持真实环境中长时间、连续性的复杂任务执行
- 准确性:对操作目标识别与动作执行结果保持高精度、高一致性控制
在模型设计层面,Spirit v1.5 采用 Vision-Language-Action(VLA)一体化建模范式,将视觉感知、语言理解与动作生成深度融合于同一决策通路中,有效规避传统多模块级联带来的信息衰减问题,并显著增强长周期任务的整体鲁棒性。
在训练策略方面,Spirit v1.5 的一大突破在于摒弃对高度筛选、高度可控的“理想化”演示数据的依赖。千寻智能在其技术博客中指出:尽管此类脚本化数据有助于加速模型收敛,却会严重削弱其应对开放世界动态场景的能力。
为此,Spirit v1.5 在预训练阶段引入了开放式、非脚本化的数据采集机制。数据收集不再拘泥于预设任务流程,而是以“达成有意义的实际目标”为根本导向,允许操作过程自然融合多个子任务与底层技能。这种贴近真实环境的数据构建方式,使模型在训练初期即能接触遮挡干扰、失败重试、任务无缝衔接等典型现实挑战。
相关消融研究表明:在同等数据量前提下,采用多样化数据预训练的模型,在面对全新任务时展现出更强的迁移效率;达成相同性能指标所需的计算开销亦大幅降低。这也直接印证了 Spirit v1.5 在 RoboChallenge 平台上,面对多形态机器人构型与未见过任务时所表现出的卓越泛化与稳定执行能力。
据悉,RoboChallenge 是于 2025 年正式启动的标准化评测体系,由 Dexmal、Hugging Face 等国际知名机构联合发起,专注于评估具身智能模型在不同硬件平台间的通用性与可迁移性。作为当前最具代表性的具身智能 benchmark 之一,它强调真实机器人实体的闭环执行能力,评测维度涵盖复杂语义指令解析、多阶段操作规划、跨环境行为一致性等关键指标。
源码地址:点击下载









