智元发布 SOP：面向真实世界部署的在线后训练系统

花韻仙語

发布时间：2026-01-06 18:43:02

515人浏览过

来源于php中文网

原创

智元具身智能研究中心正式发布 sop（scalable online post-training）——一套专为真实物理场景部署而设计的在线后训练系统。这也是全球范围内首次在现实世界中面向视觉-语言-动作模型（vla）的后训练，系统性整合在线学习机制、分布式计算架构与多任务通用能力，使机器人集群可在真实环境中自主持续进化，并实现个体经验在群体层面的高效共享与复用，真正将“规模优势”转化为“智能跃迁”。

据官方介绍，SOP 的核心使命，是推动机器人在开放物理世界中完成分布式、不间断的在线学习。研发团队彻底重构了传统 VLA 后训练范式，将其从“离线化、单机化、串行化”升级为“在线化、集群化、并行化”，构建起一个低时延、高响应的闭环学习通路：多机器人同步执行 → 云端实时联合更新 → 模型参数秒级回传

SOP 基于经典的 Actor–Learner 异步协同架构：

Actor（执行端）——并行采集真实经验
多台搭载统一策略模型的机器人（Actors）在异构环境（如商超、家庭、工厂）中同步开展多样化任务，持续收集成功执行、失败尝试及人类干预等高质量交互数据。各节点采集的经验被统一汇聚至云端 Experience Buffer，形成动态增长的经验池。
Learner（学习端）——云端实时增量优化
所有轨迹数据流式上传至云端 Learner，构建融合在线真实交互与离线专家示范的混合数据集。系统引入动态重采样机制，依据各任务当前性能反馈，自动调节在线数据与离线数据的采样权重，从而更精准地聚焦真实世界中的关键难点与长尾分布。
毫秒级参数同步
更新后的模型参数可在分钟级内完成全集群下发，确保所有机器人始终运行最新策略，既保障群体协同进化的一致性，又维持在线训练过程的鲁棒性与收敛稳定性。

SOP 是一个高度解耦、即插即用的通用框架，兼容任意主流后训练算法，赋能 VLA 模型从持续产生的在线数据中自主获益。项目团队以 HG-DAgger（人机协同模仿学习）与 RECAP（离线强化学习增强框架）为典型代表，将其无缝嵌入 SOP 架构，实现从单点优化到集群智能的范式升级。

核心突破

广域状态空间覆盖
多机器人地理分散、任务并发的协同探索模式，极大拓展了状态–动作空间的覆盖密度，有效规避单机在线学习易陷入局部、覆盖稀疏的固有缺陷。
抑制策略分布漂移
所有机器人始终基于低延迟同步的最新策略进行推理与交互，显著缓解因策略滞后引发的数据分布偏移问题，提升训练过程的稳定性与泛化一致性。
兼顾特化性能与通用能力
区别于传统单机在线训练易导致模型窄化为单一任务“专才”的倾向，SOP 通过空间维度的并行学习而非时间维度的顺序微调，在持续提升各项任务表现的同时，完整保留 VLA 模型的跨任务理解与泛化潜力，杜绝能力退化。

实验验证显示，在多种复杂现实场景下，集成 SOP 的后训练方案均取得突破性进展。相较于基线预训练模型，采用 SOP-HG-DAgger 的方案在商品密集、光照多变、遮挡频繁的商超环境中，综合任务性能提升达 33%。在高精度灵巧操作任务（如衣物折叠、纸盒装配）中，SOP 不仅显著提高任务成功率，更通过在线学习捕获大量异常恢复行为，大幅增强策略的实际吞吐效率。

具体而言，SOP-HG-DAgger 在衣物折叠任务中相较标准 HG-DAgger 实现吞吐量激增 114%；多任务通用能力全面提升至接近理想水平——各类任务成功率稳定超过 94%，其中纸盒装配任务成功率达 98%。

智元发布 SOP：面向真实世界部署的在线后训练系统

GentleAI

GentleAI是一个高效的AI工作平台，为普通人提供智能计算、简单易用的界面和专业技术支持。让人工智能服务每一个人。

下载

在总训练时长严格限定为 3 小时的前提下，四机器人并行学习的最终任务成功率高达 92.5%，较单机方案高出 12 个百分点。多机协同采集有效打破了单设备环境偏差带来的过拟合风险。更重要的是，SOP 成功将硬件资源的线性扩展，转化为学习效率的非线性跃升：四机集群相较单机，达成同等目标性能所需的训练时间缩短至原来的 41.7%，即加速比达 2.4 倍。

智元发布 SOP：面向真实世界部署的在线后训练系统

研究还深入分析了 SOP 与预训练基础之间的耦合关系。团队将总计 160 小时的多任务预训练数据划分为三组（20h / 80h / 160h），分别初始化三类基座模型后接入 SOP 进行在线演进。结果表明：预训练规模直接决定了初始能力基线与后续 SOP 提升的潜力曲线。SOP 对所有起点模型均能提供稳定、可预期的性能增益，且最终上限与预训练质量呈正相关。

进一步对比 80 小时与 160 小时预训练组可见，在应对特定失败模式（如物体滑脱、姿态误判）时，在轨策略积累的真实经验展现出极强的边际增益。仅需 3 小时真实场景运行数据，SOP 即带来约 30% 的性能跃升；而额外增加 80 小时人工标注专家数据，仅贡献 4% 的提升。这清晰印证：当预训练进入收益递减区间后，SOP 可成为突破 VLA 当前性能天花板的关键路径。

智元发布 SOP：面向真实世界部署的在线后训练系统