感谢网友 斯文当不了饭吃 提供的线索!
12 月 31 日讯,智元机器人正式推出 Act2Goal 技术方案——借助世界模型,赋予机器人真正意义上的“目标理解力”与“路径规划力”。

据悉,Act2Goal 并非仅是一套新操作算法,更代表了一种“以终为始”的具身智能范式。区别于传统机器人按预设指令逐条执行的线性逻辑,Act2Goal 首次将“目标条件世界模型”深度嵌入动作决策闭环。其技术内核在于:将世界模型的演化预测能力与动作生成策略统一于端到端架构,从而实现对任务全过程的结构化建模与因果推演。在每次动作发起前,系统不仅实时感知当前场景与目标形态,更通过世界模型动态生成从现状通往目标的多步视觉轨迹,为动作执行提供连续、分层、可解释的规划支撑。
官方说明如下:
给机器人一张“目标图”,它能否自主推理并把眼前现实,一步步变成图中模样?
智元具身智能研究中心的回答是:可以。
Act2Goal——这不仅是一项前沿操作算法,更是一种面向真实世界的具身认知升级。
它摒弃了“走一步看一步”的被动响应模式,转而构建具备“目标导向型想象力”的智能体。借助目标条件世界模型,机器人能在物理交互发生前,在内部完成从起点到终点的完整因果推演。这种将视觉理解、状态演化与动作控制深度融合的端到端设计,使 Act2Goal 在面对全新物体、未知布局或未见过的任务组合时,展现出卓越的零样本泛化性能。
尤为关键的是,Act2Goal 具备原生“自我迭代”能力。无需人工标注奖励信号,也无需外部干预,它即可在真实环境中边执行、边复盘、边优化。实测表明:面对极具挑战性的陌生任务,仅需数分钟在线交互训练,任务成功率即可从初始的 30% 快速跃升至 90% 以上。
所见即所向,每一步行动,都锚定在通往目标的清晰路径之上。

在目标可被图像直观表达的场景中,以目标图像为条件输入确为高效路径。但当任务涉及长周期操作、多阶段物体交互,或处于训练数据分布之外的开放环境时,现有方法往往稳定性骤降。主流目标条件策略通常仅建模“当前→目标”的静态映射,缺乏对中间演化过程的显式刻画;多数采用观测+目标直接输入策略网络的方式预测动作,导致机器人无法评估执行进度,在任务拉长或环境扰动下易产生误差漂移。Act2Goal 则在动作生成前主动引入目标条件世界模型,对“当前→目标”间的完整状态演化进行建模,并输出一系列语义连贯的中间视觉帧,形成任务进程的结构化表征,为动作执行提供可追溯、可校准的操作锚点,显著增强长时序任务的鲁棒性与可控性。

01、端到端目标条件策略:打通感知、规划与执行的全链路
Act2Goal 的核心突破,在于将目标条件世界模型与动作生成策略无缝融合于统一端到端框架,实现对任务动态演化的结构化理解。每次动作决策前,系统同步解析当前观测、目标设定,并调用世界模型生成覆盖短时精细动作与长时目标对齐的多尺度视觉轨迹,为动作专家模块提供层次化、连续性的规划依据。在此范式下,目标不再是孤立终点,而是一条具备时间维度、可感知、可跟随的演化路径,从而大幅提升复杂任务执行的稳定性与跨场景适应力。该设计带来两大核心优势:
长周期操作中兼顾精度与方向一致性:端到端联合建模配合多尺度时间规划机制,使机器人既能精准完成局部微操,又能始终锚定全局目标不偏航。
零样本迁移与快速环境适配能力:系统可在未训练过的物体形态、空间配置及交互逻辑下稳定运行,并依托在线自我提升机制实现任务级快速收敛,进一步强化实际部署中的鲁棒性与延展性。
02、多尺度时域哈希(MSTH):平衡细节控制与宏观路径规划
为应对长时序任务中“既要精细又要稳健”的双重挑战,Act2Goal 创新引入多尺度时域哈希(Multi-Scale Temporal Hashing, MSTH)机制,将动作规划划分为两个协同层级:
- 近端精细段(Proximal):高频率连续采样,专注机械臂末端位姿、接触力等毫秒级控制;
- 远端粗粒段(Distal):自适应稀疏采样,聚焦任务阶段划分、关键状态跃迁与目标对齐。
该双轨机制确保机器人在复杂操作中既不失局部动作精度,亦不偏离整体任务主线,有效抑制误差累积与目标漂移。
MSTH 同时服务于世界模型的视觉轨迹生成与动作专家的动作序列预测,实现感知—规划—执行三者的节奏同步。

目标驱动的世界模型依据 MSTH 规则生成操作视频
03、离线模仿学习:夯实泛化根基
为赋予 Act2Goal 强大的先验能力,系统首先基于海量离线演示数据开展模仿学习训练。具体包括:对预训练世界模型进行微调,使其能根据当前与目标状态,生成符合 MSTH 时序规则、覆盖多视角与多粒度的视觉演化轨迹;同时联合训练动作生成模块,使其能依据参考轨迹精准反推可执行动作序列。该联合训练机制保障了视觉预测的真实性、合理性与动作可执行性之间的强一致性。最终,整个端到端模型通过行为克隆方式进行微调,形成“视觉输入→轨迹预测→动作输出”的完整闭环。经此训练,Act2Goal 已具备根据任意起止状态自主推演演化路径并生成可靠动作的能力,为其在开放环境中的长期稳定运行奠定坚实基础。

搭载 Act2Goal 模型的 G01 机器人在多项域外任务中表现优异
04、在线自我提升:实现真实场景下的持续进化
尽管离线训练赋予系统强大泛化能力,但在真实世界中遭遇全新任务组合、未知物体属性或复杂操作链时,性能仍可能出现波动。为此,Act2Goal 内置在线自我提升模块,采用回顾性经验重放(HER)机制驱动自主优化。
执行过程中,机器人自动记录每一步的状态、动作与结果,并将完整轨迹重新标记为新的目标—状态对,存入回放缓冲区。无论任务是否成功,所有交互数据均可被复用为训练样本。系统仅对新增的 LoRA 适配层进行轻量级端到端微调,主干模型全程冻结。这一机制使得机器人无需人工介入,即可在陌生环境中快速校准策略、提升成功率,真正实现零样本泛化与长期操作稳定性,为复杂现实任务提供可持续进化的智能底座。

部署 Act2Goal 的机器人在线练习绘制未见过的新图案,性能持续攀升
Act2Goal 的本质突破,在于重新定义目标条件操作中的一个根本命题:机器人是否真正“理解”从当前到目标之间发生了什么?通过在策略层面显式建模目标条件世界模型,并融合多尺度时间表征与深度协同机制,本工作提出了一种全新的机器人目标操作范式。我们坚信,“先理解世界如何演变,再决定如何行动”,将成为构建更通用、更可信、更自主的具身智能系统的关键路径。










