0

0

谷歌RT-1模型让一个机器人干几份活,700条指令成功率达97%

WBOY

WBOY

发布时间:2023-04-11 11:34:03

|

1460人浏览过

|

来源于51CTO.COM

转载

机器学习 (ML) 研究的多个子领域(如计算机视觉和自然语言处理)的许多最新进展,都是建立在利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。

但这种高性能模型方法在机器人技术领域的应用却相对较少。

原因很简单,首先缺乏大规模和多样化的机器人数据,限制了模型吸收广泛机器人经验的能力。

其次,缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。

而这次,谷歌推出的Robotics Transformer 1 (简称RT-1)是一种多任务模型,它可以标记机器人输入和输出动作(例如,相机图像、任务指令和电机命令)以在运行时实现高效推理,并使实时控制成为可能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

RT-1吸收了大量数据,让机器人胜任不同环境下的多种任务,从而提升机器性能和泛化能力

简单来说,就是让一个机器人同时干几份活。

该模型是在一个包含130k个episode的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,使用Everyday Robots (EDR) 的13台机器人在17个月内收集而成。

结果表明,与现有技术相比,RT-1可以显著改进对新任务、环境和对象的零样本泛化。

Github链接小编也贴心地放在下面啦,有兴趣的小伙伴赶紧去看看。

图片

​https://github.com/google-research/robotics_transformer​

RT-1模型具体原理

RT-1建立在Transformer架构上,它能从机器人的相机中获取图像历史记录并以自然语言表达的任务描述作为输入,同时直接输出标记化的动作。

RT-1的架构类似于仅解码器序列模型(decoder-only sequence model)的架构,该模型针对具有因果掩蔽的标准分类交叉熵目标进行训练。

图片

该模型将文本指令和一组图像作为输入,通过预训练的 FiLM EfficientNet 模型将它们编码为标记,并通过 TokenLearner 对其进行压缩,然后经Transformer输出动作标记。

MCP官网
MCP官网

Model Context Protocol(模型上下文协议)

下载

其主要功能包括:图像词元化(Image Tokenization)、动作词元化(Action Tokenization)和词元压缩(Token Compression )。

  • 图像tokenization:我们通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为81个标记。图像分词器以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。
  • 动作tokenization:机器人的动作维度是手臂运动的 7 个变量(x、y、z、滚动、俯仰、偏航、夹具打开),3 个基本运动变量(x、y、偏航),以及一个额外的离散变量在三种模式之间切换。
  • Token压缩:该模型自适应地选择图像Token的软组合,这些组合可以根据它们对使用元素注意模块TokenLearner 进行学习的影响进行压缩,从而使推理速度提高2.4倍以上。

图片

我们使用人类通过远程操作提供的演示,并用机器人执行指令的文本描述对每一集进行注释。

而这个机器人执行任务靠的是,「7个自由度的手臂、一个两指夹持器和一个移动底座」。

数据集中表示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、将物体打翻等操作。

整合异质数据源

为进一步推动RT-1,我们使用从另一个机器人收集的数据对其进行训练,以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据。

我们转换收集的数据以匹配我们使用EDR收集的原始数据集的动作规范和边界,并用任务指令标记每个数据集。

然后在每个训练批次中将Kuka数据与EDR数据以1:2的比例混合,以控制原始EDR技能的回归。

图片

图为从多个机器人收集数据时的训练方法

结果表明,RT-1能够通过观察其他机器人的经验来获得新技能。

当RT-1在Kuka的垃圾箱拣选数据和机器人教室的现有EDR数据上进行训练时,仅使用 EDR 数据进行训练时的22% 「准确率跃升了近2倍」,达到39%。

图片

当单独使用来自Kuka的拣选数据训练RT-1,并使用来自EDR机器人的拣选数据对其进行评估时,准确率为0%。

实验结果

为更好地理解RT-1的泛化能力,我们针对三个基线研究了它的性能:Gato、BC-Z和BC-Z XL(即与 RT-1 具有相同数量参数的 BC-Z)。

并将其分为四个类别:

图片

图为测试环境下RT-1与对照组的表现

  • 可见任务表现(Seen tasks performance):在训练期间观测的任务表现;
  • 不可见任务表现(Unseen tasks performance):在看不见的任务上的表现,其中技能和对象在训练集中是分开的;
  • 稳健性(Robustness):在干扰因素介入期间的性能和背景变化(新厨房、照明、背景场景)的性能表现
  • 远景场景(long-horizon scenarios):真实厨房中SayCan类自然语言指令的执行

RT-1 的高性能和泛化能力可以通过SayCan实现远距离、移动操作任务。

SayCan的工作原理是将语言模型置于机器人可供性中,并利用少量提示将以自然语言表达的长期任务分解为一系列低级技能。

我们在两个真实厨房中使用RT-1和其他两个基线(SayCan with Gato 和 SayCan with BC-Z)评估SayCan。

下面,“Kitchen2”构成了比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是在 Kitchen1 之后建模的。

图片

可以看到,SayCan with RT-1在 Kitchen1中的执行成功率为 67%,优于其他基线。

由于新的看不见的厨房带来的泛化困难,SayCan with Gato 和 SayCan with BCZ 的性能下降,但RT-1的成功率并没有因此下降。

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6046

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

782

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1047

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1094

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1715

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 2.6万人学习

Go 教程
Go 教程

共32课时 | 3.2万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号