当前位置：首页> 手游资讯> 正文

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热榜

admin 2025-11-30 9

机器之心报道

机器之心编辑部

今天，世界见证了RDT大模型的诞生，它就像“小脑”一样负责控制机器人的运动。

无需人类背后操作，RDT即可指挥机器人双臂并用，完美调出如晚霞般梦幻的鸡尾酒MalibuSunset。

和人类调酒师一样，首先，RDT将冰块稳稳倒入高脚杯中，不撒不漏，一套动作行云流水。

倒完冰块后，RDT先后倒入椰子酒、橙汁、菠萝汁，操作娴熟，顺序不乱，确保口味一致。

注入石榴汁，晚霞般绚烂的酒红色在高脚杯中徐徐晕染开来。

最后，RDT发挥空间感，夹起一片柠檬，轻轻卡在有弧度的杯口上，漂亮！

同行看后纷纷表示：有了十亿参数的RDT，智能机器人时代不远矣！去酒吧点RDT调酒师，赛博朋克感瞬间拉满。

在领略了RDT的强大后，是时候揭开它的神秘面纱了——RDT的全称是RoboticsDiffusionTransformer，是全球最大的针对双臂机器人操作任务的扩散基础模型，由清华大学人工智能研究院TSAIL团队构建。

当前，机器人领域公认的卡脖子问题是“不够智能”。许多模型需要人教几十遍才能完成单个任务，面对没教过的情况则“束手无策”。

而RDT正是这个“智能困境”的破壁者之一。它为ALOHA硬件本体植入了“小脑”，使其能摆脱人类的操控，自主完成没见过的任务。RDT将“小模型”扩展为“大模型”，从“单臂”变为“双臂”，是目前运动控制水平最接近人类的机器人小脑之一。

更惊喜的是，清华团队已将RDT的代码、模型，甚至训练它的双臂数据集彻底开源。他们坚信，开源RDT能极大加速机器人研发和产业化进程。

项目主页：

论文标题：RDT-1B:aDiffusionFoundationModelforBimanualManipulation

值得注意的是，目前RDT在世界最大的开源模型平台——HuggingFace上的机器人榜单「热度排名第一」。

在RDT模型的加持下，双臂机器人成功挑战7项高难度任务，平均成功率上比当前最好的模型还要惊人地高出56%。

让我们一起来看看，有了RDT，双臂机器人还能解锁哪些高阶特征吧。

效果展示

1.灵巧操作：“机器人遛狗”竟成现实

起猛了，发现机器人能遛机器狗了？

在RDT的指挥下，机器人能灵巧地握住长度不到2cm的迷你摇杆，控制机器狗走出完美直线。

而如果把RDT换成其他模型，就会导致机器狗会走弯路、甚至见墙就撞。

没办法，控制精度不足！

2.指令遵循：善解人意的倒水大师

RDT能充分理解并遵循人类的语言指令。

倒水大师RDT，让倒1/3的水就倒1/3的水，让倒2/3就倒2/3，简直分毫不差！

值得一提的是，RDT从未见过1/3这个词，也就是说，没有人给RDT演示过1/3的水应该怎么倒。

RDT完全是凭借自己的泛化性，准确地理解了“1/3”这个量词和现实世界中1/3水位高度之间的对应关系。

与之相对，其他模型会指挥机器人倒得过多或过少，甚至尴尬洒水。

3.未见物体与场景：自信地与未知共舞

谁说人类才是唯一能适应环境变化的智能体？RDT也能轻松做到。

清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水

变换任务对象和环境都难不倒它。

4.少样本学习：一点就通的高材生

更厉害的是，RDT有很强的领悟力，是机器人模型中的“学霸”。

教会RDT叠衣服仅需演示1遍，而其他模型要重复教几十遍才能勉强学会。

初识RDT：ScalingLaw魅力时刻

相比其他机器人模型，为什么RDT能做到如此智能？相比同行最优水准领先多少？

三个“最大”是RDT实现智能飞跃的秘密：

在机器人扩散模型中，RDT拥有目前「最大的模型参数量」，高达1.2B。比之前由谷歌、Deepmind等牵头研发的最大的具身扩散模型（八爪鱼，Octo，93M）还要大一个数量级。

RDT在「最大的具身数据集」上预训练。预训练数据集包含46个不同的机器人数据集，总共有超过100万条人类演示数据。模型在48块H100显卡上预训练了1M步。

RDT拥有目前「最大的双臂微调数据集」。清华团队构建了包括300+任务和6K+条演示的数据集。与之对比，先前由斯坦福、MIT等领衔研发的具身大模型OpenVLA的微调数据集仅有几百条演示。

解密RDT：从问题与挑战讲起

在大多数情况，人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂，显然更灵活，也更能帮助人类。

但是，目前的双臂机器人距离落地还有一段路要走，根本原因是双臂的人类演示数据匮乏，“巧妇难为无米之炊”，而且模型泛化能力不足，不能“举一反三”。

为了解决这个问题，一种通常的做法是，利用多种不同机器人的数据，训练一个可泛化的「大模型」。

但这又会带来两个新的挑战：

一是，在机器人领域，缺乏一个像GPT一样的通用、强大的「模型架构」。

它不仅需要能学会各种的动作模式（modality），还需要具备可扩展性（scalability）。换言之，扩大模型的参数量，它的性能也要跟着一起涨。

二是，在之前的研究中，尚没有一个公认的在多种机器人数据上训练的方案。

这主要是因为不同机器人的硬件结构和传感器不同，进而导致数据的格式五花八门，难以进行统一的处理。

在本文中，研究者通过提出创新型的多模态模型架构，以及统一的物理可解释动作空间，来解决这些挑战。

设计RDT：双臂机器人操作的新架构

「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的演示来学习各种各样的技能，比如擦桌子和倒水等。

然而，人类的动作模式千变万化，就连抓起一个方块都有好几种做法（见下图）。

为了能学会多样的动作模式，研究者采用扩散模型（diffusionmodel）来进行建模。

图3描绘了RDT的整体架构，接下来我们逐一进行介绍。

首先是多模态输入的编码。

对于一个具体的机器人任务，模型在收到人类发出的语言指令后，需要结合自己的视觉观察，来预测完成任务所需的机械臂动作（action）。

这里就涉及到了语言、图片和动作三种模态。

动作具有低维度和高频的特点。研究者采用具有傅里叶特征的多层感知机（MLP）来进行编码。

图片具有高维度的特点，同时含有丰富的空间和语义信息。研究者采用经过对齐的SigLIP进行编码。

语言具有变长的特点，并且高度抽象。研究者采用一个具有丰富知识的语言大模型——T5-XXL来进行编码。

此外，不同模态包含的信息量不尽相同。

咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。

为了避免模型“偷懒”，只看信息量大的模态，在训练中，研究者会以一定概率随机遮蔽（mask）各个模态。

接下来介绍具体的网络结构。

为了保证可扩展性，研究者选择Transformer作为骨干网络，并做出如下关键修改：

由于传感器失灵等原因，机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题。研究者采用更加先进的QKNorm和RMSNorm来进行缓解。

机器人的动作往往符合非线性动力学的物理规律。为了增强对非线性的近似能力，研究者将最终层的线性解码器替换为非线性的MLP解码器。

图像的维度通常远高于文本的维度。同时将这两种模态注入到主干网络中时，往往图像会淹没文本，从而削弱模型的指令遵循能力。为此，研究者采取了交替注入的方式。

训练RDT：预训练与微调相结合

为了在多种机器人数据上进行预训练，研究者需要对数据格式进行统一。

具体来说，研究者构建了一个统一的动作空间（如图3左侧所示）。

该空间的每个维度具有明确的物理含义，以保证模型能够从不同机器人数据中学习到共享的物理规律。

在有了统一数据格式后，研究者就能将所有不同类型的机器人数据汇聚在一起，形成了目前最大的数据集，其包含超过100万条演示。

正因为在如此大的数据集上进行预训练，RDT获得了无与伦比的泛化性。

最后，研究者还采集了目前质量最高的双臂微调数据集，用来微调RDT以增强其双臂操作能力。

该数据集具有如下特点：

数量大：6K+演示数据。

范围全：300+任务，从简单的抓取到精细操作，甚至包括黑板上解数学题一类的高难度操作。

多样性：100+不同类型的物体，15+不同的房间以及光照条件。

测试RDT：泛化性与操作精度并举

该团队设计了7个挑战性任务，从不同维度评估RDT的泛化能力和操作精度。

对于清洗杯子的任务，需要双手协调和物体泛化性。

具体来说，机器人需要拿起未见过的杯子，用另一只手打开水龙头，清洗杯子，倒干净杯中的水，并关闭水龙头。

这个任务对于单臂机器人来说几乎无法完成。

对于遥控机器狗，需要双手协调和极高的操作精确性。

机器人需要用一只手抓住遥控器，并用另一只手推动遥杆控制机器狗向前。

这项任务比洗杯子的精度要求更高，因为迷你摇杆的长度不到2cm，且稍有偏移机器狗就会“走弯路”。

对于倒水任务，模型需要能泛化到未见过的环境与语言指令，并理解用户要求，倒水至特定水位。

而对于传递物体和叠裤子的任务，仅给少量演示（1-5条），RDT就需要学会一个全新的技能。

实验评估（结果见表3）中，研究者主要回答以下问题：

Q:RDT能否对未见的物体和场景实现零样本（Zero-Shot）泛化？并遵循未见过的自然语言指令？

A：可以。在洗杯子（WashCup）和倒水（PourWater）任务中，RDT对未见场景和物体仍能达到较高成功率，其表现与见过的情况相差不大。

在PourWater-L-1/3和PourWater-R-2/3任务中，RDT精确地理解了应该用哪只手操作、倒多少水，并能够严格遵循指令，即便它从未见过类似“三分之一”或“三分之二”这样的词汇。

Q：RDT能否仅通过少量演示就学会新的技能？

A：可以。在物品传递（Handover）和折叠短裤（FoldShorts）任务中，对于两个与已知动作模式完全不同的全新技能，RDT仅分别通过1和5条演示的训练就轻松掌握，而其他方法几乎无法成功。

Q：RDT是否能够完成需要精细操作的任务？

A：可以。在遥控机器狗（RobotDog）任务中，RDT在推动操纵杆时准确控制了角度，而其他模型会导致机器狗发生偏离。

Q：扩散建模、大模型以及大数据是否有助于提升RDT的性能？

A：是的。如表2所示，研究人员对三者分别进行了消融实验，结果表明缺少任何一者都会带来极大的性能损失。

特别地，仅用双臂数据训练的RDT(scratch)在未见物体和场景上表现极差，这表明预训练中学会的知识对于泛化性至关重要。

该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭，主要研究方向是具身智能和AIforScience，此前在ICML和NeurIPS等顶级会议发表多篇论文，曾获清华大学本科生特等奖学金。

另一位是清华大学计算机系的二年级博士生吴凌轩，目前主要研究方向是人工智能安全和具身智能，此前在ICLR发表过论文。

论文团队

参考文献

[1]HuayuChen,ChengLu,ChengyangYing,HangSu,(ICLR),2023.

[2]ChengLu,HuayuChen,JianfeiChen,HangSu,ChongxuanLi,(ICML),2023.

[3]HuayuChen,ChengLu,ZhengyiWang,HangSu,(ICLR),2024.

[4]HuayuChen,KaiwenZheng,HangSu,(NeurIPS),2024.

[5]ChengChi,SiyuanFeng,YilunDu,ZhenjiaXu,EricCousineau,BenjaminBurchfiel,::ScienceandSystems(RSS),2023.

[6]FanBao,ShenNie,KaiwenXue,YueCao,ChongxuanLi,HangSu,:/CVFconferenceoncomputervisionandpatternrecognition,–22679,2023.

[7]ZipengFu,TonyZZhao,:Learni:2401.02117,2024.

[8]MooJinKim,KarlPertsch,SiddharthKaramcheti,TedXiao,AshwinBalakrishna,SurajNair,RafaelRafailov,EthanFoster,GraceLam,PannagSanketi,::2406.09246,2024.

[9]Hao-ShuFang,HongjieFang,ZhenyuTang,JirongLiu,JunboWang,HaoyiZhu,:,2023.

[10]Team,,Ghosh,D.,Walke,H.,Pertsch,K.,Black,K.,Mees,O.,Levine,S.(2024).Octo::2405.12213.

[11]

上一篇：梁诗正《跋王羲之快雪时晴帖》：当世书法奇才的震撼力作
下一篇：LOL国人主播贾克虎吊打韩服王者传送1V5怒拿5杀

猜你喜欢

同类文章

最新文章
热门文章
随机阅读

友情链接

备案号：豫ICP备14025681号

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热榜

猜你喜欢

萧炎破解青铜片秘密，丹塔五大家族曝光，又一美女要来了

现版本最强势打野英雄已出现，不是螳螂狮子狗，而是后期无解的她

Steam发布新规：开发者需告知玩家，是否使用内核级反作弊工具

2024年诺贝尔物理学奖揭晓→

（算法）对半查找在工程测量中的应用

红烛

「完美陌生人」：看似美满的婚姻却经不起“真心话大冒险”的赌局

《宝可梦》奇闻趣事：大木博士的扮演设定，并非招式的对战命令