admin 2025-11-30
9
机器之心报道
机器之心编辑部
今天,世界见证了RDT大模型的诞生,它就像“小脑”一样负责控制机器人的运动。
无需人类背后操作,RDT即可指挥机器人双臂并用,完美调出如晚霞般梦幻的鸡尾酒MalibuSunset。
和人类调酒师一样,首先,RDT将冰块稳稳倒入高脚杯中,不撒不漏,一套动作行云流水。
倒完冰块后,RDT先后倒入椰子酒、橙汁、菠萝汁,操作娴熟,顺序不乱,确保口味一致。
注入石榴汁,晚霞般绚烂的酒红色在高脚杯中徐徐晕染开来。
最后,RDT发挥空间感,夹起一片柠檬,轻轻卡在有弧度的杯口上,漂亮!
同行看后纷纷表示:有了十亿参数的RDT,智能机器人时代不远矣!去酒吧点RDT调酒师,赛博朋克感瞬间拉满。
在领略了RDT的强大后,是时候揭开它的神秘面纱了——RDT的全称是RoboticsDiffusionTransformer,是全球最大的针对双臂机器人操作任务的扩散基础模型,由清华大学人工智能研究院TSAIL团队构建。
当前,机器人领域公认的卡脖子问题是“不够智能”。许多模型需要人教几十遍才能完成单个任务,面对没教过的情况则“束手无策”。
而RDT正是这个“智能困境”的破壁者之一。它为ALOHA硬件本体植入了“小脑”,使其能摆脱人类的操控,自主完成没见过的任务。RDT将“小模型”扩展为“大模型”,从“单臂”变为“双臂”,是目前运动控制水平最接近人类的机器人小脑之一。
更惊喜的是,清华团队已将RDT的代码、模型,甚至训练它的双臂数据集彻底开源。他们坚信,开源RDT能极大加速机器人研发和产业化进程。
项目主页:
论文标题:RDT-1B:aDiffusionFoundationModelforBimanualManipulation
值得注意的是,目前RDT在世界最大的开源模型平台——HuggingFace上的机器人榜单「热度排名第一」。
在RDT模型的加持下,双臂机器人成功挑战7项高难度任务,平均成功率上比当前最好的模型还要惊人地高出56%。
让我们一起来看看,有了RDT,双臂机器人还能解锁哪些高阶特征吧。
效果展示
1.灵巧操作:“机器人遛狗”竟成现实
起猛了,发现机器人能遛机器狗了?
在RDT的指挥下,机器人能灵巧地握住长度不到2cm的迷你摇杆,控制机器狗走出完美直线。
而如果把RDT换成其他模型,就会导致机器狗会走弯路、甚至见墙就撞。
没办法,控制精度不足!
2.指令遵循:善解人意的倒水大师
RDT能充分理解并遵循人类的语言指令。
倒水大师RDT,让倒1/3的水就倒1/3的水,让倒2/3就倒2/3,简直分毫不差!
值得一提的是,RDT从未见过1/3这个词,也就是说,没有人给RDT演示过1/3的水应该怎么倒。
RDT完全是凭借自己的泛化性,准确地理解了“1/3”这个量词和现实世界中1/3水位高度之间的对应关系。
与之相对,其他模型会指挥机器人倒得过多或过少,甚至尴尬洒水。
3.未见物体与场景:自信地与未知共舞
谁说人类才是唯一能适应环境变化的智能体?RDT也能轻松做到。
清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水
变换任务对象和环境都难不倒它。
4.少样本学习:一点就通的高材生
更厉害的是,RDT有很强的领悟力,是机器人模型中的“学霸”。
教会RDT叠衣服仅需演示1遍,而其他模型要重复教几十遍才能勉强学会。
初识RDT:ScalingLaw魅力时刻
相比其他机器人模型,为什么RDT能做到如此智能?相比同行最优水准领先多少?
三个“最大”是RDT实现智能飞跃的秘密:
在机器人扩散模型中,RDT拥有目前「最大的模型参数量」,高达1.2B。比之前由谷歌、Deepmind等牵头研发的最大的具身扩散模型(八爪鱼,Octo,93M)还要大一个数量级。
RDT在「最大的具身数据集」上预训练。预训练数据集包含46个不同的机器人数据集,总共有超过100万条人类演示数据。模型在48块H100显卡上预训练了1M步。
RDT拥有目前「最大的双臂微调数据集」。清华团队构建了包括300+任务和6K+条演示的数据集。与之对比,先前由斯坦福、MIT等领衔研发的具身大模型OpenVLA的微调数据集仅有几百条演示。
解密RDT:从问题与挑战讲起
在大多数情况,人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂,显然更灵活,也更能帮助人类。
但是,目前的双臂机器人距离落地还有一段路要走,根本原因是双臂的人类演示数据匮乏,“巧妇难为无米之炊”,而且模型泛化能力不足,不能“举一反三”。
为了解决这个问题,一种通常的做法是,利用多种不同机器人的数据,训练一个可泛化的「大模型」。
但这又会带来两个新的挑战:
一是,在机器人领域,缺乏一个像GPT一样的通用、强大的「模型架构」。
它不仅需要能学会各种的动作模式(modality),还需要具备可扩展性(scalability)。换言之,扩大模型的参数量,它的性能也要跟着一起涨。
二是,在之前的研究中,尚没有一个公认的在多种机器人数据上训练的方案。
这主要是因为不同机器人的硬件结构和传感器不同,进而导致数据的格式五花八门,难以进行统一的处理。
在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。
设计RDT:双臂机器人操作的新架构
「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的演示来学习各种各样的技能,比如擦桌子和倒水等。
然而,人类的动作模式千变万化,就连抓起一个方块都有好几种做法(见下图)。
为了能学会多样的动作模式,研究者采用扩散模型(diffusionmodel)来进行建模。
图3描绘了RDT的整体架构,接下来我们逐一进行介绍。
首先是多模态输入的编码。
对于一个具体的机器人任务,模型在收到人类发出的语言指令后,需要结合自己的视觉观察,来预测完成任务所需的机械臂动作(action)。
这里就涉及到了语言、图片和动作三种模态。
动作具有低维度和高频的特点。研究者采用具有傅里叶特征的多层感知机(MLP)来进行编码。
图片具有高维度的特点,同时含有丰富的空间和语义信息。研究者采用经过对齐的SigLIP进行编码。
语言具有变长的特点,并且高度抽象。研究者采用一个具有丰富知识的语言大模型——T5-XXL来进行编码。
此外,不同模态包含的信息量不尽相同。
咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。
为了避免模型“偷懒”,只看信息量大的模态,在训练中,研究者会以一定概率随机遮蔽(mask)各个模态。
接下来介绍具体的网络结构。
为了保证可扩展性,研究者选择Transformer作为骨干网络,并做出如下关键修改:
由于传感器失灵等原因,机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题。研究者采用更加先进的QKNorm和RMSNorm来进行缓解。
机器人的动作往往符合非线性动力学的物理规律。为了增强对非线性的近似能力,研究者将最终层的线性解码器替换为非线性的MLP解码器。
图像的维度通常远高于文本的维度。同时将这两种模态注入到主干网络中时,往往图像会淹没文本,从而削弱模型的指令遵循能力。为此,研究者采取了交替注入的方式。
训练RDT:预训练与微调相结合
为了在多种机器人数据上进行预训练,研究者需要对数据格式进行统一。
具体来说,研究者构建了一个统一的动作空间(如图3左侧所示)。
该空间的每个维度具有明确的物理含义,以保证模型能够从不同机器人数据中学习到共享的物理规律。
在有了统一数据格式后,研究者就能将所有不同类型的机器人数据汇聚在一起,形成了目前最大的数据集,其包含超过100万条演示。
正因为在如此大的数据集上进行预训练,RDT获得了无与伦比的泛化性。
最后,研究者还采集了目前质量最高的双臂微调数据集,用来微调RDT以增强其双臂操作能力。
该数据集具有如下特点:
数量大:6K+演示数据。
范围全:300+任务,从简单的抓取到精细操作,甚至包括黑板上解数学题一类的高难度操作。
多样性:100+不同类型的物体,15+不同的房间以及光照条件。
测试RDT:泛化性与操作精度并举
该团队设计了7个挑战性任务,从不同维度评估RDT的泛化能力和操作精度。
对于清洗杯子的任务,需要双手协调和物体泛化性。
具体来说,机器人需要拿起未见过的杯子,用另一只手打开水龙头,清洗杯子,倒干净杯中的水,并关闭水龙头。
这个任务对于单臂机器人来说几乎无法完成。
对于遥控机器狗,需要双手协调和极高的操作精确性。
机器人需要用一只手抓住遥控器,并用另一只手推动遥杆控制机器狗向前。
这项任务比洗杯子的精度要求更高,因为迷你摇杆的长度不到2cm,且稍有偏移机器狗就会“走弯路”。
对于倒水任务,模型需要能泛化到未见过的环境与语言指令,并理解用户要求,倒水至特定水位。
而对于传递物体和叠裤子的任务,仅给少量演示(1-5条),RDT就需要学会一个全新的技能。
实验评估(结果见表3)中,研究者主要回答以下问题:
Q:RDT能否对未见的物体和场景实现零样本(Zero-Shot)泛化?并遵循未见过的自然语言指令?
A:可以。在洗杯子(WashCup)和倒水(PourWater)任务中,RDT对未见场景和物体仍能达到较高成功率,其表现与见过的情况相差不大。
在PourWater-L-1/3和PourWater-R-2/3任务中,RDT精确地理解了应该用哪只手操作、倒多少水,并能够严格遵循指令,即便它从未见过类似“三分之一”或“三分之二”这样的词汇。
Q:RDT能否仅通过少量演示就学会新的技能?
A:可以。在物品传递(Handover)和折叠短裤(FoldShorts)任务中,对于两个与已知动作模式完全不同的全新技能,RDT仅分别通过1和5条演示的训练就轻松掌握,而其他方法几乎无法成功。
Q:RDT是否能够完成需要精细操作的任务?
A:可以。在遥控机器狗(RobotDog)任务中,RDT在推动操纵杆时准确控制了角度,而其他模型会导致机器狗发生偏离。
Q:扩散建模、大模型以及大数据是否有助于提升RDT的性能?
A:是的。如表2所示,研究人员对三者分别进行了消融实验,结果表明缺少任何一者都会带来极大的性能损失。
特别地,仅用双臂数据训练的RDT(scratch)在未见物体和场景上表现极差,这表明预训练中学会的知识对于泛化性至关重要。
该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭,主要研究方向是具身智能和AIforScience,此前在ICML和NeurIPS等顶级会议发表多篇论文,曾获清华大学本科生特等奖学金。
另一位是清华大学计算机系的二年级博士生吴凌轩,目前主要研究方向是人工智能安全和具身智能,此前在ICLR发表过论文。
论文团队
参考文献
[1]HuayuChen,ChengLu,ChengyangYing,HangSu,(ICLR),2023.
[2]ChengLu,HuayuChen,JianfeiChen,HangSu,ChongxuanLi,(ICML),2023.
[3]HuayuChen,ChengLu,ZhengyiWang,HangSu,(ICLR),2024.
[4]HuayuChen,KaiwenZheng,HangSu,(NeurIPS),2024.
[5]ChengChi,SiyuanFeng,YilunDu,ZhenjiaXu,EricCousineau,BenjaminBurchfiel,::ScienceandSystems(RSS),2023.
[6]FanBao,ShenNie,KaiwenXue,YueCao,ChongxuanLi,HangSu,:/CVFconferenceoncomputervisionandpatternrecognition,–22679,2023.
[7]ZipengFu,TonyZZhao,:Learni:2401.02117,2024.
[8]MooJinKim,KarlPertsch,SiddharthKaramcheti,TedXiao,AshwinBalakrishna,SurajNair,RafaelRafailov,EthanFoster,GraceLam,PannagSanketi,::2406.09246,2024.
[9]Hao-ShuFang,HongjieFang,ZhenyuTang,JirongLiu,JunboWang,HaoyiZhu,:,2023.
[10]Team,,Ghosh,D.,Walke,H.,Pertsch,K.,Black,K.,Mees,O.,Levine,S.(2024).Octo::2405.12213.
[11]