🦄九游娱乐(中国)网址在线使磨练出的政策在多样不同任务上发达浩繁-九游娱乐(中国)网址在线

发布日期：2024-11-13 05:17 点击次数：111

克雷西发自凹非寺量子位 | 公众号 QbitAI

东说念主类只需要演示五次，就能让机器东说念主学会一项复杂手段。

英伟达实验室，淡薄了机器东说念主磨练数据枯竭问题的新处罚决议——DexMimicGen。

五次演示之后，DexMimicGen就不错凯旋效法出1000个新的demo。

而且可用性强，用这些新demo磨练出的机器东说念主，在仿真环境中的任务奏遵循不错高达97%，比用真东说念主数据效果还要好。

参与此技俩的科学家范麟熙（Jim Fan）觉得，这种用机器磨练机器的面孔，处罚了机器东说念主畛域最大的痛点（指数据汇注）。

同期，Jim Fan还预言：

机器东说念主数据的异日是生成式的，总共机器东说念主学习经由的异日也将是生成式的。

值得一提的是，DexMimicGen三名共归拢作都是李飞飞的“徒孙”，具体说是德克萨斯大学奥斯汀分校（UT奥斯汀）助理栽植朱玉可（Yuke Zhu）的学生。

而且三东说念主均为华东说念主，现在都在英伟达商讨院实习。

5次演示，生成1000条数据

如前所述，DexMimicGen不错仅字据东说念主类的5次演示，生成1000个新DEMO。

在总共实验中，作家成立了9个场景，涵盖了3种机器东说念主花样，共进行了60次演示，获取了21000多个生成DEMO。

在仿真环境当中，用DexMimicGen生成数据磨练出的政策扩充整理抽屉这一任务，奏遵循可达76%，而单纯使用东说念主工数据只消0.7%。

关于积木拼装任务，奏遵循也从3.3%晋升到了80.7%。

奏遵循最高的任务是罐子分类，更是高达97.3%，只用东说念主工数据的奏遵循一样只消0.7%。

合座来看，在仿真环境中，生成数据让机器东说念主在作家蓄意的九类任务上的奏遵循均较着增多。

比较于baseline规范，用DexMimicGen生成的数据也更为灵验。

移动到信得过环境之后，作家测试了易拉罐分拣的任务，结束仅用了40个生成DEMO，奏遵循就达到了90%，而不使用生成数据时的奏遵循为零。

除此以外，DexMimicGen还展现了跨任务的泛化才略，使磨练出的政策在多样不同任务上发达浩繁。

针对开动景象散播变化，DexMimicGen也体现出了较强的鲁棒性，在更凡俗的开动景象散播D1和D2上测试时，仍然梗概领有一定的奏遵循。

将仿真规范移动到本质

DexMimicGen是由MimicGen修订而成，MimicGen也出自英伟达和UT奥斯汀的皆集团队。

朱玉可和范麟熙都参与过MimicGen的职责，该效果发表于CoRL 2023。

MimicGen的中枢想想，是将东说念主类示范数据分割成以认识物体为中心的片断，然后通过变换物体相对位置和姿态，在新环境中复现东说念主类示范轨迹，从资料毕自动化数据生成。

DexMimicGen则在MimicGen系统的基础上，针对双臂机器东说念主智谋操作任务作念了立异和膨胀，具体包括几个方面：

引入并行、合作、规则三种子任务类型，以顺应双臂智谋操作任务的需求；对应三种子任务类型，蓄意了异步扩充、同步扩充怜惜序拘谨等机制，以已毕双臂的寥寂动作、精密协同和特定规则操作；已毕了“本质-模拟-本质”的框架，通过构建数字孪生，将DexMimicGen拓展到了内容机器东说念主系统的行使。

职责经由上，DexMimicGen会当先对东说念主类示范进行汇注和分割。

商讨东说念主员通过指挥XR头显，资料收尾机器东说念主完成认识任务，在这一过程中就会产生一小批示范数据，作家针对每个任务汇注了5~10个东说念主类示范样本。

这些东说念主类示范样本会按照并行、合作、规则三种子任务界说被切分红片断——

并行子任务允许两臂寥寂扩充；合作子任务条件两臂在关键技艺同步动作；规则子任务则法则了某些子任务必须在另一些子任务完成后能力扩充。

总之，在示范数据被切分后，机器东说念主的每个手臂会得到我方对应的片断汇注。

在数据生成动手时，DexMimicGen飞速化模拟环境中物体的位置、姿态等数据，并飞速选定一个东说念主类示范算作参考。

关于面前子任务，DexMimicGen管帐算示范片断与面前环境中关键物体位置和姿态的变换。

之后用该变换对参考片断中的机器东说念主动作轨迹进行处理，以使扩充这一变换后的轨迹梗概与新环境中物体位置匹配。

生成变换后，DexMimicGen会治疗每个手臂的动作队伍，手指关键的绽放则凯旋重放示范数据中的动作。

在总共过程中，系统不休查验任务是否奏效完成，如若一次扩充奏效完成了任务，则将扩充过程记载下来算作灵验的演示数据，失败则将数据丢弃。

之后便是将生成过程不休迭代，直到获取弥漫量的演示数据。

汇注好数据后，作家用DexMimicGen生成的演示数据磨练效法学习政策，政策的输入为RGB相机图像，输出为机器东说念主动作。

临了是模拟到本质的移动，一样地，作家使用DexMimicGen在数字孪生环境中生成的大范围演示数据，磨练效法学习政策。

之后作家对在数字孪生环境中评估磨练得到的政策进行调优，以提高其泛化性能和鲁棒性，并移动到内容机器东说念主系统中。

作家简介

DexMimicGen的共归拢作有三东说念主，都是UT奥斯汀的华东说念主学生。

况兼三东说念主均出自李飞飞的学生、浙大学友朱玉可（Yuke Zhu）助理栽植门下，他们区别是：

博士生Zhenyu Jiang，本科就读于清华，2020年参预UT奥斯汀，瞻望将于来岁毕业；硕士生Yuqi Xie（谢雨皆），本科是上海交大和好意思国密歇根大学联培，瞻望毕业技艺亦然来岁；博士生Kevin Lin，本科和硕士区别就读于UC伯克利和斯坦福，本年加入朱玉可课题组读博。

朱玉可的另一重身份是英伟达的商讨科学家，团队的另外两名细致东说念主也都在英伟达。

他们区别是Ajay Mandlekar和范麟熙（Jim Fan），也都是李飞飞的学生，Mandlekar是总共DexMimicGen技俩组中独一的非华东说念主。

另外，Zhenjia Xu和Weikang Wan两名华东说念主学者对此技俩亦有孝敬，总共团队的单干如下：

技俩主页：https://dexmimicgen.github.io/论文地址：https://arxiv.org/abs/2410.24185参考贯穿：[1]https://x.com/SteveTod1998/status/1852365700372832707[2]https://x.com/DrJimFan/status/1852383627738239324

🦄九游娱乐(中国)网址在线使磨练出的政策在多样不同任务上发达浩繁-九游娱乐(中国)网址在线

栏目分类

热点资讯

相关资讯