横扫6个SOTA,谷歌行为克隆算法登CoRL顶会,机器人干活10倍速( 二 )

文章图片
上图所示为隐式模型如何适应不连续性的动画——在这种情况下 , 训练隐式模型来适应一个步长(Heaviside)函数 。 左:拟合黑色训练点的2D图 , 颜色代表能量值(蓝色低 , 棕色高) 。 中间:训练期间能量模型的3D图 。 右图:训练损失曲线 。
一旦经过训练 , GoogleAI发现隐式模型(implicitmodel)特别擅长精确地建模先前显式模型(explicitmodel)难以解决的不连续性问题 , 从而产生新的策略 , 能够在不同行为之间果断切换 。

文章图片
为什么传统的显式模型(explicitmodel)在这个问题上表现不佳呢?
现代神经网络几乎总是使用连续激活函数——例如 , Tensorflow、Jax和PyTorch都只提供连续激活函数 。
在试图拟合不连续数据时 , 用这些激活函数构建的显式网络无法准确表示 , 因此必须在数据点之间绘制连续曲线 。 隐式模型(implicitmodel)的一个关键优势是 , 即使网络本身仅由连续层组成 , 也能够表示出尖锐的不连续性 。

文章图片
与显式模型(底部)相比 , 隐式模型(顶部)拟合不连续函数的示例 。 红色突出显示的插图显示 , 隐式模型表示不连续性(a)和(b) , 而显式模型必须在不连续性之间画出连续的线(c)和(d)
GoogleAI在这个方面建立了理论基础 , 提出了一个普遍近似的概念 , 证明了隐式神经网络可以表示的函数类别 , 这将有助于证明和指导未来的研究 。
GoogleAI最初尝试这种方法时面临的一个挑战是「高动作维度」 , 这意味着机器人必须决定如何同时协调多个电机 。 为了扩展到高作用维度 , GoogleAI使用自回归模型或朗之万动力学 。
全新SOTA
在实验中 , GoogleAI发现ImplicitBC在现实世界中表现得特别好 , 在毫米精度的滑块滑动及插槽任务上比基线的显式行为克隆(explicitBC)模型好10倍 。
在此任务中 , 隐式模型(implicitmodel)在将滑块滑动到位之前会进行几次连续的精确调整 。

文章图片
将滑块精确地插入插槽的示例任务 。 这些是隐式策略的自主行为 , 仅使用图像(来自所示的摄像机)作为输入
这项任务有多种决定性因素:由于块的对称性和推动动作的任意顺序 , 有许多不同的可能解决方案 。
机器人需要决定滑块何时已经被推动足够远 , 然后需要切换到向不同方向滑动 。 这一过程是不连续的 , 所以 , 连续控制型机器人在这一任务上会表现得十分优柔寡断 。

文章图片
完成这项任务的不同策略 。 这些是来自隐式策略的自主行为 , 仅使用图像作为输入
在另一个具有挑战性的任务中 , 机器人需要按颜色对滑块进行筛选 , 由于挑选顺序是很随意的 , 这就产生了大量可能的解决方案 。

文章图片
颇具挑战性的连续筛选任务中显式BC模型的表现(4倍速度)
在这项任务中 , 显式模型(explicitmodel)还是表现得很拿不准 , 而隐式模型(implicitmodel)表现得更好 。

文章图片
颇具挑战性的连续筛选任务中隐式BC模型表现(4倍速度)
而且在GoogleAI的测试中 , ImplicitBC在面临干扰时 , 尽管模型从未见过人类的手 , 也依然可以表现出强大的适应能力 。
- VR|微信有6个设置需及时关闭,否则个人隐私可能暴露在外?别不当回事
- 物联网|微信有6个设置需及时关闭,否则个人隐私可能暴露在外?别不当回事
- IBM研发“电子舌头”,16个传感器替代上千味蕾,能辨假酒
- 全世界最小的电机,材料仅16个原子,一次充电能跑几百公里
- 小米科技|消失3年 Intel发烧U终于重出江湖:才16个核心
- 动车组|新一批复兴号智能动车组下线 在16个方面增设智能配置
- 消失3年 Intel发烧处理器终于重出江湖:才16个核心
- Intel|消失3年 Intel发烧处理器终于重出江湖:才16个核心
- |PCB板质量好坏如何判断? 分辨PCB板好坏的6个方法
- 小米科技|没有华为之后,小米的618简直全面开花,1000-6000价位,6个第一
