具备学习技能的机器人必须能在不同的环境中执行不同的任务。|当世界模型被用于sim2real:机器人通过视觉想象和交互尝试来学习( 二 )
文章图片
在这个潜在空间的距离是有意义的 , 为我们自我评价成功的关键机制铺平了道路 。 给定当前图像s和目标图像g , 我们将它们编码进潜在空间 , 并设定它们可以获得奖励的距离阈值 。
随后 , 我们还将使用这个表示作为我们潜在空间的策略和Q函数 。
2.接下来 , VAL通过在潜在空间中训练PixelCNN来学习可供性模型 , 以学习以环境图像为条件的可达状态分布 。 这是通过最大化数据的似然p(sn|s0)来完成的 。 我们使用这种可供性模型进行定向探索和重新标记目标 。 
文章图片
可供性模型如右图所示 。 在该图的左下方 , 我们看到条件图像包含一个罐子 , 右上方解码的潜在目标显示了不同位置的盖子 。 这些连贯的目标将允许机器人进行连贯的探索 。
3.最后在离线阶段 , VAL必须从离线数据中学习行为 , 然后可以通过额外的在线交互式数据收集进行改进 。 
文章图片
为了实现这一点 , 我们使用加权强化学习算法(AdvantageWeightedActorCritic)在先验数据集上训练目标条件策略 , 这是一种专为离线训练和在线微调而设计的算法 。
3
VAL:在线阶段
现在 , 当VAL被放置在一个未见过的环境中时 , 它使用其先前的知识来想象有用可供性的视觉表示 , 通过尝试实现这些可供性来收集有用的交互数据 , 使用其自我评估指标更新其参数 , 并一直重复整个过程 。 
文章图片
在这个真实的例子中 , 在左侧我们看到了环境的初始状态 , 它提供了打开抽屉和其他任务的功能 。
在步骤1中 , 可供性模型对潜在目标进行采样 。 通过解码目标(使用VQVAE解码器 , 在RL期间从未实际使用过 , 因为我们完全在潜在空间中操作) , 我们可以看到可供性是打开抽屉 。
在步骤2中 , 我们使用具有采样目标的训练策略 。 我们看到它成功打开了抽屉 , 实际上它拉太大力了 , 直接把抽屉拉了出来 。 但这为RL算法进一步微调和完善其策略提供了极其有用的交互 。
在线微调完成后 , 我们现在可以评估机器人在每个环境中实现相应的未见过的目标图像的能力 。
4
真实环境评估
我们在五个真实的测试环境中评估我们的方法 , 并评估VAL在无监督微调之前和五分钟之后完成环境提供的特定任务的能力 。
每个测试环境至少包含一个未见过的交互对象和两个随机抽样的干扰对象 。 例如 , 当训练数据中有打开和关闭抽屉时 , 新的抽屉有没见过的把手 。 
文章图片
每个测试 , 我们都从离线训练策略开始 , 它每次完成任务的方式都不一致 。 然后 , 我们使用我们的可供性模型收集更多经验来采样目标 。 最后 , 我们评估经过微调的策略 , 它能始终一致地完成任务 。 
文章图片
我们发现 , 在这些环境中 , VAL在离线训练后始终显示出有效的零样本泛化 , 随后通过其可供性导向的微调方案快速改进 。 与此同时 , 先前的自监督方法在这些新环境中几乎没有改善 。 这些令人兴奋的结果表明 , 像VAL这样的方法具有使机器人成功操纵的潜力 , 远远超出它们现在习惯的有限的出厂设置 。
我们的2,500个高质量机器人交互轨迹数据集 , 涵盖20个抽屉把手 , 20个锅把手 , 60个玩具和60个干扰物 , 现已在我们的网站上公开发布 。
- 网友热议|母亲回应3个孩子2个上清华:只能教孩子做人诚实守信 学习都靠自己努力
- 抖音|合肥恒泽冠雨讲坛:具备什么样的内容是抖音喜欢的
- 人人奋勇争先 出彩技能河南
- 格力电器|不要再说Python难了,按照这个学习路线,四周速成Python
- 腾讯文档|从事展览3d模型设计,你需要具备那些能力?---模大狮网
- OPPO|准大学生看过来!满足大学四年学习、生活需求平板,三件套不到2K
- 京东|Java:有哪些快速学习Java语言的技巧?
- 麒麟9000|麒麟9000的4代?Mate50的性能数据已经公布,麒麟和5 G同时具备
- 企查查APP显示|小米汽车将具备对外放电功能
- meta|学习通被曝泄露1.7亿条信息!网友:快下架吧
