研究人员|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习( 二 )
为了跳过学习专家奖励函数,Ho & Ermon 证明了 RL 是占用度量匹配问题的对偶,并提出了一个对抗性目标,该目标的优化近似恢复专家的状态-动作占用度量,以及使用生成式对抗网络的实用算法。虽然最近的一些工作旨在改进该算法相对于由极大极小优化引起的训练不稳定性,Primal Wasserstein模仿学习(PWIL)和 Sinkhorn 模仿学习(SIL)将 IL视为占用措施之间的最优传输问题,以完全消除极大极小目标,并在样本效率方面优于对抗性方法。
还有其他研究人员将模仿学习扩展到复杂的类人运动和非琐碎设置中的游戏行为。从 Wasserstein 到 Gromov-Wasserstein,该论文工作是对 Dadashi 等人以及 Papagiannis 和 Li 的延伸,从而超越了专家和模仿者在同一域中的限制,并进入了生活在不同空间中的智能体之间的跨域设置。
跨域和形态的迁移学习。在 RL 中,不同域之间传递知识的工作通常会学习状态空间和动作空间之间的映射。Ammar 等人使用无监督流形对齐,在具有相似局部几何形状但假定可以获得手工制作特征的状态之间找到线性映射。最近在跨视点迁移学习和实施例不匹配方面的工作学习了不需要手工特性的状态映射,但假设可以从两个领域获得成对和时间对齐的演示。
此外,Kim 等人和 Raychaudhuri 等人提出了从未配对和未对齐任务中学习状态映射的方法。所有这些方法都需要智能体任务,即来自两个域的一组专家演示,这限制了这些方法在现实世界中的适用性。Stadie等人提出将对抗学习和域混淆结合起来,在不需要智能体任务的情况下在智能体域学习策略,但他们的方法仅适用于小视点不匹配的情况。Zakka等人采用目标驱动的观点,试图模拟任务进程,而不是匹配细粒度的结构细节,以便在物理机器人之间转换。
相比之下,这篇论文的方法不依赖于学习智能体之间的显式跨域潜在空间,也不依赖于智能体任务。GromovWasserstein 距离使研究人员能够在没有共享空间的情况下直接比较不同的空间。现有基准测试任务假设可以访问来自两个智能体的一组演示,而这篇论文中的实验仅假设可以访问专家演示。
文章插图
文章插图
图注:Gromov-Wasserstein 距离使我们能够比较具有不同动态和状态-动作空间的两个智能体的平稳的状态-动作分布。我们将其用作跨域模仿学习的伪奖励。
文章插图
图注:给定专家域(a)中的单个专家轨迹,GWIL 在没有任何外部奖励的情况下恢复智能体域(b)中的最优策略。绿点表示初始状态位置,当智能体达到红色方块表示的目标时,事件结束。
- 创投圈|抖音小店无货源适合新手小白么?如何精细化运营?新手小白看来
- 松下|淘宝店铺信誉分等级如何提升?
- PHP|如何降低用户关注的非必要页面的权重传递?
- 量子纠缠存在于任何维度空间?人类如何逃出三维空间变成“神”?
- 显卡|如何组装旗舰游戏电脑?这里有你想要的答案
- 科学家为何要在太空放火?会有什么后果?答案让人意外
- 火星和地球交换位置会如何?火星会出现生命吗?答案没你想得简单
- 快手视频|视频号和抖音快手的差异化在哪里呢?你应该如何选择适合你的平台
- AirPods|如何进行微信活动运营才有效?
- 酷睿处理器|AMD Zen4如何接招?13代酷睿Z790主板偷跑:DDR4内存还在
