研究人员|如何让人模仿猎豹走路？Stuart Russell提出基于最优传输的跨域模仿学习( 三 )

1. 当智能体域是专家域的刚性变换时，GWIL能否恢复最优行为？这是可以的，论文的作者们用迷宫证明了这一点。
2. 当智能体的状态和行动空间与专家不同时，GWIL能否恢复最优行为？这也是可以的，本篇论文中，作者们展示了倒立摆（cartpole）和钟摆（pendulum）之间轻微不同的状态-动作空间以及步行者（walker）和猎豹（cheetah）之间显著不同的空间。
为了回答这两个问题，研究人员使用了在 Mujoco 和 DeepMind 控制套件中实现的模拟连续控制任务。该学习策略的视频可在论文的项目网站上访问。在所有设置中，作者在dE和dA的专家和智能体空间中使用欧几里得度量。
学习策略地址：https://arnaudfickinger.github.io/gwil/

文章插图

图注：给定钟摆域（上图）中的单个专家轨迹，GWIL 在没有任何外部奖励的情况下恢复智能体域（倒立摆，下图）中的最优行为。

文章插图

图注：给定猎豹域（上图）中的单个专家轨迹，GWIL 恢复智能体域（步行者）中最优策略等距类的两个元素，向前移动是最优的（中间），向后移动是次优的（下图）。有趣的是，由此产生的步行者的行为就像一只猎豹。

文章插图

雷峰网