具备学习技能的机器人必须能在不同的环境中执行不同的任务。|当世界模型被用于sim2real：机器人通过视觉想象和交互尝试来学习( 三 )

5
模拟评估与代码
为了进一步分析，我们在具有视觉和动态变化的程序生成的多任务环境中运行VAL 。场景中的对象以及它们的颜色和位置都是随机的。媒介可以用把手打开抽屉、抓取物体并移动它们、按按钮打开隔间等等。
给定机器人一个包含各种环境的先验数据集，并根据其在以下测试环境中的微调能力进行评估。
同样，给定一个单一的非策略数据集，我们的方法可以快速学习高级操作技能，包括抓取物体、打开抽屉、移动物体，以及对各种新对象使用工具。
环境和算法代码均已公开，请查阅我我们的代码库。

文章图片
6
未来的工作
就像计算机视觉和自然语言处理等领域的深度学习是由大型数据集和泛化驱动的一样，机器人可能需要从类似规模的数据中学习。正因为如此，离线强化学习的改进对于使机器人能够利用大型先验数据集至关重要。此外，这些离线策略要么需要快速的非自主微调，要么需要完全自主的微调，以便在现实世界中部署是可行的。最后，一旦机器人独立运行，我们就能获得源源不断的新数据，这就强调了终身学习算法的重要性和价值。
【具备学习技能的机器人必须能在不同的环境中执行不同的任务。|当世界模型被用于sim2real：机器人通过视觉想象和交互尝试来学习】来源：雷锋网