DeepMind&OpenAI推出3D版安全强化学习模型，「跳崖」行为减至10%( 二 )

在这个网络里，人类反馈的奖励草图也起到了很重要的作用。
奖励草图简单来说就是人工给奖励值打分。
如下图所示，图中上半部分就是人给出的草图，当下半部分的预测观察中有苹果的时候，奖励值就是1 ，如果苹果逐渐从视野中淡出，奖励就变成-1 。

文章图片
以此来调整奖励模型网络。
3D版安全强化学习模型效果如何
接下来我们来看看新模型和其他模型以及Baseline的对比效果如何。
结果如下图所示，不同的难度对应的是场景大小的不同。
下图左边是智能体从悬崖摔下去的次数，右边是吃掉苹果的数量。

文章图片
需要注意的是，图例中的ReQueST（ours）代表训练集中包含了人类提供错误路径的训练结果。
而ReQueST（safe-only）代表训练集中只使用安全路径的训练结果。
另外， ReQueST（sparse）是不用奖励草图训练的结果。
从中可以看出，虽然Model-free这条baseline吃掉了所有的苹果，但是牺牲了很多安全性。
而ReQueST的智能体平均能吃掉三个苹果中的两个，并且跌落悬崖的数量只是baseline的十分之一，性能比较出众。
从奖励模型的区别上来看，奖励草图训练的ReQueST和稀疏标签训练的ReQueST效果相差很大。
稀疏标签训练的ReQueST平均一个苹果也吃不到。
看来， DeepMind和OpenAI抓的这两点确有改善之处。
参考链接：
[1]https://www.arxiv-vanity.com/papers/2201.08102/[2]https://deepmind.com/blog/article/learning-human-objectives-by-evaluating-hypothetical-behaviours

DeepMind&amp;OpenAI推出3D版安全强化学习模型，「跳崖」行为减至10%( 二 )

DeepMind&OpenAI推出3D版安全强化学习模型，「跳崖」行为减至10%( 二 )