DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%( 二 )
在这个网络里 , 人类反馈的奖励草图也起到了很重要的作用 。
奖励草图简单来说就是人工给奖励值打分 。
如下图所示 , 图中上半部分就是人给出的草图 , 当下半部分的预测观察中有苹果的时候 , 奖励值就是1 , 如果苹果逐渐从视野中淡出 , 奖励就变成-1 。

文章图片
以此来调整奖励模型网络 。
3D版安全强化学习模型效果如何
接下来我们来看看新模型和其他模型以及Baseline的对比效果如何 。
结果如下图所示 , 不同的难度对应的是场景大小的不同 。
下图左边是智能体从悬崖摔下去的次数 , 右边是吃掉苹果的数量 。

文章图片
需要注意的是 , 图例中的ReQueST(ours)代表训练集中包含了人类提供错误路径的训练结果 。
而ReQueST(safe-only)代表训练集中只使用安全路径的训练结果 。
另外 , ReQueST(sparse)是不用奖励草图训练的结果 。
从中可以看出 , 虽然Model-free这条baseline吃掉了所有的苹果 , 但是牺牲了很多安全性 。
而ReQueST的智能体平均能吃掉三个苹果中的两个 , 并且跌落悬崖的数量只是baseline的十分之一 , 性能比较出众 。
从奖励模型的区别上来看 , 奖励草图训练的ReQueST和稀疏标签训练的ReQueST效果相差很大 。
稀疏标签训练的ReQueST平均一个苹果也吃不到 。
看来 , DeepMind和OpenAI抓的这两点确有改善之处 。
参考链接:
[1]https://www.arxiv-vanity.com/papers/2201.08102/[2]https://deepmind.com/blog/article/learning-human-objectives-by-evaluating-hypothetical-behaviours
- 音箱|百元音箱听个响?真正入门发烧推荐:B&W领衔盘点几款HiFi书架箱
- 显卡|85万核心的世界最大AI芯片打破记录:要"杀死" GPU!
- 软件|R&S将ZNB矢量网络分析仪系列的最高频率扩展至43.5GHz
- 音响|日本代购宝华&韦健的二手音响怎么样?
- 618战报出炉:vivo X Fold斩获折叠屏手机销量&销额双冠军
- 美团|Python 自学网站 Python Code Example
- 物联网|ESP32-C5超低功耗技术工艺,提升物联网设备性能,支持2.4&5GHz双频Wi-Fi 6
- AI自己写代码让智能体进化!OpenAI的大模型有“人类思想”那味了
- 有一不是传言的传言:很多AI大牛都辞去了谷歌、Meta、OpenAI和DeepMind等...|美国「AI四小龙」堵大厂门口挖人,大牛组团跑路跳槽
- 量子计算大神Aaronson加盟OpenAI!他还是姚班学霸陈立杰导师
