文章插图
(不同动作的可视化结果,AI学会了关注当前图像中的关键区域)
随着游戏推进,智能体与人类的策略出现了很大的分歧。此时,人类数据已经很难用于指导AI。绝悟AI使用了自模仿学习 (Self-imitation Learning)的思想,提出了基于鉴别器的自模仿学习算法,AI可以从自身过往的成功与失败中获得经验与教训,并在察觉到当前状况不妙的时候,主动往更好的方向修正。对比实验证明,在加入自模仿策略后,智能体探索到的行为更加一致,也可以显著降低进入危险区域的概率。
对于合成物品等需要长链条的动作序列的任务,研究人员也做了细致的优化。通过动作序列一致性过滤 (Consistency Filtering) 与基于投票的集成学习(Ensemble Learning),模型在合成物品阶段的成功率从35%提升到96%,一举将最薄弱的链条扭转为了最稳定的制胜点。
利用高度复杂、高度定制化的游戏场景作训练场,腾讯 AI Lab 的深度强化学习智能体正不断走近现实。棋牌游戏 AI “绝艺”从围棋棋盘逐步走向象棋、麻将,策略协作型 AI “绝悟”从MOBA走向FPS、RTS,再到如今的 3D开放世界 MineCraft。它们迈向全新挑战的每一步,都让AI离解决现实问题、科技向善的大目标更近了一步。
随着虚实集成世界逐步变成现实,这些研究的经验、方法与结论,将在真实世界创造更大的实用价值。
【 deepmind|历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军】雷峰网
- 华为Nova|从“根”进行突破!华为正式宣布,美媒:将彻底改变历史!
- 日前|13代酷睿旗舰型号有望冲上6ghz历史新高
- 三星|历史新低!1319元抢购微星B450+盒装R5 5600板U套装
- 人类历史曾出现13万年的断层,没人知道当时发生什么,原因为何
- 华为|从“根”进行突破!华为正式宣布,美媒:将彻底改变历史!
- 极地发现1.7万年历史“U盘”,却被意外损毁,损失难以估量
- 历史上的今天:生不逢时的计算机之父;微软公布下一代互联网愿景;Quora 上线
- 适应症|新药研发再创历史新高,创新成效如何
- 通信历史连载107-中华酷联之中兴手机的历史
- 智能门锁|历史最好成绩!中国大陆厂商拿下全球芯片代工第5、6、9名
