deepmind|历史最高分！腾讯绝悟AI斩获Minecraft AI竞赛冠军( 二 )

文章插图

（不同动作的可视化结果，AI学会了关注当前图像中的关键区域）
随着游戏推进，智能体与人类的策略出现了很大的分歧。此时，人类数据已经很难用于指导AI。绝悟AI使用了自模仿学习 (Self-imitation Learning)的思想，提出了基于鉴别器的自模仿学习算法，AI可以从自身过往的成功与失败中获得经验与教训，并在察觉到当前状况不妙的时候，主动往更好的方向修正。对比实验证明，在加入自模仿策略后，智能体探索到的行为更加一致，也可以显著降低进入危险区域的概率。
对于合成物品等需要长链条的动作序列的任务，研究人员也做了细致的优化。通过动作序列一致性过滤 (Consistency Filtering) 与基于投票的集成学习(Ensemble Learning)，模型在合成物品阶段的成功率从35%提升到96%，一举将最薄弱的链条扭转为了最稳定的制胜点。
利用高度复杂、高度定制化的游戏场景作训练场，腾讯 AI Lab 的深度强化学习智能体正不断走近现实。棋牌游戏 AI “绝艺”从围棋棋盘逐步走向象棋、麻将，策略协作型 AI “绝悟”从MOBA走向FPS、RTS，再到如今的 3D开放世界 MineCraft。它们迈向全新挑战的每一步，都让AI离解决现实问题、科技向善的大目标更近了一步。
随着虚实集成世界逐步变成现实，这些研究的经验、方法与结论，将在真实世界创造更大的实用价值。
【 deepmind|历史最高分！腾讯绝悟AI斩获Minecraft AI竞赛冠军】雷峰网