再加上人工智能的发展历史上 , 游戏本身就是相关研究的试验场 。 用游戏训练出更厉害的AI , 就成了兴军亮的目标 。
兴军亮
为了全方位地了解不同类型游戏的机制 , 原本很少接触游戏的兴军亮开始培养自己的“网瘾”——找出代表型游戏、研究教程、练习手速、完成通关 , 哪一步都不必职业玩家少 。
在这个过程中 , 兴军亮越发觉得 , 玩游戏是一件非常有意思的事 。 尤其是不同游戏的机制设置 , 非常适合用来研究一些基础的科学问题 。 这其中 , 就有游戏博弈 。
就拿此次获奖的德州扑克AI程序来说 , 其本质就是一个不完美信息的博弈问题 。 因为按照德州扑克的游戏规则 , 每个人手上都有两张私有牌 。 牌面的大小并不影响最终的胜负 , 因为玩家完全可以通过假装牌面大、押注金额大等手段吓跑对手 。
两人无限注德州扑克一次游戏过程示意
为了教会AI打德州扑克 , 兴军亮带着团队前后用了十多台服务器 , 集中算力 , 让AI不断跟自己打牌 , 20天的时间 , 就打了1亿局左右 。
随后 , 他们又进一步提升了游戏学习的性能 。 这次 , 他们仅用1台服务器 , 训练不到3天 , 就能达到
而在这个过程中 , 参与训练的AI能学会一些类似于人类专业选手才会掌握的计谋 。 而这 , 正是不完美信息博弈最有趣的地方 。 目前 , 兴军亮和团队打造的德州扑克在线人机对抗平台OpenHoldem(http://holdem.ia.ac.cn/) , 目前已经对外开放 。 据兴军亮说 , 这个系统可能是国内唯一能公开打德州扑克的地方 。
当然 , 兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏 。
像不完美信息博弈 , 这种机制 , 在经济政策的制定、法律法规的优化、外交策略的选择等领域 , 都有很广泛的应用 。 这些 , 是国际同行正在努力攻克的 , 也是国内相关研究比较薄弱的 。
去训练出一个更聪明、更有用、可以和人类融为一体的人工智能 , 是兴军亮不懈追求的方向 。
- 华为鸿蒙系统|意欲何为?国内两大科技巨头弃用华为鸿蒙,自研新系统
- 华为|华为又拿下中国电信一5G大单 还是国内三大运营商大方
- 路由器|价值4200万越南盾!三星推出S22Ultra限量版,国内会有吗?
- 国内首台252千伏石墨烯触头断路器在宁夏电网成功挂网运行
- 芯片|90%依赖进口,国内又一行业被“卡脖子”,比芯片垄断更严重
- CPU处理器|中芯国际:坚定支持国内芯片产业链
- 物联网|CVPR 2022召开:国内科技企业成绩出色,绿厂七篇论文成功入选
- 前不久|罗永浩退出微信、微博、抖音三个国内最大的社交平台
- |国内功率最大海上浮式风电装备“扶摇号”将并网发电
- |中国“缺芯”根本问题找到了,国内学霸成为美芯人才,官方出手
