菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

几十年来,游戏是一直被用作测试和评估AI(人工智能系统)性能的重要方法。随着能力的不断提高,研究者们开始寻求越来越复杂的游戏,这些游戏拥有可以用来解决科学和现实问题所需的多种智能要素。《星际争霸》则被公认是最具挑战性的即时战略游戏(RTS)之一,也是有史以来游戏时长最长的电子竞技之一,已成为AI研究的”重大挑战”。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

北京时间1月25日凌晨2点,AI选手AlphaStar完成了他们的《星际争霸2》首秀,需要特别注意的是,这次参加挑战的AI并非一位,而是三位,他们被统称为AlphaStar。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

AlphaStar乱拳打死老师傅,昔日天才少年TLO惨败

DeepMind团队在这次挑战中研究出了多款AlphaStar,这些AlphaStar最先通过研究上百万份《星际争霸2》玩家天梯录像进行自我学习,然后再进入一种类似于”AlphaStar联赛”的互相训练赛模式进行学习,这种左右互搏之术让AlphaStar成长创造出自己的三种不同”自我”型号,分别是:”普通型”、”极致操作不败型”、”拟人型”。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

经过一个星期的学习之后,AlphaStar已经能够击败研究所内最会打星际的研究员(大约天梯5000分实力)。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

与人类高手同台竞技

起初,最先与AlphaStar对战的是来自Liquid战队的TLO,这位曾经的天才少年现在已经远不如前,水平退步的很厉害,目前他在神族欧服天梯也就是5500分左右的水准(TLO主玩虫族,水平尚可),在研究人员看来,作为AlphaStar的出山第一战,这个水平用来给AlphaStar露露脸是再适合不过了。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

事实证明AlphaStar远超所有人的预期,或者换句话说,TLO打的太菜,也远超所有人的预期,TLO的神族用辣眼睛来形容真是再贴切不过了——第一局,AlphaStar还没有发力,TLO就倒下了,而这时候的AlphaStar在”会玩”游戏的玩家们眼中,却可以说是漏洞百出,丝毫没有什么游戏理解。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

7分钟的对局让我们第一次正面了解了AlphaStar,但是他许多奇怪的操作让人无法理解:一个有上万场录像学习经验的AI,居然学不会职业玩家的建筑学,不会堵口这种战术也就算了,居然自己修水晶阻挡农民采集气体,更令人不可思议的是AlphaStar在单矿运营农民达到上限的时候竟然持续生产农民,这一系列不符合常规理解的操作让人直呼看不懂!

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

然而细心的观众可能已经发现了,AlphaStar在单矿有21超负荷农民运营的时候,他的实际每分钟收入是超过TLO的——可能这就是AI并不会墨守成规的一点,他通过自己的学习和对游戏的理解,对暴雪订制的游戏运营规则发出了自己的质疑。在AlphaStar看来,并非16农民采集就是单矿的上限。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

AlphaStar进攻中失误,误伤自己单位,瞬间损失近20人口部队

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

5OB集体巡航让玩家怀疑人生

AlphaStar用一阵乱拳打死老师傅的操作抬走了TLO,这下可把DeepMind团队乐的笑出了声,赶忙邀请了正经八百的神族现役一线职业选手MANA前来对阵。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

顶尖神族MANA偷得一胜,为人类保留颜面

同为Liquid的职业选手,MANA就要强势的多了。尽管队友已经败给了AlphaStar,但是他有足够的信心去击败这个AI,毕竟世界前十的神族选手对战一个只学习了两周的AI,就单看第一轮的结果来说,应该是没有任何问题的,这种实力至上的对话,上届WCS亚军完全不虚。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

然而,比赛并没有按照预想的发展,起码没有按照MANA预想的那么来——AlphaStar再次闭关修行一周后,已经脱胎换骨,依然坚持自己的25农民单矿超负荷运载,一波2BG+野2BG走路续兵直接换家MANA,仅仅5分钟就兵不血刃拿下首胜。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

第二盘的时候AlphaStar拿出了自己之前从未展现的凤凰+追猎组合,凤凰的操控精准飘逸,每一步走位都游离在MANA的攻击距离边缘,精准的控血让AlphaStar占尽了便宜,两三波交换下来,AlphaStar部队保存完好,MANA却被左右包夹和各种秀操作到死。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

通过这张GIF我们清晰的可以看到,在与MANA比赛期间,AlphaStar的各种操作其实都是由神经网络的原始观察输入系统(左下),然后神经网络内部开始激活分析处理数据(中下),随后AI得出自己的判断,开始进行操作,生产单位、控制单位,与此同时AlphaStar还在同步的计算自己的胜率。而在AlphaStar眼中,在这波交战过后,MANA几乎再无任何翻盘的机会。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

简单来说,第三盘全面爆发的MANA拿出了自己的真本事,然而也只是前期稍占优势,后期AlphaStar甚至使用了主动示弱,诱敌深入的方式将MANA主力三面围歼在外,拥有瞬时间上千有效APM,无敌操作的AlphaStar摧枯拉朽,一击就彻底击垮了MANA。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

AlphaStar自信胜率拉满

第五局则更加飘逸,AlphaStar甚至主动去封了MANA的气矿,出其不意的打出了野不朽的战术爆锤MANA,打的世界亚军苦笑连连,毕竟他知道自己会输是因为被机器硬吃了操作,这并不丢人。

最后,作为今日直播的压轴戏,MANA现场又和AlphaStar来了一次对决,这次的AlphaStar全新版本实力更加强大,初期甚至学会了骚扰经济,他选择了出先知来破坏对方农民采集资源,自己依然多BG正面暴兵,运营上面更是夸张的开到了三矿。

就当观众们以为这种”无解肥”的AlphaStar要一波流取胜时,MANA神奇的用一个棱镜带俩不朽空投骚扰AlphaStar主基地,AlphaStar竟然撤回了原本出征的大部队,全员回防,MANA一看对手全部回家,立马撤退,打起了游击,两三个回合下来,竟然把AlphaStar困在基地内无法出门。(很明显MANA发现了这个问题,AlphaStar竟然不懂得分兵!)

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

这一幕神似日常单机游戏中卡了BOSS的BUG,邪恶的勇士一刀一刀凌迟了中了BUG无法还手的BOSS。然后MANA喘过气来反手就是一个巴掌,顺势拿下了只会出追猎和先知的AlphaStar,取得了《星际争霸2》上人类对战AI的首胜。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

AI神功练就需要怎么样磨砺?一些写在比赛之外的话

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

在DeepMind给出的资料我们可以清晰的看到AlphaStar的学习成长曲线,在”AlphaStar联赛”中开始他们只有2500分左右的水平,然而一周时间的训练,他们就飙升至5500分左右可以和TLO相抗衡。又用了一周时间,对阵MANA这种7000分的顶级神族也不在话下。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

AlphaStar联赛——在无数个AlphaStar AI内部进行的对抗系统,在整个项目当中也功不可没。而颇为有趣的一点是,此次出战的三个AlphaStar,是从无数个AI当中厮杀出来的,表现最为优异的几个,而剩下的那些则遭到无情淘汰,这种养蛊模式也颇有些”大逃杀”的味道。

AI们最初通过研究人类玩家的录像进行训练,然后和联赛中的其他AI进行训练。在每次循环中,新的参赛者从原来的竞争者中分支出来,而原来的参赛者被冻结。同时可以调整确定每个可能已经适应的智能体的学习目标的匹配概率和超参数,从而在保持多样性的同时增加难度。通过从参赛者的游戏结果中加强学习来更新代理的参数。 最终的AI从联赛的纳什分布中抽样选出。

然而你所不知道的是,最强款的AlphaStar一周练习量相当于人类200年的练习量,这一点酷似当初的围棋AI——AlphaGO。DeepMind使用了一种”关系性深度强化学习”的方法。打个比方,游戏中一个凤凰是选择抬哨兵还是追猎,这个选择在AI的眼里是个概率问题,而如何让这个概率选择趋于最优化,就需要AI大量的学习迭代。

要知道在围棋的世界里,仅有19X19棋盘,也就是361个落点需要计算,而星际2中,需要计算的量是10^26,这一天文数字的变量让AI举步维艰,但是一旦破局成功,AI的成长也是惊人。

DeepMind研发的AlphaStar超出了所有人的想象,得益于他们技术和资本的优势,他们拥有超群的TPU算力,举个例子,普通AI团队能够让他们的AI每天练习学习数十局,而DeepMind可以让他们的AI每天练习学习一百万局。

为什么在对战MANA的前5盘都能干净利落的拿下比赛,其实AlphaStar也是耍了自己的”小聪明”,在十二月版本的AlphaStar,他们采取的观察手段是通过小地图去以”天眼”的姿态俯瞰全局,也就是任何风吹草动,只要是发生在小地图里会显示的信息,都难逃AlphaStar的”天眼”(也即是不用切屏也能获得切屏才能获得的信息)。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

这种”不公平”的手段产生了巨大的优势,毕竟人类玩家很难做到一边打游戏一边全神贯注的盯着小地图不放过任何一个细节,因此新版本的AlphaStar修改了镜头的算法,他现在也和人类一样,只能通过屏幕的切换观察战场上的瞬息万变,而直播中最后的表演赛,上场的就是使用人类视角的新版AlphaStar。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

新的AlphaStar只用了短短7天就追赶接近了原先”天眼”系统,甚至在一次”AlphaStar训练赛”中击败了”天眼AlphaStar”。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

各个选手APM分布,以及AlphaStar在观察和行动之间的延迟分布

然而胜利也并非完全依赖操作,AlphaStar的操作被精准的限制在了450APM,EPM则是180,这一数据远低于顶级选手的爆发操作,而且AlphaStar的反应速度也被限制在了300MS,其实这已经比人慢很多了。但是,这看似正常的数据背后,是一个没有疲劳,0废操作,每一下都下达有效指令的AI,效率转化十分惊人。

在DeepMind的结论下,AlphaStar对战MANA和TLO的成功都是基于卓越的宏观和微观的战略决策,而不是取决于脚本版的操作,或者闪电般的反应速度。然而吃瓜群众也不用担心太多,人类之所以为人类,就是能从不同的结果中学习,DeepMind就是希望能够找出一个能和人类一样自我学习的算法,这个长期的计划对于人类的未来意义重大。

菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手?

主要参考来源:

DeepMind官网

论文《Relational Deep Reinforcement Learning》(关系性深度强化学习)

同时感谢国内AI领域专家”飞羽”博士对本文的大力支持!

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/21412.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月13日 11:11
下一篇 2022年6月13日 11:12

相关推荐

  • 薇娅“倒下”后,直播电商需要一场行业大反思

    编辑导语:薇娅被罚13亿遭封禁,引发了业内对于直播带货行业各个层面的思考与热议。这似乎意味着,直播电商生态开始走到一个新的发展阶段。直播电商行业需要反思,未来该如何走。 从过去来看,直播电商风靡的原因是因为,它通过一个直播间重构流量获取模式,加速信息流、商品流和资金流,实现了流量变现效率的进一步提升,是一种对电商流量的重新分配。 尤其是2020年疫情环境下,…

    2022年6月15日
    2600
  • 跻身四秒俱乐部试驾AITO问界M5四驱旗舰版

    [爱卡汽车 试驾 原创] AITO问界M5作为AITO品牌发布后推出的首款车型,采用了全新纯电驱增程平台(DE-i),以及华为HarmonyOS智能座舱。拥有兼具长续航、豪华科技、智能生态的诸多特点。当然,也不要小觑了它的性能表现,尤其是在弹射模式下能够实现4.4秒的百公里加速成绩,往后在路口碰到它并排起步,可别有颗斗的心。 编辑点评:目前,首批AITO问界…

    2022年6月16日
    4300
  • 第五届中国国际五金机电市场百家论坛在杭州召开

    12月12日,第五届中国国际五金机电市场百家论坛在杭州召开作为世界上最大的五金产品制造国与出口国,五金机电行业是中国制造业的代表之一。而这一场盛会,将主题定位于中国五金机电专业市场在互联网时代的机遇与挑战,恰合行业内目前面临的最重要命题。论坛聚焦在互联网时代背景下全球竞争加剧,各传统制造强国推行智能制造形势下中国五金机电行业的挑战与机遇,成为在传统中寻求变革…

    2022年6月25日
    2800
  • 工信部推出号码“一键解绑”功能

    来源:【温州广电-快点温州】 如何查询手机号绑定了哪些APP? 如何能便捷地实现解绑? 6月8日,工信部直属科研事业单位中国信息通信研究院上线了手机号一键查询与一键解绑服务,可以查询手机号注册的互联网账户情况,并提供微博、淘宝、抖音和美团等解绑服务。 记者查询到,中国信通院在号码绑定的服务声明中表示,号码绑定一键查询服务提供查询本人持有号码期间注册绑定的互联…

    2022年6月27日
    1900
  • 自研芯片弯道超车?传OPPO自研AP将量产,SoC紧随其后

    据台媒报道,OPPO旗下芯片设计子公司上海哲库将在2023年推出自研AP(应用处理器)并采用台积电6nm量产,于2024年推出整合5G基带的手机SoC并采用台积电4nm投片。 哲库科技(上海)有限公司成立于2019年,原守朴科技(上海)有限公司,于2020年变更为哲库科技,经营范围包括电子科技、网络科技、半导体设计等,由广东欧加控股有限公司全资持股。 报道称…

    2022年6月21日
    3000

发表回复

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信