[业评] AI又把人类给揍了，有战报

gspot

混世魔头

帖子: 2566
精华: 0
积分: 17720
激骚: 370 度
爱车
主机
相机
手机
注册时间: 2012-4-13

TGFC 2015新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

1^# 大中小发表于 2019-4-16 09:44 显示全部帖子

很快我们就能看到AI妹子陪玩马里奥，AI主播速通只狼，AI教练排兵布阵英超夺冠了

OpenAI Five Finals是AI与人类冠军的终极决战，也是它的期末大考。对决的双方，胜者是多次击败人类玩家的AI战队代表OpenAI Five；败者是（理论上）人类最强Dota 2战队，去年的TI 8冠军OG。刚刚结束的三局两胜比赛中AI轻松获胜。两局比赛加在一起，人类只推掉了AI两座外塔。最惨烈的第二局，人类直到最后击杀人头数还是个位数。人类一败涂地

距“Dota世界杯”TI8上接连输给人类职业选手两局，已过去231天。AI在这期间连续不断地训练，已经相当于苦练了231×180=41580年的电子竞技。和TI8上相比，AI体现出了更优秀的团战操作，乱逛、空放大招之类的bug也没再出现，进化非常明显。同时，OpenAI还展示了比碾压、进化更重要的新能力：他们的AI不仅会和人类对抗，还能与人类合作组队一起打Dota！原来的对手，已经可以做陪练了。

另外，如果你对今天的人类代表OG不满意，OpenAI还开放了竞技场，任何人都能注册，组团挑战AI或者体验一把和AI做队友的感觉。这就是现实版的你行你上啊！

***************
这次决战的规则
比赛在7.21版本上进行，英雄池包含17个英雄：斧王、水晶室女、死亡先知、撼地神牛、矮人直升机、巫妖、恶魔巫师、死灵法师、痛苦女王、剃刀、隐刺、影魔、斯拉克、矮人火枪手、斯温、潮汐猎人、冥界亚龙、巫医。
没有召唤单位和幻象。之前对圣剑、魔瓶、扫描的限制都没有提到。
******************

第一局

AI（天辉）：火枪、飞机、冰女、死亡先知、斯温
人类（夜魇）：小牛、巫医、毒龙、隐刺、影魔
选完阵容，OpenAI Five认为自己有67.6%的胜率。

刚刚开局，OpenAI Five拿下一血，而人类军团也很快杀掉了AI方的冰女。之后，双方前期在人头数上一直不相上下。AI一直在经济上保持总体领先，但最富有的英雄，却一直是人类的大哥影魔。这也能看出双方策略上的明显区别：OG是3核心+2辅助的传统人类打法，而AI的5个英雄经济分配相对平均，比较“大锅饭”。

经过几番激烈的推进和团战，游戏进行到19分钟左右，AI对自身胜率的预测已经超过了90%。自信心爆棚的AI一鼓作气攻上了人类的高地。

OG紧接着选择了分路推进，几位解说推测，这是为了尽可能分散AI，防止它们抱团推进，然而并没有奏效太长时间。
然而，坚持到38分钟，人类方的小牛刚刚买活，AI的最后一波总攻已经推掉了人类的基地。

这场比赛中，AI展现了清奇的思路：出门装就选择两个大药，后续的装备也更倾向于买补给品，而不是提高自身属性。
另外，我们前边提到的“大锅饭”政策，以及在比赛前期就频繁买活，都和人类职业选手的习惯大不相同。

**************
第二局

AI（天辉）：冰女、飞机、斯温、巫医、毒龙
人类（夜魇）：火枪、小牛、死亡先知、小鱼人、莱恩
选完英雄，AI对自身胜率的预测是60.8%，略低于上一局的阵容。
比赛前两分钟，双方都在一片祥和中各自带线，然而没想到，人类中单Topson很快就送出了一血。

之后，人类代表们以惊人的速度溃败。
5分钟时，AI的信心就已经大幅上升，预测自己有80%的胜率；7分钟，AI推掉了上路一塔；10分钟，AI就已经领先人类4000金币，多推了两座塔，还为自己预估了95%的胜率。

11分钟，AI已经攻上了OG的高地。
仅仅21分钟，OG的基地被推掉，OpenAI Five轻松拿下第二局。直到比赛结束，OG拿下人头还是个位数，被AI打成了46:6。

虽然这一局赢得异常轻松，不过对局过程中还是能看出AI在细节上有一些不足。比如说面对在复杂树林中绕来绕去的人类，AI就无能为力。今天的比赛中，Ceb就靠绕树林救了自己一命。

**************
赢下OG之后，AI又开始与人类合作组队，进入了下一局比赛。

这个环节的两支队伍，都由两名人类主播和3只AI组成，英雄选择如下：
天辉：
飞机、斯温、毒龙三个AI
冰女、死亡先知两名人类
夜魇：
火枪、剃刀、莱恩 - 三个AI
小牛、痛苦女王 - 两名人类

这场比赛的一血，就是人类与AI合作的结果：天辉方人类控制的冰女和身旁的AI队友合作，杀死了对面人类控制的小牛。

而人类和AI的配合也并非一直完美。Open的Psyho透露，OpenAI Five并没有经历过与人类合作打Dota的训练，不过，由于AI的队伍本来也是由5个神经网络组成，它们之间也没有特别的通信渠道，与人类合作对它们来说应该也不成问题。然而实际比赛中，人类的体验可能并不好。人类不能向AI队友喊话，没有真正的沟通和配合。国外网友评价说，这种感觉就像线上遇到了大神，他却不带你飞。

OpenAI开放一个专门的竞技场，名叫OpenAI Five Arena。人类用户在这个平台上既可以组团对抗AI，也可以和AI组队比赛。
游戏将于太平洋时间4月18日下午6点（北京时间4月19日上午9点）正式上线，4月21日结束。
地址：https://arena.openai.com/

**************
去年TI8结束后，OpenAI研究员David Farhi曾经向量子位透露过他们的推测：通过强化学习自我对局训练出来的AI，其实并不会买眼，买眼的行为是人类通过硬编码强制AI完成的。而乱插眼，很可能是因为AI想要把它随便丢在什么地方，争取一个空白的物品栏。
5个LSTM，修炼45000年
AI的快速进化，其实是刻苦训练的结果，也就是不断的自我对局。
OpenAI CTO Greg Brockman赛前说，他们的AI相当于已经练习了45000年Dota。
OpenAI之前也说过，AI每天的训练量相当于人类打180年游戏；之前输给过OpenAI的MoonMeanderated则说，AI一天要打200万场比赛。
这样的训练量，远非人类能及，当然对计算力的需求也大到吓人：它们的日常训练，需要256块P100 GPU和12.8万个CPU核心。

这支“饭量惊人”的OpenAI Five战队，包含5个智能体（agent），每一个都是包含1024个节点的单层LSTM，能够通过V社（Valve）的Bot API观察当前游戏状态，控制英雄去移动、攻击、施放技能、使用道具。
它们能够观察到的信息和人类差不多，包括自身、队友和敌人的状况，比如位置、血量、攻击力、护甲、携带物品、能力等等。
这些信息，对于智能体来说是一个包含20000数值的列表，而它判断之后发出的行动指令，是8个值的列表。

选手们的训练，使用的是扩展版的近端策略优化（PPO）方法，这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。
既然是5个智能体，当然还要让它们能作为一支队伍相互配合。为此，OpenAI设计了一个“团队精神”超参数来统一控制。这个超参数的范围在0到1之间，决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配。

TOP