馬化騰的2萬不好賺：絕悟AI穩如猛虎，人類王者被虐成狗

2021-07-11 Comments 0 Comment

王者榮耀，順利成為全場焦點。這不是你以為的KPL（王者榮耀職業聯賽）現場。而是企業雲集的上海世界人工智能大會（WAIC 2021）的一角。人類VS 絕悟（AI），2萬元現金+2萬Q幣獎勵。成功激發了在場所有人的熱情。甚至在場外，肉身缺席的PonyMa，“臨門一腳”地發來語音，專門宣布這件事。重視程度，可見一斑。於是，這件事也順利登上了各大榜的熱門話題。

接下來，一同來看下這場人機大戰。

面對AI，人類不能輸！

5位挑戰者上台坐定，隨著主持人一聲令下，比賽正式開始。

禁英雄（Ban）階段，AI的動作就有說道——次次禁蒙恬。

至於為什麼，現場工作人員解釋道：

AI根本不Care人頭，上來就快速推塔帶線，這都是跟職業隊練出來的。

蒙恬這種英雄4級後爆發推塔很強，甚至一打五都可能。

嘿，別看只是個AI，戰術還玩得挺溜。

最終陣容如下：

人類：耀、魯班、婉兒、韓信和大喬。

絕悟：孫尚香、達摩、牛魔王、雅典娜和奕星。

OK，大戰開始！

開局原本各自對線好好發育，絕悟糾集4個英雄想來滅掉中路大喬和耀也沒得逞。

但等到2分鐘打龍時，絕悟分別在兩個龍區拿到2個人頭。

下一分鐘，絕悟又在下路糾集4打2拿到2人頭，一下就把差距拉到4:0，還拆了一個塔。

就此人類崩了，等到跑車出擊時差距已經拉到7:0。

到最後，絕悟5個英雄甚至越高地塔進去瘋狂輸出人類，3:16，直接被推……

啪的一下，就很快有木有！

隨著戰鬥結束，主持人凡爾賽般安慰選手：

希望大家不要有心理負擔，享受遊戲快樂最重要。

被虐的不止是路人

但我們一同回看下AI的操作。

毫無破綻就不說了，配合度和精準度都高很多。

比如越塔殺人：

進入水晶區火中取栗：

還懂得當退就退，絕不戀戰：

當然AI也有犯傻時候，殘血還在踟躕：

於是，就著AI這種“騷操作”，參與比賽的現場觀眾沒能勝AI一場。

絕大部分戰鬥甚至沒有推掉一個塔。

因此，一人三殺、團隊十殺均能獲得獎勵，雖然只有Q幣，沒有現金。

雖說絕悟實在強，不過，人類不服輸的意志是被徹底挑動起來的！

連主持人都忍不住了：

每次Ban人時勸誡大家不要選操作太難的英雄，挑自己擅長的來。

絕悟會Ban元歌和露娜，這兩個英雄有會玩的選手可以優先選。

也正因大家都明白對戰不易，每次人類方首殺AI總能獲得喝彩，有一位哪吒反复擊殺AI，更是贏得滿堂鼓掌：

好！！！

我們大致算了一下，開展2天大約有15波參賽隊組團挑戰。

較好組合一局內憑藉操作加上依托己方塔打防守反擊，勉強在人頭數上與AI差距不大。

但，也僅止步於人頭數差距不大——

而這，還是官方將AI戰力調低過的…

或許你會說，前來挑戰的都是路人才會如此。

不不不。

還真不是如此。

絕悟在現場也同職業選手大戰4個回合。

這些選手ID分別為重慶QGhappy.Hurt、成都AG 超玩會。無痕、武漢eStarPro. 諾言、深圳DYG. 小義以及辰鬼。

最終，他們與絕悟比分3：1，仍然是AI勝。

不過一位現場工作人員向量子位爆料：

並不是真的AI多厲害，而是人類選手缺乏配合上的磨合，直接上來打表演賽，倘若按專業電競比賽集訓磨合再與AI對戰，勝負尚未可知。

而關於絕悟唯一那次失敗，量子位專門向其詢問感受，對方表示：

這都正常…

口氣雲淡風輕。

絕悟背後的騷技術

絕悟碾壓人類的技術是什麼？

根據騰訊官方說法，絕悟並沒有所謂“開掛”，在遊戲中的客觀條件限制是一致的。

“絕悟”區別於人的優點主要有兩點：

首先，訓練效率非常高，一天的訓練強度高達人類440 年（腱鞘炎警告）；

其次，不受情緒、性格影響，配合障礙更低。

用一句話概括就是，比你理性，不被情緒左右，沒有那種世俗慾望，還比你勤奮。

絕悟之所以要如此勤奮，也是被王者榮耀逼的——這遊戲太難了。

首先，作為是一個無法預料對方操作的不完全信息遊戲，玩家需要不斷探視野，敵我雙方的實時位置、狀態等信息不透明，AI也需要在這樣的前提下做決策；

其次，王者榮耀對局複雜。

100多個英雄，這其中的陣容組合高達10的15次方種，不同的組合對應的打法又不一樣。

另一方面，遊戲中的角色狀態、種種操作加上裝備選擇相當複雜。

光是想想已經頭大，還要在策略規劃、目標選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇。

我們也向現場技術人員做了請教：絕悟AI與GoogleALPHAGO能力是否雷同？

對方表示：

絕悟算力水平遠超ALPHAGO，因為圍棋遊戲背後的可能性遠少於王者。

後者除操作英雄，還有協同打團，BAN人及不同英雄配合需要考慮進去，所需算力不在一個量級。

工作人員還透露了一個驚人的數字：

AI在一局裡操作可能性大概有10的2萬次方種。

什麼概念？

整個宇宙原子總數也只是10的80次方！

如此復雜情景對絕悟背後的AI技術要求極高。

最初版本的“絕悟”通過監督學習方法來訓練，以海量有標記的訓練數據為基礎，推導出行為預測函數，實現擬人化。也因此，標註數據質量尤為重要。

隨著研發團隊在深度強化學習、多智能體決策課題上的研究不斷深入，“絕悟”不再需要模仿人類數據，轉而通過與自己對戰，進一步提升微操水平和大局觀，達到了王者榮耀職業電競水平。

強化學習通過構建獎勵和懲罰刺激環境的角度出發，優化AI行為邏輯。

根據團隊技術負責人楊光介紹：

AI會通過獎勵（reward）反饋，知道一個行為做的好還是不好。在獲得大量反饋後，AI會漸漸摸索出能夠取得勝利的行為，表現出’學會’玩遊戲的效果。

這個方法的優點在於，不依賴已有數據並且能夠探索出新的策略，甚至於超越當前人類的認知，在行為多樣性和完成任務的能力方面有了質的提升。

比如在訓練後期，AI 甚至自己探索出了全新策略，“比如’絕悟’經常多人抱團吃線，從而達到經濟的最大化”。

上述技術相關論文早在2018年已經公佈。

今年5月，絕悟也已在線上與很多玩家開啟對戰，各家媒體跟進宣傳。

論及絕悟又有什麼新變化？

現場工作人員向量子位獨家透露，今年5月至今，絕悟採用了更多訓練KPL職業選擇操作數據進行訓練。

另一方面，騰訊AI Lab長期保持與頂尖高效合作，通過貢獻技術數據，高校相應成果與技術也參與其中，由此，“絕悟”水平也達到了今天頂尖選手層次。

看完對陣AI現場及技術，不瞞你說，我這個鉑金段位自己也一個沒忍住報名1V1。

由於只能選限定的部分英雄，日常張飛劉禪的我，也不得已選了關羽。

於是乎，被虐了個5：1，而那1殺是塔點掉的……

經歷完這些，我已卸載王者，告別一場賺2萬的幻想，安心工作去了……

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

馬化騰的2萬不好賺：絕悟AI穩如猛虎，人類王者被虐成狗

2021-07-11 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆