贏了世界冠軍不意外和AI在DOTA中並肩作戰才讓人又糾結又興奮
OpenAI 的DOTA 2 AI“OpenAI Five”為我們帶來了最後一場公開表演賽。比賽結果自然不難猜測,不過除了結果之外也有更多有趣的東西。
OpenAI CTO Greg Brockman 和 OG 戰隊五位成員的合影
“OpenAI Five”首先對陣了2018 年DOTA2 世界邀請賽(Ti 8)冠軍OG 戰隊,在三局兩勝的比賽中以2:0 完胜OG 戰隊。接下來,OpenAI 安排了人機合作比賽,雙方都是兩名人類選手和3 個AI —— 這部分比賽非常耐人尋味,我們猜測人類選手和AI(如果有思維的話)都會在心裡想:我這幾個隊友是怎麼回事、怎麼老是和我節奏不一樣、這比賽還讓人怎麼玩。最後,OpenAI 宣布,這個DOTA2 AI 將會對全世界的DOTA2 玩家免費開放,下週起就可以體驗。
表演賽 Part 1 – “OpenAI Five”vs OG 戰隊
在去年七八月的表演賽中,“OpenAI Five”就曾在5v5 比賽中擊敗人類高水平玩家乃至(前)職業選手。雖然 AI 沒能贏下所有場次的比賽,但 AI 的各種亮眼操作(以及AI 讓人摸不著頭腦的隨地插眼的做法)仍然給大家留下了深刻的印象。在比賽告一段落後,OpenAI CTO Greg Brockman 繼續在推特上更新著“OpenAI Five”的最近進展,甚至表示最新的版本已經能夠以高勝率擊敗公開展示過的幾個版本了。這樣一來,繼續優化到今天,尤其是Greg Brockman 表示“OpenAI Five”在遊戲中的訓練時間相當於4 萬5 千年那麼長,在今天的比賽中完胜了人類職業戰隊的世界冠軍OG 戰隊也就不令人意外了。
需要說明的是,目前最新的“OpenAI Five”仍然使用的是和 Ti8 表演賽中一樣的規則:一共18 個英雄供雙方選擇,不允許使用聖劍和魔瓶,不允許使用召喚物和幻象。我們似乎更有理由相信AI 在這樣的設定下獲勝是合理的:在這個複雜度降低的設定中,AI 經過了足夠長時間的訓練,已經可以逼近某個最優解了—— 相比之下人類職業選手就肯定不習慣這樣的設定了,僅英雄選擇一方面就大大限制了人類選手的發揮。
另一方面,去年表演賽結束後我們結合OpenAI 公開的資料分析過“OpenAI Five”的設計方式,結合今天“OpenAI Five”的表現來看,他們很有可能是維持了同樣的模式,最大的改進在於更多的訓練時間。
在第一局中,OG 陣容選出的陣容是小牛、巫醫、隱刺、毒龍、影魔,“OpenAI Five”為冰女,死亡先知,火槍,矮人直升機,流浪劍客。一選時“OpenAI Five”預估的自己的勝率為65.1%,全部選擇完畢之後還繼續上升到了67.6%。
比賽一開始AI 方就在天輝上路賞金符處拿到了一血,然後在公屏打字“我們預期贏得這場比賽的勝率超過80%”(就和去年的表演賽一樣)。AI 方的線上進攻依舊主動凶狠,即便OG 有小牛在各路積極遊走和保護、而且AI 方也沒有針對隱刺買眼買粉而讓他佔了不少便宜,雙方在前十幾分鐘仍然打得勢均力敵。隨著比賽進行,AI 方的經濟和擊殺數逐漸建立起優勢,最終38 分鐘時夜魘方基地被攻破,AI 方與 OG 的人頭比為52:29。
第二局比賽中 OG 陣容為火槍、小牛、死亡先知、小魚人、惡魔巫師,“OpenAI Five”陣容為冰女、矮人直升機、流浪劍客、巫醫、毒龍。這次“OpenAI Five”選人完畢時的預測勝率只有60%,但OG 在對線期就打出了很大劣勢,最終這局比賽14 分鐘上高地、 20 分鐘就以45:6 的人頭比結束了。這一點想起來很有趣:“OpenAI Five”認為這次開局時自己的優勢不如上一局大,但針對的是自己在操作這樣陣容的情況做出的判斷,顯然沒有預料到人類的表現和自己大有不同。
AI 也繼續展現了亮眼的團戰操作。比如下面動圖,第一局比賽中OG 小牛和隱刺繞後冰女,結果在AI 的火槍配合下隱刺和巫醫雙雙被反殺,OG 的影魔也葬身之後才最終帶走了冰女。
第二局中,AI 的冰女利用暗影護符和地形卡視野黑血秀 OG 的矮人狙擊手,並成功反殺。
AI 當然也繼續表現出了秒沉默之類的快速反應,但其實除了這些之外,更令人意外的是“OpenAI Five”表現出的比賽風格。比如所有英雄都會正常發展自己的經濟,冰女甚至幾分鐘時就會自己打野,可以說這和中國DOTA 戰隊中常見的“四保一”打法形成鮮明對比,在前中期團戰時發揮出了不小威力;等級低時AI 的英雄經常死亡後立即買活,簡直像是人類玩家在賭氣。
兩局比賽結束後,OpenAI 還透露,在準備今天表演賽的過程中OpenAI 還邀請了三支一線 DOTA2 戰隊嘗試挑戰 AI,全部都以2:0 負于“OpenAI Five”。OG 戰隊今天的表現,對OpenAI 來說可以說是完全在預料之中了。
表演賽 Part 2 – 人類和“OpenAI Five”並肩作戰
不知道大家是否記得,2017 年五月AlphaGo Master 在中國烏鎮對局柯潔的時候,在同一個峰會中也安排了人類棋手和AlphaGo 的配對賽,古力和連笑兩位棋手分別和AlphaGo 組成小組,雙方對局中人類和AlphaGo 輪流落子。兩位棋手賽后都表示 AlphaGo 和自己的思路、風格不一樣,經常下出讓自己感到意外的棋來—— 類似的事情自然也會在今天的“OpenAI Five”表演賽中出現。
人機合作比賽雙方都是兩名人類選手和3 個AI,四位人類選手都是遊戲解說,所以作為表演賽,他們就像直播一樣,一邊比賽一邊對著所有觀眾說出自己的所想。在解說們這種邊玩邊吐槽、也邊玩邊期待 AI 和自己配合的過程中,大家對這個 AI 都有了很多全新的感受:
- 最根本的,其實 AI 並不知道自己的隊友有一些不是 AI,它仍然會好像自己的隊友都是和自己一樣的 AI 那樣去處理,也許 AI 也會覺得不適應?但反過來,即便人類控制的英雄已經出現過很多低級錯誤,我們相信 AI 仍然可以像相信 AI 隊友那樣地相信他。
- 對出擊策略的把握有很大區別,人類選手在河道吃了隱身符準備對對方中路英雄發動攻擊的時候, 自己中路的AI 卻徑直去了邊路;人類選手錶示很鬱悶。
- 人類無法捉摸 AI 的步調,不知道 AI 是否認為己方是優勢、是否應該主動攻擊。那麼理想情況下人類應該如何和 AI 溝通呢,肯定不會總是聽人類的、也不會總讓 AI 帶領節奏。實際上 AI 有時候會 直接打字告訴人類自己的決定(比如自己要打1 號位),但是對人類發的信息就不怎麼做出反應(簡直像是人機交互的負面案例)
- 和以前一樣,AI 的插眼方式很奇怪—— 這可能是相比去年的版本,唯一沒有顯著提升的方面,我們完全可以猜測這是因為訓練插眼時用的反饋仍然是“要留出空格子來”。Blitz 甚至直接問“上路到底發生什麼了,為什麼地上插了4 個眼???”另一方的人類選手Sheever 說:“我們的AI 總把眼插在奇怪的地方,但是我想插都買不了,一直在冷卻。”(後來AI 在這裡又插了一個眼,一共5 個)
- AI 對某些英雄的理解和人類完全不同。比如 AI 認為死亡先知在十到二十分鐘的時間段內是一個非常強的英雄,會讓它非常積極地使用技能、參與團戰。但人類就會認為這時候的死亡先知並不厲害。
- 有觀戰者根據 AI 的表現猜測影響 AI 戰場決策最重要的因素是站位和技能冷卻;同時 AI 也確實會考慮自己隊友的位置。也所以,人機合作比賽的節奏要明顯慢於五人都是AI 的狀況—— 兩個人類隊友的位置和其它三個AI 的節奏不一致,它們的集體組隊進攻也就沒有那麼積極果斷了。
- AI 在樹叢裡找人的技術好像不怎麼樣,當然了這件事本來學起來也比較難。另外人類也很難在和 AI 對局的時候練習這個方面,人類在逃命的時候會有一些“下意識”的操作,但是很難說 AI 的處理方式是出於什麼樣的原因。
- 人類選手之一的Blitz 在比賽中說:“不管我走的哪一路,去了以後都感覺自己好像走錯路了。從這個角度來說,和AI 一起玩還挺難受的。但是如果我去哪的時候AI 也一起來了,那我就感覺挺好的。彷彿是一邊打遊戲一邊解謎一樣。”
表演賽 Part 3 – 人人都可以挑戰“OpenAI Five”
在賽前的開場演講中,Greg Brockman 說到要通過“OpenAI Five”展示AI 有高能力水平、高可拓展性,以及可以增強人類的能力。在前面Part 1 的人機對戰和Part 2 的合作對戰中,算是展現出了高能力水平以及一部分“可以增強人類的能力”,那麼在Part 3,我們終於看到了“高可拓展性”意味著什麼:每個人都可以和OpenAI 的DOTA2 AI 對戰,可以是作為對手,也可以作為自己的隊友,下週開始,在arena.openai.com 註冊即可體驗!
在表演賽結束後的討論中,有人提到阻礙“OpenAI Five”這樣的高水平競技AI 大規模普及的最大障礙之一顯然是它需要的訓練時間太長,Greg Brockman 也在推特上回應道解決這個問題會是他們的下一個目標。顯然根據這次表演賽來說,除了這種深度學習技術方面的繼續鑽研,人類和 AI 如何高效地溝通、並肩合作也已經是一個浮出水面的問題。我們期待 OpenAI 未來也在這方面帶來一些驚喜。