2:0戰勝星際2頂級職業選手啟元AI“星際指揮官”一戰成名
繼AlphaGo之後,AI在世界人機大戰中再一次獲勝。6月21日,在啟元世界舉辦的國內首屆《星際AI頂級職業選手挑戰賽》中,啟元“AI星際指揮官”以2:0的成績戰勝《星際爭霸I/II》全國冠軍黃慧明(TooDming)和黃金總決賽冠軍、最強人族選手李培楠(Time)。
與圍棋相比,《星際爭霸》屬於不完全信息博弈,戰爭迷霧對AI的戰略規劃、佈局、決策提出了更高的要求。而且在決策空間上,圍棋只有361種,星際2大約有10 26。因此,更具挑戰性的《星際爭霸》成為了AI與人類較量的下一個競技場。
在第一場人族賽中,AI星際官僅用時11min,便讓全國總冠軍TooDming打出了GG。這場比賽中,AI星際官表現的相當自信,進攻乾淨利索,直擊心臟。
不過,TooDming賽后還是不吝讚美AI的策略和打法讓他學到很多,而且在比賽過程中,他並沒有感覺自己是在和一個虛擬的機器人對戰。
如果說TooDming更擅長打虫族,那麼AI與最強人族選手Time的對抗可以說是精彩絕倫。兩場比賽雙方博弈了20min之久,現場解說官都嘆為觀止,Time展現了韓服6500最強人族的實力,而AI星際官的宏觀策略和微觀操作也毫不遜色。不過,最終Time也沒能讓AI星際官打出GG。
賽后Time發微博稱:技不如人,甘拜下風。
對於這一結果,AI星際官的創始人和陪練官也表示很意外,雖然近期AI星際官的決策能力一直呈指數級增長,他們有信心戰勝TooDming,但對於Time並沒有十足的把握。AI星際官的應變和自主決策能力顯然已經超出了所有人的預期。
那麼,AI星際官到底在這場賽事中表現如何,我們一起來回顧精彩片段。
AI星際指揮官:2:0完胜!
AI星際指揮官,由啟元世界研發的智能體(Agent),它是一種具備自我學習、自主決策能力的AI,在虛擬世界表現為數字人,在實體世界表現為機器人,類似的智能體還有AlphaGo、AlphaStar。
本場比賽採取三回合製,以人族為戰場。首場參賽職業選手黃慧明(TooDming),外號土豆明,效力於Zoo電子競技俱樂部,擅長虫族,自2006年成為星際職業選手後,共攬獲11項冠軍,最高成就是《星際爭霸I/ II》全國總冠軍。
Round 1首場TooDming的打法比較保守,AI星際官率先發起兩波進攻,TooDming成功防守。在人族對抗中,誰先佔領場外控制權誰就獲得了遊戲的主導權。但就在TooDming出平行開礦過程中,出現了一點點小失誤,AI星際官沒有給對手任何機會,瞬間抓住漏洞,直擊心臟,用時11分遊戲結束。
Round 2 TooDming調整了擴張方式,更加註重防守策略,而AI也適時調整,步步為營,層層推進而不是像上一局那樣猛烈進攻。最終,TooDming還是難逃AI星際官的壓制。
據了解,AI星際官已經掌握了260種打法,而這些打法偏向通用性,它們還會根據真實的應戰場景,做出相應的戰略調整,而這部分人類也無法預測。後來,在與Time的決戰中,AI將這種出其不意的打法發揮到了極致。
第二場參賽選手李培楠(Time),效力於KaiZiGaming電子競技俱樂部,韓服天梯6500分以上的世界頂級職業選手。2018獲《星際爭霸I/II》黃金總決賽冠軍,曾在暴雪黃金總決賽擊敗過TooDming。
AI與Time的對戰,可以說是世界範圍內現場直播挑戰的最強一戰。
Round 1這場比賽中,AI星際官將維京作為主戰和控制單位的打法,讓所有人嘆為觀止,此前從未見過這樣的戰術,這也讓Time直接懵掉。解說官表示,這項戰術對於人類玩家非常有啟發意義。
值得一提的事,在對TooDming發出挑釁後,面對實力更強的Time,AI星際官發出了“Love and Peace”的對話框。不得不感嘆它的實時感知能力。
Round 2 Time更是背水一戰,不過AI星際官的打法讓他摸不到頭緒,而且多線程的左右夾擊,他只能不停的防守,最後資源儲備出現明顯不足。整場賽事下來,觀看直播的網友紛紛表示,只有Time能夠抗住AI這樣的強勢進攻。
還有網友建議,能堅持到20min,很適合AI的陪練官,它會肯定會成長的更快……
對於最終的賽事結果,AI星際官的陪練官表示,2:0戰勝TooDming是意料之中的事情,但是最終2:0戰勝Time他自己也是出乎意料,畢竟Time的實力眾所周知。另外,這也是AI星際官連續作戰20min之久,它頂住了長盤壓力,做出了更好的應變和執行。
撬動AGI的槓桿—《星際爭霸》
不過,AI星際官,或者AlphaGo、AlphaStar等智能體的出現,其背後的意圖並不是為了戰勝人類,而是通過與人類的對抗訓練,使AI獲得更好的自主學習和決策能力,由此所獲得的通用技術,可以為更複雜、更廣泛的現實應用場景提供幫助,實現最終的通用人工智能(AGI)。
這也是啟元世界、DeepMind、OpenAI等科技企業選擇在此發力的重要原因,只不過在AI訓練的最佳場所上,他們共同選擇了即時戰略類的遊戲。
為何押注《星際爭霸》?在AlphaGo以3:0戰勝圍棋頂級職業選手李世石後,DeepMind研究人員便開始向以非完全信息博弈為代表的即時戰略類游戲發起進攻。
與圍棋/德州撲克,選手能夠相互觀察到對方的戰略進攻相比,非完全信息博弈意味著選手只能”偵查“或”猜測“敵方情況。這為決策帶來非常大的不確定性。
星際爭霸具有典型的非完全信息的特徵,同時,它作為即時戰略類的經典的遊戲,其複雜程度更是成倍數級增長。
首先從博弈的角度來講,星際爭霸不存在最佳策略,它需要根據實際戰況隨時調整策略,拓展資源,在宏觀經濟和微觀操作中尋找最佳平衡。所以在此次比賽中,我們也看到了AI星際打出了此前人類從未見過的戰術。
另外,星際爭霸具有更大的決策空間,每分鐘可達3000-4000次。尤其是與同為即時戰略類的Dota相比,星際可操控的單元巨多,開礦造兵,偵查敵軍,發起進攻,不同單元在時間和數量的上的不同組合,會對整個局勢產生決定性影響。
更重要的是,它的即時性要求選手必須做出毫秒級的反應,這是與傳統棋類最大的不同。
研究人員認為,《星際爭霸》非常考驗AI的綜合能力。它的不完全信息決策、長期部署、實時對抗等特性與現實世界的環境和需求極為相似,同時,這就要求AI不僅能實時感知、認知環境,還需要適應環境,做出數千步連續決策,因此,它可以作為AI訓練的最佳虛擬場景。
AI星際指揮官的締造者
不過,《星際爭霸》確實是一塊難啃的硬骨頭,直到近些年AI星際才有些出色的成績。
在本次AI星際挑戰賽之前,該領域中成績最為亮眼的要屬DeepMind推出的AlphaStar,歷時15年的技術研發,AlphaStar在2018年先後以5:0的成績打敗了Team Liquid 的職業星際2選手TLO和最強神族選手MaNa 。不過在後來的表演賽中,MaNa成功扳回一局,虐殺AlphaStar。
此次,AI星際官以2:0的戰績完敗世界頂級職業選手Time,達到了與DeepMind同等水平。但不同的是,啟元世界僅用了3年的時間便發出瞭如此強大的AI星際官,同時其算力僅佔DeepMind的1%。
據研究人員透露,工程和算法是AI星際官的核心優勢。他們通過獨創的“數據生成—傳輸—消費”的一體化計算框架,使智能體訓練的數據吞吐率提升了10倍以上。另外,在算法方面,啟元自主研發的Commander神經網絡結構,結合高效率的群體演化訓練方法,可在有限的算力條件下,既能增強智能體的魯棒性,又能實現智能體的快速進化。
短短三年取得這樣的成績,這家人工智能領域的初創公司不容小覷。
據了解,公司自成立之初,便圍繞《星際爭霸》展開智能體研究,其創始人袁泉曾是前阿里認知計算實驗室核心成員。同時,公司的核心成員均是來自BAT、Netflix、IBM、香港科大、伯克利等國內外知名高科技企業和一流學府。
此次,AI星際官的大獲全勝,預示著其智能體技術的初步成熟。研究人員介紹,AI星際官背後的秘密武器“智能體訓練雲平台”已正式走向市場,在交通調度、數字娛樂、公共科技、機器人等行業得到了廣泛應用。
比如,在交通調度方面,智能體可以化身交通調度員,每隔幾秒鐘自動調度和優化紅綠燈,大大緩解交通擁堵,實現真正的智慧化城市。