大模型即時打《街霸》捉對PK GPT-4居然不敵3.5
讓大模型直接操縱格鬥遊戲《街霸》裡的角色,捉對PK,誰比較能打? GitHub上一種你沒有看過的船新Benchmark火了。與llmsys大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同——街霸Bench引入了兩個AI之間的交互,且由遊戲引擎中確定的規則評判勝負。
這種新玩法吸引了不少網友來圍觀。
由於專案是在Mistral舉辦的黑客馬拉鬆活動上開發,所以開發者只使用OpenAI和Mistral系列模型進行了測試。
排名結果也很出乎意料。
經過342場對戰後,根據棋類、電競常用的ELO演算法得出的排行榜如下:
最新版gpt-3.5-turbo成績斷崖式領先,Mistral小杯排名第二。較小的模型超過了更大的如GPT-4和Mistral中盃大杯。
開發者認為,這種新型基準測試評估的是大模型理解環境並根據特定情況採取行動的能力。
與傳統的強化學習也有所不同,強化學習模型相當於根據獎勵函數「盲目地」採取不同行動,但大模型完全了解自身處境並有目的的採取行動。
考驗AI的動態決策力
AI想在格鬥遊戲裡稱王,需要哪些硬實力?開發者給出幾個標準:
反應要快:格鬥遊戲講究即時操作,猶豫就是敗北
腦子要靈:高手應該預判對手幾十步,未雨綢繆
想法要野:常規套路人人會,出奇制勝才是製勝法寶
適者生存:從失敗中學習並調整策略
久經考驗:一局定勝負不說明問題,真正的高手能維持穩定的勝率
具體玩法如下:
每個大模型控制一個遊戲角色,程式向大模型發送螢幕畫面的文字描述,大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等資訊做出最優決策。
第一個挑戰是定位人物在場景中的位置,透過偵測像素顏色來判斷。
由於目前大模型數學能力都不太行,直接傳送座標值效果不好,最後選擇了將位置資訊改寫成自然語言描述。
所以對於AI來說,實際上他們在玩的是一種奇怪的文字冒險遊戲。
再把大模型生成的動作招式映射成按鍵組合,就能發送給遊戲模擬器執行了。
在試驗中發現,大模型可以學會複雜的行為,例如僅在對手靠近時才攻擊,可能的情況下使用特殊招式,以及透過跳躍來拉開距離。
從結果上可以看出,與其他測試方法不同,在這個規則下似乎更大的模型表現越差。
開發者對此解釋到:
目標是評估大模型的即時決策能力,規則上允許AI提前生成3-5個動作,更大的模型能提前生成更多的動作,但也需要更長的時間。
在推理上的延遲差距是有意保留的,但後續或許會加入其他選項。
後續也有用戶提交了流行開源模型的對戰結果,在7B及以下量級的戰鬥中,還是7B模型排名更靠前。
從這個角度來看,這種新型基準測試為評估大模型的實用性提供了一個新想法。
現實世界的應用往往比聊天機器人複雜許多,需要模型具備快速理解、動態規劃的本領。
正如開發者所說,想要贏,要在速度和精確度之間做好權衡。
GitHub專案:https://github.com/OpenGenerativeAI/llm-colosseum
參考連結:[1]https://x.com/nicolasoulianov/status/1772291483325878709[2]https://x.com/justinlin610/status/1774117947235324087
來源:量子位