科學家解決了近60年的“牆面追擊”博弈論難題
為了理解自動駕駛車輛在復雜道路上的導航能力,科學家們經常求助於博弈論–這是數學的一個分支,涉及代理人在努力實現其目標時的理性行為建模。多年來,加州大學聖克魯斯分校電氣和計算機工程系教授德揚-米盧蒂諾維奇(Dejan Milutinovic)與其他研究人員合作,研究被稱為微分博弈的複雜博弈理論子集。
博弈論是數學的一個分支,研究個人或群體之間的決策和戰略互動。它被用來分析參與者必須做出影響遊戲或局勢結果的選擇的情況。博弈論為理解個人或群體如何做出決策提供了一個框架,同時考慮到其他人的行動和反應。它被用於各個領域,如經濟學、政治學、心理學和生物學,以分析現實世界的情景,包括談判、拍賣、市場競爭,甚至軍事戰略。通過了解每個參與者的動機、激勵和約束,博弈論有助於對情況下最可能的結果做出預測。
這個領域與運動中的玩家有關。在這些博弈中,牆面追擊博弈提供了一個相對簡單的框架,即一個較快的追擊者旨在捕獲一個限於沿牆移動的較慢的逃避者。
自從這個博弈在近60年前首次被描述以來,博弈中一直存在著一個兩難問題–一組被認為不存在博弈最優解的位置。但是現在,米盧蒂諾維奇和他的同事在發表在《IEEE自動控制期刊》上的一篇新論文中證明,這個長期存在的困境實際上並不存在,並引入了一種新的分析方法,證明追牆遊戲總是存在一個確定性的解決方案。這一發現為解決微分博弈領域中存在的其他類似挑戰打開了大門,並能更好地推理無人駕駛汽車等自主系統。
博弈論被用來推理各個領域的行為,如經濟學、政治學、計算機科學和工程學。在博弈論中,納什均衡是最普遍認可的概念之一。這個概念是由數學家約翰-納什提出的,它定義了遊戲中所有玩家的遊戲最佳策略,以最小的遺憾完成遊戲。任何選擇不採取博弈最優策略的玩家最終都會有更多的遺憾,因此,理性的玩家都會有動力去採取他們的均衡策略。
這個概念適用於追牆遊戲–對於追擊者和逃避者這兩個玩家來說,經典的納什均衡策略對描述了他們在幾乎所有位置的最佳策略。然而,在追擊者和逃避者之間有一組位置,對於這些位置,經典分析無法得出博弈的最優策略,並以困境的存在而告終。這組位置被稱為奇異面–多年來,研究界已將兩難境地視為事實。
但米盧蒂諾維奇和他的合著者們不願意接受這一點。
“這困擾著我們,因為我們認為,如果逃避者知道有一個奇異的表面,就有一種威脅,即逃避者可以去奇異的表面並濫用它,”Milutinovic說。”逃避者可以迫使你去奇異面,在那裡你不知道如何以最佳方式行事–然後我們只是不知道這在更複雜的遊戲中會有什麼影響。”
因此,米盧蒂諾維奇和他的合作者想出了一個新的方法來處理這個問題,使用一個在最初構想追牆遊戲時還不存在的數學概念。通過使用漢密爾頓-雅各比-艾薩克斯方程的粘性解,並引入解決奇異面的損失率分析,他們能夠發現在遊戲的所有情況下都可以確定一個遊戲的最優解,並解決這個難題。
偏微分方程的粘性解是一個直到20世紀80年代都不存在的數學概念,它為漢密爾頓-雅各比-艾薩克斯方程的解提供了一個獨特的推理思路。現在眾所周知,這個概念與推理最優控制和博弈論問題有關。
使用粘性解也就是函數來解決博弈論問題需要使用微積分來尋找這些函數的導數。當與博弈相關的粘性解具有明確的導數時,找到博弈最優解就相對容易。但追牆遊戲並非如此,這種缺乏明確導數的情況造成了兩難的局面。
通常情況下,當兩難境地存在時,一個實用的方法是玩家隨機選擇可能的行動之一,並接受這些決定帶來的損失。但這裡有一個問題:如果有損失,每個理性的玩家都會想把它最小化。
因此,為了找到玩家如何最小化他們的損失,作者分析了漢密爾頓-雅各比-艾薩克斯方程在導數定義不明確的奇異表面周圍的粘性解。然後,他們在方程的這些奇異表面狀態中引入了損失率分析。他們發現,當每個行為者將其損失率降到最低時,他們在奇異曲面上的行動就有明確的博弈策略。作者發現,這種損失率最小化不僅定義了奇異面的博弈最優行動,而且還與經典分析也能找到這些行動的每個可能狀態下的博弈最優行動一致。
“當我們採取損失率分析並將其應用於其他地方時,經典分析中的博弈最優行動並沒有受到影響,”米盧蒂諾維奇說。”我們採取經典理論,並用損失率分析來增強它,所以在任何地方都存在一個解決方案。這是一個重要的結果,表明增強不只是為了在奇異表面上找到一個解決方案,而是對博弈理論的一個基本貢獻。”
米盧蒂諾維奇和他的合作者們有興趣探索其他具有奇異表面的博弈論問題,他們的新方法可以應用於這些問題。這篇論文也是向研究界發出的一個公開呼籲,希望他們也能類似地研究其他困境。
“現在的問題是,我們能解決什麼樣的其他困境?”Milutinovic說。