Google DeepMind 橫掃IMO 42道幾何難題破天荒摘得奧數金牌
時隔6個多月,AlphaGeometry 2直接攻下IMO金牌!剛剛,GoogleDeepMind一篇28頁技術報告,公佈了AG2最新突破——在2000-2024年IMO幾何題上,解題率從54%飆升至84%。

論文網址:https://arxiv.org/pdf/2502.03544
過去近25年IMO幾何真題(50道),AG2橫掃了42道。要知道,這個成績已經大幅超於歷年IMO金牌得主的平均水準。
去年7月,Google曾官宣的兩大AI系統AlphaProof和AlphaGeometry 2,距離金牌只有1分之遙。

論文中,團隊專為AG2設計了一種全新搜尋演算法-基於知識共享整合的搜尋樹(SKEST),允許多個集束搜尋(beam search)並行運作並相互幫助。
得益於這個演算法,AG2能夠在19秒內,解決IMO 2024年P4題。

GoogleDeepMind資深研究科學家Thang Luong稱,「這是AI首次破解了2009年IMO最難幾何題G7(備選題)」。
此前,這題只有計算性解法(使用複數、三角計算等)。
令人驚訝的是,AG2利用關鍵的輔助作圖(圖中的紅點),給出了一個只需要「角度」和「比例推導」的優雅解法。
這些點,是由神經符號架構中的「神經網路模型」預測得出的。

有網友表示,「AGI似乎在Google內部實現了」。

AG2,一舉超越IMO金牌得主
作為全球最具權威的高數競賽,IMO幾何題不僅考驗選手對數學概念深刻理解,更需要極強的創意思考。
而今天,數學這個人類智慧的結晶,正被人工智慧以驚人的速度攻克。
第一代AlphaGeometry(AG1)透過將語言模型與符號引擎結合,在過去25年的IMO幾何題中實現了54%解題率。
在當時看來,這個成績已是相當驚人。

AG1使用了簡單特定域語言,主要由表1列出的九個基本的「謂詞」組成
不過,AG1仍在幾個關鍵領域中存在局限性,例如特定語言範圍、符號引擎效率,以及初始語言模型的能力都會影響其性能。
新一代AlphaGeometry 2,全新升級。
它采用了基于Gemini更强大的语言模型,其在更大更多样化数据集中完成训练,显著提升了理解和推理能力。
同時,Google也引入了更快速、更穩健的“符號引擎”,融入了簡化規則集、增強雙重點處理等優化。
此外,模型領域語言範圍也進行了擴展,涵蓋了更廣泛的幾何概念,包括軌跡定理和線性方程式。
為了進一步提升效能,團隊也開發了一種新型搜尋演算法,探索更多樣化的輔助作圖策略,並採用知識共享機制,來擴展和加速搜尋過程。
AG2最令人矚目的進展之一是,完全自動化的處理能力。
它可以直接理解自然語言形式的幾何問題,借助Gemini團隊的技術將問題轉化為專用語言,實現了一種全新的「自動圖形生成」演算法。
得益於以上的改進,AG2在所有IMO幾何題上,取得了令人印象深刻的84%解題率。
這意味著,它已經超越了IMO金牌得主的平均值。
總結來說,AG2帶來了幾項重大升級:
扩展了领域特定语言(DSL)的覆盖范围,可覆盖88%的IMO几何题目,相比此前的66%有显著提升
改進了符號引擎,使其更加穩健,且速度提升了兩個數量級
增強了語言模型,該模型基於Gemini並在更大規模(提升一個數量級)和更多樣化的資料集上訓練
創新性地提出了一種名為「基於知識共享整合的搜尋樹」(SKEST)的新演算法,能夠實現多個搜尋樹之間的知識共享

更通用的域語言,涵蓋88%題目
如上,表1所列的AG1九個基本“謂詞”,已經涵蓋了2000-2024年IMO幾何題目中66%的問題。
但是,AG1的語言無法表達線性方程式、點/線/圓的移動,也無法處理「求角度…」這樣的常見問題。
由此,Google研究人員在AG1的基礎上,增加了兩個“謂詞”,可以解決“查找X”類型的問題:

另外,在某些幾何問題中,包括IMO 2024中的一題目,存在著AG1無法表達的幾何量(角度、距離)的線性方程式。
為了表達這些概念,AG2增加了以下三個謂詞:

還有一點是,AG1不支援所謂的“軌跡問題”,這類問題涉及點、線和圓等物件的運動,AG2則透過新的謂詞語法捕捉這類問題。
表2列出了11種軌跡情況及其對應的謂詞和語法。這裡使用了一個新的符號*作為固定點的佔位符。

除此之外,AG2透過引入一個新的謂詞overlap ab(點A和點B是重合點)來證明點的非獨立性,其中涉及A的任何謂詞也可以用於B,反之亦然。
在推理閉包(deduction closure)過程中,重合點可以透過作為同一個圓的圓心來定義;
因此,團隊引入另一個謂詞cyclic_with_center來描述這種情況。因此,cyclic_with_center a1 a2 … an x表示a_1=a_2=…=a_x是經過點a_x+1…a_n的圓的圓心(當x=0 時,等同於cyclic)。
自動形式化和圖形生成
自動形式化
AG1以及其他類似的神經符號系統有一個主要弱點,需要手動將自然語言的輸入轉換成特定領域的語言。
例如,一個簡單的自然語言幾何問題“給定三角形ABC,其中兩邊相等AB=AC,證明角B和角C相等”,在AlphaGeometry的領域特定語言中變成了:“triangle abc; ab = ac ? eqangle babccbca”。
在AG2中,團隊首先透過人工將數十個幾何問題翻譯成AG語言。然後,使用這些範例編寫少樣本提示,要求Gemini將給定的幾何問題從自然語言翻譯成AG語言。
用這個提示在Gemini中查詢五次,然後再呼叫一次將這些結果合併成一個最終答案。
透過這種方法,AG2能夠將IMO 2000-2024中的39個幾何問題形式化30個。對於簡單的幾何問題,這種方法非常有效,幾乎沒有錯誤。
自動圖形生成
對於無法直接透過幾何作圖建構的圖形(非構造性問題),AG2採用兩階段數值最佳化方法:
第一階段使用ADAM梯度下降優化,最小化誤差,同時防止點重合和座標值過大。第二階段使用Gauss-Newton-Levenberg(高斯-牛頓-勒文伯格)方法,求解非線性方程組,得到精確的圖形座標。
研究團隊在44道IMO問題上進行了基準測試,經過上面的最佳化後,AG2能夠為其中41個問題找到圖形。
大多數問題在AG2第一次嘗試時,甚至幾秒鐘內就產生了圖形。對於剩餘的問題,也可以透過更長的運行時間和更多的並行化運算來獲得圖形。
例如,在使用了3333個進程運算了400分鐘後,AG2獲得了IMO-2011-6(2011年IMO第6題)的圖形。
更強大、更快的符號引擎
AlphaGeometry2的核心是「符號引擎」DDAR(演繹資料庫與算術推理)。
這是一種用來計算「演繹閉包」的演算法。
所謂演繹閉包,就是從一堆最基本的已知事實出發,透過推理能得到的所有事實的集合。
DDAR有一套固定的推理規則,然後它會依照這些規則,一步步推導出新的事實,把新事實加到集合裡,直到沒法再推出新的東西為止。
這使它能在兩個方面發揮關鍵作用:一是為語言模型生成訓練數據,二是在測試時進行證明搜索,尋找演繹步驟。
在這兩種情況下,速度都至關重要。
更快的資料產生意味著可以進行更大規模、更徹底的資料過濾;而更快的證明搜尋則意味著可以使得搜尋更廣泛,從而增加了在給定時間內找到解決方案的可能性。
DDAR的三個主要改進:處理重合點的能力(可以理解為處理更複雜幾何圖形的能力)、更快的演算法和更快的實現。
處理重合點
在AG1中,如果兩個點在幾何上重合,但名稱不同,則係統無法識別它們是同一個點。例如,如果兩條線a和b相交於點X,而我們想證明X在某個圓ω上,AG1可能會難以處理這種情況。
AG2透過允許使用具有不同名稱但座標相同的點來解決這個問題。
這種處理重合點的能力非常重要,因為它允許AG2透過「重新表述」來解決問題。在某些情況下,直接證明某一點位於某個圓上可能很困難,但透過引入輔助點並證明該輔助點具有相同的性質,可以簡化證明過程。
考慮一個證明兩條直線a和b的交點X在圓ω上的例子。
AG2可以透過以下步驟實現:首先,創建一個新的點X’,該點是a和ω的交點;接下來,證明X’位於b上。由於X和X’都位於a和b上,可以得出結論,X和X’是同一點,證明X位於ω上。
下圖1直觀地展示了上述證明過程。

透過這些改進,AG2可以更靈活地處理各種幾何問題,並且能夠以更接近人類思維的方式解決問題。
更快的演算法
AG1的DDAR演算法在處理規則清單時,會嘗試將每個規則套用到所有可能的點。
為了提高搜尋效率,AG2直接硬編碼了其應用程式搜尋過程,從而減少了對AR子引擎的查詢次數,最多查詢三次。
AG2也丟棄了角度和距離的明確規則(例如關於垂直或平行線的規則),這些推導都會自動在AR引擎中進行。此外,AG2設計了改良的DDAR2演算法。
通过这些改进,AG2显著提高了搜索速度和效率,从而加快了证明过程,使得AG2能够更有效地解决复杂的几何问题。
更快的實現
AG2的核心計算部分,特別是高斯消去法,使用C++重新實作。為了與Python環境相容,AG2使用pybind11將C++庫匯出到Python。
透過C++重新實現,AG2的速度比AG1快了300倍以上。
這意味著AG2在相同的時間內可以完成更多的計算,從而更有效地解決複雜的幾何問題。
更好的合成訓練數據
AG2的成功很大程度歸功於其改進的合成訓練資料。
AG2使用与AG1相同的程序,但通过扩大资源和改进算法,生成了更大、更多样化、更复杂的数据集,从而显著提升了模型的性能。
AG2先隨機取樣幾何圖形,然後使用符號引擎(DDAR)推導出所有可能的事實。對於每個推導出的事實,使用回溯演算法來提取對應的前提、輔助點和推導步驟。
AG2嚴格從隨機圖開始,這樣可以消除資料污染的風險,並探索可能超出人類已知定理分佈的定理。
這種方法與TongGeometry等依賴人類專業知識和現有問題圖來指導和過濾資料生成的方法形成了鮮明對比。
更大、更複雜的圖和更好的數據分佈
AG2探索的隨機圖大小是AG1的兩倍,因此可以提取更複雜的問題。
產生的定理在複雜性上提高了一倍,包括更多的點和前提。產生的證明步驟最多增加了10倍。
AG2在有和沒有輔助點的證明之間有更平衡的數據分佈,比例接近50:50,而AG1中有輔助點的證明比例僅為9%。
下圖2展示了AG2相比於AG1中包含了更多複雜、更長的問題,在每個問題類型中都有更平衡的分佈。

更多類型的定理
除了產生證明經典陳述(如“AB = CD”)的定理外,AG2的資料產生演算法還產生「軌跡」類型的問題,例如「當X在直線/圓Y上移動時,Z在固定直線/圓T上移動」。
AG2透過一個函數P(.)記錄每個點在隨機圖生成過程中的運動依賴性,從而支持軌跡類型問題的生成。
下表3顯示了P(.)函數的兩個範例,解釋如何決定點的運動源。

更快的數據生成演算法
AG1首先在隨機圖上執行演繹閉包,然後「回溯」以獲得最小問題和證明。
為了獲得AG1中的最小問題,必須窮舉地從問題中移除不同的點集,然後重新運行DDAR來檢查可證明性。這對於大量的點來說是不可行的
AG2改用了貪心丟棄演算法,該演算法只需進行線性次數的檢查,就可以判斷一組點是否足以證明目標。只要檢查是單調的(如果A是B的子集,那麼如果A可證明,則B也可證明),貪心演算法保證能找到一個關於包含關係的最小點集。
新穎的搜尋演算法
在AG2中,研究人員設計了一種新穎的搜尋演算法-基於知識共享整合的搜尋樹(SKEST)。
在每棵搜尋樹中,一個節點對應於一次輔助構造嘗試以及隨後的符號引擎運作。
如果該嘗試成功,所有搜尋樹立即終止。如果嘗試失敗,則該節點會將符號引擎成功證明的事實記錄到共享事實資料庫中。
經過篩選,這些共享事實不會包含節點本身特有的輔助點,而只保留與原始問題相關的內容,以確保它們對同一搜尋樹中的其他節點以及不同搜尋樹中的節點都具有價值。

為了確保搜尋空間的不同部分都能有效探索,研究人員採用了以下幾種搜尋樹:
「經典」搜尋樹:這種搜尋樹使用與AG1相同的集束搜索,其中語言模型在每個節點僅產生一個輔助點。
在每個節點預測多個輔助點的搜尋樹:語言模型被允許在每個樹節點產生多個輔助點。
這是可行的,因為語言模型經過訓練,可以產生完整的證明,從輔助點開始,並依序推導出推理步驟。
儘管研究人員的目標是讓模型在一次查詢中產生所有必要的輔助點,但在實踐中,他們發現通常需要多次呼叫模型,以利用先前產生的輔助點。允許模型產生多個輔助點能夠加速求解過程,並有效地增加搜尋樹的深度。
訓練設定
AG1語言模型是一個自訂Transformer,在無監督模式下經過兩個階段的訓練:首先在包含和不包含輔助構造的題目上訓練,然後僅在包含輔助構造的題目上訓練。
對於AG2,研究人員採用Gemini訓練管線,並將訓練簡化為一個階段,即在所有資料上進行無監督學習。
這個新語言模型是基於Gemini建構的MoE模型,並在AG2的資料集上訓練。
研究人員訓練了多種不同規模的模型,採用三種訓練方案:
1.從零開始訓練,使用領域特定語言(DSL)的自訂分詞器(與AG1相同)。
2.微調預訓練的數學專用Gemini模型,使用自然語言訓練。
3.多模態訓練,從零開始並額外引入影像輸入,即幾何題目的圖示。
除了一個包含約3億條定理的大型合成訓練集,研究人員也建構了三個評估集:
1.合成問題集“eval”:包含有和沒有輔助點的問題。
2.合成問題集「eval_aux」:僅包含有輔助點的問題。
3. IMO評估集「imo_eval」:由2000-2024年IMO中,AlphaGeometry先前成功解決的幾何問題組成。
所有這些評估集都包含完整的證明,研究人員在訓練過程中計算它們的困惑度損失。
與AG1相同,主要衡量指標是IMO題目的解答率,語言模型產生輔助點後,使用DDAR演算法結合集束搜尋進行求解。
研究人員使用TPUv4進行訓練,並採用最大可能的批次大小,以充分利用硬體資源。學習率調度策略為線性預熱(warm-up)+ 餘弦退火(cosine anneal),其中學習率的超參數是基於scaling laws設定。
圖5展示了不同規模Gemini模型的學習曲線(以參數量為測量)。
如預期所示,模型規模越大,訓練集、評估集以及IMO評估集的困惑度損失都會降低。

推理設定
在搜尋演算法方面,研究人員透過多個搜尋樹和不同規模的語言模型來解決一個新的問題。
與AG1不同,研究人員使用了溫度t=1.0和k=32的top-k採樣。需要注意的是,高溫度和多個採樣對於解決IMO問題至關重要。
在貪心解碼模式下(即t=0.0,k=1,且不使用搜尋樹),模型只能解決26個需要輔助構造的問題中的2個。
而當溫度提高到t=1.0並使用k=32個取樣(但不使用搜尋樹)時,語言模型可以解決26個問題中的9個。
如果溫度低於t=1.0,則產生的輔助構造不夠多樣化(見圖6);而如果溫度過高,則會增加語言模型輸出的錯誤領域語言語法的比例。

這個AI,顯示出超凡的創造力
Google團隊中的幾位幾何專家和IMO獎牌得主仔細看過AlhpaGeometry的解題過程後,忍不住讚歎道:它展現出了超凡的創造力!

不同配置的AlphaGeometry2,以及其他系統的對比
例如,下面這條題的∠KIL是由中點和內心所形成的角度,這兩個幾何元素通常難以建立關聯,無法直接透過主三角形ABC的角度來計算。
在傳統解法中,人類參賽者通常會藉助三角函數、複數或其他計算方法來求解。而對於AlphaGeometry而言,其DDAR系統僅依賴基本的角度關係推導和比例關係推導,因此需要引入一些輔助點的構造。
為此,AlphaGeometry在直線BI上巧妙地建構了一個點E,使得∠AEB = 90°。這個構造優雅地將那些看似無關的幾何元素連結起來,形成了兩對相似三角形:△ABE與△YBI、△ALE與△IPC。這些相似三角形產生了新的等角關係和等比關係,同時也揭示了點E與線段AB中點L之間的重要連結。
要完成證明,關鍵在於證明兩組三角形的相似性:△AKI ∼ △BPY和△ALI ∼ △CPX,從而得出∠AIK = ∠BYP和∠AIL = ∠CPX。這個過程可以透過運用前述相似三角形所產生的邊長比例關係來完成。


如同開頭所述,以下這題一直以來都只有計算性的解法,例如使用複數、三角計算或透過不等式進行反證法。而AlphaGeometry既不能使用這些計算和推理工具,也不具備高級歐幾里德幾何知識。
但是,最終的結果卻出乎意料——AlphaGeometry透過建立關鍵的輔助作圖,在只用角度和比例追蹤的情況下,給出了一個優雅的解決方案。
首先,AlphaGeometry證明了X和Z關於BI對稱,根據對稱性可知I是三角形XYZ的外心。由此可以證明AB = AC,根據對稱性可知三角形ABC是等邊三角形。
但是,這個問題的主要挑戰在於使用三角形XYZ是等邊三角形的條件,也就是XY=YZ及其循環變體。
為此,AlphaGeometry建構了一系列關鍵三角形的外心:
D是三角形BXC的外心
E是三角形AYZ的外心
X_1是三角形BIX的外心
X_2是三角形AIY的外心
X_3是三角形CIX的外心
X_4是三角形ABZ的外心
X_5是三角形ACY的外心
X_6是三角形AXZ的外心
X_7是I關於BZ的對稱點
X_8是三角形AXY的外心
X_9、X_10是使得三角形IZX_9,三角形IZX_10為等邊三角形的點
X_11是Z關於BI的對稱點
起初,這些構造看起來非常反直覺,因為大多數人不會建構這些點。考慮到點X,Y,Z的性質,這些點與整個特定配置相關的幾何性質並不多,這使得人類很難想出一個綜合解法。
儘管如此,這些外心構造有助於形成相等/相似三角形對,這使得AlphaGeometry能夠利用三角形XYZ是等邊三角形這一事實來解決問題。


從上面的例子可以看到,AlphaGeometry在構造輔助點方面非常高效,並且能夠在不依賴複雜的歐幾裡得幾何知識和工具的情況下,為難題提供非常優雅的解決方案。這使得它能夠產生人類通常無法想到的,既富有創意又有效率的解法。
那麼AlphaGeometry有哪些問題是尚未解決的呢?
這樣的問題有8個。
其中2個是它已嘗試但未解決的,而另外6個則是無法形式化的問題,例如涉及到不等式和可變數量的點,這些目前還不在AlphaGeometry2語言的覆蓋範圍內。
另外2個則涉及了一些高階幾何解法技巧,如反演、投影幾何或根軸等,這些技巧在目前的DDAR中尚未實現。
如果想要做出這些題,就需要更長的推理時間、更長的證明過程,以及更多的輔助構造了,來彌補目前技術的不足了。