AI搶攻人類奧賽金牌DeepMind數學模型完勝GPT-4
Google DeepMind的AlphaGeometry模型登上了Nature!30道IMO幾何題中,它能做出25道,已經接近人類金牌選手的等級!而GPT-4,卻一道題沒做出來,直接掛了零蛋。
Google DeepMind的AI智能體,又破紀錄了!這個名為AlphaGeometry的AI系統,能做出國際數學奧林匹克(IMO)的30道幾何題中的25道,這個表現,已經接近了人類的奧數金牌得主。
從此,AI在數學領域的推理能力再次實現史詩升級,超越先前的最高水準。
這項研究已經登上Nature。
下面這道IMO大賽幾何真題,曾經難倒了一大批參賽者,而如今,AI卻能把做出來了!
更特別的是,這個模型是靠合成資料訓練出來的,而非通常使用的真實資料。
訓練過程是這樣的:先初始產生了十億個隨機幾何圖形,全面分析每個圖形中點和線的所有關係。
隨後,AlphaGeometry找出了每個圖形中所有的證明,並反向追溯出為得到這些證明所需添加的額外幾何元素(如果有的話)。
就這樣,AlphaGeometry結合了神經語言模型和符號演繹引擎的優勢,已經形成了一個神經符號系統。
兩個系統中一個提供快速提供直覺式的想法,另一個則負責更謹慎理性的決策。一個大膽假設,一個小心求證,不斷改進方案,為複雜的幾何定理找到證明。
而合成資料的思路,也為大模型語料不足的問題,提供了一個嶄新的出路。
網友驚呼:這簡直就是創造了歷史!
OpenAI研究科學家,德撲AI之父Noam Brown表示,「恭喜GoogleDeepMind團隊取得這個成績!看到AI在高等數學方面取得瞭如此大的進步,令人興奮」。
真題實測
話不多說,我們直接上真題。
已知等腰三角形ABC中,AB和AC的邊長相等,求證:∠ABC=∠BCA。
等腰三角形的底角相等,這是學過國中數學的人都知道的常識(等腰定理1),可是要怎麼證明?
AlphaGeometry的做法是,透過執行符號推理引擎,來啟動證明搜尋。
這個引擎會從定理前提中不知疲倦地推導出新語句,直到定理被證明,或新語句被窮盡。
但如果符號引擎無法找到證明,語言模型就會建構一個輔助點,在符號引擎重試之前增加證明狀態。
如是循環,一直到找到解決方案為止。
例如,在第一個輔助構造「D作為BC的中點」之後,環路就終止了。
隨後就開始證明過程,證明由另外兩個步驟組成,這兩個步驟都利用了中點的特性:“BD = DC”,“B,D,C是共線的”。
此後不斷循環,直至證明∠ABC=∠BCA。
同時,2015年IMO的P3,也被AlphaGeometry輕鬆搞定。
如果要做對這題,就需要建構三個輔助點。
在這兩種解決方案中,研究者將語言模型的輸出(藍色)和符號引擎輸出交錯排列,反映出了執行順序。(具體證明過程見論文)
甚至,AlphaGeometry還在IMO 2004 P1中,發現了未使用的前提。
由於提取最小前提所需的回溯演算法,AlphaGeometry辨識了一個對證明工作不必要的前提:O不必是BC的中點,P、B、C 就是共線。
其中,右上是原始定理圖,底部是廣義定理圖,其中O從其中點位置釋放出來,而P仍然停留在直線BC上。
原始問題要求P介於B和C之間,這是廣義定理和解決方案無法保證的條件。但AlphaGeometry就解決了這一點。
此外,在做2008年IMO P6的證明題中,AlphaGeometry卻失敗了。這是所有30個問題集中最難的一個,人類平均得分僅0.28/7。
值得一提的是,北大韋神曾連續兩屆以滿分拿下了IMO 2008、IMO 2009的金牌。
為什麼考AI要用奧數題
怎麼評價一個AI系統的數學和邏輯推理能力夠不夠強?
那自然是給它上最難的數學題,例如IMO的原題。
畢竟,能參加國際數學奧林匹克競賽的,都是全世界數學最優秀的高中生,可以說代表了全人類的最高水準。
所以這次測試,也可以看作AI和人類的對決!
專家們從2000年至2022年間的IMO競賽題中,選出了30道,組成了IMO-AG-30基準測試集,然後在限定的比賽時間內,讓「選手」們展開對決。
對決結果是,GoogleDeepMind的AlphaGeometry,已經接近了IMO金牌選手的水平。
人類金牌選手平均能解出25.9題,而AlphaGeometry能解出25道,可以說已經無限逼近人類。
而先前的SOTA AI系統“吳氏方法”,僅能解出10題。
除了吳氏方法,在AlphaGeometry與其他最先進的方法比較中,30道IMO試題,GPT-4一道也不會做,直接得了0分!
要知道,以前的AI智能體在處理複雜的數學問題時,時常受困於推理能力不足,以及訓練資料的缺乏。
但AlphaGeometry的不同之處在於,它結合了結合了神經語言模型的預測力,和基於規則的推理引擎,讓這兩個系統協同作業,從而尋找解決方案。
研究者也開發了一種方法,可以產生大量的合成訓練資料——高達1億個獨特樣本。
這樣,就可以在有效解決資料不足的問題,在不依賴人類示範的情況下訓練AlphaGeometry。
透過AlphaGeometry,我們可以看出AI在邏輯推理、發現和驗證新知識方面的能力,不斷增強。
今天,AI已經可以做出奧林匹克級的幾何題,再過一段時間,可能就會出現更高級、更通用的AI系統,直至某天出現AGI。
現在,GoogleDeepMind已經把AlphaGeometry的程式碼和模型開源,希望它們能和其他合成資料生成和訓練的工具一起,為數學、科學和AI領域帶來新的機會。
專案網址:https://github.com/google-deepmind/alphageometry
幾何證明雙重buff:大模型+符號推理引擎
具體來說,AlphaGeometry是由2個主要組件構成的神經符號系統(neuro-symbolic system):
1. 神經語言模型
2. 符號推理引擎
這個AI系統便是透過以上兩個部分協同工作,實現複雜的幾何定理證明。
GoogleDeepMind團隊在此引用了「思考:快與慢」這本書中的理念。
「這有點像我們的『直覺思考』和『邏輯思考』:一個系統提供快速,基於直覺的想法,而另一個系統則進行更為縝密、基於邏輯的決策」。
這裡,神經語言模型是“系統1”,擅長發現資料中的普遍模式和關係,能夠迅速預見可能有幫助的幾何構造。
然而,它們往往不擅長嚴密的推理,也無法解釋自己的決策過程。
符號推理引擎則不同,可視為「系統2」。
它們是基於形式邏輯(formal logic),依照明確的規則得出結論,這些結論既合乎邏輯又能解釋清楚。
不過,符號推理引擎在解決大型、複雜問題,可能會顯得「緩慢」且不夠靈活。
AlphaGeometry在解決一個簡單問題時的過程:首先,給定問題及其定理假設(左圖),AlphaGeometry(中圖)利用其符號引擎對圖形進行邏輯推理,從而推導出新的結論,直至找到答案或無法進一步推導。如果答案找不到,AlphaGeometry的語言模型就會引入一個潛在有助於解題的新圖形元素(以藍色表示),為符號引擎提供新的推理途徑。這個過程會不斷重複,直到找到問題的解決方案(右圖)。在這個範例中,只需加入一個新的圖形元素。
AlphaGeometry語言模型的角色就在於,指引符號推理引擎尋找解決幾何問題的可能路徑。
一般來說,IMO等級的幾何題往往基於圖表,需要在圖表中加入新的幾何元素,例如點、線或圓,才能找到解答。
AlphaGeometry的語言模型能夠預測,在無限可能中哪些新元素最有助於解題。這些提示有助於補全資訊的空缺,使得符號引擎能夠對圖表做出更多推斷,並逐步逼近正確答案。
舉個栗子,AlphaGeometry解決了2015年國際數學奧林匹克競賽第三題(如下),右邊是解題過程的精華部分。
整個解題的過程,共109步驟邏輯推理。
圖中的藍色部分錶示新增加的圖形元素
此外,Google團隊也讓AlphaGeometry去解決IMO 2005的P3,共用了110步驟完成。
完整解題步驟:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry%20/AlphaGeometry%20solution.pdf
1億個合成數據,從0訓練AI
AlphaGeometry解決數學的能力如此強悍,更令人震驚的是:僅用合成資料從0開始完成訓練。
正如GoogleDeepMind所言,因為缺乏訓練數據,AI系統一直難以解決棘手的幾何問題。
對此,研究人員採用了「合成資料」的技術,模擬知識累積過程,無需任何人類演示教學,從0基礎開始訓練AlphaGeometry。
如下圖所示,便是透過合成資料產生的隨機圖形的部分範例。
Google使用了10萬個CPU,最初產生了10億個幾何物件的隨機圖,並對每個圖表中的點和線條之間的所有關係進行了全面的推導(運行符號演算和回溯過程用了3 -4天)。
AlphaGeometry合成資料產生流程
AlphaGeometry不僅找到了每個圖表中的所有證明,還逆向追溯,確定為了得出這些證明需要增加哪些圖形構造。
研究人員將這個過程稱為「符號演繹與追溯」。
AlphaGeometry產生合成資料的視覺化
在這龐大的資料集中經過篩選,剔除重複的樣本,最終獲得了1億個涵蓋不同難度等級的獨特訓練樣本的資料集。
其中,也包含了900萬個附加構造的樣本。
AlphaGeometry的語言模型透過分析這些構造,如何幫助完成證明的眾多案例,能夠在處理奧林匹克級幾何題時,提供有效建議,設計出新的幾何構造。
對生成的合成數據的分析
IMO金牌得主盛贊,AI開創數學推理先河
AlphaGeometry針對IMO賽題所給的解答,都通過了電腦驗證。
GoogleDeepMind將成果與先前的AI方法,以及奧林匹克競賽中的人類選手錶現進行了比較。
AlphaGeometry證明步與IMO參與者在不同問題上的平均得分
值得一提的是,他們還請來數學教練及IMO金牌得主Evan Chen評審了AlphaGeometry的部分解答。
AlphaGeometry的輸出結果令人稱讚,它不僅可以經得起驗證,而且表達清晰。以前的AI在解決證明類競賽題目時,其解答有時候不夠可靠(輸出結果時對時錯,需要人類進行核查)。AlphaGeometry不會有這樣的問題:它的解答具備可由機器驗證的結構。
即使如此,它的輸出也便於人類理解。原本可以設想的是,一款電腦程式透過暴力破解座標系統來解決幾何題目,那將是一連串枯燥的代數運算。但AlphaGeometry並非如此,它採用的是學生所學的傳統幾何規則,包括角度和相似三角形的知識。
每場IMO競賽中,共有6題目,通常只有2道與幾何有關。
因此,AlphaGeometry只能在大約三分之一的奧賽題目中發揮作用。
儘管如此,它在幾何領域的能力,已足以讓它成為「世界上首個通過2000年和2015年國際數學奧林匹克銅牌標準的AI模型」。
在幾何題解決方面,AlphaGeometry已經接近IMO金牌選手的水平。
GoogleDeepMind表示自己的野心不止於此,也希望推動下一代AI系統在推理上的發展。
從0開始,利用大規模合成資料對AI系統進行訓練,此方法可望影響未來AI系統在數學和其他領域的新知識發現範式。
其實,在建構出AlphaGeometry系統之前,GoogleDeepMind和Google Research在AI數學推理上,做了大量的奠基性工作。
在此之前,GoogleDeepMind就曾推出FunSearch,打破了LLM首次在數學領域未解之謎上取得發現的紀錄。
而GoogleDeepMind的長期目標,就是打造能跨越不同數學領域、具備解決複雜問題、能夠進行高階推理的AI系統,直到實現AGI。
網友:AGI 奇點將近
AlphaGeometry誕生,可與AlphaFold、AlphaCode等「阿爾法家族」面世在AI領域掀起的巨震。
同時,「合成數據」的重要性和潛力也愈加凸顯。
Google DeepMind聯合創始人兼首席AGI科學家Shane Legg稱,「我還依稀記得1990年Christchurch的New Zealand IMO訓練營裡試圖解決瘋狂的幾何難題,現在看到人工智能在這方面變得如此出色,我有點震驚!AGI 越來越近了」。
昨天,UCLA博士生Pan Lu關於數學推理基準MathVista研究被ICLR 2024接收為Oral論文。
在看到Google最新研究後,他表示,「2021年,我們探索了幾何學的早期研究:我們的InterGPS,一個神經符號求解器,第一次達到了人類的平均水平。現在,AlphaGeometry標誌著歷史性的突破:獲得了奧林匹克級的技能!”
有網友表示,這簡直就是一個大事件。數學推理可以延伸到物理學,物理學也可以延伸到化學和生物學。未來幾年,人工智慧可能會主導研究。奇點正在逼近。
大多數在職的數學家都無法做到這一點,尤其是在規定的時間內。僅以合成資料進行訓練,顯示數學沒有資料瓶頸。因為我們可以輕鬆地產生無限高品質的合成數據。
英偉達機器學習科學家Shengyang Sun好奇地問,「這些合成問題會在IMO 2024出現嗎」?
CMU機器學習博士Jing Yu Koh表示,「2024年是合成數據年!我非常喜歡幾何領域,因為你有辦法將其與現實世界相結合,以確保合成數據的有效性」。
參考資料:
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
https://www.nature.com/articles/s41586-023-06747-5
來源:新智元