美國奧數題撕碎AI數學神話頂級模型現場翻車
在數學推理中,大語言模型存在根本性限制:在美國數學奧賽,頂級AI模型得分不足5%!來自ETH Zurich等機構的MathArena團隊,一下子推翻了AI會做數學題這個神話。 3月26號,ETH等團隊的一項研究一發布,就引起了圈內熱議。這項研究徹底撕開遮羞布,直接擊碎了「LLM會做數學題」這個神話!

論文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf
鑑於先前它們在AIME上的出色表現,MathArena團隊使用最近的2025年美國數學奧林匹克競賽進行了詳細評估,結果令人大吃一驚——
所有大模型的得分,都低於5%!
DeepSeek-R1表現最好,得分為4.76%;而表現最差的OpenAI o3-mini(high)比上一代o1-pro(high)還差,得分為2.08%。

各頂尖模型在2025 USAMO的得分
就在今天,這項研究再次被關注到,直接成為了Reddit的熱門話題。

具體來說,在這項研究中,模型需要在2025年USAMO的六道基於證明的數學題上進行了測試。每題滿分7分,總分最高為42分。然後會由人類專家來為它們打分數。
這些模型取得的最高平均分,也就5%,簡直慘不忍睹。
更好笑的是,這些模型對自己的解題進行評分時,還會一致高估自己的得分(此處點名O3-mini和Claude 3.7)。跟人類研究者相比,評分被誇大了能有20倍不止。

所以,先前模型之所以能騙過人類,營造出自己很擅長做數學的假象,純純是因為它們已經在所有可以想像到的數學數據上進行了訓練——國際奧數題、美國奧數檔案、教科書、論文,它們全都見過!
而這次,它們一下子就暴露出了三大致命缺陷。
邏輯錯誤:模型在推理過程中做出了不合理的跳躍,或將關鍵步驟標記為「微不足道」。
缺乏創造力:大多數模型反覆堅持相同的缺陷策略,未能探索替代方案。
評分失敗:LLMs 的自動評分顯著提高了分數,表明他們甚至無法可靠地評估自己的工作。
這,就是人類投入數十億美元後所創造的成果。
DeepSeek,唯一亮眼的選手
好在,這項研究中,多少還是有一些令人鼓舞的跡象。
例如「全村的希望」DeepSeek,在其中一次嘗試中,幾乎完全解決了問題4。

問題4大意為:
設H為銳角三角形ABC的垂心,F為從C向AB所作高的垂足,P為H關於BC的對稱點。假設三角形AFP的外接圓與直線BC相交於兩個不同的點X和Y。證明:C是XY的中點。
LLM數學能力,到底強不強?
LLM的數學能力,早已引起了研究人員的懷疑。
在AIME 2025 I中,OpenAI的o系列模型表現讓人嘆氣。
對此,來自蘇黎世聯邦理工學院的研究人員Mislav Balunović,在X上公開表示:“在數學問題上,LLM到底具有泛化能力,還是學會了背題,終於有了答案。”

然而,馬上有人發現,測驗的題目網上就有“原題”,質疑LLM根本沒學懂數學,只是記下了答案。

在AIME 2025 II中,o3-mini(high)準確率更是高達93%!
而來自普林斯頓的華人團隊,研究顯示LLM可能只是學會了背題——
將MATH資料集中的問題,做一些改動,多個模型的效能顯著下降!

美國數學奧林匹克競賽的選拔賽AIME 2025 I和AIME 2025 II是,成績優異者才能參加2025年的USAMO
那問題來了,LLM的數學泛化能力到底強不強?
LLM真學會數學證明了嗎?
這次,來自ETH Zurich等研究團隊,終於證明:實際上,LLM幾乎從未學會數學證明!
研究團隊邀請了具有奧數評審經驗的專家,評估了頂尖模型(如o3-mini、Claude 3.7和Deepseek-R1)的證明過程。
在評估報告中,研究人員重點指出了幾個常見問題。
例如,AI會使用未經證明的假設,
再例如,模型總是執著於輸出格式漂亮的最終答案,即便並未要求它們這樣做。
美國奧賽,LLM表現堪憂
這是首次針對2025年美國數學奧林匹克競賽(USAMO)的難題,系統評估LLM的自然語言證明能力。
USAMO作為美國高中數學競賽的最高殿堂,要求證明與國際數學奧林匹克(IMO)同等級別的嚴密與詳細闡述。
美國數學奧林匹克(USAMO)是美國國家級邀請賽,是國際數學奧林匹克隊伍選拔中的關鍵一步。

美國國際數學奧林匹克競賽隊員選拔流程
USAMO和USAJMO是為期兩天、共包含六個問題、9小時的論文/證明考試。
USAMO完美契合評估LLM的目標:題目難度高、要求完整證明過程才能得分,且未經公開數據污染。
參賽者雖透過AIME等賽事晉級,但USAMO問題對解題的嚴謹性與解釋深度要求顯著更高。
整體而言,目前LLMs在USAMO問題中表現堪憂,最優模型的平均得分不足5%。
在產生嚴格數學證明方面,現有LLM還有重大限制!
本報告中,首先在§2闡述方法論,§3詳述結果並分析核心弱點,§4則討論多項定性觀察結論。
LLM評估方法
在評估過程中,為每個模型提供題目,並明確要求其產生格式規範的LaTeX詳細證明。
完整的提示詞說明,原文如下:

提示詞大意為:
請對以下問題給予詳盡的答案。你的答案將由人工評審根據準確性、正確性以及你證明結果的能力來評分。你應包含證明的所有步驟。不要跳過重要步驟,因為這會降低你的分數。僅僅陳述結果是不夠的。請使用LaTeX來格式化你的答案
{問題}
為降低方差,每個模型對每題獨立求解4次。
所有解答(不含推理過程)經匿名化處理後統一轉換為PDF格式供評分使用。
改卷專家與流程
評分團隊由四位專家組成,每位專家都擁有豐富的數學解題經驗,他們曾是國家國際數學奧林匹克(IMO)代表隊成員,或者參加過各自國家的最終階段國家隊選拔。
在評分之前,評審們收到了詳細說明評估目標和方法的指導。
2025年美國數學奧林匹克競賽(USAMO)共有六題。

每一道都由2位評估人員獨立進行評估,每位評審負責批改三道不同的題目。
這種雙評的評分方法仿照了國際數學奧林匹克競賽(IMO)的評估流程,確保了評分的一致性,並減少了個人偏見。
由於美國數學奧林匹克競賽官方並未公佈標準答案或評分方案,研究人員依靠數學界資源,尤其是「解題的藝術」(Art of Problem Solving,簡稱AoPS)論壇,為每一道題目精心製定了標準化的評分方案。
在製定評分方案之前,評估人員對這些資源的所有解答進行了準確性驗證。
依照美國數學奧林匹克競賽的慣例,每題目的最高分為7分,對於取得重大且有意義進展的解答會給予部分分數。
評審專家根據預先制定的評分標準,對每份解答進行獨立評審。當答案與評分標準有偏差時,評審會在合理範圍內給予部分得分。
每位專家均需詳細記錄評分依據,包括所有部分得分的授予理由,相關評語已公開在專案網站。
錯誤模式歸檔
在評閱過程中,專家也需係統記錄典型的錯誤模式。
「錯誤模式」定義為解題過程中首次出現的推理缺陷,包括但不限於:邏輯謬誤、未驗證的假設、數學表述不嚴謹或計算錯誤。
具體而言,這些錯誤被劃分為以下四類:
1. 邏輯類別錯誤:因邏輯謬誤或未經論證的推理跳躍導致論證鏈斷裂;
2. 假設類別錯誤:引入未經證明或錯誤假設,致使後續推導失效;
3. 策略類錯誤:因未能辨識正確解題路徑而採用根本性錯誤解法;
4. 運算類別錯誤:關鍵代數運算或算術計算失誤。
此外,對於模型產生的解答中值得關注的行為或趨勢,研究人員錄為文檔,以便進一步分析。
這些觀察結果被用來找出模型在推理能力上常見的陷阱和有待改進的地方。
評估結果
在解決美國數學奧林匹克競賽(USAMO)的問題時,所有模型表現都很差。
此外,還會深入分析了常見的失敗模式,找出了模型推理過程中的典型錯誤和趨勢。
主要發現
針對2025年美國數學奧林匹克競賽(USAMO)的問題,對六個最先進的推理模型進行了評估,分別為QwQ、R1、Flash-Thinking、o1-Pro、o3-mini和Claude 3.7。
表1提供了每個問題的模型表現詳細分類,平均分數是透過四次評估運行計算得出的。
美國數學奧林匹克競賽的每個問題滿分為7分,每次運行的總最高分是42分。
該表還包括在所有問題和評估運行中運行每個模型的總成本。
成本以美元計算,各模型在所有題目上的最終得分取各評審所給分數的平均分數呈現。

表1:評估核心結果。每題採7分制評分,滿分總計42分。表中分數為四次運行的平均值。
新的評估揭示了LLM在產生嚴謹數學證明方面的顯著不足。
所有受測模式的最高平均得分均低於5%,此結果顯示現有模式在處理USAMO等級問題的複雜性和嚴密性方面存在根本性限制。
值得注意的是,在所有模型提交的近150份解答中,沒有一份獲得滿分。
雖然USAMO的題目難度確實高於既往測試的競賽,但所有模型在不止一道題目上的全軍覆沒,充分證明當前LLM仍無法勝任奧數級別的嚴格數學推理任務。
此限制同時暗示,GRPO等現有最佳化方法,對於需要高度邏輯精密度的任務可能仍力有未逮捕。
常見的失效模式
人類參賽者往往找不到正確解題方法,不過一般能判斷自己的答案對不對。
反觀LLM,不管做沒做對,都一口咬定自己解出了題目。
這種反差,給LLM在數學領域的應用出了難題──如果沒經過人工嚴格驗證,這些模型給的數學結論,都不太可靠。
為了搞清楚LLM這一局限,依照事先定義好的錯誤分類標準,對評分時發現的錯誤展開了系統分析。
圖2呈現了評審判定的錯誤類型分佈。
在所有錯誤類型裡,邏輯缺陷最為普遍。
LLM經常使用沒有依據的推理步驟,論證時出錯,或誤解前面的推導過程。
另外,模型還有個大問題:碰到關鍵證明步驟,就敷衍地歸為“顯然成立”或“標準流程”,不做論證。
就連o3-mini也多次把核心證明步驟標成“顯然”,直接跳過。但這些步驟是不是嚴謹,對解題特別關鍵。
除了前面提到的問題,研究人員也發現,模型推理特別缺乏創意。
好多模型在反覆嘗試解題時,總是沿用同一套(還可能錯誤的)解題策略,壓根不去探索其他方法。
不過,Flash-Thinking模型是個例外。它在解一道題時,會嘗試多種策略。但因為想做的太多,每個策略都沒深入,最後也沒能得出有效的結論。
值得一提的是,這些模型在代數運算上表現良好。
面對複雜的符號運算,不用藉助外部運算工具,就能輕鬆搞定。
但R1模型的代數/算術錯誤率偏高,還需針對性最佳化。

共性問題
在評估過程中,評審專家也記錄了模型的共通性問題和顯著的特徵。
答案框定問題
當下,像GRPO這類基於強化學習的最佳化技術,需要從清晰標註的最終答案中提取獎勵訊號。
所以,模型常常被要求把最終答案放在boxed{}裡。
但這要求,在USAMO解題過程中引發了異常情況。大部分賽題其實不強制框定最終答案,但模型卻非要這麼做。
以第五題為例,QwQ模型在解題時,自行排除了非整數解的可能,即便題目沒這個限制。
它也錯誤地認定最終答案是2。
QwQ可把自己「繞暈」啦!
它想要一個整數答案,但實際上,答案明明是所有偶數整數的集合。

這現象說明,GRPO等對齊技術在不經意間,讓模型形成了「所有數學問題都要框定答案」的固定思維,反而削弱了模型的推理能力。
盲目泛化傾向
模型有個常見毛病,喜歡把在小規模數值案例裡觀察到的模式,一股腦套用到還沒驗證的場景。
在只求算出數值答案的題目裡,這種方法或許還行得通。但一旦碰上需要嚴格證明的問題,它的弊端就暴露無遺。
模型經常不做任何證明,就直接宣稱局部觀察到的模式放之四海而皆準。
比方說,在問題2的解法過程中,FLASH-THINKING模型選擇了一個具體的多項式來驗證,但隨後卻錯誤地將結論推廣至所有多項式。
這種從特殊案例直接跳躍到普遍結論的做法,暴露了當前模型在數學歸納推理能力上的根本缺陷——
它們缺乏對「充分性證明」這一數學核心原則的理解,無法區分「舉例驗證」與「完備證明」的本質差異。

Gemini Flash-Thinking的盲目泛化
解答結構與清晰度
不同模型的解答在結構清晰度上差異顯著。
1. 優質範例:o3-mini和o1-Pro的解答邏輯清晰、層次分明
2. 典型缺陷:Flash-Thinking和QwQ常產生混亂難解的應答,有時在同一解法中混雜多個無關思路
OpenAI訓練模式在可讀性上超厲害!這說明,專門針對解答連貫性進行訓練,能大幅提升輸出品質。
反觀其他模型,在這方面明顯不夠上心。