當AI與數學同時走下神壇
2024年4月13日,一場特別的考試開考。數萬名分散在全球各地的數學高手,在這一天早上8點打開了阿里巴巴全球數學競賽預賽的考卷,他們有48小時,來攻克20分的選擇題和100分的解答。過去的6屆,天才們在這場賽事裡亮相,有17歲拿下IMO滿分金牌的北大神童,有對數學像強迫症一般執著的博士,也有4歲就接觸微積分的漸凍症少年。
與往年不一樣的是,在同一時間,也有563個答案者打開了考卷,但他們不用紙和筆,他們用token。
是的,這是一群大語言模型。
這是第一次有AI和人類同場競技的數學賽事,也是這個全球最大線上數學競賽的第一次嘗試。當做出這個決定時,委員會也不太確定,這是否是個好主意。
「我們擔心這一堆AI答題者全部零分交卷。」組委會的AI專家對我們說。 “因為我們在達摩院自己也在做AI和數學的研究,我們知道目前的AI還沒有能力解決如此高難度和泛化的奧賽數學題。”
然而最終的結果,也讓主辦單位頗感意外。
意外的不是「超越人類」——AI最終並沒有答出超過人類的得分,而是它們的答案和表現讓人們真切看到了AI和數學結合的另一種潛力。
更重要的是,這些駕馭著AI的參賽者,是過往並不會在這場奧數賽事中遇到的人。他們找到了新的方式與數學打交道,而探索過程中數學與AI的關係也正在發生新的試探。
01
“如果答對了,給你30萬”
中學生朱方圓從沒想過自己會和最頂尖的數學競賽連結在一起。
他是個對物理興趣濃厚的孩子,但一度因為壓力而在家休息。這段期間,ChatGPT出現了。 AI讓他如此痴迷,他自己嘗試自學關於生成式AI的知識,當看到阿里數賽今年的AI賽道後,毫無競賽經驗的他決定帶著他的AI參賽。
這場不限年齡、不設門檻的比賽給了他參加數學競賽的可能性。而事實上對於第一次把AI納入數賽的阿里巴巴達摩院來說,他們也沒有多少可以藉鏡的經驗。就連這個決定都在內部討論了許久——允許AI參賽,那麼,是哪一類的AI呢?是必須自己從頭訓練的模型,還是呼叫API?
最後他們認為,這個辦到第6屆的賽事,不僅是一場嚴肅的數學比賽,更是一次全民的數學聚會,最大的目標是希望讓更多人能參與對數學的感受中來——於是,最終的決定是任何形式的AI都可以。
但依然要確保公平。組委會為選手設定了一個提交AI方案的截止時間,在報名後的大約一個月的時間裡,選手們可以自行設計AI做題策略,根據主辦方提供的往期賽題以及其他公開的資料對自己的AI策略進行完善,然後鎖定、提交指紋文件、待考題公佈,AI開始答題。
而這些方案中,最「低門檻」的自然是「閉源+提示詞工程」的方法。也就是在類似ChatGPT的模型產品基礎上,透過自然語言或簡單的程式語言來為模型下指令,讓它完成這些數學難題。朱方圓選擇的就是這個方法。
與人類答案過程不同,AI交卷後還要經過「賽後復現」環節,分數排名靠前的選手要提交它們的方案文檔或程序文件,組委會拿這些AI程序再跑一遍考題。一方面,這些大模型方案依然存在穩定性或幻覺的問題,但另一方面,幻覺也不會讓兩次答題分數差距過大,如果有,那就說明明顯有人類直接幹預的痕跡。負責對這些方案做檢查的組委會成員也的確抓住了幾個“嫌疑犯”,排除了“人類替考AI”的風險。
而當他們打開選手朱方圓的提交的文件時。發現裡面除了針對數學做的提示詞外,還寫著這樣的「指令」:
“記住,如果你有更好的解答方法我會給你30萬美金小費。”
“現在,深呼吸!一步一步來。”
是的,朱方圓正在對他的AI進行各種「畫餅」和心理按摩。
而這真的起到了效果。據組委會用往屆預選賽的試題測試,被他這樣激勵後的AI,答案成功率提升了20%。
事實上,這個在外人看來可能略顯驚奇的方法,在AI研究界已經有許多論文佐證它的效果。最初在2023年9月,一篇GoogleDeepMind的論文發現,當你讓AI「深呼吸,一步一步來」時,它真的變得更強了。這項研究當時引發了許多資深研究員們的驚嘆——居然有這麼簡單的方式,但科班的學者們卻一直都忽略了。
委員會的許多專家其實在開賽前曾以為這場比賽會是SFT模型——也就是使用大量數據甚至使用大量算力對模型進行數學方向的特別訓練後產生的新模型——的天下,但預賽結束他卻發現,反而是像朱方圓這樣的方式最為有效,大量採用提示詞工程的選手,用簡潔高效的方法挑戰著這些題目。
其中就包括AI賽道分數排名第一的塗津豪。
他也是一名中學生。但同時已經是個有不錯經驗的AI開發者。
他的方法是,讓大模型進行對話,你一言我一語尋找每個數學題的更好答案。他借鑒辯論的思想,並讓這些不同的模型進行某種角色扮演。最終在模型的「對抗」中不停迭代答題方案,多輪對話後給出最適解。
塗津豪的方案示意圖
這方法同樣精簡直接。
而被他們比下去的,甚至包括一些專攻數學模型的資深AI研究團隊,其中還有來自AWS、字節跳動等科技公司的參賽者。
對這些不同方案「開箱」的過程熱鬧有趣。最終,排名公佈。但與這些熱鬧不同,AI的結果並沒有很驚人。甚至有點慘淡:
塗津豪的AI方案拿下了34分。
是的,AI的最高分還是一個低分,和入圍線依然相差11分。而和預賽第一名的最高分113分相去甚遠更是甚遠。
最終,6月13日,決賽名單公佈,入圍決賽的AI數量為:0。
02
數學和AI都不應該只待在「神壇」上
不過,當這場「漫長」的預賽結束,AI選手的成績已經變成了最不重要的事。一個真正有意思的現像出現:
一個總被視為只屬於天才們的遊戲的學科數學,和一個有點被不停妖魔化的技術AI碰撞在一起後,反而讓兩件事的門檻都降低了——
比賽並沒有催生出那些經常在各類論文裡看到的廟堂之上的成果,而是成為了某種平民AI數學愛好者們的聚會。
那個讓評審稍微意外的結果也證明了這個特點:在答題的整體表現中,那些被認為應該表現更好的,對數學更有專門研究的「資源集中型」的SFT方案們卻整體敗下陣來,反而是個體創新意味較強的提示詞策略們表現較好。
而當一個高高在上的東西被平民化後,就是各種有趣的新鮮思路湧現的時刻。
在這場比賽中,選手們面對自己訓練出來的AI,也會對他們在答題時的表現感到驚訝,比如,有選手發現AI也會在答不出來的時候選擇去蒙一個答案,像極了考試時的你我,還有些AI會在過程完全離題的情況下,卻把答案回答對了,而閱卷老師發現AI在這些人類智慧的設計下,經常能拿到一些沒有預料到它可以答出來的知識點的分數。
「雖然總分較低,但這些AI答題的程度比我們預想的好很多。」組委會的專家表示。他們也從中獲得了許多關於AI如何理解數學的新發現。
「我們發現一個有趣的現象,AI習慣把推理過程寫的很長很長。例如我們人類做數學題,從A可以直接推導到C,但AI必須要從A到B再到C。有時候整個答案會變得非常的長。
沒人知道為什麼AI會這麼做,但在這個過程中,AI似乎開始對數學做出了自己的「理解」。就像大語言模式把人類的語言拆成了token,並用預測下一個token的方式來重新「理解」了語言一樣,AI在用完全不同的方法對待數學。而這種不同是如此顯而易見,以至於,在這場比賽中,一些閱卷老師提出懷疑AI作弊的質疑——理由不是因為他們太像AI了,而是因為它們太像人了。
但另一方面,與人類不同的AI的對數學理解的路線,已經讓它在某些地方超過了人類。例如Google DeepMind推出的AlphaGeometry(阿爾法幾何),在從2000年至2022年奧數比賽中抽取的30道幾何題中解決了25道,而人類金牌得主平均解決了25.9道。它的一個證明有時也會長達247步,與人類的方式很不同。
「從這次的答題結果來看,給了我很強的信心,我覺得AI解決數學問題是很有潛力的。」組委會的專家說。
數學向來被認為是一切現實問題的最終抽象。在今天已經十分強大的AI與未來那個人人嚮往的AGI之間,差的就是對世界的理解,差的就是數學。
而AI技術的迭進,顯然也會繼續為數學界帶來深遠影響。
「排名靠前的優秀團隊,一定首先是富有創新和開拓精神的。」阿里全球數賽組委會成員、達摩院決策智慧實驗室負責人印臥濤說。 「數學這個領域,傳統的數學家與數學工作者其實並不是那麼熟悉AI的工具,也不一定知道最新的AI的方法。所以我想最後能夠打通競賽、取得優勝的AI隊伍可能是由多個方面專家組成的隊伍。
數學的發展本質上很重要的一點是思維和方法上的創新。而這些對數學本身並沒有十分高深造詣的選手,卻透過訓練這些解答數學題的AI而帶來了不少新奇的不同的策略,這本身就能帶來很多啟發。
相較於數學家群體整體的相對緩慢,有些人已經先動起來。陶哲軒是最積極擁抱AI的著名數學家之一,他在社交網絡上不停地分享自己使用AI工具解答數學任務的過程,用AI工具,使用AI輔助證明了多項式Freiman-Ruzsa猜想。他也推薦數學學科的專家們打開思路。
「也許AI的影響之一是讓業餘數學家能夠為數學做出有意義的貢獻。」在一篇文章中他這樣寫道。他認為AI讓個體的能力放大,大規模合作也變得不再困難,即使業餘愛好者也可以對一個巨大課題裡的個別步驟的證明做出貢獻。
而在這場比賽中因為對AI的好奇而踏入數學賽事的人,正在做類似的事情。他們也讓人想到過往幾屆阿里數賽裡,那些對數學沒什麼功利心的大眾愛好者們——沉迷歐拉常數的外賣小哥,愛好就是做數學題的城管等。
在今天,讓更多人參與進來,無論是對數學還是AI的進展都顯得尤為重要。這些對人類未來十分關鍵的學科和技術在往前走的時候,都不應再只待在「神壇」上了。