Google的秘密AI模型未來很可能在難題數學領域中打敗人類
在矽谷正在進行的開發具有類似人類反應的人工智慧模型的競賽中,Google分享了其Gemini 1.5 Pro 模型的最新數據。與ChatGPT 一樣,Gemini 也使用人工智慧來解決問題,而這一次,Google吹捧的是其產品的數學能力。人工智慧模型因其解決大學層級任務的能力而成為衡量其”智力”的標準,Google的研究論文顯示該模型提高了數學成績,並成功解決了國際數學奧林匹克競賽的部分問題。
上週,雙子座人工智慧模型的最新技術報告公佈了其最新數學成績的詳細資訊。這份相當厚重的文件顯示,Google打算模仿數學家接受的訓練來解決複雜的問題,為了實現這一目標,該公司對其雙子座人工智慧模型進行了專門的變體訓練。
Gemini 1.5 Pro 的數學變體似乎經過了多項基準測試。根據其文件,Google依靠各種基準來評估其最新人工智慧數學模型的輸出。這些基準包括MATH 基準、美國數學邀請考試(American Invitational Mathematics Examination, AIME) 和Google內部的HiddenMath 基準。
根據Google的數據,數學型Gemini 1.5 Pro 在數學基準測試中的表現”與人類專家的表現相當”,與標準的非數學型Gemini 1.5 Pro 相比,數學型Gemini 1.5 Pro 在AIME 基準測試中解決的問題明顯增多,在其他基準測試的得分也有所提高。
Google也舉例說明了Gemini 1.5 Pro 所解決的問題。根據文件,這些問題是”Gemini 1.5 Pro、GPT-4 Turbo 和以前所有Gemini 型號都沒有正確解決的問題”,最終提高了Google產品的性能標準。
在它分享的三個範例中,兩個是由數學專用的Gemini 1.5 Pro 解決的,而一個是由標準的Gemini 1.5 Pro 變體錯誤解決的。這些問題通常要求解題者回憶代數中的基本數學公式,並依靠它們的分段和其他數學規則來得出正確答案。
除了問題之外,Google也分享了Gemini 1.5 Pro 基準測試的重要細節。這些數據表明,在所有五個基準測試成績中,Gemini 1.5 Pro 都領先GPT-4 Turbo 和亞馬遜的Claude。
據Google公司稱,其數學專用變體能夠”從單一樣本中獲得80.6% 的MATH 基準準確率,在對256 個解決方案進行採樣並選擇一個候選答案時(rm@256),準確率達到91.1% “,這項成就使其與人類專家處於同等水平。事實上,根據Google深度思維首席科學家傑夫-迪恩(Jeff Dean)的說法,數學模型91.1%的得分大大高於三年前僅為6.9%的”SOTA”(最先進水平)得分。