27億刀天價員工首個成果Google版推理模型算出最難高考數學題
Google版o1震撼登場,一誕生直接屠榜了Chatbot Arena,橫掃所有類別。複雜數學、物理、程式碼難題都能解決,思考速度快如閃電。更勁爆的是,此模型似乎是谷歌天價請回沙哥Noam Shazeer後,他的第一個成果,27億美元花得值了。
OpenAI十二天直播,殺瘋了的竟然是Google。
就在深夜,「Google版o1」Gemini 2.0 Flash Thinking突然發布。
跟o1的策略類似,它同樣是將更多計算能力投入「推理時計算」──也就是模型實際解決問題的時長。
但不一樣的是,Flash Thinking能清楚地展現思考過程。
一發布,它就直接屠榜Chatbot Arena。
從戰績來看,新模型在總榜排名第一,數學榜第一,創意寫作第一,Hard Promt第一,視覺榜單第一!
舉一個比較複雜的機率問題的例子。
如果一直擲硬幣,直到得到“正正正”或“正反正”,得到其中一個的幾率和另一個的幾率之比是多少?
這種水平的機率題,絕大多數LLM都會折戟。
但模型展現出了詳細完備的思考過程,並行雲流水般地在34.7秒內就給出了最終答案——2:3。
點擊“展開查看模型思維”,即可觀察推理過程
現在,Gemini 2.0 Flash Thinking已經在Google AI Studio和Vertex AI中上線了,開發者可以去免費測試。
對此,網友紛紛表示,明明是OpenAI的聖誕特別活動,怎麼發出炸裂成果的全是Google?
現在都是Google每天欺負OpenAI
Google版o1徹底殺瘋了,全是第一
在LLM競技場上,Gemini 2.0 Flash Thinking連同Gemini-Exp-1206一起,「橫掃所有類別,榮登榜首」。
無論是複雜提示、程式碼、數學、創意寫作、指示跟隨、長QA等等。
不過,這些排名並未包含OpenAI的完整o1模型。
但無論如何,Flash Thinking打了相當漂亮的一仗。
這個模型,大機率就是Google對打OpenAI o1系列的武器,而且,它很可能不是最強版本,或許還有Pro或Ultra Thinking的存在。
根據外媒THE DECODER報道,Flash Thinking似乎是著名AI研究員Noam Shazeer進入Google後的首個工作成果。
Shazeer是著名論文「Attention is All You Need」的作者之一
在80百分位的情況下,Flash Thinking的反應速度幾乎是o1-mini的2倍!
例如下面這題,OpenAI的o1和o1 Pro分別花了102秒和138秒,而Gemini 2.0 Flash Thinking只花了14秒。
一舉沖頂成為最強理科生,最難高考題也不在話下
有人試著把號稱「史上最難」的高考數學題目丟給Flash Thinking,它居然也給了精確的答案。
這種表現,震驚了所有網友。
要知道,這題連o1都做不出來。
而且更厲害的是,這題是中文題。
能做出數學高考題的含金量,不用詳細解釋了。
畢竟,中國的高考可是被Erudera評為地球上最難的考試。
而在Chatbot Arena的數學領域中,Flash Thinking對比Flash同樣也有顯著性進步。
在物理方面,可以來看看下面這個演示,Flash Thinking展示了是如何解決物理問題並闡明其推理過程。
示範中的題目為:一個電子被限制在一個一維無限深度阱中,位勢阱壁位於x=- 0.15nm和x=+0.15nm處。求出電子在勢阱中能階躍遷時所發射的四種最長波長的光子。
Flash Thinking首先會將問題本身複述清晰,接著就開始進行逐步思考問題的求解步驟。
經過16.9s的計算分析後,Flash Thinking給出了最終答案,為98.9nm,59.3nm,42.4nm ,37.1nm。
下面這個演示,則展示了Flash Thinking如何處理涉及視覺和文字線索的挑戰性難題。
演示中用戶首先上傳了一張有四個台球的圖片,並提出要求“我怎麼能使用這其中的三個數字使其總和為30?”
在這個演示中,有一個很有趣的地方就在於中間第二個台球既可以識別為9,也可以顛倒一下,識別為6。
Flash Thinking在首次嘗試中先是將其識別為正常觀察值的9,但是發現並不能實現問題的求解。
於是,他很聰明的做出了一個判斷:「在題目中並沒有清楚的說明每個數字只能出現一次」。
於是它開始嘗試將數字重複利用,但是還是無法實現問題的求解。
接著,有趣的地方便來了,它出奇地想到了可以把9識別為顛倒的6,這說明它成功地察覺到了這不僅僅只是一個數字遊戲,而是實際上可以翻滾的台球。
最後得到了問題的正確答案:利用11、13、6三個數字即可實現總和為30。
整個思考過程清清楚楚,一目了然。
從解題過程中可以看出,Gemini 2.0 Flash Thinking不僅能夠實現處理多模態訊息,在求解實際的問題方面,它不再是曾經的大模型那種較為機械死板的智能水平,而是像人一樣能夠學會多視角地變通看待問題,最終靈活地得到問題的解決方案。
GoogleDeepMind研究者讓Thinking模型嘗試用不同方法,求解普特南2024的一到數學題,然後自我驗證答案是否正確。
35.9秒內,模型給了答案。
網友實測
手快的網友們,已經紛紛甩給了Gemini 2.0 Flash Thinking一堆難題。
網友給的題目,難度都不小。
例如這道數列問題,要求寫出一個數列的前六個數字,其中每個數字都是前一個數字的三倍,而第一個數字是2。
最終,模型給出了正確答案——E。
這位網友實測後發現,新模型的推理能力實在強大,不光破解了單字網格難題,甚至連複雜的經濟學問題都做得出來。
設想太陽能和模組化核反應器的廣泛應用帶來了巨大的能源供應,從經濟學的角度深入思考未來十年可能出現的經濟變化。請詳盡地分析可能產生的影響。
模型給出的答案是:通貨膨脹率會下降,經濟環境會發生重大變化。
結論:變革的十年如果太陽能和模組化核反應器(SMR)電力的充足性和可負擔性得以實現,未來十年將見證一場深刻的經濟變革。我們可以預期通貨膨脹率下降,經濟環境會發生重大變化。
Hallid.ai聯創indigo給了它一道填數題,Thinking只需要20秒就做出來了。
而且給了正確答案。
相較之下,o1就花了40秒,而且還錯了。
不過,不知道是不是測試版的原因,Flash Thinking能不能數清楚「草莓」裡的r,似乎完全取決於你給了啥prompt…
相較之下,我們在本地跑的QWQ,可以輕鬆解決這個問題。
參考資料:
https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1