Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

27億刀天價員工首個成果Google版推理模型算出最難高考數學題

27億刀天價員工首個成果Google版推理模型算出最難高考數學題

2024-12-22 Comments 0 Comment

Google版o1震撼登場,一誕生直接屠榜了Chatbot Arena,橫掃所有類別。複雜數學、物理、程式碼難題都能解決,思考速度快如閃電。更勁爆的是,此模型似乎是谷歌天價請回沙哥Noam Shazeer後,他的第一個成果,27億美元花得值了。

OpenAI十二天直播,殺瘋了的竟然是Google。

就在深夜,「Google版o1」Gemini 2.0 Flash Thinking突然發布。

跟o1的策略類似,它同樣是將更多計算能力投入「推理時計算」──也就是模型實際解決問題的時長。

但不一樣的是,Flash Thinking能清楚地展現思考過程。

一發布,它就直接屠榜Chatbot Arena。

從戰績來看,新模型在總榜排名第一,數學榜第一,創意寫作第一,Hard Promt第一,視覺榜單第一!

舉一個比較複雜的機率問題的例子。

如果一直擲硬幣,直到得到“正正正”或“正反正”,得到其中一個的幾率和另一個的幾率之比是多少?

這種水平的機率題,絕大多數LLM都會折戟。

但模型展現出了詳細完備的思考過程,並行雲流水般地在34.7秒內就給出了最終答案——2:3。

點擊“展開查看模型思維”,即可觀察推理過程

現在,Gemini 2.0 Flash Thinking已經在Google AI Studio和Vertex AI中上線了,開發者可以去免費測試。

對此,網友紛紛表示,明明是OpenAI的聖誕特別活動,怎麼發出炸裂成果的全是Google?

現在都是Google每天欺負OpenAI

Google版o1徹底殺瘋了,全是第一

在LLM競技場上,Gemini 2.0 Flash Thinking連同Gemini-Exp-1206一起,「橫掃所有類別,榮登榜首」。

無論是複雜提示、程式碼、數學、創意寫作、指示跟隨、長QA等等。

不過,這些排名並未包含OpenAI的完整o1模型。

但無論如何,Flash Thinking打了相當漂亮的一仗。

這個模型,大機率就是Google對打OpenAI o1系列的武器,而且,它很可能不是最強版本,或許還有Pro或Ultra Thinking的存在。

根據外媒THE DECODER報道,Flash Thinking似乎是著名AI研究員Noam Shazeer進入Google後的首個工作成果。

Shazeer是著名論文「Attention is All You Need」的作者之一

在80百分位的情況下,Flash Thinking的反應速度幾乎是o1-mini的2倍!

例如下面這題,OpenAI的o1和o1 Pro分別花了102秒和138秒,而Gemini 2.0 Flash Thinking只花了14秒。

一舉沖頂成為最強理科生,最難高考題也不在話下

有人試著把號稱「史上最難」的高考數學題目丟給Flash Thinking,它居然也給了精確的答案。

這種表現,震驚了所有網友。

要知道,這題連o1都做不出來。

而且更厲害的是,這題是中文題。

能做出數學高考題的含金量,不用詳細解釋了。

畢竟,中國的高考可是被Erudera評為地球上最難的考試。

而在Chatbot Arena的數學領域中,Flash Thinking對比Flash同樣也有顯著性進步。

在物理方面,可以來看看下面這個演示,Flash Thinking展示了是如何解決物理問題並闡明其推理過程。

示範中的題目為:一個電子被限制在一個一維無限深度阱中,位勢阱壁位於x=- 0.15nm和x=+0.15nm處。求出電子在勢阱中能階躍遷時所發射的四種最長波長的光子。

Flash Thinking首先會將問題本身複述清晰,接著就開始進行逐步思考問題的求解步驟。

經過16.9s的計算分析後,Flash Thinking給出了最終答案,為98.9nm,59.3nm,42.4nm ,37.1nm。

下面這個演示,則展示了Flash Thinking如何處理涉及視覺和文字線索的挑戰性難題。

演示中用戶首先上傳了一張有四個台球的圖片,並提出要求“我怎麼能使用這其中的三個數字使其總和為30?”

在這個演示中,有一個很有趣的地方就在於中間第二個台球既可以識別為9,也可以顛倒一下,識別為6。

Flash Thinking在首次嘗試中先是將其識別為正常觀察值的9,但是發現並不能實現問題的求解。

於是,他很聰明的做出了一個判斷:「在題目中並沒有清楚的說明每個數字只能出現一次」。

於是它開始嘗試將數字重複利用,但是還是無法實現問題的求解。

接著,有趣的地方便來了,它出奇地想到了可以把9識別為顛倒的6,這說明它成功地察覺到了這不僅僅只是一個數字遊戲,而是實際上可以翻滾的台球。

最後得到了問題的正確答案:利用11、13、6三個數字即可實現總和為30。

整個思考過程清清楚楚,一目了然。

從解題過程中可以看出,Gemini 2.0 Flash Thinking不僅能夠實現處理多模態訊息,在求解實際的問題方面,它不再是曾經的大模型那種較為機械死板的智能水平,而是像人一樣能夠學會多視角地變通看待問題,最終靈活地得到問題的解決方案。

GoogleDeepMind研究者讓Thinking模型嘗試用不同方法,求解普特南2024的一到數學題,然後自我驗證答案是否正確。

35.9秒內,模型給了答案。

‍‍ ‍

網友實測

手快的網友們,已經紛紛甩給了Gemini 2.0 Flash Thinking一堆難題。

網友給的題目,難度都不小。

例如這道數列問題,要求寫出一個數列的前六個數字,其中每個數字都是前一個數字的三倍,而第一個數字是2。

最終,模型給出了正確答案——E。

這位網友實測後發現,新模型的推理能力實在強大,不光破解了單字網格難題,甚至連複雜的經濟學問題都做得出來。

設想太陽能和模組化核反應器的廣泛應用帶來了巨大的能源供應,從經濟學的角度深入思考未來十年可能出現的經濟變化。請詳盡地分析可能產生的影響。

模型給出的答案是:通貨膨脹率會下降,經濟環境會發生重大變化。

結論:變革的十年如果太陽能和模組化核反應器(SMR)電力的充足性和可負擔性得以實現,未來十年將見證一場深刻的經濟變革。我們可以預期通貨膨脹率下降,經濟環境會發生重大變化。

Hallid.ai聯創indigo給了它一道填數題,Thinking只需要20秒就做出來了。

而且給了正確答案。

相較之下,o1就花了40秒,而且還錯了。

不過,不知道是不是測試版的原因,Flash Thinking能不能數清楚「草莓」裡的r,似乎完全取決於你給了啥prompt…

相較之下,我們在本地跑的QWQ,可以輕鬆解決這個問題。

參考資料:

Introducing Gemini 2.0 Flash Thinking, an experimental model that explicitly shows its thoughts.

Built on 2.0 Flash’s speed and performance, this model is trained to use thoughts to strengthen its reasoning.

And we see promising results when we increase inference time…

— Jeff Dean (@JeffDean) December 19, 2024

https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
Arm與高通版權案「開打」 美國法院未做出裁決
NEXT
《魷魚遊戲》爆火導演身心俱疲:想去世隔絕孤島休息

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 12 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
« 11 月   1 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 專業建議:為什麼你應該考慮水光療程?5大關鍵原因解析 2025-07-13
  • 國鈾一號成功生產下線“第一桶鈾” 2025-07-12
  • 天舟九號船箭組合體已轉運至發射區 2025-07-12
  • 奧特曼解釋為何緊急叫停OpenAI開源模型發布 2025-07-12
  • 美科技大佬與川普關係半年生變:黃仁勳得勢,馬斯克失寵 2025-07-12
  • Shein因出貨慢遭加州起訴70萬美元達成和解 2025-07-12
  • OpenAI 再次推遲發布其開放模型 2025-07-12
  • 印度失事波音客機飛行員語音對話曝光 2025-07-12
  • 《劍星》PC版發售帶動PS5版額外售出22萬套遊戲 2025-07-12
  • 小島秀夫和《黑神話》主創馮驥、楊奇見面合影留念 2025-07-12

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • Photon Matrix:針對蚊子的“防空系統”
  • Switch 2還有隱藏HDR設定? 這樣調整會讓畫質更好
  • 《集合啦!動物森友會》玩家可將整個島嶼遷移至Switch2
  • 驅動總裁(DrvCeo) v1.9.19.0
  • 火車司機上班時為什麼都要拖著行李箱?“內涵”曝光
  • CCleaner全家桶激活密鑰
  • 4款家用血糖儀、尿酸儀對比評測
  • 一鍵GHOST v2020.07.20 正式版-硬盤版/光盤版/優盤版/軟盤版

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.