實測GPT4.5：更像人了，有驚喜但提升微妙

2025-02-28 Comments 0 Comment

北京時間凌晨4點OpenAI舉行一個14分鐘左右的直播發布，GPT4.5 終於發布了！凌晨4點爬起來第一時間給大家更新，廢話不多說，先看看Sam Altman的對GPT 4.5的感受：

獨自的：

GPT-4.5 準備好了！

好消息：它是我遇到的第一個感覺像是在和一位有思想的人交談的模型。我有好幾次都向後靠在椅子上，驚訝於竟然能從人工智慧那裡得到真正的好建議

壞消息：這是一個龐大且昂貴的模型。我們真的想同時向Plus 和Pro 用戶推出它，但我們的用戶成長非常迅速，以至於GPU 不夠用了。我們將在下週增加數萬個GPU，然後向Plus 用戶層推出它。（數十萬個即將到來，而且我確信你們會用完我們能部署的每一個。）

這不是我們希望的營運方式，但很難完美預測導致GPU 短缺的成長激增。

溫馨提示：這並非一個推理模型，也不會在基準測試中表現突出。這是一種不同類型的智能，而且它有一種我以前從未感受過的魔力。真的非常興奮能讓大家試試它！

是不是覺得泛善可陳？下面我們來看看GPT4.5長什麼樣子（發表會影片附在文章最後）：

在發表會一開始上，OpenAI先展示了一個例子。當用戶表達「朋友又取消了我的約會，我太生氣了，想發訊息罵他」這種負面情緒時， GPT-4.5 展現出了驚人的理解能力和情商：

•舊模型(o1) 的回應：直接按照指令輸出了憤怒的罵人短信，雖然完成了任務，但顯得冷冰冰，甚至有點「火上澆油」。

• GPT-4.5 的回覆：它不僅給了更溫和、更建設性的簡訊建議，還「聽」出了用戶言語背後的真實需求—— TA 可能只是需要傾訴和安慰，而不是真的想和朋友鬧翻！

這種細微的情感理解和微妙回應，正是GPT-4.5 的亮點之一！它不再是冷冰冰的機器，能夠更好地理解我們的真實意圖和情感需求。

知識更淵博，能力更全面

除了情緒智商升級， GPT-4.5 的知識儲備和能力也得到了顯著提升。發表會上OpenAI對比了GPT 系列模型回答「為什麼海洋是鹹的」這個問題：

• GPT-1:完全懵圈

• GPT-2:有點沾邊，但還是錯誤答案。

• GPT-3.5 Turbo:給了正確答案，但解釋很生硬，細節冗餘。

• GPT-4 Turbo:答案不錯，但有點“炫技”，不夠簡潔明了。

• GPT-4.5:完美答案！簡潔、清晰、有條理，第一句話「海洋是鹹的，因為雨水、河流和岩石」更是朗朗上口，充滿趣味性！

更強，更快，更安全

根據OpenAI的說法這些進步背後，是GPT-4.5 在技術上的全面升級：

•更強的模型：更大的模型規模，更多的運算資源投入，帶來更強大的語言理解和生成能力。

•創新的訓練機制：採用新的訓練機制，使用較小的資源footprint 就能微調如此龐大的模型。

•多迭代最佳化：透過監督微調和人類回饋強化學習(RLHF) 的組合進行多輪迭代訓練，不斷提升模型效能。

•多資料中心預訓練：為了充分利用運算資源，GPT-4.5 甚至跨多個資料中心進行預訓練！這規模，想想都震撼！

•低精度訓練和推理最佳化：採用低精度訓練和新的推理系統，確保模型又快又好。

•更安全的模型：經過嚴格的安全評估和準備評估，確保模型可以安全可靠地與世界分享

性能表現

發表會上OpenAI 也展示了GPT-4.5 在各種benchmark 上表現：

GBQA (推理密集型科學評估):大幅提升！雖然還落後OpenAI-03 Mini (可以思考後再回答的模型)，但已經非常接近！

AIME24 (美國高中競賽數學評估):相對推理模型提升不多

SWE Bench verified (Agentic 編碼評估):相較於GPT4o僅提升7%

SWE Lancer (更依賴世界知識的Agentic 編碼評估):超越OpenAI-03 Mini！

Multilingual MMLU (多語言語言理解基準):提升不到4%

Multimodal MMLU (多模態理解):多模態能力提升5%左右

Andrej Karpathy 評測GPT-4.5

相信大家跟我一樣，對GPT 的每一次迭代都充滿了期待。這次的GPT-4.5 更是吊足了大家的胃口，畢竟距離GPT-4 發布已經過了大約兩年！ AI 大神OpenAI聯合創始人提前拿到了GPT4.5 的內測資格， Andrej Karpathy 親自發聲，對GPT-4.5 進行了深度解讀

GPT-4.5：算力堆砌的另一個進化？

Karpathy 在他的推文中開門見山地指出，他期待GPT-4.5 已經很久了，原因在於這次升級提供了一個定性衡量指標，可以觀察到透過擴大預訓練算力（簡單來說就是訓練更大的模型）所帶來的性能提升斜率

他透露了一個關鍵訊息：GPT 版本號每增加0.5，大致代表預訓練算力提升了10 倍！

為了讓大家更直覺地理解這個”0.5″的意義，Karpathy 也回顧了GPT 系列的發展歷程：

• GPT-1:幾乎無法產生連貫的文本，還在非常早期的階段

• GPT-2:像一個“玩具”，能力有限，還比較混亂

• GPT-2.5:直接「跳過」了，OpenAI 直接發布了GPT-3，這是一個更令人興奮的飛躍

• GPT-3.5:跨越了一個重要的門檻，終於達到了可以作為產品發布的水平，並由此引爆了OpenAI 的“ChatGPT 時刻”！

• GPT-4:感覺確實更好，但Karpathy 也坦言，提升是微妙的。他回憶起參與黑客馬拉鬆的經歷，大家嘗試尋找GPT-4 明顯優於GPT-3.5 的具體prompt，結果發現雖然差異存在，但很難找到那種「一錘定音」的例子

GPT-4 的提升更像是一種「潤物細無聲」的感覺：

• 字詞選擇更具創造力

• 對prompt 細微之處的理解有所提升

• 類比更合理

• 模型變得更有趣

• 世界知識和對罕見領域的理解在邊緣地帶有所擴展

• 幻覺（胡說八道）的頻率略有降低

• 整體感覺（vibe）更好

就像是“水漲船高”，所有方面都提升了大約20%。

GPT-4.5：微妙的提升，依舊令人興奮

帶著對GPT-4 這種「微妙提升」的預期，Karpathy 對GPT-4.5 進行了測試（他提前幾天獲得了訪問權限）。這次GPT-4.5 的預訓練算力比GPT-4又提升了10 倍！

然而，Karpathy 發現，他彷彿又回到了兩年前的黑客馬拉松：一切都變得更好，而且非常棒，但提升的方式仍然難以明確指出

儘管如此，這仍然非常有趣和令人興奮，因為它再次定性地衡量了僅僅透過預訓練更大的模型就能「免費」獲得的能力提升斜率。這說明，單純地堆算力，依然能帶來肉眼可見的進步，只是進步的方式可能更加內斂和精細化

注意！ GPT-4.5 並非推理模型

Karpathy 特別強調，GPT-4.5 僅僅透過預訓練、監督微調和RLHF（人類回饋強化學習）進行訓練，因此它還不是一個真正的“推理模型”

這意味著，在需要強大推理能力的任務（例如數學、程式碼等）中，GPT-4.5 的能力提升可能並不顯著。在這些領域，透過強化學習進行「思考」訓練至關重要，即使是基於較舊的基礎模型（例如GPT-4 等級的能力）進行訓練，效果也會更好

目前，OpenAI 在這方面的最先進模型仍然是full o1。據推測，OpenAI 接下來可能會在GPT-4.5 模型的基礎上，進一步進行強化學習訓練，使其具備「思考」能力，從而推動模型在推理領域的表現提升。

GPT-4.5 的優勢領域：EQ 而非IQ

雖然在推理方面提升有限，但Karpathy 認為，在那些不依賴重度推理的任務中，我們仍然可以期待GPT-4.5 的進步。他認為，這些任務更與情緒智商(EQ)相關，而非智商(IQ)，而瓶頸可能在於：

• 世界知識

• 創造力

• 類比能力

• 整體理解能力

• 幽默感

因此，Karpathy 在測試GPT-4.5 時，最關注的也是這些面向。

Karpathy 的「LM Arena Lite」趣味實驗

為了更直觀地展示GPT-4 和GPT-4.5 在這些「情緒智商」相關任務上的差異，Karpathy 發起了一個有趣的「LM Arena Lite」實驗。

他精心挑選了5 個有趣/幽默的prompt，用來測試模型在上述能力上的表現。他將prompt 和GPT-4、GPT-4.5 的回覆截圖發佈在X 上，並穿插投票，讓大家投票選出哪個回覆更好，類似下面這種問題和投票方式

在8 小時後，他將揭曉哪個模型對應哪個回复

寫在最後：

即日起，ChatGPT Pro 使用者已經可以透過模型選擇器體驗GPT-4.5 了！下週將對Team 和Plus 用戶開放，EDU 和Enterprise 用戶稍後也將陸續上線。

在發表會的最後，OpenAI強調了無監督學習和推理能力的重要性，並認為GPT-4.5 是無監督學習領域的前沿成果。更強大的世界知識和更聰明的模型，將為未來的推理模型和Agent奠定更堅實的基礎

整場發表會給我感覺GPT-4.5亮點真的不多，從Andrej Karpathy的一手評測來看也是，提升的主要是情緒智商？這個只有等大家使用以後自己感覺了。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

WONGCW 網誌

記錄生活經驗與點滴

實測GPT4.5：更像人了，有驚喜但提升微妙

2025-02-28 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆