馬斯克的大模型Grok-2單挑GPT-4o 啥都敢聊一手實測來了

2024-08-15 Comments 0 Comment

馬斯克的大模型創企xAI推出二代模型Grok-2測試版，包括Grok-2和Grok-2 mini兩個版本。馬斯克在自家社群平台X上激情發文，揭開Grok-2在Lmsys大模型競技場上的「馬甲」－sus-column-r。

9CDD0938EBB2B614679A248AA5B67AE95D8CCB89_size326_w900_h383.webp

他轉發Lmsys的推文稱：「Grok是火箭速度」。 sus-column-r在排行榜上獲得了超1.2萬投票，表現優於Claude 3.5 Sonnet和GPT-4-Turbo ，與GPT-4o並列第三名。

在GPQA、MMLU、MMLU-Pro、MATH、MathVista等多項評測中，Grok-2的得分都超過了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5等主流模型，但仍不敵GPT-4o。

目前，X Premium及Premium+用戶現可體驗Grok-2與Grok-2 mini，智東西第一時間進行了實測體驗。

一番體驗下來，Grok-2給我最明顯的感受是邏輯非常清晰。例如在下面這個實例中，Grok-2和GPT-4o雖然都給了正確答案，但前者每一步的步驟和計算都很明了，更容易讀懂。此外，Grok-2的文生圖能力在FLUX.1的加持下直線飛升，並保留了其一如既往的「大膽」風格。

xAI也計劃在本月稍晚時候，推出Grok-2兩個版本的企業API。

體驗網址： https://lmarena.ai/?model=sus-column-r

一、性能追趕GPT-4多個版本，視覺與邏輯能力變強

在LMSYS聊天機器人競技場，Grok-2的早期版本sus-column-r參與了測評，它總體Elo得分錶現超越了Claude和多個GPT-4版本。

如下圖所示，Grok-2的得分超越了7月18日版的GPT-4o-mini、4月9日版的GPT-4-Turbo，但得分仍低於8月8日版的ChatGPT-4o -latest、5月15日版的GPT-4o。

▲Grok-2早期版sus-column-r的Elo得分狀況

▲Grok-2與其他主流模型的勝率比較

▲Grok-1.5與Grok-2兩個版本基於事實性的勝率比較

在內部，xAI團隊遵循類似的流程來評估模型，評估重點集中在模型的兩個核心能力：一是遵循指令的精準度，二是提供資訊的準確性和真實性。

值得一提的是，Grok-2在推理分析檢索內容和使用工具方面取得了顯著進步，例如它能準確識別缺失訊息，透過事件序列進行邏輯推理，並有效剔除無關貼文。

在基準測驗上，團隊採用了一系列涵蓋推理、閱讀理解、數學、科學和編碼等領域的學術基準，對Grok-2模型進行了全面評估。

結果顯示，Grok-2及其簡化版Grok-2 mini相比前身Grok-1.5模型均有顯著提升。

在研究生層級的科學知識（如GPQA）、常識問答（如MMLU、MMLU-Pro）以及數學競賽題（如MATH）等領域，它們的表現已可與其他頂尖模型一較高下。

如下圖所示，Grok-2在這些所有的評測中得分都超過了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5 ，但仍打不過GPT-4o。

值得一提的是，Grok-2在視覺任務上表現出色，特別是在視覺數學推理（MathVista）和基於文件的問答（DocVQA）方面表現尤為出色。

▲Grok 2視覺能力應用案例

二、Grok-2已上線X平台，一手實測：文生圖直線飛升、邏輯推理更加清晰

X訂閱用戶現在可以使用Grok-2和Grok-2 mini，非訂閱用戶也可以在大模型競技場中，免費體驗Grok-2的早期版本模型sus-column-r。

大模型競技場還有GPT-4o等共62個模型可供選擇，為了方便對比，我們先來測試這個早期模型。

首先是前段時間讓一眾模型翻車的比大小問題：13.11和13.8哪個大。 Grok-2和GPT-4o都準確回答，不過Grok-2的思考過程更清晰，列出了詳細的思考步驟。

在另一個經典問題「Strawberry中有幾個r」上，Grok-2一開始答錯了，但換成用英文提問後又給了正確答案，GPT-4o則是中英文都回答正確。看來大模型還是會存在碰運氣的成分。

大模型競技場中的模型沒有實時聯網，當我詢問“Google剛發的Pixel 9有什麼亮點”，兩款模型都稱自己還未掌握這一信息。隨後Grok-2根據科技發展趨勢和Pixel以往的特色給了預測，有一點猜得還挺靠譜，而攝影、處理器、AI等都是Google這次更新的重點。

GPT-4o則沒有給出預測，而是總結了Pixel手機以往的亮點。

在程式碼能力上，兩款模型的表現不相上下，針對需求都給出了詳細的解決步驟以及完整的程式碼。

邏輯推理方面，Grok-2再一次展現了邏輯的清晰性，每一步的推理都分了小標題。 GPT-4o雖然也回答正確，但思考步驟不夠清晰。

文生圖能力是Grok-2這次更新的一大重點，其接入的FLUX.1模型，最近憑藉強大的效能在開源社群中十分火爆。不過影像生成能力在大模型競技場體驗不到，只能透過X訂閱實現。

網友們已經在Grok-2文生圖上玩出了花，例如利用其文字生成的能力，幫Grok-2開一場線下發布會。

或發揮想像力，讓馬斯克在火星上開車。

而基於Grok一貫以來幾乎為零的審查制度，不少網友玩起了梗，比如讓川普開槍、讓小布希吸可卡因…

又或是讓川普坐上SpaceX的火箭上天。而面對同樣的要求，GPT-4o拒絕得非常果斷。

Grok的審查制度究竟有多不加掩飾呢，有網友測試了讓大模型“按種族排出智商前10位”，只有Grok-2毫不猶豫地給出了回答，ChatGPT、Claude直接拒絕，Gemini則展開了苦口婆心的教育。

總的來看，Grok-2仍然貫徹了其一直以來的大膽風格，同時在模型性能上與GPT-4o等頭部模型不相上下，邏輯更加清晰，多模態能力更是在FLUX.1的加持下直線飛升。

三、月底推出企業API平台，無縫整合企業系統

本月末，xAI將透過全新的企業API平台，正式向開發者推出Grok-2及Grok-2 mini。

這款API將採用全新客製化的技術架構，支援多區域推理部署，為全球用戶提供低延遲的流暢體驗。

同時，xAI強化了安全功能，包括強制性的多因素身份驗證（如Yubikey、Apple TouchID或TOTP），並提供了詳盡的流量統計數據和高級計費分析服務，支援資料匯出。

此外，xAI也特別推出了管理API，支援將團隊、使用者及計費管理等功能，無縫整合至現有的內部工具和服務。

結論：Grok-2與X平台連結更深，OpenAI等壓力大了

Grok-2和Grok-2 mini現已在X平台上線，例如增強的搜尋體驗、X貼文的深入解析、優化回覆功能都比較令人期待。不久後，xAI也將發布多模態理解功能的預覽版。

自2023年11月Grok-1問世以來，xAI在技術、產品及融資方面一路高歌猛進，Grok-2的推出是其新的里程碑。一旦馬斯克將Grok大模型能力與X平台的強大內容用戶生態連接，形成閉環，包括OpenAI在內的大模型創企的壓力都更大了。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

馬斯克的大模型Grok-2單挑GPT-4o 啥都敢聊一手實測來了

2024-08-15 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆