馬斯克的大模型Grok-2單挑GPT-4o 啥都敢聊一手實測來了
馬斯克的大模型創企xAI推出二代模型Grok-2測試版,包括Grok-2和Grok-2 mini兩個版本。馬斯克在自家社群平台X上激情發文,揭開Grok-2在Lmsys大模型競技場上的「馬甲」-sus-column-r。
他轉發Lmsys的推文稱:「Grok是火箭速度」。 sus-column-r在排行榜上獲得了超1.2萬投票,表現優於Claude 3.5 Sonnet和GPT-4-Turbo ,與GPT-4o並列第三名。
在GPQA、MMLU、MMLU-Pro、MATH、MathVista等多項評測中,Grok-2的得分都超過了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5等主流模型,但仍不敵GPT-4o。
目前,X Premium及Premium+用戶現可體驗Grok-2與Grok-2 mini,智東西第一時間進行了實測體驗。
一番體驗下來,Grok-2給我最明顯的感受是邏輯非常清晰。例如在下面這個實例中,Grok-2和GPT-4o雖然都給了正確答案,但前者每一步的步驟和計算都很明了,更容易讀懂。此外,Grok-2的文生圖能力在FLUX.1的加持下直線飛升,並保留了其一如既往的「大膽」風格。
xAI也計劃在本月稍晚時候,推出Grok-2兩個版本的企業API。
體驗網址: https://lmarena.ai/?model=sus-column-r
一、性能追趕GPT-4多個版本,視覺與邏輯能力變強
在LMSYS聊天機器人競技場,Grok-2的早期版本sus-column-r參與了測評,它總體Elo得分錶現超越了Claude和多個GPT-4版本。
如下圖所示,Grok-2的得分超越了7月18日版的GPT-4o-mini、4月9日版的GPT-4-Turbo,但得分仍低於8月8日版的ChatGPT-4o -latest、5月15日版的GPT-4o。
▲Grok-2早期版sus-column-r的Elo得分狀況
▲Grok-2與其他主流模型的勝率比較
▲Grok-1.5與Grok-2兩個版本基於事實性的勝率比較
在內部,xAI團隊遵循類似的流程來評估模型,評估重點集中在模型的兩個核心能力:一是遵循指令的精準度,二是提供資訊的準確性和真實性。
值得一提的是,Grok-2在推理分析檢索內容和使用工具方面取得了顯著進步,例如它能準確識別缺失訊息,透過事件序列進行邏輯推理,並有效剔除無關貼文。
在基準測驗上,團隊採用了一系列涵蓋推理、閱讀理解、數學、科學和編碼等領域的學術基準,對Grok-2模型進行了全面評估。
結果顯示,Grok-2及其簡化版Grok-2 mini相比前身Grok-1.5模型均有顯著提升。
在研究生層級的科學知識(如GPQA)、常識問答(如MMLU、MMLU-Pro)以及數學競賽題(如MATH)等領域,它們的表現已可與其他頂尖模型一較高下。
如下圖所示,Grok-2在這些所有的評測中得分都超過了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5 ,但仍打不過GPT-4o。
值得一提的是,Grok-2在視覺任務上表現出色,特別是在視覺數學推理(MathVista)和基於文件的問答(DocVQA)方面表現尤為出色。
▲Grok 2視覺能力應用案例
二、Grok-2已上線X平台,一手實測:文生圖直線飛升、邏輯推理更加清晰
X訂閱用戶現在可以使用Grok-2和Grok-2 mini,非訂閱用戶也可以在大模型競技場中,免費體驗Grok-2的早期版本模型sus-column-r。
大模型競技場還有GPT-4o等共62個模型可供選擇,為了方便對比,我們先來測試這個早期模型。
首先是前段時間讓一眾模型翻車的比大小問題:13.11和13.8哪個大。 Grok-2和GPT-4o都準確回答,不過Grok-2的思考過程更清晰,列出了詳細的思考步驟。
在另一個經典問題「Strawberry中有幾個r」上,Grok-2一開始答錯了,但換成用英文提問後又給了正確答案,GPT-4o則是中英文都回答正確。看來大模型還是會存在碰運氣的成分。
大模型競技場中的模型沒有實時聯網,當我詢問“Google剛發的Pixel 9有什麼亮點”,兩款模型都稱自己還未掌握這一信息。隨後Grok-2根據科技發展趨勢和Pixel以往的特色給了預測,有一點猜得還挺靠譜,而攝影、處理器、AI等都是Google這次更新的重點。
GPT-4o則沒有給出預測,而是總結了Pixel手機以往的亮點。
在程式碼能力上,兩款模型的表現不相上下,針對需求都給出了詳細的解決步驟以及完整的程式碼。
邏輯推理方面,Grok-2再一次展現了邏輯的清晰性,每一步的推理都分了小標題。 GPT-4o雖然也回答正確,但思考步驟不夠清晰。
文生圖能力是Grok-2這次更新的一大重點,其接入的FLUX.1模型,最近憑藉強大的效能在開源社群中十分火爆。不過影像生成能力在大模型競技場體驗不到,只能透過X訂閱實現。
網友們已經在Grok-2文生圖上玩出了花,例如利用其文字生成的能力,幫Grok-2開一場線下發布會。
或發揮想像力,讓馬斯克在火星上開車。
而基於Grok一貫以來幾乎為零的審查制度,不少網友玩起了梗,比如讓川普開槍、讓小布希吸可卡因…
又或是讓川普坐上SpaceX的火箭上天。而面對同樣的要求,GPT-4o拒絕得非常果斷。
Grok的審查制度究竟有多不加掩飾呢,有網友測試了讓大模型“按種族排出智商前10位”,只有Grok-2毫不猶豫地給出了回答,ChatGPT、Claude直接拒絕,Gemini則展開了苦口婆心的教育。
總的來看,Grok-2仍然貫徹了其一直以來的大膽風格,同時在模型性能上與GPT-4o等頭部模型不相上下,邏輯更加清晰,多模態能力更是在FLUX.1的加持下直線飛升。
三、月底推出企業API平台,無縫整合企業系統
本月末,xAI將透過全新的企業API平台,正式向開發者推出Grok-2及Grok-2 mini。
這款API將採用全新客製化的技術架構,支援多區域推理部署,為全球用戶提供低延遲的流暢體驗。
同時,xAI強化了安全功能,包括強制性的多因素身份驗證(如Yubikey、Apple TouchID或TOTP),並提供了詳盡的流量統計數據和高級計費分析服務,支援資料匯出。
此外,xAI也特別推出了管理API,支援將團隊、使用者及計費管理等功能,無縫整合至現有的內部工具和服務。
結論:Grok-2與X平台連結更深,OpenAI等壓力大了
Grok-2和Grok-2 mini現已在X平台上線,例如增強的搜尋體驗、X貼文的深入解析、優化回覆功能都比較令人期待。不久後,xAI也將發布多模態理解功能的預覽版。
自2023年11月Grok-1問世以來,xAI在技術、產品及融資方面一路高歌猛進,Grok-2的推出是其新的里程碑。一旦馬斯克將Grok大模型能力與X平台的強大內容用戶生態連接,形成閉環,包括OpenAI在內的大模型創企的壓力都更大了。