馬斯克發表Grok-3:性能更強了,但真有新突破?
馬斯克(Elon Musk)旗下的人工智慧新創公司xAI發布了其最新大模型Grok-3。該公司不僅展示了新模型的強大效能,還展示了由20萬塊GPU組成的運算集群,預示著更大的野心。
在發表會上,馬斯克及其團隊重點強調了Grok-3強大的運算能力、基準測試表現以及即將推出的功能,儘管多數演示內容與競爭對手已實現的功能高度相似。
xAI發布會初段的焦點並非人工智慧本身,而是名為「巨像」(Colossus)的超級運算集群,該集群由20萬塊GPU組成,為Grok-3的訓練提供算力支撐。系統分兩個階段完成:首先在10萬顆GPU上進行了122天的同步訓練,接著又花了92天逐步擴展到20萬顆GPU上。 xAI團隊坦言,建構這項基礎設施比開發人工智慧模型本身更具挑戰性。
xAI已經計劃打造一個更強大的GPU集群,馬斯克表示他們的目標是當前容量的五倍,這將使其成為世界上最強大的GPU集群。

在性能方面,Grok-3在標準AI基準測試中表現出色。基礎模型(未嵌入思考鏈與推理模組的標準版)穩居數學(AIME)、科學(GPOA)與程式設計(LCB)測驗榜首,其盲測表現同樣亮眼。
xAI證實,先前代號為「Chocolate」的神秘模型實為Grok-3的早期測試版,該版本曾被上傳至LLM Arena平台。在這些測試中,它在所有大語言模型中獲得了最高的ELO評分,這意味著用戶更喜歡Grok-3的回答,而不是其他人工智慧模型產生的答案。此評估方式的獨特價值在於:模型無法透過針對性訓練在基準測試中“作弊”,其結果完全基於數千匿名用戶的盲測偏好。

Grok-3的”推理測試版”(Reasoning Beta)透過內建思維鏈處理模組與測試階段額外算力投入,將數學成績提升至新高度——在AIME 2025基準測試中得到93分,而其他表現最佳的模型得分均低於87分。
值得注意的是,Grok-3 Mini推理測試版雖規模較小,卻因較長的訓練時間在部分場景下反超標準版。換句話說,完整版的Grok-3在獲得更多訓練後仍有提升空間,考慮到其更大的參數量,這似乎很有潛力。
不過當進入現場展示環節時,Grok-3的表現更像是技術追趕而非突破創新。 xAI團隊展示了模型解決物理問題和從頭開始編寫遊戲程式碼的能力,但ChatGPT、Claude和Google的Gemini等競品早在數月前就已實現。
新工具,舊範式
xAI同步推出深度搜尋(DeepSearch)研究代理系統。此工具運作機制與OpenAI及Google服務類似,可實現全網資訊抓取並產生多維度主題分析報告。
X Premium Plus訂閱用戶現已開放Grok-3基礎版存取權限,但高階版本與迭代更新將獨家部署於獨立app或Grok.com平台。
未來幾週內,xAI將推出類似OpenAI「進階語音模式」的語音互動功能。馬斯克特別強調此非傳統文字轉語音(TTS)技術,而是一個真正的AI語音模型,能夠實現自然、富有表現力的語音互動。
開發者將在未來幾週內獲得API存取權以及音訊轉錄功能,這將使Grok-3成為第三方AI驅動應用程式的強大工具。
值得關注的是,在展示Grok-3生成《俄羅斯方塊》遊戲代碼後,xAI還透露計劃成立一個AI遊戲工作室,讓開發者能夠利用Grok-3構建遊戲。
目前,Grok-3模型正在逐步推出。有些愛好者已經搶先體驗,並對結果表示滿意。
電腦科學家萊克斯·弗里德曼(Lex Fridman)是人工智慧領域最具影響力的人物之一,他對Grok-3的能力給予了高度評價。他寫道:“我開始大量使用Grok 3(早期)。我驚呆了,這個模型給人留下了非常深刻的印象。祝賀馬斯克及其團隊將它變為現實。”

其他人則將Grok-3與市場上的領先競爭對手進行了比較。 OpenAI前聯合創始人安德烈·卡帕西(Andrej Karpathy)在社交媒體上發帖稱:“Grok 3 + Thinking的表現接近OpenAI最強模型(o1-pro,200美元/月)的頂尖水平,略優於DeepSeek-R1和Gemini 2.0 Flash Thinking。我要向他們祝賀團隊的速度祝賀。
X用戶Penny2x分享了一個由Grok-3從頭開始建構的遊戲-一個類似《超級瑪利歐兄弟》的2D平台遊戲。他對Grok理解指令並透過多次迭代改進的能力印象深刻。該遊戲可以在Thank Doge平台上進行測試。
Penny2x在帖子中寫道:“我只需要不斷提出調整要求,它就會生成一個獨立的遊戲文件,我可以直接放在桌面上運行。這簡直太不可思議了。我們生活在未來,現在每個人都可以成為開發者。”
xAI也證實,計劃在Grok-3完全成熟並穩定運行後幾個月後,將Grok-2開源。先前,xAI已在Grok-2之後開源了其初代模型,延續了透過發布舊版本激發創新的趨勢,儘管Grok-2的性能仍落後於頂級模型。
目前,Grok-3似乎已經能夠做到頂級人工智慧模型所能做到的事情。真正的考驗將在未來幾週內到來,屆時xAI將推出其承諾的語音功能、遊戲工具和API存取權。現在,壓力來到了OpenAI這邊,該公司即將發布GPT-4.5。