馬斯克說到做到Grok遵照Apache 2.0協定開放模型權重與架構
6個月掏出3410億參數自研大模型,預計做到了!就在剛剛,馬斯克的AI創企xAI正式發布了前鋒期待大模型Grok-1,其參數量達到了3140億,遠超OpenAI GPT-3.5的1750億。這是涉足參數量最大的開源大語言模型,遵照Apache 2.0協定開放模型權重和架構。
Grok-1 是一個混合專家(Mixture-of-Experts,MOE)大模型,這種 MOE 架構重點在於提高大模型的訓練和推理效率,形像地理解,MOE 就像把各個領域的「專家」集合到了了一起,遇到任務派發給不同領域的專家,最後總結結論,提升效率。決定每個專家做什麼的就是被稱為「門機制控製網路」的。
xAI 已經將 Grok-1 的權重和架構放在 GitHub 上開源。
目前Grok-1的來源權重資料大小約為300GB。
北京時間3月18日上午7時許,Grok-1計畫收穫了3,400顆星。
Grok-1是馬斯克xAI自2023年7月12日成立以來發布的首個自研大模型。xAI特別強調這是他們自己從頭訓練的大模型。Grok-1沒有針對特定應用進行改裝。
xAI是去年剛成立的明星AI創企,其目的之一就是與OpenAI、Google、微軟等對手在大模型領域進行競爭,其團隊來自OpenAI、GoogleDeepMind、Google研究院、微軟研究院等知名品牌企業和研究機構。
馬斯克剛剛“怒噴”OpenAI還不夠“開放”,後腳這就開源了自家的頂級3410億參數自研大模型Grok-1。雖然馬斯克在預熱到發布的過程中也“放了幾次”鴿子”,但最終他並沒有食言。
今天,xAI也公佈了Grok-1的更多細節:
基礎模型基於大量文字資料訓練,未針對特定任務進行扭力。
3140億參數的專家混合模型,其對於每個代幣來說,活躍權重比例為25%。
xAI從2023年10月開始使用自訂訓練堆疊在JAX和Rust之上從頭開始訓練。
但此次AI並沒有放出Grok-1的具體測驗成績,其與OpenAI即將發布的GPT-5的大模型王者之戰,必將成為業界關注的焦點。
當然,馬斯克發大模型,怎麼會少了大佬隔空對線「互懟」呢?
xAI官方消息剛剛發布,ChatGPT的官方帳號馬上就跟馬斯克在X平台上進行了互動,在Grok官方帳號評論下回復道:“偷了我的笑話。”
馬斯克自然不會示弱,立刻說請告訴我OpenAI「打開」何處在哪裡。
馬斯克高仿也馬上跑過來添油加醋,說我們都知道是Sam在經營ChatGPT的帳號。
值得一提的是,xAI發布Grok-1消息的封面圖片,是由Midjourney生成,Grok給出了提示文本:一個神經網絡的3D插圖,具有透明節點和發光連接,顯示不同粗細和顏色的連接線的不同權重(神經網路的3D 插圖,具有透明節點和發光連接,透過連接線的不同粗細和顏色展示不同的權重)。
原圖: