Karpathy認為「LLM」這個名字不準確馬斯克非常贊同
LLM 該改名嗎?你怎麼看。在AI 領域,幾乎每個人都在談論大型語言模型,其英文全稱Large Language Models,簡稱為LLM。因為LLM 中有「Language」一詞,因此,大家預設這種技術和語言密切相關。然而,知名AI 大牛Andrej Karpathy 卻對此有著獨特的見解:
「大型語言模型(LLM)名字雖然帶有語言二字,但它們其實與語言關係不大,這只是歷史問題,更確切的名字應該是自回歸Transformer 或其他。
LLM 更多是一種統計建模的通用技術,它們主要透過自回歸Transformer 來模擬token 流,而這些token 可以代表文字、圖片、音訊、動作選擇、甚至是分子等任何東西。因此,只要能將問題轉化為模擬一系列離散token 的流程,理論上都可以應用LLM 來解決。
實際上,隨著大型語言模型技術堆疊的日益成熟,我們可能會看到越來越多的問題被納入這種建模範式。也就是說,問題固定在使用LLM 進行『下一個token 的預測』,只是每個領域中token 的用途和意義有所不同。
如果核心問題真的變成了預測下一個token,那麼深度學習框架(例如PyTorch 及其同類框架, 因為PyTorch 提供了過於廣泛的操作和層的可配置性而顯得過於普通)也可能過於普通,無法滿足大多數問題隨時間推移的需要。如果80% 的問題只需要使用LLM 來解決,那麼成千上萬個可以隨意重新配置的操作和層又有什麼用呢?我認為這不是真的,但我認為它只對了一半。 」
Karpathy 的這番言論引來許多人圍觀,瀏覽量高達20 多萬人。
Karpathy 曾是OpenAI 的早期成員之一,之後加入特斯拉領導其自動駕駛的電腦視覺團隊。之後他又回到OpenAI,帶領著一個專注提升ChatGPT 的GPT-4 的小團隊。今年7 月,他宣布創立了一家名為Eureka Labs 的AI + 教育公司。
作為前排吃瓜群眾的馬斯克非常贊同的表示:這絕對需要一個新名字,“多模態LLM(Multimodal Large Language Models)”是一個特別愚蠢的名字,因為第一個詞與第三個詞相矛盾!
機器學習和AI 研究員、暢銷書《Python 機器學習》作者Sebastian Raschka 也非常贊同,他表示:如果將LLM 改為自回歸Transformers 或其他名字的話,那Mamba、Jamba、Samba 可以申請加入嗎。不管怎樣,還是非常認同Karpathy 觀點。
不過,來自OpenAI 的研究者Clive Chan 卻表示:另一方面,也許所有可以用自回歸方式表達的東西都可以被視為一種語言。任何事物都可以轉化為一串token 流,因此從這個角度看,一切都是語言!
對於這種說法,Karpathy 回覆到:當然,你可以想像說話紋理、說話分子等等。但我所觀察到的是,語言這個詞誤導了人們認為大型語言模型(LLM)只限於文字應用。
在Meta 從事PyTorch 研究的Horace He 表示:確實,深度學習框架可能在某些方面過於普遍。儘管如此,即便只是針對大型語言模型(LLM),實際運行的操作也有很大的變化。這包括新的注意力操作、混合專家模型(MoE)、不同變體的激活檢查點、不同的位置嵌入等。
在Horace He 看來,這些技術的多樣性說明,即使是在專注於LLM 的應用中,深度學習框架的通用性也是有其必要性的,以適應不斷發展和變化的模型需求。
「像LLMs、GPT 和RLHF 這樣的術語現在變成主流,這實在有些奇怪。通常,一個領域向更廣泛的世界介紹自己時並不會這樣做(在我看來,這也是有些機構品牌推廣失敗的原因)。
這種情況反映了複雜技術術語的普及可能並不總是有效地代表其真實的應用和影響,有時甚至可能導致公眾理解上的困難。
還有網友認為,「Large」這個字用的也不好,因為今天的「大」在未來會顯得「小」。
“ 同樣的情況也適用於電話和計算機領域,看起來最初的術語往往會保持使用。”
這不由得讓我們想起AI 領域各種命名方式,早期的名稱往往因為先入為主的效應而被廣泛沿用,即使隨著技術的演進,這些名稱可能已不再準確描述其功能了。
參考連結:https://x.com/karpathy/status/1835024197506187617