Stability AI推出了更小、更有效率的Stable LM 2 1.6B語言模型
說到大型語言模型(LLM),規模當然很重要,因為它影響模型的運作位置。穩定人工智慧公司(Stability AI)是一家以穩定擴散文字到影像生成人工智慧技術而聞名的廠商,該公司今天發布了迄今為止最小的模型之一–Stable LM 2 1.6B。
Stable LM是一種文字內容生成LLM,穩定人工智慧公司於2023 年4 月首次推出了30 億和70 億參數模型。新的StableLM 模型實際上是Stability AI 在2024 年發布的第二個模型,此前該公司在本週早些時候發布了Stable Code 3B。
新的Stable LM 模型結構緊湊、功能強大,旨在降低門檻,讓更多開發人員能夠參與生成式人工智慧生態系統中,並將英語、西班牙語、德語、義大利語、法語、葡萄牙語和荷蘭語等七種語言的多語言資料納入其中。該模型利用語言建模的最新演算法進步,實現了Stability AI 所希望的速度與效能之間的最佳平衡。
Stability AI 公司語言團隊負責人卡洛斯-里克爾梅(Carlos Riquelme)告訴VentureBeat:”一般來說,在類似數據上用類似的訓練配方訓練出來的大型模型往往比小型模型表現更好。不過,隨著時間的推移,隨著新模型能夠實現更好的演算法,並在更多和更高品質的資料上進行訓練,我們有時會看到最近的較小模型表現優於舊的較大模型。 “
據Stability AI 稱,該模型在大多數基準測試中的表現都優於其他參數低於20 億的小型語言模型,包括微軟的Phi-2(27 億)、 TinyLlama 1.1B 和Falcon 1B。較小的新式Stable LM 甚至能夠超越一些較大的型號,包括Stability AI 早先推出的Stable LM 3B 型號。
Riquelme 說:”Stable LM 2 1.6B。比幾個月前訓練的一些更大的型號性能更好。考慮到電腦、電視機或微型晶片類似的趨勢,它們隨著時間的推移變得更小、更薄、更好。”
需要明確的是,較小的Stable LM 2 1.6B 由於體積小,因而確實存在一些缺點。由於小型、低容量語言模型的特性,Stable LM 2 1.6B 可能同樣會表現出一些常見問題,如高幻覺率或潛在的有毒語言。
在過去幾個月裡,Stability AI 一直在研究更小、更強大的LLM 選項。2023 年12 月, StableLM Zephyr 3B型號發布,與4 月發布的初始型號相比,它的尺寸更小,但性能更強。
新的Stable LM 2 模型在更多資料上進行了訓練,包括英語以外的6 種語言(西班牙語、德語、義大利語、法語、葡萄牙語和荷蘭語)的多語言文件。Riquelme 強調的另一個有趣的方面是在訓練過程中向模型展示資料的順序。他指出,在不同的訓練階段關注不同類型的數據可能會有所收穫。
更進一步的是,Stability AI 正在提供預訓練和微調選項的新模型,以及一種研究人員稱之為”…預訓練冷卻前的最後一個模型檢查點”的格式。
里克爾梅說:”我們的目標是為個人開發者提供更多的工具和工件,以便他們在現有模型的基礎上進行創新、改造和構建。在這裡,我們提供了一個具體的半成品模型供人使用。”
在訓練過程中,模型會依序更新,其表現也會隨之提升。在這種情況下,第一個模型什麼都不知道,而最後一個模型已經消耗了資料的大部分內容,並且有望學到這些內容。同時,模型在訓練快結束時可能會變得不那麼靈活,因為它們是被迫結束學習的。
他說:”我們決定在開始最後一個階段的訓練之前,以目前的形式提供模型,這樣–希望–可以更容易地將它專門用於人們可能想要使用的其他任務或資料集。我們不確定這樣做的效果是否會很好,但我們真的相信人們有能力以令人驚嘆的方式利用新工具和模型。”