Meta稱其LLaMA語言模型比OpenAI的GPT-3更有前景
在OpenAI推出大型語言模型ChatGPT後,競爭對手紛紛迎頭趕上。谷歌有Bard,微軟有新必應。現在,Meta也上線了一個新模型LLaMA。目前,該模型只對研究人員開放。據了解,LLaMA是Large Language Model Meta AI 的首字母縮寫詞,比現有的模型更小,因為它是為無法訪問大量基礎設施的研究社區構建的。
LLaMA 有多種尺寸,從70億個參數到650億個參數不等。
Meta方面稱,儘管LLaMA-13B 的尺寸較小,而且少了1620億個參數,但“在大多數基準測試中”表現優於OpenAI 的GPT-3。
據報導,最大的模型LLaMA-65B 與DeepMind 的Chinchilla70B和PaLM-540B等模型可相提並論。
LLaMA 是一個基礎模型:它在大量未標記數據上進行訓練,這使得研究人員更容易針對特定任務微調模型。由於模型更小,因此更容易針對用例進行再訓練。
LLaMA不僅僅是使用英語文本構建的。Meta使用20種使用拉丁語或西里爾語腳本的語言訓練其模型。然而,大多數訓練數據都是英語,因此模型性能更好。
Meta 的研究人員聲稱,由於模型的大小,對當前大型語言模型的訪問受到限制。
Meta 認為“這種受限訪問限制了研究人員理解這些大型語言模型如何工作以及為何工作的能力,阻礙了提高其穩健性和解決已知問題(例如偏見、侮辱和產生錯誤信息的可能性)的努力”。
除了使模型更小之外,Meta 還試圖讓LLaMA 更易於訪問,包括在非商業許可下發布它。
對各種LLaMA 模型的訪問權限只會根據具體情況授予學術研究人員,例如隸屬於政府、民間組織和學術界的研究人員。
與ChatGPT 一樣,LLaMA 與其他語言模型一樣存在生成有偏見或不准確的信息。Meta 的LLaMA 聲明承認了這一點,並表示通過共享模型,研究人員可以“更輕鬆地測試新方法來限製或消除大型語言模型中的這些問題。”
Meta在去年5月曾推出一款面向研究人員的名為OPT-175B的大型語言模型,去年年底還發布過另一款模型Galactica,但後者被發現經常分享有偏見或不准確的信息,在48小時內被迅速下架。