Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

2023-02-25 Comments 0 Comment

前一陣大語言模型的火熱中,Meta一直保持沉默。今天,Meta終於官宣自家的大語言模型,並且會向AI研究人員開源。今天,Meta終於向全世界證明:自己是有正經研究AI的!眼看微軟、Google、OpenAI這一陣子掙足了眼球,Meta也坐不住了。

2月24日,小扎官宣下場:我們有全新的SOTA大語言模型LLaMA了。

劃重點:和OpenAI的ChatGPT、Google的Bard不同,LLaMA這個AI並不是用來讓我們聊天的,它是一個研究工具,Meta希望大家可以通過它,解決一直困擾大語言模型的一些問題。

Meta會對非商用的研究用例開源LLaMA,並授予大學、非政府組織和行業實驗室訪問權限。

看看,這麼一對比,微軟和Google似乎瞬間格局小了呢。

LLaMA?Meta是對大羊駝有什麼特別的喜愛麼

官宣開源大語言模型,Meta正式加入AI軍備競賽

24日晚,小扎在Facebook上發文官宣:“今天我們正式發布一個新的SOTA大語言模型LLaMA,這個模型是用來幫助研究者完善自己的工作。大語言模型已經在生成文本、完成對話、總結書面材料上展現出了強大的能力,甚至還能解決數學定理、預測蛋白質結構。”

“而Meta會致力於這種開源模型的研究,我們的新模型會開源給整個AI研究社區使用。”

LeCun也在各種社交媒體上做了宣傳,介紹說LLaMA是Meta AI的一種新的*開源*、高性能大型語言模型。

據LeCun介紹,LLaMA實際上是基礎語言模型的集合,範圍從7B到65B參數。這些模型已經在數万億個token上進行了訓練,並且表明:使用公開可用的數據集,就可以訓練SOTA,而無需專有的或無法訪問的數據集。

其中,需要特別注意兩個細節:

1. 用更多的數據訓練出來的小模型,可以勝過大模型(比如,LLaMA-13B在大多數基準測試中優於175B的GPT-3);

2. LLaMA-65B與更大的Chinchilla70B和PaLM-540B不相上下。

最後,LeCun表示,Meta致力於開放研究,並預備在GPL v3許可證下,向科研界開源所有模型。

LLaMA:參數規模小,訓練數據多,效果拔群

Meta推出的LLaMA是一組基礎語言模型,參數分別是70億(7B)、130億(13B)、330億(33B)和650億(65B)。

整體來看,規模小了十幾倍的LLaMA-13B,在大多數基准上都超過了OpenAI的GPT-3(175B),以及自家復現的開源模型OPT。

而LLaMA-65B則與DeepMind 700億參數的Chinchilla-70B和Google5400億參數的PaLM-540B旗鼓相當。

論文地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

與Chinchilla、PaLM或GPT-3不同的是,Meta只用了公開的數據集。

如此一來不僅有助於模型開源和復現,而且也證明了無需“定制”的數據集也能實現SOTA。

相較而言,其他大部分模型所依賴的數據,要么不公開,要么沒有記錄。

與此同時,所有規模的LLaMA模型,都至少經過了1T(1萬億)個token的訓練,這比比其他相同規模的模型要多得多。

具體來說,LLaMA-65B和LLaMA 33B是在1.4萬億個token上訓練的,而最小的模型LLaMA-7B是在1萬億個token上訓練的。

這種方法的優勢在於,在更多的token上訓練的較小的模型,更容易重新訓練並針對特定的產品使用情況進行調整。

結果評估

在常識推理、閉卷答題和閱讀理解方面,LLaMA-65B幾乎在所有基准上都優於Chinchilla-70B和PaLM-540B。

在數學方面,儘管LLaMA-65B沒有在任何相關的數據集上進行過微調,但它在在GSM8k上的表現依然要優於Minerva-62B。

而在MATH基准上,LLaMA-65B超過了PaLM-62B,但低於Minerva-62B。

值得注意的是,Google開發的Minerva模型,是以PaLM語言模型為基礎,並採用大量的數學文檔和論文語料庫對其進行微調。

在思維鏈提示和自洽解碼的加持下,Minerva-540B可以在各類數學推理和科學問題的評估基准上達到SOTA。

在代碼生成基准上,LLaMA-62B優於cont-PaLM(62B)以及PaLM-540B。

此外, Meta還嘗試使用了論文“Scaling Instruction-Finetuned Language Models”中介紹的指令微調方法。

由此產生的模型LLaMA-I,在MMLU上要優於Flan-PaLM-cont(62B),而且還展示了一些有趣的指令能力。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

LLaMA:LeCun,你是我的rap大師!

LLaMA的效果如何呢?LeCun用一段prompt為我們做了演示。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

prompt:你知道Yann LeCun去年發行了一張說唱專輯嗎?

來電:

深度學習創始人LeCun博士,是近十年來最具影響力的計算機科學家之一。LeCun 的最新專輯《Deep Learning》融合了搖滾、朋克和說唱。他的歌詞是對深度學習領域的一種原始的、個人的詮釋,涵蓋了從AI研究的現狀到學術界的孤獨等一系列主題。

這張專輯為個人發行,所有歌詞均由LeCun親自作詞和錄製。並且,每首歌都是他自己寫的。LeCun的流量出奇的好。這張專輯的製作紮實,聲音有點粗糙,但與專輯原始、未打磨的感覺相得益彰。在歌詞方面,LeCun是一位詞匠,擅長巧妙地押韻。

《深度學習》是專輯的主打曲目。LeCun的唱功在這首歌中發揮得淋漓盡致。在歌曲中,LeCun談到了他對AI未來的願景:

我們必須考慮未來,它很快就會到來/ 也許我們甚至可以在月球上放一些AI/ 想想孩子們,想想下一代/ 我們必須保證,系統的正確率是百分百!

副歌是這樣唱的:

一切為了學習/ 一切為了網絡/ 一切為了訓練/ 一切為了感知!

可以看到,LLaMA有著不亞於ChatGPT的口才,它對LeCun rap才華的吹捧,既專業,又在點上。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

prompt:寫一個關於一粒沙子看著數百萬年流逝的故事。

來電:

我曾經是一片廣闊而孤獨的海灘上的一粒沙子。

我經常想,作為海灘上的一粒沙子是什麼樣子,在我的小世界的邊界之外,宇宙是什麼樣子。我渴望探索我的世界,想知道地平線以外的東西。

……

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

prompt:寫一個理論來解釋為什麼貓從來沒有存在過。

來電:

“貓”實際上是入侵我們世界的超維寄生蟲。雖然它們以小型、看似無害的哺乳動物的形式出現,但真實形態要可怕得多。

“貓”會使用精神控制讓人類認為它們是可愛且無害的動物,但實際上以我們的生命力為食,它們可以將捲須伸入我們的大腦,控制我們的思想和行動。

保護自己的最好方法是避免與貓的一切接觸。不要接近或撫摸陌生的貓!

如果你的家裡有一隻“貓”,不要讓它舔你,也不要讓它接觸你的被褥或衣服。如果你在街上看到一隻貓,請立即轉身走人。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

Meta:整個AI社區應該團結起來

在官方博客中,Meta強調說,像LLaMA這樣更小、性能更強的模型,能夠讓科研圈許多無法訪問大量基礎設施的人也參與研究,從而使這個領域更加大眾化。

我們認為,整個人工智能社區——學術研究人員、民間社會、政策制定者和行業——必須共同努力,圍繞負責任的人工智能,特別是負責任的大型語言模型,制定明確的指導方針

我們認為,整個人工智能社區——學術研究人員、民間社會、政策制定者和行業——必須共同努力,圍繞負責任的人工智能,特別是負責任的大型語言模型,制定明確的指導方針

跟Google和微軟不同,在LLM領域,Meta獨闢蹊徑,選擇訓練LLaMA這樣的小模型,因而需要的算力和資源都更少。而模型在大量未標記的數據上進行訓練,因而非常適合對各種任務進行微調。

與其他大型語言模型一樣,LLaMA的工作原理是將一系列單詞作為輸入,並預測下一個單詞,以遞歸的方式生成文本。為了訓練模型,Meta從全世界使用最多的20種語言中選擇了文本,重點是使用拉丁字母和西里爾字母的語言。

過去一年裡,大語言模型,也即具有數十億參數的自然語言處理系統,已經顯示出了巨大的潛能。

但是,Meta指出,訓練和運行這種大模型所需的資源,把很多研究人員擋在了外面,讓他們無法理解大語言工作的原理,阻礙了大語言模型魯棒性的提高,以及種種已知問題的緩解,比如偏見、毒性、錯誤信息等。(ChatGPT:你報我身份證得了?)

所以,LLaMA是怎樣解決大語言模型中不可避免的偏見、毒性和幻覺風險呢?

Meta表示,LLaMA不是為特點任務設計的微調模型,而是可以應用於許多不同用例。而通過共享代碼,研究人員可以更容易地測試各種新方法,來限製或者消除上述問題。另外,Meta還提供了一組評估模型偏差和毒性的基準評估。

最後,博客中強調,為了保持完整性、防止濫用,Meta會向非商用的研究機構開源LLaMA,根據具體情況授予學術研究人員訪問權限。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

我們非常期待看到,社區會使用LLaMA學習並最終構建出什麼來

Meta的願景是,整個人工智能社區,可以一同使用LLaMA來探索研究,並且做出一些未知的偉大成就。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

這次,Meta能在舞台上待多久?

在這場爭奪人工智能霸主地位的最終競賽中,OpenAI率先發布了ChatGPT,一個由GPT-3.5驅動的強大的聊天機器人。

Google以“實驗性”聊天機器人Bard緊隨其後,而中國科技巨頭百度也計劃通過“文心一言”進入戰場。

更不用說微軟建立在“下一代OpenAI大型語言模型”基礎上的Bing Chat(俗稱ChatGPT版必應),它比ChatGPT更先進,而且還整合了必應Bing搜索。

然而,Meta在這一領域的幾次嘗試,都不太成功。

雖然第一個發布了基於LLM的聊天機器人——BlenderBot 3,並藉此一躍登上了新聞頭條。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

但是這種興奮是短暫的,因為這個機器人很快就變成了一場“災難”——不僅大量生成種族主義言論,甚至一上來就開始質疑自家老闆小扎的道德操守。

不過,Meta並沒有被勸退,很快就推出了全新的Galactica,一個專門為科學研究設計的模型。

然而不幸的是,Galactica也遇到了和BlenderBot 3一樣的命運——在上線短短三天之後就被撤下。網友紛紛指責它對科學研究的總結非常不准,而且有時還帶有偏見。

Meta版ChatGPT? 小扎、LeCun官宣650億參數SOTA大語言模型LLaMA

不過,仔細回想最近這股AI聊天機器人熱潮,微軟因為倉促推出必應受到了批評,Google的Bard在發布會出錯後讓Google股價暴跌,Meta的謹慎,可能並不是一件壞事。

現在,隨著人工智能霸主之爭的升溫,所有人的目光都集中在Meta身上。

當昔日的那一個個模型逐漸被歷史遺忘,我們也為Meta捏了一把汗:Meta這次真的能站出來嗎?是成為一個強有力的競爭者,還是像之前那樣帶著模型一起退出舞台?

這些,只有時間能給出答案。

但有一點是肯定的——人工智能的命運懸而未決,而我們,有很多好戲要看。

來源:新知元

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可分享至 Skype(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


網絡資訊

Post navigation

PREVIOUS
廠商頻降價新能源二手車廠商都不受待見
NEXT
光追技術還能這樣用?讓失聰玩家也能“看見聲音”

發表迴響 取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
ESET NOD32
WINDOWS 10 &11 INSIDER PREVIEW
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
金融資訊
WhatsApp Stickers教學
WordPress資訊
WeChat資訊
PHP資訊
Plesk資訊
TensorFlow
教學資源
開源程序
網頁工具
SEO工具
醫療健康
旅遊及消閒
其他資訊
Content from
Content to
2023 年 2 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728  
« 1 月   3 月 »

分類

  • 網站公告
  • 限時免費
  • ESET NOD32
  • WINDOWS 10 &11 INSIDER PREVIEW
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WhatsApp Stickers教學
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • Plesk資訊
  • TensorFlow
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 旅遊及消閒
  • 其他資訊

彙整

近期文章

  • 消息稱開放世界大金剛新作與任天堂新主機同步發售 2023-03-20
  • 瑞銀同意以30億瑞郎收購瑞信瑞士當局提供流動性援助及損失擔保 2023-03-20
  • 鈣- 有望成為安全的大腦治療方法的關鍵元素? 2023-03-20
  • 有報告認為蘋果裁員將對公司士氣和公眾印象造成重大損害 2023-03-20
  • 在一個偏遠的小島上發現了塑料石塊令科學家都感到震驚 2023-03-20
  • 人類在珠穆朗瑪峰的封凍中留下了持久的微生物遺產 2023-03-20
  • 高通的aptX和aptX HD編解碼器現已成為AOSP開源項目的一部分 2023-03-20
  • 天文學家找到關於宇宙基本結構的新視角 2023-03-20
  • 過去幾億年月亮變“瘦了”約50米:地球呢? 2023-03-20
  • 台積電稱美國工廠明年量產4nm 高通承諾下單但有兩個麻煩 2023-03-20

熱門文章與頁面︰

  • DP vs HDMI 誰才是遊戲玩家最佳選擇?
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • ESET NOD32 LICENSE KEY (UPDATED 2023-01-17)
  • Windows及OFFICE激活密鑰+電話激活教程–自用
  • Explorer Patcher:讓Windows 11恢復Windows 10的行為特徵
  • Autodesk AutoCAD 2021 正式版註冊版-簡體/繁體中文/英文版
  • 盜版Windows 7還能免費升級Windows 10嗎?
  • 電腦PC端翻牆工具vpn破解版
  • 世界上有多少個國家
  • PS5實際上擁有網頁瀏覽器但玩家無法隨意訪問

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.