復旦MOSS大模型擬4月中旬開源邱錫鵬詳解如何構建

2023-04-11 Comments 0 Comment

近日，在復旦大學管理學院主辦的“Beyond ChatGPT：大型語言模型引發的時代變革”復旦科創先鋒論壇上，復旦大學計算機科學技術學院教授、MOSS系統負責人邱錫鵬從技術和原理的角度深度解構ChatGPT模型，並介紹了國內首個類ChatGPT模型MOSS的相關細節。

01.ChatGPT為什麼這麼強？

ChatGPT是2022年底由美國OpenAI公司發布的人工智能模型，60天內月活用戶直接破億，成為史上用戶增長最快的消費級應用，其主要功能就是與人類直接對話，比爾·蓋茨稱讚它是繼PC和互聯網之後技術上的又一次全新突破。

ChatGPT所展現出的令人驚豔的對話、理解與表達能力，讓越來越多人意識到人工智能已經迎來了全新的里程碑，並且有望作為一個至關重要的基座系統，以前所未有的速度滲透進各行各業，持續引爆未來世界的數字經濟體系。

那麼，ChatGPT背後的技術原理到底是什麼呢？

在正式解答這個問題之前，邱錫鵬認為，首先有必要先了解一下“語言模型”（Language Model）。語言模型，即利用計算機去重新建模人類語言，把自然語言轉化為機器能夠理解並判斷的語言的一種機制。

人類的自然語言是十分靈活的，它一方面有規則，另一方面又隨時可以打破規則，甚至存在巨大的歧義性，任何一句話，放在不同的情景下，大家對其理解都會大不相同，這就給建模造成了極大的困難與挑戰。

人們可以利用概率判斷來進行語句處理。如果這個句子符合自然語言的規律，就賦予它一個比較高的概率，反之，則賦予它一個比較低的概率。不過這樣的話，新的問題又產生了：應該怎麼去賦予句子以概率？

據邱錫鵬介紹，這就需要我們從互聯網上獲取海量的文本數據。但這也是一個難題，這個概率空間很大，難以直接建模。目前的解決方案是通過把整個句子的聯合概率拆解成其中每個詞的條件概率的連乘，大幅降低語言模型的建模難度。這樣語言模型就轉換為給定上文預測下文的機器學習任務。

語言模型，即利用計算機去重新建模人類語言，把自然語言轉化為機器能夠理解並判斷的語言的一種機制。

一個好的語言模型，要想預測得越準，就越需要充分理解人類語言和世界常識。比如讓模型預測雞蛋是圓的而不是方的，本身便隱含著一定的生活常識。此外，在語言學上還有一個非常難的問題叫“指代”，比如說，“你”“我”“他”是代詞，但是到底指的是誰卻不知道，有些中文場景下，預測時甚至連代詞都直接省略了，這就需要通過上下文補全，才能夠把下一個詞預測得更加準確。

只要見的公式足夠多，模型也還是能夠捕捉到“×”是什麼規則，“+”是什麼規則，從數據中完成自我學習。

再比如說“12×3+9=？”，則需要預測這個數學公式的結果。但是在訓練時未必會告訴模型“×”代表什麼意思，“+”代表什麼意思，只是輸入大量數學公式讓它自己訓練。然而只要見的公式足夠多，模型也還是能夠捕捉到“×”是什麼規則，“+”是什麼規則，從數據中完成自我學習。

為什麼能夠自我學習？這裡面有一個信息壓縮的概念，比如說有一萬億個詞，可以把它原封不動保存在硬盤上，也可以用10億個參數的神經網絡把所有的語料知識記住。這就迫使神經網絡不單要把這些淺層的知識存下來，還要把其中所蘊含的知識、規律累計下來，因為有很多信息是冗餘的。道理很簡單：把規律記下來就可以勝過很多淺層的文字。通過這樣的方式，迫使語言模型努力發現這些文字背後所蘊含的各種各樣的規律，從而使這個模型更好地理解人類語言和世界知識。

另外，在大型語言模型使用的神經網絡構架方面，邱錫鵬提到Transformer，這個詞的本意是變壓器，有輸入和輸出，是一個類似於雙塔式的結構。帶入到語言模型裡面，就是進去一個句子，出來另一個句子，給定上句預測下句的特定網絡模型。

Transformer這個詞的本意是變壓器，有輸入和輸出，是一個類似於雙塔式的結構。

如今Transformer已經在整個人工智能領域成為了最主流的架構體系。除了能力強之外，還有一個非常重要的原因在於它的架構設計對於GPU（圖形處理器）運算特別友好。因為Transformer架構和卷積、循環神經網絡不一樣，卷積、循環神經網絡都是在GPU誕生之前設計的，然後再去實現GPU加速。而Transformer則出現在GPU之後，所以設計方面就可以天然地充分考慮最大限度利用GPU能力，更容易做到大規模語言模型的效果。

不過，要想讓模型的預測更準確，就勢必需要大量的參數對其進行訓練，以幫助大規模語言模型充分理解人類語言規則及其邏輯關係。目前在Transformer的加持之下，研究人員已經可以把模型規模做到百億級、千億級。這就是如今的大型語言模型（Large Language Model）。在大型語言模型當中，可以通過輸入一些上文，經過語言模型背後的仿人類神經元構成的Transformer神經網絡加工處理，從而實現對下一個詞的預測，並輸出相應文本。

“而在訓練過程當中，科學家發現，計算量大概在10的22次方之後，模型能力會完成從量變到質變的飛躍，呈現出驚人的爆發式增長，我們通常也將其稱之為’湧現能力’。”邱錫鵬說。

計算量大概在10的22次方之後，模型能力會完成從量變到質變的飛躍，呈現出驚人的爆發式增長，我們通常也將其稱之為“湧現能力”。

02.湧現能力背後隱藏著哪些關鍵技術？

“大型語言模型在達到百億級規模後開始獲得’湧現能力’，而湧現能力的背後，則進一步隱含著三個非常重要的技術：情景學習、思維鍊和指令學習，這也是ChatGPT得以在人工智能領域叱吒風雲的關鍵原因。”邱錫鵬說。

湧現能力的背後隱含著三個非常重要的技術：情景學習、思維鍊和指令學習。

情景學習（In-context Learning）深刻改變了傳統機器學習範式，只需要通過一系列精心設計的條件語句（Prompt），對任務進行詳細描述，然後再輔以一些情景例子，就能夠讓模型參考著既定例子完成特定任務。

邱錫鵬舉了個例子，如果現在想要開發一個電影評論的情感分類器，去統計某部電影的評分到底是正面居多還是負面居多，那麼就可以設計一個條件語句，先對任務進行描述，比如：“這是一個電影評論情感分類器。評論：’我喜歡這部電影！’這條評論是正面的。評論：’我不知道，它還行吧。’這條評論是中立的。評論：’真是浪費時間，不推薦這部電影。’這條評論是負面的。”那麼模型就會自動結合上下文進行學習並預測。這種模式跟傳統的將知識直接儲存在參數里，顯然是不太一樣的，也在一定程度上揭示了為什麼ChatGPT通常是以多輪對話的形式來呈現。

事實上，對於ChatGPT來說，每一次接受人類發來的對話，它都會把之前的聊天歷史全部作為上文，輸入給語言模型，然後由語言模型續寫出一個下文，反饋給用戶。這樣讓一個大型語言模型直接和人類進行交互，從產品創新的角度確實是非常有智慧和遠見。

情景學習（In-context Learning）深刻改變了傳統機器學習範式。

模型能力可以通過擴大參數規模來提升，但是Google的研究員卻另闢蹊徑，想了一個更好的方法：將模型具有把一個複雜問題分解為多步推理的簡單問題，讓模型能夠明白並學習人類到底是怎麼一步一步推導到這個答案的，這個就叫做思維鏈（Chain-of-Thought）。

“大型語言模型經過海量預訓練之後，已經見過了很多推理方式，我們只需要一步一步引導，就可以讓它按照你想要的方式去推理。”邱錫鵬說，思維鏈方式進一步解放了模型潛力，讓本來模型不會解的一個個複雜問題，可以有辦法分解成很多簡單問題，然後通過逐一解決簡單問題，最終使得複雜問題同樣迎刃而解。

至於自然指令學習（Learning from Natural Instructions），傳統上，機器學習都需要大量標記數據，才能讓機器學習模型從數據當中實現學習。但是標數據本身又非常繁瑣，人類總歸是希望語言模型最好能夠直接從指令中進行學習，能夠直接聽懂人的意圖。

而事實也證明，這個思路是可行的，甚至人類只需要在少量的任務上進行指令化，在經歷大概40多個任務指令化之後對模型進行適度微調，就很容易泛化到上百、上千種任務，即使那些任務可能從來沒有見過，它也仍舊能夠很好地進行應對。

邱錫鵬認為，現在技術領域唯一存在的問題可能是：很多現有任務的指令化，尚未真正能夠與人類實現“對齊”。儘管自然指令學習大幅提升了泛化能力，但是對人類真實意圖的理解仍然有著很大差異，OpenAI（ChatGPT的開發機構）就希望收集真實的人類意圖，讓專家來寫答案，從而更好地與人類偏好進行匹配。“在這個過程當中，人的參與意義非常重要，使得機器在迭代中始終保持和人類的價值觀、思維方式對齊，也避免了機器自己迭代起來有可能會離人類的偏好和初衷越來越遠。”邱錫鵬說。

03.MOSS是如何煉成的？

“在了解了ChatGPT背後的這些基本技術原理之後，我們大致就可以嘗試復現這一大型語言模型了。”邱錫鵬接著說。

第一步需要先實現語言模型基座，第二步是指令微調，第三步是能力不斷強化迭代。雖然這些關鍵步驟以及發展大勢都已經十分明朗，但每一步的細節都需要我們自己去一一摸索，還是充滿著各種未知的挑戰性。

第一步需要先實現語言模型基座，第二步是指令微調，第三步是能力不斷強化迭代。

關於第一步，MOSS團隊主要是在Transformer架構上進行模塊優化。在這其中最具挑戰性的是，讓模型處理中文。

“首先，對於ChatGPT來說，它並沒有特別關注中文，很多時候只是直接把中文按照英文的方式進行編碼，我們作為中國人自然是希望對中文進行優化，就需要重新實現更好的中文編碼，並想辦法把中文和英文打通；此外，將來如果接入多模態，編碼問題同樣會帶來架構設計以及訓練穩定性等諸多問題與麻煩。”邱錫鵬說。

其次，關於指令微調，邱錫鵬認為，指令微調的難度甚至比預訓練更高，“在預訓練階段，大家可以利用一些大公司成熟的預訓練模型，在短時間內取得不錯的訓練效果；但是指令微調則非常難以立馬做到，這一點上和OpenAI之間存在著非常明顯的差距。”

在與人類對齊方面，想要讓模型的回答盡可能符合人類的思維習慣，這個其實也很難做到。“而且考慮到OpenAI暫不開源，我們只能夠一步步慢慢向前探索。如果要想超過ChatGPT，肯定就得去找到一條比它更好的實現路徑，而這個過程無疑充滿艱險。”邱錫鵬說。

MOSS的實現方案。

邱錫鵬也具體談到了MOSS的實現方案。

首先，激發MOSS大型語言模型的對話能力。“因為學校不像OpenAI公司可以僱很多人去寫答案，所以我們一開始是通過所謂的自指令技術先寫一些種子，通過’達芬奇’幫我們擴展很多的條件語句和答案。寫完之後有一些小規模的對話數據開始產生，我們就可以進一步利用監督策略做一個模型出來，然後在此基礎上進行工程開發，讓它能夠和人類的真實需求逐步對齊。”邱錫鵬說。

使用MOSS的這個過程其實就是幫助它對齊人類、變得越來越好的必由之路。對此，科學家就是要讓機器自己去寫答案，鼓勵它按照我們人類的偏好不斷實現迭代優化，去生產越來越符合人類習慣的數據類型。

邱錫鵬透露，“我們現在仍舊在加緊迭代MOSS，預計將於4月中旬開源，到時候大家就可以盡情使用了。”而在2月21日，邱錫鵬在2023全球人工智能開發者先鋒大會上曾表示，順利的話MOSS大模型將於3月底開源。

整體而言， MOSS基於公開的中英文數據訓練，目前已經擁有200億參數，具有和人類對話的能力，並可以通過與人類交互實現迭代優化。但與此同時，邱錫鵬也坦承，儘管對語言的理解能力和ChatGPT已經非常相近，但是目前MOSS的整體完成度卻並不高。主要原因在於MOSS在部署和訓練上投入的資本還非常有限，相較於千億級的ChatGPT，大概只是其規模的十分之一，所以MOSS還有很多事實類知識記不住，思維鏈能力也相對較差。但邱錫鵬也表示，目前團隊也在積極嘗試引入一些外部工具，來進一步擴大模型參數規模，不斷實現改進與優化。

04.AI如何對未來社會形成顛覆性影響？

考慮到ChatGPT已擁有通用語言理解的能力，並可以進一步增加對外接口，成為通用人工智能（Artificial General Intelligence，AGI）的技術基座，這也就意味著通用人工智能的加速實現對於現階段的人類來說已經不是夢想。甚至樂觀一點說，像科幻片裡面的人工智能形象可能很快就會在人類生活中出現。

以ChatGPT為代表的通用人工智能技術，可以引爆數字經濟，充分發揮數據和算力效能，並催生出海量的新商業模式；可以賦能產業數字化，並通過人機協同的方式解決行業專家資源不足的問題；可以以數字人、個人助理、搜索引擎等形式對數字經濟新業態、新模式提供發展動能；更將深刻改變教育、社會治理、司法等領域的生態，大幅提升行業水平。

通用人工智能（Artificial General Intelligence，AGI）的加速實現對於現階段的人類來說已經不是夢想。

“當然，我們也必須正視，目前的通用人工智能技術尚且存在很多不足，包括隨機性、不可控、容易’一本正經地胡說八道’等，不過，相信這些問題隨著時間的推移，都將在未來通過各種方式逐步得到改進。”邱錫鵬說。

那麼對於下一階段的大型語言模型，邱錫鵬認為，目前重點需要去做的事情是讓模型和現實世界以及人類的價值觀進行“對齊”，成為一個真正的智能體，具有自身學習、跨模態學習、知識和工具利用等能力。與此同時，AI與人類價值觀“對齊”也同樣不可忽視，畢竟如果AI的價值觀和人的價值觀背道而馳，那將會是非常危險的。

在演講的最後，邱錫鵬說，“或許正如圖靈獎得主、著名人工智能專家楊立昆（Yann LeCun）所言：下一代模型應該更加具有事實性、無害性、即時性，並且能夠靈活使用計算器、數據庫、搜索引擎、模擬器等各種輔助工具，而這也是人們亟需重點解決的時代課題。”

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

復旦MOSS大模型擬4月中旬開源邱錫鵬詳解如何構建

2023-04-11 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆