《自然》深度長文:人工智能越大型越好嗎?
隨著人工智能的生成模型越來越大、越來越強,一些科學家開始提倡更簡潔,能效更高的系統。可以生成流暢語言的人工智能係統,例如OpenAI的ChatGPT,是技術界的新寵。但是當它們遇到需要一些推導的數學問題時,這些大型語言模型(LLM)就常常會犯錯。比如說這個代數題吧:
一條直線與y=4x+6平行且經過(5, 10)。它和y軸的交點的縱坐標是多少?
雖然LLM有時候能給出正確答案,答錯的情況更多。在早期的推導能力測試中,ChatGPT面對中學水平的“數學”題集時只答對了26%[1]。
插圖:Fabio Buonocore
這是可以想見的:給定輸入文本之後,LLM只會根據模型訓練集中詞語、符號和句子的統計規律生成新的文本。要是學習語言模式就能讓LLM穩定模仿出數學推導,那才是怪事呢。
但在2022年6月,Google做的一款叫作Minerva的LLM多少算是突破了這種預期。Minerva在數學題集中答對了50%[2],這一結論讓一些人工智能(AI)領域的研究者們大為吃驚。(見“Minerva的數學考試”)
Minerva的數學考試:
一個稱為Minerva的大語言模型在“數學”數據集(中學水平的數學題)中得分50%。下面是它答對和答錯的兩題。(在Google Research’s interactive explorer可見更多例子:https://minerva-demo.github.io/#category=Algebra&index=1)
來源:Google Research
“這個圈子裡說,這還真是個新奇事。”微軟研究院的機器學習專家Sébastien Bubeck說。
Minerva的優勢在於它是在數學相關的文本上訓練的。但Google的研究提出了模型表現出色的另一重要原因——它的大小。這個模型大約有ChatGPT三倍大。
Minerva的結果佐證了一些研究者們長時間以來的懷疑:訓練更大的LLM並輸入更多數據,就可以讓它們——只通過模式識別——解決理論上要求推導的問題。若真是如此,一些AI研究者們說,這種“越大越好”策略或許可以構建出一條通往強大AI的路。
不過,這個觀點有理由加以質疑。LLM仍然還在犯很明顯的錯誤,有些科學家提出,更大的模型只是在碰巧與訓練集相關的問題上回答得更為出色,而沒有獲得回答全新問題的能力。
這個爭論正在AI領域最前沿上演。商業公司通過更大的AI模型取得了更好的成果,因此他們推出了越來越大的LLM——每一個都要花上幾百萬美元來訓練和運行(見“走向更大AI模型的驅動力”)。但這些模型有很嚴重的問題。除了輸出不值得信任,以及可能會使假信息傳播更嚴重的問題外,它們還非常貴,會吃掉大量能源。
來源:改自Our World in Data,和J. Sevilla 等人發佈在arXiv的預印本https://doi.org/10.48550/arXiv.2202.05924 (2022)。
批評者認為,大型LLM最終也無法模擬出、或是學到足以穩定回答推導類問題的技術。相反,有些科學家說,小型且能耗更經濟的AI才是進步的道路——某種程度上是受到了大腦學習並構建連接方式的啟發。
01 越大越好?
像ChatGPT和Minerva這樣的LLM是由計算單元(又稱人工神經元)構成的多層巨大網絡。LLM的大小可以由其參數的數量表示——這是一個可調節的數值,描述了神經元之間連接的強度。訓練這種網絡的過程是把已知的句子的一部分蓋住,讓它預測被蓋住的部分,然後調節參數讓算法下次能做到更好。
用人類寫作的幾十億句子重複這一流程,神經網絡就可以學到模擬人類寫作時的內部表現。在這一階段,LLM被稱為經過了“預訓練”:它的參數掌握住了它在訓練階段所看到的書面語言的統計結構,包括文本中的所有事實、偏見和錯誤。接下來就需要使用專業數據“精調”模型。
用Minerva舉例,研究者們是從Google的Pathways語言模型(PaLM)開始的。PaLM有5400億個參數,是在一套擁有7800億個“詞元”(token)的數據集上預訓練出來的[3]。一個詞元可以是一個詞,一個數字或是其他信息單位。PaLM的訓練集從英語和多語言的網絡文本、書籍和代碼中蒐集到了這些詞元。將PaLM在數百億個詞元的科技文獻和數學相關網頁上精調之後,就得到了Minerva。
Minerva能答出來的輸入例如:30的倍數中不超過520的最大一個是多少?LLM看起來可以一步一步思考,但它所做的就只是把問題轉化成詞元的序列,生成統計上更可能的下個詞元,接到原本的句子之後,再生成一個詞元,如此循環:這個過程被稱為推理(inference)。
Google的研究者們精調了三個尺寸的Minerva模型,分別使用了80億,620億和5400億個參數的預訓練PaLM模型。Minerva的表現水平隨規模增加。在整個MATH數據集上,最小的模型有25%準確率,中等的達到了43%,而最大的一個超過了50%的分數(見“更大的聊天機器人數學更好?”)
來源:改自參考文獻2
最大的模型精調時所使用的數據量也是最小的——它精調僅僅使用了260億個詞元,而最小的模型讀了1640億個詞元。但最大的模型花了一個月來精調,使用的是專門的硬件,計算力是最小模型的8倍,而最小的模型只花了兩週。理想情況下,最大的模型應該使用更多詞元來精調的,Google研究Minerva團隊的成員Ethan Dyer說;這可能會產生更好的結果。但團隊感覺計算花銷不太可行。
02 規模定理
最大的Minerva模型表現最好,這和其他研究發現的規模定理是一致的——這條定理說明模型性能隨著模型大小增長而變好。2020年的一項研究表明,模型在三種情況下會性能更好:更多參數;更多訓練數據或是更多計算量(訓練時所執行的運算次數)[4]。性能會遵循冪函數增長,也就是說它的提升速度是比如參數數量的若干次冪。
但是,研究者們不太清楚為什麼。“這是純粹的經驗規律。” Irina Rish說,她是加拿大蒙特利爾大學和蒙特利爾學習算法研究所的計算機科學家。
為了產生最好的效果,2020年的研究表明,訓練數據加倍時,模型大小就需要增長5倍。去年的研究稍微修正了一下這個定理。3月,倫敦的AI公司DeepMind提出,最好是讓模型大小和訓練數據集同時增長;使用更多數據訓練的小模型比使用更少數據訓練的大模型表現要好[5](見“擴大規模的不同方式”)。例如,DeepMind的Chinchilla模型有700億個參數;使用了1.4兆詞元進行訓練;而2800億參數的Gopher模型使用了3000億個詞元進行訓練。Chinchilla在評估LLM學到什麼的任務上表現好於Gopher。
來源:改自Our World in Data和J. Sevilla 等人發佈在arXiv的預印本https://doi.org/10.48550/arXiv.2202.05924 (2022)。
Meta研究團隊的科學家在二月使用了他們自己的少參數模型LLaMA拓展了這套概念。LLaMA使用了1.4兆詞元進行訓練。研究者們說,130億參數版本的LLaMA超越了ChatGPT的先驅GPT-3(1750億個參數),而650億參數版本的LLaMA可以媲美Chinchilla甚至PaLM(見go.nature.com/3kje2fj)。
去年十月,麥吉爾大學的Ethan Caballero和Rish等人一起宣布了大小和性能之間更複雜的關係[6]。在某些例子裡,多個冪律可以描述性能隨模型尺寸增長的增長關係,研究者們說。
例如,在他們發現的一個擬合通用函數的假設場景裡,性能隨模型尺寸會首先慢速增長,然後增長得更快,但是在參數繼續增長時稍微下滑,之後又回重新增長。這種複雜關係的特徵是由每個模型的具體情況和訓練方式決定的。最終,研究者們希望能夠在每個LLM擴大規模之前提前預測。
另一項獨立的理論研究同樣支持了對更大模型的追求——也就是2021年Bubeck和斯坦福大學的統計學家Mark Sellke提出的機器學習“穩健性規則”(law of robustness)[7]。如果輸入中有小擾動但仍然能給出穩定的回答,那麼模型就是穩健的。有些AI是出了名的脆弱。例如,一些AI被訓練來識別狗的圖片,而它們會在圖片中有一些不會騙過人類的小噪聲時做出錯誤的分類。
AI越穩健,它就越能泛化到此前沒見過的數據上。Bubeck和Selke在數學上證明了增加模型參數數量可以提高穩健性,因而提高泛化能力。Bubeck說該規則證明了提高規模是提高泛用性時必要的,但並沒有證明它的充分性。不過,它被用來論證模型越來越大的趨勢,他說,“我覺得這也合理。”
Minerva也利用了一項被稱為思維鏈提示(chain-of-thought prompting)的關鍵創新。用戶會在問題的最開始附上一些包含了幾個問題和解答的例子作為提示,其中也包括得到答案的推導過程——闡明了一種典型的思維鏈。在推理時,LLM會從這段文字中提取線索,並產生很像推導的逐步回答。這並不需要更新模型的參數,因此不需要精調所需的額外計算力。
能夠回應“思維鏈提示”類輸入的能力只出現在1000億參數以上的LLM裡。這項發現幫助了更大的模型按照實證規模定理提升性能,Google研究團隊的Blaise Agüera y Arcas說,“更大模型表現得越來越好。”
03 合理的擔憂
Google的AI研究員François Chollet是持懷疑態度的人之一,他認為無論LLM大到什麼程度,都永遠無法獲得推導(或是模擬出推導)以可靠解決新問題的能力。LLM顯示出推導能力只是因為能用此前遇到過的模版而已,無論模版來源於訓練集還是輸入。他說:“它並不能當場理解此前沒見過的東西。”
LLM可能做到的最好的程度也不過是吸收足夠多的訓練數據,讓語言的統計模式本身能夠在回答問題時,給出非常接近過去見過的答案。
但是,Agüera y Arcas則認為LLM確實獲得了一些沒有特意訓練的意外能力。他特別提到了一些用來測試人有沒有所謂心智理論的測試——也就是能不能總結或是猜測其他人的精神狀態。舉個簡單的例子,Alice把眼鏡放到了抽屜裡。然後Alice不知道的Bob把眼鏡藏到了椅墊下。Alice會從哪裡開始尋找眼鏡?問小孩這個問題時,實際上是要測試他們是否理解:Alice自己所相信的事情,可能和小孩所知的不同。
在他用Google的另一款LLM——對話應用的語言模型(L AMD A)時,Agüera y Arcas發現LaMDA可以正確回答出更廣義的這類對話。對他來說,這表示LLM可能有能力在內部描述其他人的意圖。“這些只管預測序列的模型發展出了一系列特別的能力,其中就包括心智理論。”Agüera y Arcas說(見“心智理論?”)。但他也承認這些模型容易出錯,並且他也不確定僅提高規模(雖然必要)是否足夠產生可靠的推理。
心智理論?
Google研究院(Google Research)的Blaise Agüera y Arcas在博客上寫下了他和Google大型語言模型LaMDA的對話。Agüera y Arcas認為這是一次令人印象深刻的交流,LaMDA似乎能夠持續建立模型,模擬一個故事中的兩個對話者知道和不知道什麼——模仿一種明顯的心智理論。
來源:Blaise Agüera y Arcas
即使當LLM的回答是正確的,但實際上它並沒有產生真正的理解,Chollet說:“你要是多戳兩下,立刻就能明顯看出來它裡面全是空的。ChatGPT沒有關於自己在說什麼的模型。”他說,“就像在看一場傀儡戲,相信那些傀儡是活的。”
至今為止,LLM仍然會犯人類絕不會犯下的荒謬錯誤,Melanie Mitchell說,她在聖塔菲研究所研究AI系統的概念抽象和類比。這引發了很多擔憂,人們不放心將LLM無安全網放入社會的安全性問題。
Mitchell補充說,關於LLM是否能嘗試解決全新未知問題,一個問題在於,我們沒有辦法全面測試這種能力。“目前的評估標準不充分。”她說,“它們並沒有系統性地測試東西。我們其實還不知道該怎麼做。”Chollet提倡使用一套他自己設計的測試來測試抽象推導能力,叫做“抽象推導題集”。(見“更好的AI智力測試?”)
來源:F. Chollet/Lab42 (https://arc-editor.lab42.global)
04 規模的問題
以上討論進行的同時,就語言模型越來越大這件事已經出現了緊迫的擔憂。其中之一是訓練大型LLM時所花費的數據集、計算力和費用會讓它們的發展——以及研究方向——被限制在了有大型計算資源的公司裡。OpenAI尚未證實製作ChatGPT的費用,但其他公司基於所需的計算量估算出預訓練GPT-3(ChatGPT的前身)的費用應該超過了400萬美元。OpenAI運行ChatGPT每個月可能要花費上百萬美元,因為這款免費的聊天機器人會收到大量的請求。“我們已經深入腹地。”Bubeck說,“只有少數幾個公司有超過1000億參數的模型。”
政府正在帶著支援介入,這可能會拓寬賽道。去年6月,一支包含了約1000名學術志願者的團隊,帶著法國政府、美國一家叫Hugging Face的AI公司和其他來源的資助,利用價值700萬美元的計算時間訓練了一個1750億參數的模型BLOOM[8]。11月,美國能源部向Rish和她的同事們提供了超級計算機的計算時間,以建立大型模型並研究其表現。“我們希望能訓練出一個類似Chinchilla的700億參數模型——不一定是最大的,但可能是性能規模比最好的。”Rish說。
無論是誰來構建,LLM模型都會引發電力消耗的擔憂。例如,Google說PaLM的訓練在2個月內消耗了大約3.4吉瓦時(gigawatt-hours)的電力。這是大約300個美國家庭一年的電力消耗。Google訓練PaLM是在俄克拉荷馬州的數據中心進行的,這裡的電力有89%來源於無碳能源,主要是風力和其他可再生的資源。但對業界AI模型的調查表明,大多數的訓練都使用了主要由化石燃料供能的電網[9]。
Chollet的擔憂是,當各個公司開始訓練並使用更大的模型時,它們就可能消耗更多電力。“每個大型技術公司都會開始在產品中置入LLM,不管這是不是個好主意。”他說。
05 越來越小?
對很多科學家來說,迫切需要減少LLM的能耗——讓神經網絡更小,更有效率,以及也許還能更聰明。除了訓練LLM的電力消耗之外(這雖然大,但是是一次性的),推理——也就是LLM作答時——用的電力會隨著用戶增加而激增。大型科技企業未就他們模型的電力使用費用做出評論。不過Hugging Face公開說,他們的BLOOM模型在Google雲平台上運行了18天,回答了230768條問題(這比ChatGPT少得多,後者二月一個月就達到一億活躍用戶了),它的平均功耗是1664瓦[10]。
相比之下,我們的大腦要復雜得多,比任何LLM都大,有860億神經元,大約100兆突觸連接。但是,人類大腦的功耗大約是20-50瓦,瑞士弗雷德里克-米歇爾生物醫學研究所的Friedemann Zenke說。
因此一些研究者希望,模仿大腦的某些方面,可以幫助LLM和其他神經網絡變得更小,更聰明,更有效率。
大腦的智慧和效率的原因之一可能是它的循環或是反饋連接。LLM本質上是“前饋”網絡。這就意味著信息是單向流通的:從輸入,通過LLM的各層,到輸出。大腦的連接方式不同。例如,在人類的視覺系統裡,神經元會把大腦裡最初接收視覺信息的區域與更後面的區域連接起來。但其中也有反饋連接,能讓信息反過來傳輸。“在(人類)視覺系統裡,反饋連接可能有前饋連接的十倍。”Mitchell說。但是LLM沒有反饋連接。
同時使用反饋和前饋連接的人工神經網絡通常稱為循環神經網絡(RNN)。這種網絡(和前饋LLM不同)可以識別出數據內隨時間變化的模式。這是“所有自然智慧體驗和學習世界的方式的基礎。”西奈山伊坎醫學院的計算神經科學家Kanaka Rajan說。但是RNN也有它的挑戰,Rajan說。例如,訓練它們很難很慢,因此難以把規模擴大到現在LLM的程度。
大腦有效率的另一個原因在於,生物神經元大多數都很安靜——它們只有偶爾才會產生一個活躍的脈衝。相反,大多數神經網絡中的神經元在模型中是常時開啟的。研究者們正在研究這種脈衝人工神經元(模仿真實的神經元),但想把訓練標準神經網絡的算法應用到脈衝神經元上很難。但是,使用小數據集(例如,使用10000段音頻訓練識別人念數字的神經網絡)的研究表明,使用脈衝神經元的RNN比使用標準神經元的表現要好。並且在理論上計算力需求會少三倍[11]。在阿姆斯特丹數學與計算機科學國立研究院研究這一領域的Sander Bohté說,“進展很快很大。”
但是,如果脈衝神經元只是在軟件中模擬出來的話,它就沒辦法真的提供效率提升(因為模擬它們的硬件仍然消耗電力)。這種計算單元需要被內置於硬件,安到神經形態芯片裡,才能體現出效果。
06 省電的LLM
與此同時,研究者們在嘗試不同的辦法給現有的LLM節省電力,以及變得更聰明。2021年12月,DeepMind報告了一套稱為RETRO的系統,將LLM連接到一個外部的數據庫裡。LLM在推理時使用了這個數據庫中提取的相關文字來幫助它做出預測。DeepMind的研究者展示了一個75億參數的LLM,配上了一個2兆詞元的數據庫,而它的表現超越了參數量多25倍的LLM[12]。研究者們寫道,這種方式“在我們試圖建立更強大的語言模型時,它比試圖提高原始參數規模的方法更有效”。
同一個月,Google研究團隊的科學家報告了另一個提高規模時增加能效的方法。他們的通用語言模型GLaM有1.2兆參數[13]。但是這些參數並不是一個巨大的神經網絡;在內部分成了64個更小的神經網絡,以及其他幾個層。這個LLM訓練之後,在推理過程中只會使用2個網絡來完成一項任務;總體上說,它對每個詞元只會使用其一兆多參數的8%。據Google說,GLaM使用了和訓練GPT-3相同的計算資源,但是由於訓練軟件和硬件的改進,只花費大約三分之一電力。在推理過程中,GLaM使用的資源是GPT-3所需的一半。並且使用同樣數量的數據訓練時,表現比GPT-3要好。
要想進一步改進的話,即使這些能效高的LLM似乎也注定會變大,使用更多數據和計算力。研究者們會關注規模變大後會有什麼新的表現。“它會不會完全解鎖推導能力,我不確定。”Bubeck說,“沒人知道。”
原文作者:Anil Ananthaswamy
來源:Nature Portfolio