LeCun再潑冷水:只會看書的語言模型永遠無法實現“類人智能”
自去年ChatGPT發布後,業內外都湧現出了一股對大型語言模型的狂熱情緒,甚至有Google員工宣稱公司內部的語言模型有了意識。最近,紐約大學教授、Meta首席AI科學家、圖靈獎得主Yann LeCun及紐約大學計算機科學系的博士後Jacob Browning發表了一篇長文,他們認為是語言本身的局限性讓LLM的智能無法提升。
雖然語言模型變得越來越通用且強大,但我們卻越來越不懂模型的思考過程。
模型可以在各個常識推理基準測試中取得非常高的準確率,但為什麼還是會說廢話、給出危險的建議呢?
也就是說,為什麼語言模型如此聰明,能力卻又如此有限?
研究人員認為,問題根本不是出在AI算法,而在於語言的局限性,一旦我們放棄“語言即思維”的假設,就會發現儘管LLM的表現出色,但它們永遠無法達到接近人類的智慧程度。
01
語言模型到底是怎麼回事?
在19世紀和20世紀的哲學和科學研究中,主流認知是“知識即語言學”,也就是說,知道某樣只是意味著想到了正確的句子,並了解如何與已知的真實網絡中的其他句子聯繫起來。
按照這種邏輯,語言的理想形式應該是一種純粹形式化的、符合邏輯數學的形式,由任意的符號組成,依照嚴格的推理規則連接起來,但自然語言可能還需要語義消歧和不精確的。
奧地利哲學家Wittgenstein曾說過,真命題的總和就是自然科學的全部。
雖然在認知地圖(cognitive maps)和心像(mental images)領域還存在爭議,但20世紀確立的語言學基礎就是符號主義。
這一觀點到目前也被很多人接受:如果百科全書可以包含所有已知的內容,那隻要把所有書都讀一遍,那就可以對世界有一個全面了解。
人工智能的早期研究也遵循這個思想,定義符號操作,根據邏輯規則以不同方式將語言符號綁定在一起。
對於當時的研究人員來說,人工智能的知識都儲存在一個由人工邏輯連接的真實句子組成的龐大數據庫,如果人工智能係統在正確的時間吐出正確的句子,即能夠以適當的方式進行符號操作的話,就可以認為是一個智能係統。
這一想法也是圖靈測試的基礎:如果一台機器可以在合適的時機把自己知道的內容說出去,就意味著它知道自己在說什麼,以及何時運用自己的知識。
但反對者認為,一台機器可以聊天,並不意味著它可以理解談論的具體內容,因為語言並不能窮盡知識,相反,語言只是一種高度具體的、非常有限的知識表徵。
所有的語言,無論是編程語言、符號邏輯還是口語,都只是一種特定類型的表徵模式,以極高的抽象級別表達離散的對象和屬性以及彼此之間的關係。
不過,閱讀樂譜和聽音樂之間存在巨大的鴻溝,與演奏技巧之間的差異則更大。
語言表徵更像是對某些具體信息的壓縮,例如描述不規則的形狀、物體的運動、複雜機制的功能等,其他非語言的表徵也可以用一種可理解的方式來傳達信息,如圖像、錄音、圖表等。
02
語言的局限性
語言是一種帶寬非常低的傳輸方式,如果脫離上下文的話,孤立的單詞或句子能傳達出的信息量非常少,並且由於同音異義詞和代詞的數量很多,許多句子的語義都非常模糊。
喬姆斯基(Chomsky )在幾十年前就提出,語言並不是一種清晰且明確的溝通工具。
但人類並不需要一個完美的溝通工具,我們對一個句子的理解通常取決於句子出現的語境,從而推斷出句子的表達含義。
在大多數情況下,我們都在討論面前的事物,比如正在進行的足球比賽,或是面對某些特定的社會角色,比如跟服務員點餐,交流一些明確的目標。
在閱讀一篇短文時,主要考察的是使用通用閱讀理解策略來理解文本內容,但研究表明,兒童對某個主題的背景知識量實際上是影響理解的關鍵因素。
It is clear that these systems are doomed to a shallow understanding that will never approximate the full-bodied thinking we see in humans.
很明顯,AI系統注定只能膚淺地理解世界,永遠不會接近人類所具有的全面思維。
單詞和句子的固有上下文性質是了解LLM如何運行的關鍵。
神經網絡通常將知識表示為know-how,即對上下文高度敏感,並能同時找到具體和抽象的規則,實現對任務相關的輸入進行細微處理。
在LLM中,整個過程涉及到系統在現有文本的多個層次上識別模式,既可以看到單個單詞在段落中是如何連接的,也可以看到句子是如何連接在一起以構建更大的篇章段落。
其結果是,LLM對語言的理解肯定是語境化的,在理解單詞時不是根據根據字典含義,而是根據其在不同句子集合中所起的作用。
並且,許多單詞的運用,比如carbonizer, menu, debugging, electron等,幾乎只在特定領域使用,即使在一個孤立的句子中,該單詞也會帶有上下文語義。
簡而言之,LLM的訓練過程就是學習每個句子的背景知識,尋找周圍的單詞和句子來拼湊上下文,使得模型能夠將不同句子或短語的無限可能性作為輸入,並想出合理的方法來繼續對話或續寫文章等。
一個接受過所有人類所寫的文章進行訓練的系統,應該可以具備對話所需的通用理解能力。
03
LLM學到的只是淺層知識
有些人並不認為LLM初步具備“理解”能力或所謂“智能”,批評者們認為這些系統只是模仿的比較好而已,因為LLM對語言的理解仍然十分膚淺,就像在教室裡故作高深的學生,實際上他們並不知道自己在說什麼,只是對教授或課文的無意識模仿。
LLM對一切都有這種膚淺的理解。像GPT-3這樣的系統是通過屏蔽句子或段落中的未來單詞來訓練的,並迫使機器猜測最有可能的單詞,然後糾正錯誤的猜測。該系統最終能夠熟練地猜測最有可能的單詞,使其成為一個有效的預測系統。
比如GPT-3,只是通過對句子中的某些詞進行遮罩,要求模型猜測具體的單詞,並進行糾正而已,最終訓練成為一個預測系統。
不過這種方式也讓我們對語言有了進一步的理解,實際上,對於任何問題或謎題來說,通常只有少數幾個正確答案,以及無數個錯誤答案.
對於特定的語言技能來說,比如解釋笑話、單詞、邏輯難題等,實際上就是預測問題的正確的答案,進而使機器能夠執行縮寫、重寫、複述等其他需要語言理解的任務。
正如符號AI所預期的那樣,知識的表徵與上下文相關,在給定前提的情況下輸出一個合理的句子。
Abandoning the view that all knowledge is linguistic permits us to realize how much of our knowledge is nonlinguistic.
放棄所有知識都是語言的觀點,可以讓我們認識到有多少知識不是用語言來表示的。
但是,從語言上解釋一個概念的能力與實際使用的能力是不同的。
比如一個語言系統可以解釋如何執行某個算法,但它並不具備執行能力;它也可以解釋哪些單詞是冒犯性的,但並不能使用。
進一步分析還可以發現,語言模型的注意力和記憶力只有一小段時間,更傾向於關注前兩句話,或是下一句話。
當涉及到復雜的對話技巧,如積極傾聽、回憶和重溫先前的對話、堅持一個主題以提出一個特定的觀點,同時避開干擾因素等,語言模型的記憶力缺陷就暴露出來了,聊幾分鐘就會發現它們前後口徑不一致等問題。
如果撤回太多,系統就會重啟,接受新觀點,或者承認它相信你所說的一切,形成一個連貫世界觀所必需的理解遠遠超出了語言模型的知識範圍。
04
不止語言
雖然書籍包含了大量可以解壓和使用的信息,但其他格式的信息也很重要,比如宜家的使用說明書上只有圖紙沒有文字,研究人員經常先看論文中的圖表,掌握論文結構後再瀏覽文字;遊客可以沿著地圖上的紅線或綠色線在市區內導航等。
人類在探索世界的過程中學到了很多東西,一個只接受語言訓練的系統,即使從現在開始訓練到宇宙的盡頭,也無法擁有接近人類的智能,
語言之所以重要,是因為它能夠以小格式傳達大量信息,特別是在印刷機和互聯網發明之後,可以很輕鬆地複制和大規模應用。
但是壓縮語言信息並不是免費的:要破譯一段晦澀難懂的文字需要很大的努力。
人文學科的課程可能需要大量的課外閱讀,這也可以解釋為什麼一台接受過語言訓練的機器可以知道這麼多,卻又了解得這麼少。
它可以接觸到人類的所有知識,但書籍中的每一句話又蘊含了大量的信息,理解起來依然很難。
05
語言模型裡沒有幽靈
當然,語言模型的缺陷並不意味著機器很愚蠢,只能說明它們的智能程度存在著內在限制。
在很多情況下,我們實際上也並不需要一個接近於人類的智能體,比如我們不會把圖靈測試用在另一個人類身上,迫使其他人做多位數乘法等,大多數談話內容都只是閒聊而已。
語言可能是我們探索世界的一個有用工具,但語言並不是智力的全部,深層的“非語言理解”能力是理解語言的基礎,可以加深我們對世界的認知,也能讓我們理解別人在說什麼。
這種非語言的、對情境敏感的、與生物相關、具身感知的知識是AI研究人員更關注的,而非語言學。
大型語言模型沒有穩定的身體或持久的注意力來感知世界,僅從語言中能了解到的世界非常有限,所以學到的常識總是膚淺的。