ChatGPT時代圖靈測試已死

2023-04-13 Comments 0 Comment

自從2022年底OpenAI發布ChatGPT之後，一陣人工智能的颶風，席捲了全球。這陣風之所以猛烈，一是因為ChatGPT在技術方面的突破足夠顛覆，二是它在應用端實現了普通人可體驗，這意味著能夠對其強大能力有直接的感知。於是，我們很快得到了與埃隆·馬斯克相同的感受：ChatGPT，“好得嚇人”。

2023年3月14日，具備多模態能力的GPT-4悄然發布。根據報導，GPT-4通過了許多人類專業測試，比如律師考試，也通過了一些經典心理學測驗，體現出相當於9歲兒童的心智水平。終於，那個問題開始在媒體報導與大眾口中出現了：ChatGPT什麼時候能通過圖靈測試？

圖靈測試，相當有分量的四個字。在1950年被提出後，圖靈測試逐漸成為衡量AI智能程度的重要標準，甚至是唯一標準，擁有大批追隨者。每當人工智能（尤其是對話機器人）領域產生新的進展，都要經歷同樣的拷問，並在否定性的回答中黯然失色。“圖靈測試”已經成為一個神話，甚至是箝制AI發展的魔咒。本文傾向於認為，圖靈測試已經過時，尤其是在ChatGPT引領的人工智能時代，它已經無法用來檢測AI的發展程度與智能水平。而智能，也並不是一種如此狹隘的概念。

模仿遊戲、圖靈測試與中文屋實驗

二戰期間，艾倫·圖靈被委任尋找破解德軍編碼信息的有效方法，在這段時期，他提出了有關計算機科學的基本概念。戰後，他投入到人工智能的研究領域，而圖靈測試就可追溯至他在1950年發布的一篇論文《計算機器與智能》（Computing Machinery and Intelligence）[1]。

在這篇論文中，圖靈首先提出了一個問題：機器能思考嗎？（Can machines think?），他緊接著指出這個問題沒有討論的價值，與其在一系列複雜的概念上糾結，不如著眼於更具體的場景。他提出了一種思想實驗：模仿遊戲（imitation game），而這個思想實驗後來就被演化為“圖靈測試”。

圖1：圖靈測試原理示意

圖靈測試的原理很簡單，包含三個對象：機器（A）、正常人類（B）以及測試者（C）。C無法看到A和B，但是他可以詢問二者一系列問題，如果經過詢問之後，C無法分辨A與B的不同，則機器通過圖靈測試。圖靈的觀點是，如果測試者無法區分機器和人類，那麼我們就無法否認機器在思考。此處的關鍵在於，這個思想實驗被提出的最初目的是判斷機器能否像人一樣思考，而非其它。

在同一篇文章中，圖靈還預測，到2000年，一個普通人區分人和機器的可能性將降到70%甚至更低。這個說法在後續的相關測試中被確立為一項標準，即機器只要騙過30%的測試者，即可被認定通過圖靈測試。

圖靈測試確實有其進步性。在這篇論文被發表的時間點，人工智能的概念還沒有被提出（要等到1956年達特茅斯會議），當時的絕大部分觀點認為，人和機器存在本質不同，機器沒有感情，更無法像人一樣思考。而圖靈測試採用了類似於約翰·羅爾斯“無知之幕”的形式，將測試者與測試對象隔離開，並且通過文字而非聲音交流，讓機器避免了不公平的比較。

圖2:奠定人工智能研究領域的達特茅斯會議

但之後發生的事情，恐怕是圖靈本人也無法想到的。在他身後，“圖靈測試”竟然演化為衡量AI智能發展水平的最重要的標尺。可能是因為圖靈本人的聲名與傳奇經歷，可能是因為測試本身的簡潔與直接，可能是因為人工智能領域確實需要一個指向標，再加上媒體報導與文藝作品的“包裝”……結果是，這項七十多年前提出的思想實驗，依然深刻影響著當今的人工智能領域，一批批相關的競賽被組織起來並引發大量關注，一代又一代研究者樂此不疲地嘗盡各種方法，試圖通過圖靈測試。

正是因為圖靈測試對人工智能領域的宰制力如此強悍，所以即便ChatGPT已經大殺四方，人們還是願意回到原點，念茲在茲已近七旬的圖靈測試，似乎唯有這樣，才能給這個技術實現“加冕”，賦予合法性。

圖靈測試的聰明之處在於，“意識”“思維”“智能”都是難以通過定義來闡釋的東西，那索性就不去思辨概念，而是用公認具有思考能力的生物——人類來作為參照物，如果機器的表現與人類難以區分，即可被視為具備了與人類相同的智能。[2]這其實是一種相當結果導向的判別方式——判斷機器是否有智能，無需看其內部構造，更無需思辨概念，只需看其行為表現。

圖靈的智能觀奠定了人工智能計算主義的理論基礎。“有智能就是有思維，而能思維就是能計算，所謂計算就是應用形式規則，對（未解釋的）符號進行形式操作。”[3]從圖靈開始，人類的心靈、智能雖然仍然神秘莫測，但不再只能用思辨的語言去意會，而是可以用定量的語言去描述。由此，計算主義構建了他們的心智模型：人的思維或認知就是一種依照規則進行的純句法、純形式的轉換過程，而其實踐目標便成為，如何建立一台能跟人一樣輸入輸出的機器。

但這種智能觀，甫一問世就招致激烈的批判。最主流的批評聲音認為，如果僅有形式轉換過程，而沒有情感、意識、學習能力等，顯然無法稱之為“智能”。在批評的陣營中，最有代表性的就是“中文屋實驗”。

1980年，美國伯克利大學哲學教授約翰·塞爾設計了這個思想實驗，證明了通過“圖靈測試”的機器並非真正具備智能。他假設有一個只懂英語、完全不懂中文的人被鎖進房間，房間內還有一箱中文字片以及指導手冊。而房間外是一個毫不知情的人，他向屋內遞進字條用中文進行提問，房間裡的人按手冊指導來挑選字片，並且給出正確答案。從結果來看，房間裡的人無疑能成功通過測試，但實際上他對中文一無所知。

塞爾指出，房間裡的人就跟通過圖靈測試的機器一樣，無需理解輸入輸出字符的含義，只要按照既定規則搬弄字符，就能形成一種具備理解能力的假象。這不是真正的理解，最多是一種扮演行為，並不具備任何思考能力。

中文屋實驗挑戰了以圖靈測試為代表的計算主義對人類智能的建模。它揭示了智能的關鍵並不在於語法或形式轉換，哪怕是通過了圖靈測試的計算機程序，也無法證明它是有智能的，它只是在處理語法，而未涉及語義，並不具備真正的意向性。它只是實驗中那個坐在房間裡的、完全不懂中文的“人”。

圖靈測試已經過時

儘管反對者重重，但都沒能阻止圖靈測試成為人工智能領域的北極星。時間線推移到二十世紀六七十年代，通過圖靈測試成為人工智能發展的核心目標。由於圖靈測試側重關注語言互動，這在某種程度上推動了聊天機器人的進步。

1966年，Joseph Weizenbaum推出伊麗莎（ELIZA），這款聊天程序的主要目的，就是讓聊天對象將自己誤以為人。它具備將特定單詞轉換為完整的句子的能力，會在聊天對象的問題中搜索關鍵詞，並進行相關回复。不到十年後，用以模擬偏執型精神分裂症患者的聊天機器人PARRY面世，一群精神病醫生分別與患者、PARRY對話，最終只識別出了48%的機器人。

進入21世紀，人工智能後來者接力前輩，繼續攻克圖靈測試，並取得了關鍵進展。1991年，美國發明家洛伯納發起圖靈測試競賽，要求人類和計算機分別與裁判團進行25分鐘對話，騙過裁判最多的程序獲勝。終於，在2014年6月，由俄羅斯團隊研發的“尤金·古斯特曼”（Eugene Goostman）在測試中騙過了超過33%測試者，被認定為一個13歲的小男孩。按照標準，它通過了圖靈測試。

尤金·古斯特曼不是孤例。Google推出的虛擬助理Duplex打電話給美髮沙龍並成功預約，而對方並不知道她在和電腦對話，也被認為是通過了圖靈測試；作曲程序lamus則通過了非語言類圖靈測試，250名受測者（其中一半是專業音樂家），只有24%成功區分lamus和人類作曲家的作品。

顯然，圖靈測試早就不是我們刻板印象裡那樣堅不可摧，已經被捅成了篩子。但是，這些通過了圖靈測試的程序，並沒有製造出想像中驚天動地的後果，並產生自我意識，拿起武器反抗人類壓迫。相反，它們大多籍籍無名，至少從目前看，通過圖靈測試是它們能夠達成的最高成就。

按結果導向的思路，圖靈測試顯然沒有任何神奇魔力。越來越多的研究者也逐漸認清這一點，並致力於為這個思想實驗祛魅。比如Hayes和Ford在其1995年的論文中，相當毒舌地建議科學家放棄構建“機械異裝癖”（讓機器模仿人類的一種諷刺說法），他們認為圖靈測試的設計有很多歧義、缺陷與漏洞，其標準難以捉摸，無法檢測到任何東西，因此圖靈測試應該“從教科書轉移到歷史書”。[4]

其實很容易想見，一個1950年提出的思想實驗，怎麼會預見到此後七十多年人工智能的發展趨勢？在圖靈所處的年代，人工智能領域尚未建立，商用計算機還未被推出，當時最先進的阿波羅11號的算力，是智能手機的十萬分之一。圖靈是世所稀有的天才，但並不是巫師，更不是穿越者，他的思考難免受到時代的局限，而他提出的思想實驗也更像是一種直覺，未被嚴密論證。

圖3:第一台通用自動計算機UNIVAC-I

在圖靈測試提出後的這幾十年間，人工智能發展為一門前沿學科，產生許多圖靈無法想像的進展。比如多模態感知能力，比如決策規劃能力，比如在圍棋比賽完虐人類選手等等，更別說強大到讓世人驚嘆的ChatGPT，這些都很難被一個測試所囊括。圖靈測試無法體現出這些方面的進步。可以說，關注圖靈測試已經沒有什麼意義。

如亞馬遜副總裁兼Alexa首席科學家Rohit Prasad所說，我們更應該關心人工智能的實用性和區別於人類的能力，而不是它在圖靈測試的分數有多高。人工智能沒有人類一樣的即時反應、快速推斷能力，但是人工智能的快速計算和信息檢索等能力遠強於人類，而這些能力才是現代人工智能（包括ChatGPT）的核心所在。[5]

從這個角度說，圖靈測試暗含極強的人類中心主義。因為只有人能思考，所以人類成為了“智能”的唯一代言人和坐標系，只有與人類無差別的，才被認定為是擁有“智能”的主體。這是一種極為狹隘的智能觀。

同時，圖靈測試的規則設計，所導向的是一種欺騙性思路，即AI只要成功“欺騙”過測試者，就可以被視為擁有“智能”。所以，以ELIZA為始源的許多聊天程序專門為欺騙人類而設計，它們會在解決問題時故意犯錯，或者有意拖延回答的時間，用一種所謂的“類人行為變異性”（Behavioral variability）來裝得更像人類，以求騙過測試者。

這顯然是一種扭曲的、沒有意義的發展方向，甚至具有極高的倫理風險。大量聊天機器人用於電信詐騙、製造謠言，以及深度偽造（deepfake），都是這種以欺騙為導向的設計思路的產物。倘若一直對這種欺騙導向的觀念頂禮膜拜，只會助推AI向惡的風氣愈演愈烈。

ChatGPT時代亟需一種新的智能觀

回過頭來看，艾倫·圖靈也並沒有對“圖靈測試”賦予太多內涵，他只是提出了一種測試機器是否能與人同樣思考的思想實驗，更多是後來者，特別是科幻作品與媒體報導在大眾層面的渲染，將這樣一個思想實驗推向了不該有的位置。

我們仔細辨別這種狂熱背後的社會心態，它其實無關技術，甚至無關智能，而是對人工智能將要擁有自主意識的一種想像。也就是說，大部分人對於AI是否通過圖靈測試如此好奇，原因在於他們把圖靈測試當成一種門檻，一旦通過，就可認定AI獲得了自我意識，從而聯想到科幻作品中塑造的AI統治世界的恐怖圖景。

圖4:《銀翼殺手》中的基準線測試也是圖靈測試的變體

現實沒那麼可怕，但是“人工智能的自主意識”問題確實重要。智能是完成複雜目標的能力，如果沒有意識，人工智能就不是思維的主體，仍然是人類的工具，其智能程度越高對人類就越有用；反言之，即使人工智能在許多方面的能力都弱於人，但只要具備意識，就可能是對人存在潛在威脅的主體。

與處理能力有限的人腦相比，AI的處理能力在理論上是無限的，可以無差別處理收集到的全部信息。一旦AI獲得意識，它們能夠像人類一樣交換、分享信息，只不過在效率上是碾壓人類的。作為結果，AI的智能水平將迅速崛起，並會“消滅”掉包含人類在內的低智能主體——這並不是大屠殺，而是與智能手機淘汰傳統手機一樣的“市場行為”。

當下的人類社會是一個一元論社會，雖然我們常說“萬物有靈”，但那隻不過是在泛靈論基礎上的一種謙辭，真正的現實是，只有人類擁有真正的“智能”與“意識”。如果一旦誕生了擁有意識的另一方主體，建立在一元論基礎上的既有一切都會被顛倒重構。人類有史以來所積累的所有道德秩序就會失去最重要的邏輯支點，在這種情況下，人類該如何重構自己的道德倫理體系？人的本質何在，人又何以為“人”？如果世界上有其他外觀形式也能夠產生意識，人的主宰權威就會泯滅，自身的超驗背景也會消失。那麼，不再是“萬物靈長”的人類又該如何自處？能否接受與創造物共享這個世界？[6]

這種恐慌，是圖靈測試被追捧的原因之一。我們小心翼翼地關注著人工智能產生意識的“奇點”時刻，這是一種既恐懼又期待的心理：既希望它到來得晚一點，又好奇它什麼時候能到來。

但是，至少從目前的實際表現來看，ChatGPT雖然強大，但離產生自我意識仍然遙遠。ChatGPT本質上仍是基於統計的語言模型，它的“思考”，是基於語言模型的運作，它的“創造”，是不同語料的排列組合，它的“回答”，是在先驗知識基礎上進行加工的產物，並不具備真正自我認知。儘管人類還尚未破解有關意識的秘密，但可以明確的是，再強大的模擬和算力，都無法催生出意識。

在這個問題上，GPT-4比大部分狂熱者們更加清醒。我向它提問“ChatGPT是否擁有自主意識？”，它的回答是：

話說回來，即便ChatGPT尚沒有意識，但它的智能水平無可否認，哪怕還沒能通過“圖靈測試”。在七十多年後，在ChatGPT所屬的、人工智能迅猛發展的時代，我們需要一種新的“智能觀”。

圖靈測試代表了一種單一化的智能觀，人是智能的標杆，機器只有模仿人並與人難以區分，才被視為擁有智能。如前文所說，這是一種人類中心主義的視角，它武斷地否認人類之外的一切智能主體，可能扼殺真正的人工智能。

關鍵在於，智能並非只有一種，它有許許多多的類型與表現形式。人類的智能是智能，AI的智能也是智能。比如快速計算、信息檢索、決策推理等等，這些都是AI區別於人的智能類型。我們要做的是建立新的能力衡量標準，而不是執著於抹平AI與人的差別。不僅如此，這些能力模型，也應考慮AI的倫理道德維度，畢竟，假設有一天我們真的要與有自主意識的AI相處，我們也會希望它是一個正直、可信、有責任心的AI，而不是一個想方設法騙過我們的AI。

註釋:

[1]該論文首發於1950年10月的英國季刊《心靈》。1956年，這篇論文被重新收錄到《數學世界》選集中，編輯詹姆斯·紐曼將論文標題修改為《機器能思考嗎？》；

[2]參見騰訊研究院：《圖靈逝世66年後，AI可以自我思考了嗎？》

[3]參見江漢論壇：《“圖靈測試” 與人工智能元問題探微》，作者：高新民、羅巖超；

[4]參見Hayes P, Ford K. Turing test considered harmful. In: Proceedings of the international joint conference on artificial intelligence, Montreal, vol. 1; 1995, p. 972–7.

[5]參見Rohit Prasad本人在fastcompany.com的撰文：https://www.fastcompany.com/90590042/turing-test-obsolete-ai-benchmark-amazon-alexa

[6]關於人工智能的意識問題在《圖靈逝世66年後，AI可以自我思考了嗎？》有更多闡述；

本文來自微信公眾號：騰訊研究院，作者：王煥超

WONGCW 網誌

記錄生活經驗與點滴

ChatGPT時代圖靈測試已死

2023-04-13 Comments 0 Comment

相關

發表迴響取消回覆

2023 年 4 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

分享此文：

相關

發表迴響取消回覆