70歲的圖靈測試已經是老古董了?
1950年,艾倫·圖靈在《思維》雜誌上發表了其著名論文《計算機器與智能》,並提出瞭如今廣為人知的圖靈測試。70年來,圖靈測試一直被認為是人工智能學術界的“北極星”。隨著人工智能技術的發展,之後也有許多其他測試誕生,但沒有一個能夠與之齊名。
“圖靈測試展現出極致的簡單和優雅,這讓它在過去70年中長盛不衰。”DataRobot數據科學副總裁扎克·麥耶說。
機器得到的結果取決於我們設置的指令,但其執行過程卻更為高效。我們必須承認,機器運行時的很多中間狀態,是在設計初始指令時無法預見的。機器自己也會感悟出很多知識。在這種情況下,我們有必要將機器視為智能的。
雖然自圖靈測試概念誕生以來,人工智能均以通過圖靈測試為目標,但進入新時代,人工智能評價標準卻需要從舊基準中脫身升級。
2020年12月28日,亞馬遜副總裁兼語音助手Alexa首席科學家羅希特·普拉薩德在《快公司》上發表的文章中表態,圖靈測試已經失去了意義,是時候建立新的人工智能衡量標準了。
圖靈測試僅限於機器能否給出類人的回答
“機器能否思考?”
為了回答這個問題,艾倫·圖靈提出一種測試方法:如果一個測試者對無法確認身份的兩個對象(一人、一機器)提出相同的一系列問題,得到的答案讓他無法區分究竟誰是機器、誰是人,那麼則認定機器通過測試。
這種測試方法後來被人們歸納為圖靈測試。研究者希望能夠據此檢測機器是否能表現出人類也無法區分的行為,很多初期的人工智能助手都是基於此目標設計的。
麻省理工學院教授大衛·敏德爾說:“這樣的界定,展示的智慧是有限的。”
圖靈在他的論文中曾預測,到2000年,一個普通人在圖靈測試中正確區分人和機器的可能性將降到70%甚至更低。
然而,圖靈當年的預測沒有應驗。
普拉薩德認為,圖靈測試的目標和當前人工智能研究方向不完全一致,人工智能研究者對通過圖靈測試的興趣不大。人工智能派上更大用場的地方是植入到手機、汽車和家裡,人們更關心的是AI能夠帶來哪些更新的交互體驗和技術進步,而不是通過測試的分數有多高。
事實也如此,人們更加關心與機器的互動及它所能提供的幫助,而不是區分機器和人類。
另外,一些科學家發現,讓人工智能在圖靈測試裡取得更好成績並不難,只需要讓計算機給出的答案盡量像人類給出的答案就行了。例如回答圖靈測試設計的問題時,計算機可以瞬間給出答案,而普通人需要思考或查找信息的時間更長,為了模仿或騙過人類,機器也可以模仿人類給出適當的停頓、延遲。
從某種角度看,這樣的圖靈測試更像是一場人工智能“欺騙”人類的遊戲。但由此出現了一個突出的問題——為了通過測試,很多機器被迫削弱了快速查找信息和計算的能力。
機器快速計算和信息查詢的能力遠強於人類,這些能力構成了現代人工智能的核心。在諸如視覺、自然語言處理等領域,最強的算法已經取得遠超人類的結果,以AlphaGo擊敗頂級人類圍棋選手為代表的種種人工智能的重大進展,很難在一成不變的圖靈測試中得到體現。
也正因此,從應用的角度出發,讓計算機放棄自己的優勢去模擬人類確實完全沒有必要。
更重要的是,圖靈測試僅考慮了文本交流的情況,而沒有考慮到現在的人工智能已經能夠使用各種傳感器,能夠從視覺、聽覺、觸覺等多角度來感受外部世界。
通過圖靈測試已不是現在的研究重點
毫無疑義的是,人工智能對人類社會的影響已超越了圖靈測試的範疇,人工智能研究的目標早已不再局限於AI與人類的區別,而是如何發揮機器的速度和信息搜索優勢,代替人類完成工作或改善人們的日常生活。
用圖靈測試來檢驗今天的人工智能水平,還有些局限不能忽略,如圖靈測試沒有詳細的標準,也沒有固定的問答模式,一套流程提問和判斷非常主觀,缺乏嚴謹的標準,並不科學。
那麼,這是否意味著圖靈測試已經過時?
事實並非如此,即便圖靈測試已不能完全證實人工智能的進步程度,但一個優秀的人工智能應該能夠通過圖靈測試。有研究者指出,圖靈測試的巧妙在於它沒有直接去定義什麼是“智能”,而是將“能否思考”這個抽象的問題,引入了一個更精準,也看似更實用的場景。
從這個角度看,圖靈測試不能稱為過時,只不過是現代人工智能研究不應該把通過圖靈測試作為重點。普拉薩德亦指出,儘管沒有考慮到人工智能日益增強的收集數據能力和計算能力,圖靈測試仍然是聊天機器人和數字助理常用的基準。
人工智能需要建立一套全新衡量標準
普拉薩德認為,應該創造新的智能評估方式,適用於評估一般類型的智能機器。新的測試應該弄明白人工智能是如何表現出類似人的智能特徵的,包括語言能力、自我監督和具備“常識”。此外,測試範圍還應該包括人工智能在多大程度上改善了人們的日常生活。
中國工程院院士、清華大學信息學院院長戴瓊海教授也曾在公開演講中指出,人工智能發展非常快,已經取代了人類以往常用的大部分工具。但是,這種取代能不能做得更好,需要做一套測試。
即便是與圖靈測試捆綁最深的人工智能對話系統,其研究者也在呼喚對圖靈測試進行改進。
前微軟全球執行副總裁、微軟亞洲研究院院長沈向洋還在微軟任職時提出,圖靈測試已難不倒像微軟小冰這樣的情感型人工智能產品。鑑於今天的人工智能技術環境,計算機學術界有必要對圖靈測試進行修正和升級,是時候討論難度更高的“超圖靈測試”了。
普拉薩德強調,新的衡量標準應該體現出機器在效率上的優勢,比如計算、搜索、代人完成任務等,綜合評價人工智能給人類帶來的幫助,而不是執迷於消除人工智能和人的區別。他認為,人工智能只有具備更廣泛的學習能力,才能成為處理大量任務方面的專家,針對特定任務所表現出的智能並不能代表人工智能真正的能力。
隨著人工智能技術的進步和更多被應用到現實生活中,人們一邊對人工智能改善自己生活有了更多的期待,一邊又對人工智能的使用甚至濫用提高了警惕。
對此,業界正在逐漸達成共識——新的人工智能衡量標準應該在倫理層面有所顧忌,而非固化地遵從圖靈測試的標準。
不能否認的是,研究人員仍對更強大的類人智能問題感興趣,而大眾亦越來越受到科幻影視所展現的未來世界的影響,嚮往更加強大的“通用人工智能”,即像人一樣思考、像人一樣可從事多種工作的機器。
戴瓊海提出,新一代圖靈測試,要從專用智能走向通用智能,要針對新一代人工智能提出的目標和要求,給出新的測試方向。人工智能的需求始終在改變,在不斷重新考慮設計新的評價標準和體系的過程中,人類跨越圖靈測試已經成為必然結果,但其作為人工智能發展初期的導航標,極大地激發了人類對人工智能的想像,非凡意義將永遠不會磨滅。