GPT-4通過圖靈測試
在圖靈測試中,越來越多的人無法再將GPT-4 與人類區分開來。這是美國加州大學聖迭戈分校認知科學家本傑明-伯根和卡梅隆-瓊斯的研究成果。在turingtest.live網站上進行的線上模擬測試中,近500 名參與者中有54% 的人將ChatGPT 背後的人工智慧(AI)模型評為人類。上一版本的GPT-3.5 成功率為50%。 67%的測試者正確確認了自己是人類。
電腦科學家約瑟夫-韋曾鮑姆(Joseph Weizenbaum)於1966 年開發的電腦程式Eliza表現最差,只有22% 的人將其歸類為人類。
據科學家稱,這些結果首次提供了人工智慧系統透過雙人互動圖靈測試的確鑿證據,而且這很可能適用於未來幾乎所有最先進的聊天機器人。英國數學家和電腦科學家阿蘭-圖靈於1950 年首次提出了以他的名字命名的”模仿遊戲”對話強度測試。
從那時起,它就成了確定機器模仿人類對話能力的一個著名但有爭議的基準。在該測試的現代變體中,人類”評委”會在不知道誰是誰的情況下與另一個人類或聊天機器人對話。如果面試官在50% 的情況下無法可靠地區分電腦系統和人類,那麼機器就被認為通過了測試。
在目前的研究中,人類審訊者與代表其他人類、大型語言模型GPT-4 和GPT-3.5 以及基於對稱列表處理器(SLIP) 的簡易對話系統Eliza 的各種”證人”進行了互動,研究結果可在預印本伺服器Arxiv上找到。研究者隨機分配人類參與者扮演法官或證人的角色。樣本包括101 個人類和GPT-3.5 遊戲,以及100 個GPT 4 和Eliza 遊戲,所有遊戲均透過一種訊息應用程式進行,每個遊戲持續五分鐘。在402 位審問者中,168 人為女性,212 人為男性,9 人為非二元。 13人不想提供任何資訊。參與者的平均年齡為35 歲。
在2023 年的上一次研究中,Eliza 的表現明顯較好,沒有一個模型通過測試。這次,科學家們採用了表現最好的GPT-4 指令集(提示),並對其進行了修改。提示的第一部分指示模型表現得像一個年輕人,不要太認真地對待遊戲,使用口語,不要出現拼字和文法錯誤。此外,它還不能提供太多的知識,尤其是語文和數學方面的知識。
每輪測試開始時,都會添加一些額外的信息,例如姓名、地點和時間戳記。二人解釋說,人類之所以不能百分之百地辨識出同類,是因為提問者認為人工智慧的效率越來越高。這增加了他們將人類錯誤地識別為機器的可能性。
為了深入了解影響審訊者做出決定的定性因素,研究小組對他們使用的策略和做出判斷的理由進行了分類。 36%的人詢問證人的個人細節或日常活動。第二和第三類最常見的是社會和情感問題(25%)–例如,有關意見、經驗和幽默的問題。
審問者就其決定給出的最常見理由(43%)與基於拼字、文法、大小寫和語氣的語言風格有關。 24%的人關注社會情緒因素,如幽默感或個性。研究人員警告說,這些結果表明”當前人工智慧系統的欺騙行為可能不會被發現”。能夠成功模仿人類的機器人可能會產生”深遠的經濟和社會影響”。