GPT-4、Llama 2比人類更懂「人類心理」？最新研究登上Nature子刊

2024-05-21 Comments 0 Comment

一項新的研究發現，人工智慧（AI）或許具備了人類特有的能力之一，即「心智理論」（Theory of Mind，ToM）。也就是說，在追蹤人類的心理狀態方面，例如「發現錯誤想法」「理解間接言語」識別失禮」等，GPT（GPT-4、GPT-3.5）和Llama 2 在特定情況下的表現，已被證明接近甚至超過了人類。

這些發現不僅表明大型語言模型（LLMs）展示了與人類心理推理輸出一致的行為，而且還突出了系統測試的重要性，從而確保在人類智慧和人工智慧之間進行非表面的比較。

相關研究論文以「Testing theory of mind in large language models and humans」為題，已發表在Nature 子刊Nature Human Behaviour 上。

GPT 更懂“誤導”，Llama 2 更懂“禮貌”

心智理論，是一個心理學術語，是一種能夠理解自己以及周圍人類的心理狀態的能力，這些心理狀態包括情緒、信仰、意圖、慾望、假裝等，自閉症通常被認為是患者缺乏這一能力所導致的。

以往，心智理論這項能力被認為是人類特有的。但除了人類之外，包括多種靈長類動物，如黑猩猩，以及大象、海豚、馬、貓、狗等，都被認為可能具備簡單的心智理論能力，目前仍有爭議。

最近，像ChatGPT 這樣的大型語言模型（LLMs）的快速發展引發了一場激烈的爭論，即這些模型在心智理論任務中表現出的行為是否與人類行為一致。

在這項工作中，來自德國漢堡-埃彭多夫大學醫學中心的研究團隊及其合作者，反覆測試了兩個系列的LLMs（GPT 和Llama 2）的不同心智理論能力，並將它們的表現與1907 名人類參與者進行比較。

他們發現，GPT 模型在識別間接要求、錯誤想法和誤導三方面的表現，可以達到甚至超越人類的平均水平，而Llama 2 的表現還不如人類。

圖｜人類（紫色）、GPT-4（深藍色）、GPT-3.5（淺藍色）和LLaMA2-70B（綠色）在心智理論測試中的表現。

在辨識失禮方面，Llama 2 要強於人類，但GPT 表現不佳。

研究團隊認為，Llama 2 表現好是因為回答的偏見程度較低，而不是因為真的對失禮敏感，GPT 表現較差其實是因為對堅持結論的超保守態度，而不是因為推理錯誤。

AI 的心智理論已達人類層次？

在論文的討論部分，研究團隊對GPT 模型在識別不當言論任務中的表現進行了深入分析，實驗結果支持了GPT 模型在識別不當言論方面存在過度保守的假設，而不是推理能力差。當問題以可能性的形式提出時，GPT 模型能夠正確識別並選擇最可能的解釋。

同時，他們也透過後續實驗揭示了LLaMA2-70B 的優越性可能是由於其對無知的偏見，而不是真正的推理能力。

此外，他們還指出了未來研究的方向，包括進一步探索GPT 模型在即時人機互動中的表現，以及這些模型的決策行為如何影響人類的社會認知。

他們提醒道，儘管LLM 在心智理論任務上的表現堪比人類，但這並不意味著它們具有人類般的能力，也代表它們能掌握心智理論。

儘管如此，他們也表示，這些結果是未來研究的重要基礎，並建議進一步研究LLM 在心理推論上的表現會如何影響個體在人機互動中的認知。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

GPT-4、Llama 2比人類更懂「人類心理」？最新研究登上Nature子刊

2024-05-21 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆