評論:ChatGPT情商很高但並不適合當搜索引擎
美媒評論稱,目前基於大型語言模型的人工智能工具,例如ChatGPT,更擅長共情而不是提供準確的事實信息。這是因為設計者優先考慮流暢性而非準確性。加之訓練數據庫中包含大量情感信息,將大型語言模型植入搜索引擎的競爭毫無意義。
以下是翻譯內容
今年早些時候,普林斯頓大學計算機科學教授阿爾溫德·納拉亞南(Arvind Narayanan)為自己四歲的女兒開發了支持ChatGPT的語音界面。這不僅是一個實驗,更是因為納拉亞南相信,人工智能機器人有一天會成為女兒生活中的重要組成部分。
納拉亞南的女兒天生好奇,經常問他有關動物、植物和人體的問題。他認為OpenAI開發的ChatGPT可以提供有用的答案。令他驚訝的是,一旦他告訴系統正在與小孩對話,這款聊天機器人就能表現出無可挑剔的共情能力。
納拉亞南的女兒問:“燈滅了會怎麼樣?”
“燈滅了,天就黑了,可能會有點嚇人,”ChatGPT用人工合成的聲音回答道。“但別擔心!”“你可以做很多事情來讓自己在黑暗中感到安全舒適。”
ChatGPT隨後提出了一些使用夜燈的建議,並最後提醒:“在黑暗中感到有點害怕很正常。”這個解釋顯然讓納拉亞南的女兒感到很安心。
微軟和谷歌正急於使用大型語言模型技術來強化搜索引擎。但有充分的理由認為,相比於提供事實性信息,這項技術更適合作為人們情感上的伴侶。
聽起來可能很奇怪。但無論是谷歌的Bard還是微軟的新Bing,這種人工智能在用於搜索信息時都出現了一系列尷尬的事實性錯誤。Bard在首次公開演示時就給出了關於詹姆斯·韋伯太空望遠鏡的錯誤信息,而新Bing也搞錯了一大堆財務報表數據。
當人工智能聊天機器人用於搜索時,出現事實性錯誤的代價很高。Replika是一款人工智能應用程序,下載量已經超過500萬次。該應用程序的創始人尤金尼亞·庫伊達(Eugenia Kuyda)表示,當人工智能被設計成伴侶時,出現錯誤的代價就要低得多。她說:“這不會影響用戶體驗,不像搜索,小小錯誤就會破壞用戶對產品的信任。”
谷歌前人工智能研究員瑪格麗特·米切爾(Margaret Mitchell)曾與人合作撰寫過一篇關於大型語言模型風險的論文。她表示,大型語言模型根本“不適合”作為搜索引擎。這些大型語言模型之所以會出錯,是因為訓練所用的數據經常包含錯誤信息,而且模型也沒有基本事實來驗證所生成的內容。此外,大型語言模型的設計者可能優先考慮生成內容的流暢性,而不是準確性。
這也是這些工具特別擅長迎合用戶的原因之一。畢竟,目前大型語言模型都是從網上抓取文本進行訓練,其中包括推特和Facebook等社交媒體平台上發布的情緒性內容,以及Reddit和Quora等論壇上的個人心理疏導內容。電影電視劇中的台詞、小說中的對話,以及關於情商的研究論文都進入了訓練數據庫,這使得這些工具更具有同理心。
據報導,一些人把ChatGPT當成機器人治療師來使用。其中一位說,他們這樣做是為了避免成為別人的負擔。
為了測試人工智能的共情能力,人們對ChatGPT進行了一次在線情商測試。結果顯示,它表現出色,在社會意識、關係管理和自我管理方面都獲得了滿分,在自我意識方面只是略有差池。
從某種程度上來說,ChatGPT在測試中的表現比一些人還要好。
雖然一台機器能為人們帶來共情感受有點不真實,但確實有一定道理。人們天生需要社會聯繫,人類大腦也有能力反映他人感受,這意味著即使對方沒有真正“感受”到我們的想法,我們也能獲得一種理解感。人類大腦中的鏡像神經元會在我們感受到他人的共情時被激活,給我們帶來一種彼此相連的感覺。
當然,共情是一個涉及多方面的概念,要想真正體驗到這種感覺,人們還是需要與真正的人進行交流。
倫敦國王學院臨床心理學家托馬斯·沃德(Thomas Ward)研究了軟件在心理治療中的作用,他警告人們不要想當然地認為,特別是在心理問題很嚴重的情況下,人工智能可以充分滿足人們在心理健康方面的需求。例如,聊天機器人可能無法理解人的情感複雜性。換句話說,ChatGPT很少說“我不知道”,因為它在設計上傾向於自信而不是謹慎回答問題。
人們也不應該把聊天機器人作為發洩情感的習慣性渠道。沃德說:“在將人工智能聊天機器人視為消除孤獨方式的世界裡,微妙的人際關係,例如拉住手或明白何時說話何時傾聽,可能會消失。”
這可能會最終導致更多問題。但就目前而言,人工智能在情感方面的技能至少要比它們掌握的事實更可靠。(辰辰)
來源:網易科技