AI讀心術來了,準確率高達82%?論文已刊登在Nature
AI 的潛力有多大?現如今,讀心術就要來了:人類無須張口,你的所想,AI 都知道。更為重要的是,這是AI 首次通過非侵入式的方法學會了“讀心術”。這項研究成果來自於美國得克薩斯州奧斯汀分校的團隊,目前已經刊登在《Nature Neuroscience》雜誌上。他們基於GPT-1 人工智能技術開發出一種解碼器,可將大腦活動轉化為連續的文本流,它有可能為無法說話的患者提供另一種與外界溝通的新型方式。
根據實驗結果顯示,GPT 人工智能大模型感知語音的準確率可高達82%,令人驚嘆。
01.“讀心術”的探索
事實上,科技圈對“讀心術”的探索並非近日才展開。
過去,馬斯克建立的神經科技公司Neuralink 也一直在尋找高效實現腦機接口的方法,其還與加州大學戴維斯分校合作,實現用猴子大腦控制電腦的實驗,旨在最終想要將芯片植入大腦,用“細絲”探測神經元活動。
不過,值得注意的是,Neuralink 的這種方案屬於侵入式的。所謂侵入式,是指將腦機接口直接植入到大腦的灰質,因而所獲取的神經信號的質量比較高。這種方式的缺點是容易引發免疫反應和癒傷組織(疤),進而導致信號質量的衰退甚至消失。
與之相對應的是非侵入式腦機接口,它是一種能夠在人腦與外部設備之間直接建立通訊的人機交互技術,具有操作便捷、風險性小等優點。
以往,行業內可以通過功能性磁共振成像(FMRI)捕捉人類大腦活動的粗糙、彩色快照。雖然這種特殊類型的磁共振成像已經改變了認知神經科學,但是它始終不是一台讀心機:神經科學家無法通過大腦掃描來判斷某人在掃描儀中看到、聽到或思考的內容。
此後,神經科學家一直希望可以使用fMRI 等非侵入性技術來破譯人類大腦內部的聲音,而無需手術。
如今,隨著《Semantic reconstruction of continuous language from non-invasive brain recordings》論文的發布,該論文的主要作者Jerry Tang 通過將fMRI 檢測神經活動的能力與人工智能語言模型的預測能力相結合,可以以驚人的準確度重現人們在掃描儀中聽到或想像的故事。解碼器甚至可以猜出某人在掃描儀中觀看短片背後的故事,儘管準確性較低,但也實現了一大進步。這也意味著,參與者不需要植入任何外界設備,AI 系統就能解碼大腦中的想法。
02.沒說過的話,AI 是怎麼知道的?
自ChatGPT、GPT-4 發布的幾個月間,我們見證了大模型根據提示詞不斷輸出內容的過程。
要問AI 系統如何了解人類大腦中的想法,在論文中,研究人員透露,首先讓參與者聽新故事,然後功能性磁共振成像(FMRI)可以呈現出參與者大腦的活動狀態。進而,基於最新開發的語義解碼器將這些狀態,生成相應的單詞序列,並通過將用戶大腦反應的預測與實際記錄的大腦反應進行比較,最終預測每個候選單詞序列與實際單詞序列的相似程度,看看準確率如何,是否能“讀心”。
具體來看,為了收集大腦活動數據,研究人員讓研究對像在fMRI 掃描儀內聽一些音頻故事。與此同時,通過fMRI 掃描儀觀察他們的大腦在聽這些話時反應情況。如圖a 所示,3 名受試者在聽16 小時的敘述性的故事時,AI 系統記錄了MRI(磁共振成像)的反應。
然後,MRI 數據被發送到計算機系統中。在這個過程中,研究人員使用了基於貝葉斯統計的解碼框架。大型語言模型GPT-1 在系統的自然語言處理部分提供了幫助。由於這個神經語言模型是在大量的自然英語單詞序列數據集上進行訓練的,它擅長預測最可能的單詞。
接下來,研究人員在這個數據集上訓練編碼模型。在初始訓練時,如b 圖所示,當受試者在試聽此前沒有用於模型訓練的測試故事時,大腦會做出不同的反應。
進而,語義解碼器可以根據參與者的大腦活動生成詞彙序列,語言模型(LM)為每個序列提出連續性,而編碼模型對每個連續性下記錄的大腦反應的可能性進行評分。
簡單來看,語義解碼器學會了將特定的大腦活動與特定的單詞流相匹配。然後根據匹配出來的單詞流,試圖重新輸出這些故事。
不過,語義解碼器主要捕捉了參與者想法中的要點,並不是一字一句的完整思想內容。如參與者聽到的是,“我從氣墊上站起來,把臉貼在臥室窗戶的玻璃上,希望看到有一雙眼睛盯著我,但卻發現只有一片黑暗。”
但是想法卻是,“我繼續走到窗前,打開窗戶,我什麼也沒看見,再抬頭看,什麼也沒看見。”
又比如說參與者聽到的是,“我還沒有駕照”,語義解碼器解碼之後的版本可能是,“她還沒有學會開車”。
語義解碼器捕捉參與者的想法
通過這種方法,在一系列語言相似性指標下,語義解碼器對測試故事的預測與實際刺激詞的相似度明顯高於預期。準確率也高達82%。
該論文的另一位作者Alexander Huth 表示,他們對系統出色的表現感到驚訝。他們發現解碼後的單詞序列通常能夠準確地捕捉到單詞和短語。他們還發現他們可以從大腦的不同區域分別提取連續的語言信息。
除此之外,為了測試解碼的文本是否準確捕捉到故事的含義,研究人員還進行了一項行為實驗,通過向只閱讀解碼後單詞的受試者提問一系列問題。受試者在沒有看過視頻的情況下,能夠正確回答超過一半的問題。
03.語義解碼器剛起步,道阻且長
不過,當前,該語義解碼器還無法在實驗室以外的地方使用,因為它依賴於fMRI設備。
對於未來的工作, 研究人員希望自然語言神經網絡的快速進展能夠帶來更好的準確性。到目前為止,他們發現較大、現代的語言模型至少在編碼部分工作得更好。他們還希望能夠使用更大的數據集,比如每個受試者100 或200 小時的數據。
雖然這種非侵入性的方式,可能會對醫學維度的研究以及患者有極大的好處,使其可以與他人進行可理解的交流,但是也存在隱私、倫理審查、不平等和歧視、濫用和侵犯人權等諸多問題,所以想要現實中應用也大有難度。
與此同時,研究人員表明,語義解碼器僅在接受過訓練的人身上以及與其合作下才能正常工作,因為針對一個人訓練的模型不適用於另一個人,當前還無法做到通用。
“雖然這項技術還處於起步階段,但重要的是要規範它能做什麼,不能做什麼,”該論文的主要作者Jerry Tang 警告說。“如果它最終可以在未經個人許可的情況下使用,就必須有(嚴格的)監管程序,因為如果濫用預測框架可能會產生負面後果。”
該小組已在GitHub 上提供了其自定義解碼代碼。據悉該團隊也在得克薩斯大學系統的支持下提交了與這項研究直接相關的專利申請。