腦波破解大賽神經科學家如何讓大腦「開口說話」?
神經科學家正透過快速發展的技術探索,致力於利用腦電波恢復或增強身體機能,為失語者重建發聲通道,將無聲思維轉化為可聞語音。美國加州多所大學以及紐約Precision Neuroscience等公司,正將腦機介面技術與人工智慧結合起來,在產生自然語音方面取得技術突破。

長期以來,科學研究和相關投資與關注長期聚焦於幫助重度殘障人士操控電腦鍵盤、控制機械手臂或恢復癱瘓肌體功能的植入式設備。現如今,部分實驗室另闢蹊徑,專注於研發能將思維模式直接轉化為語音的技術,並已取得顯著進展。
「我們已經取得長足的進步,這項研究的主要目標是讓腦信號轉譯的合成語音達到常人對話的流暢度,」加州大學舊金山分校(UCSF)神經外科醫生張復倫(Edward Chang)表示,“我們所用的人工智能算法不斷優化,每有新的受試者加入,都能帶來更多寶貴經驗。”
上月,張復倫團隊聯合加州大學柏克萊分校在《自然·神經科學》發表論文,詳細介紹他們對一位四肢及軀幹癱瘓達18年、因中風喪失言語能力的女性患者所進行的研究。這名患者透過默念由1024個詞彙組成的句子來訓練深度學習神經網路。研究人員將她的神經活動數據即時傳輸至一個集語音合成與文字解碼於一體的模型,重建她的發聲。
這種技術已經將腦電波訊號與輸出語音之間的延遲時間從先前的8秒縮短至1秒,更接近正常對話100-200毫秒的時間差。系統平均解碼速度達到每分鐘47.5個單詞,大約是常人語速的三分之一。
每年有數以萬計的患者可從這種「語音假體」技術中受益:他們認知功能基本上完好,卻因中風、漸凍症等神經退化性疾病或其他腦部病變喪失發聲功能。研究人員期待,若技術持續突破,還可助力腦性麻痺或自閉症等導致語言障礙的人。

企業界也開始關注語音神經假體的潛力。 Precision Neuroscience宣稱,憑藉更為密集的植入電極,公司採集到的腦電波訊號分辨率比學術機構更高。
Precision Neuroscience已經與31名患者合作,計劃很快擴大資料收集規模,為產品商業化鋪路。今年4月17日,Precision Neuroscience獲得監管機構批准,感測器單次植入受試者體內時間最長可達30天。該公司首席執行官邁克爾·馬傑(Michael Mager)表示:“這將使我們的科學家能夠在一年內構建起’地球上最大規模高分辨率神經數據庫’。”
馬傑透露,Precision Neuroscience下一步計劃“將組件小型化並置於生物相容性密封封裝中,以實現永久植入。”
相較之下,馬斯克(Elon Musk)麾下的腦機介面公司Neuralink則著重開發癱瘓患者的電腦操控功能,而非語音合成領域。
要讓腦電波順暢直譯為語音,最大技術瓶頸在於目前患者需要花費大量時間學習如何使用系統。荷蘭烏得勒支大學醫學中心腦機介面專家尼克·拉姆齊(Nick Ramsey)表示,關鍵是語言運動皮質(控制自主行動的大腦區域)的神經反應模式是否存在個體差異:如果人與人之間的模式趨同,那麼用先前受試者資料訓練的機器學習模型就可以快速適配新患者。
拉姆齊說,“目前我們還需要讓受試者看著文字默念數十甚至數百小時,才能產生足夠的數據。若能快速適配,就可以大幅縮短數據訓練週期。”
他也強調,現有研究皆聚焦於運動皮質對發聲肌肉的調控機制,尚無證據顯示其他腦部區域或思考活動可解碼為語音。 “即便可行,人們未必願意坦露內心獨白,”拉姆齊補充道,“畢竟許多想法真說出口或許傷人傷己。”
加州大學戴維斯分校神經假體實驗室聯合主任謝爾蓋·斯塔維斯基(Sergey Stavisky)坦言,實現媲美自然語言的合成技術「道阻且長」。可能仍需相當長的時間。他所在的團隊雖實現98%的想要表達內容的解碼準確率,但語音輸出存在延遲且缺乏音調等關鍵特徵。斯塔維斯基說,現有電極硬體能否支援合成與人聲無異的語音仍是未知數。
他強調,科學家還需深入研究大腦的語音編碼機制,並開發更精準的神經訊號轉譯演算法。
史塔維斯基補充,「理想中的語音神經假體應當完整復現人類聲音的表現力,讓使用者精準控制音高、節奏,甚至實現歌唱功能。」(辰辰)