視訊轉聲音技術可幫助盲人辨識人臉
辨識人臉的能力在人類中根深蒂固,在我們的一些遙遠的、以社會為導向的靈長類表親中也是如此。事實上,大腦中似乎存在一些區域–特別是位於大腦後下方的下顳皮層中一個名為”紡錘形面孔區”或”FFA”的區域–當我們看到人臉時,這些區域會特別亮起來。
有趣的是,2009 年的一項研究還發現,即使人們看到的東西看起來有點像人臉,FFA 也會被激活–因此它參與了”幻視”現象,即我們在無生命的物體上看到人臉。當人們開始發展某一特定領域的專業知識時,同一區域也會開始激活,例如,這顯然有助於汽車瘋子透過視覺區分不同的車型,或幫助國際象棋專家識別棋盤上熟悉的構型。
2020 年,麻省理工學院的研究將盲人置於fMRI 掃描儀中,讓他們感受各種3D 列印的形狀,包括臉、手、椅子和迷宮,結果發現,觸摸這些小臉也會以類似的方式活化FFA。
觀看示意性臉孔的受試者紡錘形面區的視覺活化圖/喬治城大學
因此,從某種意義上說,FFA 似乎並不在乎是哪個感覺系統向它提供了與臉部有關的資訊–喬治城大學醫學中心神經科學小組的最新研究為這一假設提供了證據。
該團隊招募了6 名盲人和10 名視力正常的受試者,並開始使用”感覺替代裝置”對他們進行訓練。該裝置包括一個頭戴式攝影機、蒙眼目鏡、一副耳機和一台處理計算機,處理計算機將攝影機的輸入轉換成音頻,將視野分割成一個64 像素的網格,並賦予每個像素各自的聽覺音調。
研究論文描述,如果影像只是位於攝影機視野右上角的一個點,相關的聲音將是高頻率的,主要透過右耳機傳遞。如果點位於視野的中上部,聲音將是高頻音,但透過左右耳機發出的音量相同。如果影像是左下角的一條線,相關的聲音將是低頻的混合物,主要透過左耳機發出。
受試者用這些設備進行了10 次每次一小時的訓練,學習用耳朵”看”,同時左右移動頭部。卡片上會出現一些簡單的圖形;水平線和垂直線、不同形狀的房子、幾何圖形以及基本的表情符號式喜怒哀樂表情。這是一個相當困難的訓練過程,但在訓練結束時,所有受試者識別簡單形狀的準確率都超過了85%。
感官替代裝置的解析度僅為64 像素。右下方是向受試者展示的一些形狀。
在fMRI 儀器上進行形狀辨識測試時,當出現基本的臉部形狀時,視力正常的受試者和失明的受試者都顯示出FFA 的活化。有些盲人受試者還能正確辨識出人臉是喜臉還是愁臉–您可以從研究中一段45 秒的音訊片段中聽到這一點,您也可以從這段片段中了解該裝置的聲音。
這項研究的資深作者、神經科學教授Josef Rauschecker 博士在一份新聞稿中說:”我們從盲人身上獲得的結果表明,紡錘形臉部區域的發育並不取決於對實際視覺臉部的體驗,而是取決於對臉部幾何構型的接觸,這種幾何構型可以透過其他感官模式傳達。”
研究團隊也發現,視力正常的受試者主要在右側紡錘形面區出現激活,而失明的受試者則在左側FFA區出現激活。
Rauschecker說:”我們認為,盲人和非盲人之間的左右差異可能與左右兩側的紡錘形區域如何處理人臉有關–要么作為連接的模式,要么作為獨立的部分,這可能是幫助我們完善感官替代裝置的重要線索。”
研究團隊希望繼續進行實驗,有可能開發出更高解析度的感官替代裝置,最終讓訓練有素的受試者能夠辨識真實的人臉。
需要提醒的是,像這樣的影像聲音轉換設備在實際應用中可能不會有太大幫助–部分原因是它們需要大量的訓練,部分原因是盲人已經非常依賴聽力,不太可能希望額外的嗶嗶聲和噗噗聲擾亂他們對世界的感知。
更不用說,隨著深度學習多模態人工智慧的興起,已經有一些系統可以讓GPT 風格的語言模型查看圖像或視頻,並以人們喜歡的任何詳細程度描述正在發生的事情。事實證明,這種自然語言解說比直接從視訊到音訊的饋送更容易實現、使用和滿足個人需求。
儘管如此,這仍然是非常吸引人的東西,它顯示了兩眼一嘴的老形狀在我們的硬體中埋藏得有多深,以及這些形狀對我們這種社會動物的重要性。
這項研究已在《公共科學圖書館》(PLOS)雜誌上公開發表。