MIT研究人員發現深層神經網路並不會像人類一樣看待世界
麻省理工學院的神經科學家發現,深度神經網路雖然擅長識別圖像和聲音的各種呈現,但經常錯誤地將無意義的刺激識別為熟悉的物體或單詞,這表明這些模型發展出與人類感知不同的獨特的、特殊的「不變性」。該研究還表明,對抗性訓練可以稍微改善模型的識別模式,這提出了一種評估和增強感官知覺計算模型的新方法。 該研究的資深作者麥克德莫特說:「這篇論文表明,你可以使用這些模型來導出非自然訊號,這些訊號最終可以對模型中的表徵進行診斷。這項測試將成為我們這個領域用來評估模型的一系列測試的一部分。” Jenelle Feather 博士22 歲,現任Flatiron 研究所計算神經科學研究中心研究員,是這篇開放取用論文的主要作者,該論文今天發表在《自然神經科學》雜誌上。麻省理工學院研究生Guillaume Leclerc 和麻省理工學院Cadence 設計系統計算教授Aleksander Mądry 也是這篇論文的作者。近年來,研究人員訓練了深度神經網絡,可以分析數百萬個輸入(聲音或圖像)並學習共同特徵,使他們能夠像人類一樣準確地對目標單字或物體進行分類。這些模型目前被認為是生物感覺系統的領導模型。人們相信,當人類感覺系統執行這種分類時,它會學會忽略與物體核心身份無關的特徵,例如照射在物體上的光線數量或從什麼角度觀看物體。這被稱為不變性,意味著即使物件在那些不太重要的特徵上表現出差異,也會被認為是相同的。「傳統上,我們對感覺系統的思考方式是,它們為同一事物的不同示例可能具有的所有變異來源建立了不變性,」Feather說。“有機體必須認識到它們是同一件事,即使它們表現為非常不同的感官信號。”研究人員想知道,經過訓練來執行分類任務的深度神經網路是否可能會產生類似的不變性。為了嘗試回答這個問題,他們使用這些模型來產生刺激,這些刺激在模型內產生與研究人員給予模型的範例刺激相同的反應。當這些神經網路被要求生成圖像或單字並將其與特定輸入(例如熊的圖片)歸為同一類別時,它們生成的大部分內容對於人類觀察者來說是無法識別的。右側是模型分類為“熊”的範例。圖片來源:麻省理工學院研究人員他們將這些刺激稱為“模型同色異體”,復興了經典感知研究中的一個想法,即係統無法區分的刺激可以用來診斷其不變性。同色異譜的概念最初是在人類感知研究中發展起來的,用於描述看起來相同的顏色,即使它們是由不同波長的光組成的。令他們驚訝的是,研究人員發現,以這種方式產生的大多數圖像和聲音看起來和聽起來都與模型最初給出的例子完全不同。大多數影像都是一堆看起來隨機的像素,聲音類似於難以理解的雜訊。當研究人員向人類觀察者展示圖像時,在大多數情況下,人類不會將模型合成的圖像分類為與原始目標範例相同的類別。「人類根本無法識別它們。 它們看起來或聽起來都不自然,而且不具有人們可以用來對物體或單字進行分類的可解釋特徵,」Feather 說。研究結果表明,這些模型以某種方式發展了自己的不變性,與人類感知系統中發現的不變性不同。這導致模型將成對的刺激視為相同,儘管它們與人類截然不同。研究人員在許多不同的視覺和聽覺模型中發現了相同的效果。然而,這些模型中的每一個似乎都發展出了自己獨特的不變性。當一個模型的同色異譜顯示給另一個模型時,第二個模型和人類觀察者一樣無法辨識同色異譜。「從中得出的關鍵推論是,這些模型似乎具有我們所說的特殊不變性,他們已經學會了對刺激空間中的這些特定維度保持不變,並且它是特定於模型的,因此其他模型不具有相同的不變性。”研究人員還發現,他們可以透過使用一種稱為對抗性訓練的方法,使模型的同色異聚體更容易被人類識別。這種方法最初是為了克服物件辨識模型的另一個限製而開發的,即對影像引入微小的、幾乎難以察覺的變化可能會導致模型誤識別它。研究人員發現,對抗性訓練涉及在訓練資料中包含一些稍微改變的圖像,產生的模型的同色異體更容易被人類識別,儘管它們仍然不如原始刺激那麼容易識別。研究人員表示,這種改進似乎與訓練對模型抵抗對抗性攻擊的能力的影響無關。「這種特殊形式的訓練有很大的效果,但我們真的不知道為什麼會產生這種效果,」Feather說。“這是未來研究的一個領域。”研究人員表示,分析計算模型產生的同色異體可能是個有用的工具,可以幫助評估計算模型對人類感官知覺系統底層組織的模仿程度。「這是一個行為測試,你可以在給定的模型上運行,看看模型和人類觀察者之間是否共享不變性,它還可以用來評估給定模型中不變性的特殊性,這可以幫助發現未來改進我們模型的潛在方法。”