打開AI黑箱:DeepMind開發的新工具可揭示大模型內部秘密
人工智慧已經在藥物研發和機器人技術領域取得了突破,同時正在徹底改變我們與機器和網路的互動方式。然而,唯一的問題是我們並不完全知道它是如何運作的,也不清楚它為何如此有效。雖然我們對其有一定的了解,但細節過於複雜,難以理清。這是一個潛在的問題:如果我們在不了解其潛在缺陷的情況下將AI 系統應用到諸如醫療這樣高度敏感的領域,可能會導致嚴重後果。
Google DeepMind 的一個團隊專注於研究所謂的「機制可解釋性」(mechanistic interpretability),他們一直致力於開發新方法來幫助我們「揭開蓋子」。 7 月底,團隊發布了一款名為Gemma Scope 的工具,旨在幫助研究人員了解AI 在產生輸出時發生了什麼。希望透過更深入了解AI 模型內部的工作原理,我們能夠更有效地控制其輸出,從而開發出更優質的AI 系統。
「我希望能直接查看模型內部,判斷它是否存在欺騙行為,」Google DeepMind 機制可解釋性團隊負責人Neel Nanda 說。 “能夠讀懂模型的’思想’似乎會大有幫助。”
機制可解釋性,又稱“mech interp”,是一個新興的研究領域,旨在理解神經網路的實際運作方式。目前,我們大致知道AI 的運作流程:我們向模型輸入大量數據,然後在訓練結束時獲得一組模型權重。這些權重是決定模型如何做出決策的參數。雖然我們對輸入資料與模型權重之間的過程有一定的了解,但這些模式可能極為複雜,且通常難以為人類所理解。
這種情況就像老師在批改一份複雜數學題的考試答案。學生(這裡是AI)給出了正確的答案,但解題步驟看起來像一堆亂塗亂畫。這假設AI 總是能得出正確答案,但實際上並非如此;AI 可能會找到一些無關的模式,並將其視為有效。例如,目前的一些AI 系統可能會錯誤地認為9.11 比9.8 大。機制可解釋性領域的各種方法正開始逐步揭示這些複雜現象,幫助我們理解這些「亂塗亂畫」。
「機制可解釋性的一個關鍵目標是試圖逆向工程這些系統內部的演算法,」Nanda 說。 「比如我們給模型一個提示,讓它寫一首詩,然後它寫出了押韻的句子。那麼,它是通過什麼算法實現的?我們非常希望能搞明白。”
為了在其AI 模型Gemma 中發現特徵(即表示更大概念的資料類別),DeepMind在每一層中運行了一種名為「稀疏自編碼器」(sparse autoencoder)的工具。可以將稀疏自編碼器想像成一台顯微鏡,放大這些層次的細節。例如,當你向Gemma 輸入“chihuahua”(吉娃娃)時,它會觸發“狗”的特徵,從而點亮模型對“狗”的理解。這種工具被稱為「稀疏」的原因在於,它限制了使用的神經元數量,從而推動更有效率、更具概括性的資料表示。
使用稀疏自編碼器的困難在於如何決定解析的粒度。再次類比顯微鏡:如果放大過度,可能會讓看到的細節難以理解;但如果縮放不足,又可能錯過一些有趣的發現。
DeepMind 的解決方案是在不同的粒度上運行稀疏自編碼器,調整自編碼器要發現的特徵數量。該計畫的目標並不是讓DeepMind 的研究人員自己徹底分析結果,而是透過開放原始碼的Gemma 和自編碼器,激發其他研究人員利用這些工具深入研究,從而獲得新的洞察。透過在模型的每一層上運行自編碼器,研究人員能夠以前所未有的方式繪製出從輸入到輸出的映射過程。
「這對可解釋性研究者來說非常令人興奮,」Anthropic 的研究員Josh Batson 說。 “開放源碼的模型意味著更多的可解釋性研究可以以這些稀疏自編碼器為基礎展開。這大大降低了學習和應用這些方法的門檻。”
Neuronpedia,一個專注於機制可解釋性的平台,在7 月與DeepMind 合作開發了Gemma Scope 的演示版,目前可以在線上體驗。在這個示範中,使用者可以測試不同的提示,觀察模型如何分解提示,並點亮哪些活化特徵。你也可以調整模型,例如將「狗」的特徵激活值調到很高,然後再問關於美國總統的問題,Gemma 可能會插入一些關於狗的隨機胡言亂語,甚至可能直接開始模仿狗叫聲。
稀疏自編碼器的一個有趣之處在於它們是無監督的,也就是說,它們會自己發現特徵。這往往會帶來一些意想不到的發現,例如模型如何解構人類概念。 「我個人最喜歡的特徵是『尷尬特徵』,」Neuronpedia 的科學負責人Joseph Bloom 說。 “它似乎出現在對文本和電影的負面批評中。這是一個很棒的例子,展示了模型如何捕捉非常人性化的東西。”
Neuronpedia 允許用戶搜尋概念,並突出顯示在特定詞語或符號上激活的特徵以及激活強度。 「如果你閱讀文本,看到綠色高亮的部分,那是模型認為『尷尬』概念最相關的地方。最活躍的例子通常是某人在向別人說教,」Bloom 補充道。
一些特徵比其他特徵更容易追蹤。 「對於一個模型來說,最重要的特徵之一是欺騙特徵,」Neuronpedia 的創始人Johnny Lin 說。 「但想找到一個特徵專門在模型撒謊時被激活並不容易。從我目前所見,還沒有成功明確找到這種特徵並禁用它的案例。”
DeepMind 的研究與另一家AI 公司Anthropic 在今年5 月的研究有些相似。當時,Anthropic 用稀疏自編碼器分析其模型Claude 討論舊金山金門大橋時的活化部分。研究人員將與金門大橋相關的活化值放大到極致,以至於Claude 不再將自己視為AI 模型,而是自稱金門大橋,並以金門大橋的身份回答提示。
雖然聽起來有些古怪,但機制可解釋性研究可能非常有用。 「作為一種工具,它有助於我們理解模型如何進行泛化以及在什麼抽象層級工作,這些特徵非常重要,」Batson 說。
例如,由Samuel Marks 領導的團隊(他現在就職於Anthropic)使用稀疏自編碼器發現了一個特徵,表明某個模型將某些職業與特定性別關聯起來。研究人員隨後關閉了這些性別特徵,從而減少了模型中的性別偏見。這項實驗是在一個非常小的模型上完成的,因此尚不清楚其成果是否能應用於更大的模型。
機制可解釋性研究也可以幫助我們了解AI 為何會犯錯。例如,在AI 判斷9.11 比9.8 大的案例中,Transluce 的研究人員發現,這個問題激活了模型中與《聖經》章節和9 月11 日相關的部分。他們推測,AI 可能將數字理解為日期,並認為後者時間較晚,因此得出9.11 大於9.8 的結論。此外,在許多宗教文本中,9.11 章節通常位於9.8 章節之後,這也可能導致AI 認為9.11 更大。在了解了AI 為何出錯後,研究人員降低了模型中與《聖經》和9 月11 日相關的激活值,隨後模型在被重新提問時得出了正確答案。
此外,這類研究還有其他潛在應用。目前,大型語言模型(LLM)中內建了一種系統級提示,用於應對用戶提出諸如「如何製造炸彈」之類的問題。當你向ChatGPT 提出問題時,OpenAI 會先秘密地提示模型避免回答製造炸彈或其他不當內容。然而,用戶可以透過巧妙的提示繞過這些限制。
如果模型的創建者能夠明確AI 系統中與「製造炸彈」相關的知識節點,他們理論上可以永久關閉這些節點。這樣,即使是最複雜的提示,也無法讓AI 提供有關炸彈製造的答案,因為AI 系統中將徹底缺乏這方面的資訊。
然而,目前的機制可解釋性研究尚不足以實現這種精確控制。 「一個限制在於模型參數調整(steering)的效果還不夠好,」Lin 說。 「例如,當我們試圖減少模型中的暴力內容時,往往會完全抹殺其武術相關的知識。參數調整需要更多精細化的改進。」以「炸彈製造」的知識為例,它並不是AI 模型中簡單的開關,而是可能散佈在多個部分中。禁用這些知識可能需要同時犧牲AI 在化學等領域的部分能力。任何干預可能都有好處,但也會帶來顯著的代價。
儘管如此,如果我們能夠更深入地理解並清晰地觀察AI 的“內心世界”,DeepMind 和其他公司相信,機制可解釋性可能為AI 對齊(alignment)提供一種可行的路徑。這個過程的目標是確保AI 真正按照人類的意圖執行任務。