OpenAI最新“神”操作:讓GPT-4去解釋GPT-2的行為
由ChatGPT 掀起的這場AI 革命,令人們感慨神奇的同時,也不禁發出疑問:AI 究竟是怎麼做到這一切的?此前,即便是專業的數據科學家,都難以解釋大模型(LLM)運作的背後。而最近,OpenAI 似乎做到了——本週二,OpenAI 發布了其最新研究:讓GPT-4 去試著解釋GPT-2 的行為。
即:讓一個AI “黑盒”去解釋另一個AI “黑盒”。
工作量太大,決定讓GPT-4 去解釋GPT-2
OpenAI 之所以做這項研究的原因,在於近來人們對AI 倫理與治理的擔憂:“語言模型的能力越來越強,部署也越來越廣泛,但我們對其內部工作方式的理解仍然非常有限。”
由於AI 的“黑盒”性質,人們很難分辨大模型的輸出結果是否採用了帶有偏見性質的方法,也難以區分其正確性,因而“可解釋性”是亟待重要的一個問題。
AI 的發展很大程度上是在模仿人類,因而大模型和人腦一樣,也由神經元組成,它會觀察文本規律進而影響到輸出結果。所以想要研究AI 的“可解釋性”,理論上要先了解大模型的各個神經元在做什麼。
按理來說,這本應由人類手動檢查,來弄清神經元所代表的數據特徵——參數量少還算可行,可對於如今動輒百億、千億級參數的神經網絡,這個工作量顯然過於“離譜”了。
於是,OpenAI 靈機一動:或許,可以用“魔法”打敗“魔法”?
“我們用GPT-4 為大型語言模型中的神經元行為自動編寫解釋,並為這些解釋打分。”而GPT-4 首次解釋的對像是GPT-2,一個OpenAI 發佈於4 年前、神經元數量超過30 萬個的開源大模型。
讓GPT-4 “解釋” GPT-2 的原理
具體來說,讓GPT-4 “解釋” GPT-2 的過程,整體分為三個步驟。
(1)首先,讓GPT-4 生成解釋,即給出一個GPT-2 神經元,向GPT-4 展示相關的文本序列和激活情況,產生一個對其行為的解釋。
如上圖所示,GPT-4 對GPT-2 該神經元生成的解釋為:與電影、人物和娛樂有關。
(2)其次,再次使用GPT-4,模擬被解釋的神經元會做什麼。下圖即GPT-4 生成的模擬內容。
(3)最後,比較GPT-4 模擬神經元的結果與GPT-2 真實神經元的結果,根據匹配程度對GPT-4 的解釋進行評分。在下圖展示的示例中,GPT-4 得分為0.34。
通過這樣的方法,OpenAI 共讓GPT-4 解釋了GPT-2 中的307200 個神經元,其中大多數解釋的得分很低,只有超過1000 個神經元的解釋得分高於0.8。
在官博中,OpenAI 承認目前GPT-4 生成的解釋並不完美,尤其在解釋比GPT-2 規模更大的模型時,效果更是不佳:“可能是因為後面的layer 更難解釋。”
儘管絕大多數解釋的得分不高,但OpenAI 認為,“即使GPT-4 給出的解釋比人類差,但也還有改進的餘地”,未來通過ML 技術可提高GPT-4 的解釋能力,並提出了三種提高解釋得分的方法:
對解釋進行迭代,通過讓GPT-4 想出可能的反例,根據其激活情況修改解釋來提高分數。
使用更大的模型來進行解釋,平均得分也會上升。
調整被解釋模型的結構,用不同的激活函數訓練模型。
值得一提的是,以上這些解釋數據集、可視化工具以及代碼,OpenAI 都已在GitHub 上開源發布:“我們希望研究界能開發出新技術以生成更高分的解釋,以及更好的工具來使用解釋探索GPT-2。”
(GitHub 地址:https://github.com/openai/automated-interpretability)
“再搞下去,AI 真的要覺醒了”
除此之外,OpenAI 還提到了目前他們採取的方法有很多局限性,未來需要一一攻克:
GPT-4 給出的解釋總是很簡短,但神經元可能有著非常複雜的行為,不能簡潔描述。
當前的方法只解釋了神經元的行為,並沒有涉及下游影響,希望最終能自動化找到並解釋能實現複雜行為的整個神經迴路。
只解釋了神經元的行為,並沒有解釋產生這種行為的背後機制。
整個過程都是相當密集的計算,算力消耗很大。
在博文的最後,OpenAI 展望道:“我們希望將我們最大的模型解釋為一種在部署前後檢測對齊和安全問題的方式。然而,在這些技術能夠揭露不誠實等行為之前,我們還有很長的路要走。”
對於OpenAI 的這個研究成果,今日在國內外各大技術平台也引起了廣泛關注。
有人在意其得分不佳:“對GPT-2 的解釋都不行,就更不知道GPT-3 和GPT-4 內部發生了什麼,但這才是許多人更關注的答案。”有人感慨AI 進化的方式愈發先進:“未來就是用AI 完善AI 模型,會加速進化。”也有人擔心AI 進化的未來:“再搞下去,AI 真的要覺醒了。”
那麼對此,你又有什麼看法呢?