OpenAI發表研究論文介紹了一種逆向工程AI模型工作原理的方法
ChatGPT 開發商OpenAI 建構人工智慧的方法本周遭到了前員工的抨擊,他們指責該公司利用可能有害的技術冒不必要的風險。今天,OpenAI 發布了一篇新的研究論文,目的顯然是為了表明它在透過提高模型的可解釋性來應對人工智慧風險方面的認真態度。
在論文中,該公司的研究人員提出了一種窺探為ChatGPT 提供動力的人工智慧模型內部的方法。他們設計了一種方法來識別模型如何儲存某些概念–包括那些可能導致人工智慧系統行為失常的概念。
雖然這項研究使OpenAI 在控制人工智慧方面的工作更加引人注目,但也凸顯了該公司最近的動盪。新研究由OpenAI最近解散的”超對齊”團隊完成,該團隊致力於研究技術的長期風險。
前小組的共同負責人伊利亞-蘇茨克沃(Ilya Sutskever)和揚-萊克(Jan Leike)都已離開OpenAI,並被列為共同作者。蘇茨克沃是OpenAI的創始人之一,曾任首席科學家,去年11月,董事會成員投票解雇了首席執行官山姆-奧特曼(Sam Altman),引發了幾天的混亂,最終奧特曼重返領導崗位。
ChatGPT 由一個名為GPT 的大型語言模型系列提供支持,該模型基於一種稱為人工神經網路的機器學習方法。這些數學網路透過分析範例數據顯示出了學習有用任務的強大能力,但它們的工作原理無法像傳統電腦程式那樣被輕易檢查。人工神經網路中各層”神經元”之間複雜的相互作用,使得逆向分析ChatGPT 這樣的系統為何會得出特定的反應極具挑戰性。
這項工作背後的研究人員在一篇隨附的部落格文章中寫道:「與大多數人類創造物不同,我們並不真正了解神經網路的內部運作。一些著名的人工智慧研究人員認為,包括ChatGPT 在內的最強大的人工智慧模型或許可以用來設計生化武器和協調網路攻擊。
OpenAI 的這篇新論文概述了一種技術,該技術借助額外的機器學習模型,識別代表機器學習系統內部特定概念的模式,從而稍微降低了神秘感。創新的關鍵在於透過識別概念來完善用於窺探系統內部的網絡,從而提高效率。
OpenAI 透過在其最大的人工智慧模型之一GPT-4 中識別代表概念的模式證明了這種方法。該公司發布了與可解釋性工作相關的程式碼,以及一個視覺化工具,用於查看不同句子中的單字如何激活GPT-4 和另一個模型中的概念,包括褻瀆和色情內容。了解一個模型是如何表現某些概念的,這將有助於減少與不受歡迎的行為相關的概念,使人工智慧系統保持正常運作。它還可以調整人工智慧系統,使其偏向某些主題或想法。
儘管LLM 無法被輕易解讀,但越來越多的研究表明,它們可以被穿透,從而揭示有用的信息。由亞馬遜和Google支持的OpenAI 競爭對手Anthropic 上個月也發表了類似的人工智慧可解釋性研究成果。為了示範如何調整人工智慧系統的行為,該公司的研究人員創造了一個沉迷於舊金山金門大橋的聊天機器人。有時,只要讓人工只能機器人解釋其推理過程,就能獲得深刻的見解。
東北大學從事人工智慧可解釋性研究的教授大衛鮑(David Bau)在談到OpenAI 的新研究時說:「這是令人興奮的進展。」作為一個領域,我們需要學習如何更好地理解和審視這些大型模型。 “
鮑說,OpenAI 團隊的主要創新在於展示了一種配置小型神經網路的更有效方法,該網路可用於理解大型神經網路的組成部分。但他也指出,這項技術還需要改進,以使其更加可靠。要利用這些方法創造出完全可以理解的解釋,還有很多工作要做。 “
鮑是美國政府資助的一項名為”國家深度推理結構”(National Deep Inference Fabric)的工作的一部分,這項工作將向學術研究人員提供雲端運算資源,以便他們也能探索特別強大的人工智慧模型。他說:”我們需要想辦法讓科學家即使不在這些大公司工作,也能從事這項工作。”
OpenAI 的研究人員在論文中承認,要改進他們的方法還需要進一步的工作,但他們也表示,希望這種方法能帶來控制人工智慧模型的實用方法。他們寫道:”我們希望有一天,可解釋性能為我們提供推理模型安全性和魯棒性的新方法,並通過為強大的人工智能模型的行為提供強有力的保證,大大增加我們對它們的信任。
閱讀論文全文: