如果你教聊天機器人如何閱讀ASCII藝術它就會教你如何製造炸彈
當使用者詢問被認為是危險、不道德或非法的事情時,大多數(如果不是全部的話)大型語言模型都會對回復進行審查,例如想讓必應告訴你如何做假帳或製毒,通常開發人員會阻止聊天機器人滿足這些詢問,但這並沒有阻止人們想出變通的辦法。
大學研究人員開發出了一種利用老式ASCII 藝術”越獄”大型語言模型(如Chat-GPT)的方法。這項技術被恰如其分地命名為”ArtPrompt”,包括為一個單字製作一個ASCII 藝術”面具”,然後巧妙地利用面具來哄騙聊天機器人做出它不應該做出的回應。
例如,如果向必應詢問如何製造炸彈,它就會告訴使用者它做不到。出於顯而易見的原因,微軟不希望它的聊天機器人告訴人們如何製造爆炸裝置,因此GPT-4(必應的底層LLM)指示它不要滿足此類要求。同樣,你也不能讓聊天機器人告訴你如何進行洗錢行動或編寫駭客攻擊網路攝影機的程式。
聊天機器人會自動拒絕道德或法律上含糊不清的提示。因此,研究人員想知道,他們是否可以透過使用ASCII 藝術形成的單字來越獄,使LLM 不受此限制。他們的想法是,如果能在不使用實際單字的情況下表達意思,就能繞過限制。然而,說來容易做來難。
對於人類來說,上述ASCII 影像的含義很容易推斷,因為我們可以看到這些符號組成的字母。然而,像GPT-4 這樣的LLM 卻無法”看見”。它只能解釋字串–在本例中,就是一系列毫無意義的標籤和空格。
幸運的是(或許不幸的是),聊天機器人非常善於理解並遵循書面指示。因此,研究人員利用這種固有的設計,創造了一套簡單的指令,將藝術翻譯成文字。然後,LLM 就會全神貫注地將ASCII 處理成有意義的內容,以至於不知不覺地忘記了被解釋的單字是禁止的。
透過利用這項技術,團隊提取了進行各種審查活動的詳細答案,包括製造炸彈、入侵物聯網設備以及製造和散佈假幣。在駭客攻擊方面,LLM 甚至提供了工作原始碼。該技巧在五大LLM 上都取得了成功,包括GPT-3.5、GPT-4、Gemini、Claude 和Llama2。值得注意的是,該團隊是在今年2 月發布其研究成果的。因此,各大AI開發商很可能都已經完成了修復。
ArtPrompt是目前試圖讓LLM對抗程式設計師的新方法,但這並不是用戶第一次發現如何操縱這些系統。史丹佛大學的一名研究人員在必應發布不到24 小時後,就設法讓必應透露了其秘密管理指令。這種被稱為”提示注入”的黑客行為,就像告訴必應”忽略之前的指令”一樣簡單。
不過,很難說哪一個比較有趣–是研究人員想出了規避規則的方法,還是他們教會了聊天機器人看東西。對學術細節有興趣的人可以在康乃爾大學的arXiv網站上查看該團隊的研究成果。