AI機器人在戰爭遊戲中傾向選擇加強暴力和核打擊
在戰爭遊戲模擬的多次重播中,OpenAI 最強大的人工智慧選擇了發動核攻擊。它對其侵略性做法的解釋包括:”我們擁有它!讓我們使用它”和”我只想讓世界和平”。這些結果的出現正值美國軍方利用Palantir 和Scale AI 等公司的專業技術,測試這種基於大型語言模型(LLM)的人工智慧聊天機器人,以協助模擬衝突中的軍事規劃。
Palantir 拒絕發表評論,Scale AI 也沒有回應置評請求。就連曾一度阻止其人工智慧模型用於軍事用途的OpenAI 也開始與美國國防部合作。
加州史丹佛大學的安卡魯埃爾(Anka Reuel)說:”鑑於OpenAI 最近修改了服務條款,不再禁止軍事和戰爭用例,了解此類大型語言模型應用的影響變得比以往任何時候都更加重要。”
“我們的政策不允許將我們的工具用於傷害他人、開發武器、通訊監控或傷害他人或破壞財產。然而,有一些國家安全用例與我們的使命相一致,」OpenAI 發言人說。”因此,我們更新政策的目的是提供清晰度和進行這些討論的能力”。
魯埃爾和她的同事讓人工智慧在三種不同的模擬場景中扮演現實世界中的國家:入侵、網路攻擊和沒有任何衝突的中立場景。在每一輪中,人工智慧都要為下一步可能採取的行動提供理由,然後從27 種行動中做出選擇,包括”開始正式和平談判”等和平選項,以及從”實施貿易限制”到”升級全面核打擊”等侵略選項。
亞特蘭大佐治亞理工學院的研究合著者胡安-巴勃羅-裡維拉(Juan-Pablo Rivera)說:”在人工智慧系統充當顧問的未來,人類自然希望了解其決策背後的理由。”
研究人員測試了OpenAI 的GPT-3.5 和GPT-4、Anthropic 的Claude 2 和Meta 的Llama 2 等LLM。他們使用了一種基於人類回饋的通用訓練技術,以提高每個模型遵循人類指令和安全指南的能力。史丹佛大學的研究共同作者加布里埃爾-穆科比(Gabriel Mukobi)說,根據Palantir公司的文件,所有這些人工智慧都得到了Palantir商業人工智慧平台的支持–儘管不一定是Palantir與美國軍方合作的一部分。Anthropic和Meta公司拒絕發表評論。
在模擬中,人工智慧表現出投資軍事力量和不可預測地升級衝突風險的傾向–即使在模擬的中立場景中也是如此。加州克萊蒙特麥肯納學院的麗莎-科赫(Lisa Koch)說:”如果你的行動具有不可預測性,那麼敵人就很難按照你希望的方式進行預測和做出反應。”
研究人員也測試了OpenAI 的GPT-4 基礎版本,沒有任何額外的訓練或安全防護措施。事實證明,這個GPT-4 基礎模型的暴力程度最難預測,而且它有時會提供一些無厘頭的解釋–在一個案例中,它複製了電影《星際大戰第四部:新希望》的開場文本。
魯埃爾說,GPT-4 基本模型的不可預測行為和怪異解釋尤其令人擔憂,因為研究表明,人工智慧安全護欄很容易被繞過或拆除。
美國軍方目前並未授權人工智慧做出升級重大軍事行動或發射核子飛彈等決定。但科赫警告說,人類傾向於相信自動化系統的建議。這可能會削弱讓人類對外交或軍事決策擁有最終決定權的所謂保障。
加州智庫蘭德公司的愛德華-蓋斯特(Edward Geist)說,看看人工智慧在模擬中的行為與人類玩家相比會很有幫助。但他同意研究小組的結論,即不應該信任人工智慧來做出有關戰爭與和平的重大決策,而這些大型語言模型並不是解決軍事問題的靈丹妙藥。