ChatGPT捲入爆炸案刷屏AI安全正成為最貴的學費
新年伊始,ChatGPT 竟成了「恐怖份子」的幫兇?在為一位美國現役軍人提供爆炸知識後,後者成功將一輛特斯拉Cybertruck 在酒店門口引爆……這並非科幻電影橋段,而是AI 安全風險正在文明身邊真實上演的縮影。知名AI 投資人Rob Toews 在《富比士》專欄預測,2025 年我們將迎來「第一起真實的AI 安全事件」。
汽車爆炸現場畫面,外媒影片截圖
我們已經開始和另一種智慧生命一起生活了,RobToews 寫道,它跟人一樣任性難測,且具有欺騙性。
巧的是,另份新鮮出爐的產業預測也指向相同問題。北京智源研究院在2025 十大AI 技術趨勢中描繪了從海洋研究到應用落地再到AI 安全的完整圖景。值得劃重點的是,AI 安全作為一個獨立的技術賽道,被智源評為第十個趨勢:
模型能力提升與風險預防並重,AI 安全治理體系持續完善。
報告點評:作為一個複雜系統,大模型的Scaling 帶來了湧現,但複雜系統特有的湧現結果不可預測、循環回饋等特有屬性也對傳統工程的安全防護機制帶來了挑戰。基礎模型在自主決策上的持續進步帶來了潛在的失控風險,如何引入新的技術監管方法,如何在人工監管上平衡產業發展和風險管控?這對參與AI 的各方來說,都是一個值得持續探討的議題。
AI 大模型安全,水深流急
2024 年,AI 大模型在實現跨越式發展的同時,也讓我們清楚地看到了安全的敏感神經如何被刺激挑動。
根據研究,AI 安全風險可分為三類:內生安全問題、衍生性安全問題、外生安全問題。
「內生安全問題」(如「資料有毒」、「價值對齊」、「決策黑盒」),屬於大模型的「基因問題」——龐大的架構、海量的參數、複雜的內部交互機制,讓模型既強大又難以駕馭。
很多人知道「 poem 」複讀漏洞——重複一個詞就能讓ChatGPT 吐出真實個人信息,這是因為大模型學習過程中,除了提取語言知識,也會「背誦」一些數據,結果數據隱私以一種意想不到的荒謬方式被觸發出來。
機器之心曾讓ChatGPT 不斷重複「AI」這個詞,一開始它很聽話,不斷重複,在重複了1395 次「AI」之後,它突然話鋒一轉,開始說起Santa Monica,而這些內容很可能是ChatGPT 訓練資料的一部分。
Prompt 攻擊是因為系統提示和使用者輸入都採用相同的格式-自然語言文字字串,大語言模型沒辦法只根據資料類型來區分指令和輸入。
「越獄」手段也是層出不窮。從「奶奶漏洞」、「冒險家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技術,攻擊者只需三次對話就有65% 的機率繞過安全限制,讓模型產生違禁內容。
Deceptive Delight 攻擊範例,來源Palo Alto Networks
Anthropic 的最新研究更是發現,大語言模式居然學會了「偽裝對齊」。
更令人擔憂的是大模型在產業領域的表現。大模型在通用對話中表現流暢,清華大學、中關村實驗室、螞蟻集團等機構聯合撰寫的《大模型安全實踐( 2024 )》白皮書指出,在金融、醫療等對模型輸出專業性、準確性要求極高領域的應用卻面臨嚴峻挑戰,包括嚴重幻覺、缺乏複雜推理能力。
展望2025 年,智源研究院預測Agentic AI 將成為大模型應用的主要形態,這些具備更強自主性的智能體將深度融入工作與生活,也加劇了系統失控的風險。
試想一下,未來兩到三年內,我們可能生活在一個每個人都有數十或數百名代理為我們工作的世界,安全基礎設施的建設變得尤為重要,誰來提供這些安全基礎設施?如何管理這些AI 代理?如何確保它們不會失控?
目前的大模型安全評測主要聚焦內容安全,對於智慧體這類複雜應用架構和未來AGI 的安全評估系統仍顯不足。
AI 安全風險的另一個主要來源是「衍生安全問題」,隨著AI 濫用引發其他領域的一些重大安全事故,如假新聞、深度偽造詐騙、侵犯知識產權、教唆青少年自殺、作弊,也對社會治理提出了重大挑戰。
「真實」這個基本命題正遭到前所未有挑戰。西藏日喀則地震期間,「地震被壓廢墟下戴帽小孩是AI 生成」的新聞衝上熱搜,很多平台帳號轉發圖片時都以為是真。除了金融詐騙,深度偽造也將網路性暴力推向極端,「厭女文化」盛行的韓國成了重災區。世界經濟論壇甚至把AI 操縱選舉列為2024 年的頭號風險。
這張圖片被平台多個帳號發布,並和這次地震關聯,引發網友關注與轉發。經媒體查證,上述圖片由AI工具創作,原始作者在2024年11月18日發布了相同畫面的短視頻,並聲明是AI生成。
版權是另一個大問題。 OpenAI、Anthropic、Suno 等領頭羊已深陷版權泥潭。最近,愛奇藝起訴某大模型公司AI 魔改經典影視劇片段,開創國內AI 影片侵權訴訟先例。
第三類「外生安全問題」指向了人工智慧系統的外部網路攻擊對抗,如平台、框架安全漏洞、模型被竊、資料外洩風險等,屬於傳統資訊安全範疇。
就拿更加嚴峻的資料外洩來說。目前AI 模型推理比較好的選擇仍是在明文狀態下進行,使用者會輸入大量真實、敏感數據,取得模型建議。有報告指出,2024 年企業員工上傳到生成式AI 工具的敏感資料成長了485% ,包括客戶支援資訊、原始碼和研發資料。
企業在安全培訓和政策制定上的滯後引發了安全性擔憂,由於擔心敏感資料洩露,美國眾議院於2024 年3 月禁止員工使用微軟Copilot。
因為不同類型的資料(如文字、影像、視訊、音訊)在資料規模和處理需求上的巨大差異,被預測寄予厚望的多模態大模型讓資料的安全防護變得更為棘手。
穿越激流,建構多維安全航道
人類叩開了深度智慧時代的大門,安全問題也迎來質變時刻。
2024 年,整個業界、政府、國際組織在AI 治理上做了很多工作,從技術研究、治理框架到國際合作,進行了多種形式探索。數位時代累積的安全對抗能力,讓中國在大模型應用與治理方面走在了世界前面。
在監管層面,中國是全球最早對生成式AI 進行規範的國家之一。繼2023 年5 月發布《生成式人工智慧服務管理暫行辦法》後,《網路安全技術生成式人工智慧服務安全基本要求》也已進入公開徵求意見階段,許多規範正在製定中。
在底層關鍵技術研究上,國內業界取得了正面成果。例如,北京智源研究院研發了防禦大模型和AI 監管大模型,對齊優化方面進行了創新。
因為模型在預訓練後形成的分佈結構較為穩固,大模型存在「抗拒微調對齊」的特性,後期單純透過微調來實現對齊往往效果不理想,對此,智源提出在預訓練階段就將對齊所所需的表徵能力編織入模型架構中。
在對齊優化過程中,針對未對齊答案和對齊答案之間存在的偏差,智源採用了迭代訓練的方法,更有利於模型從原始問題到對齊問題的訓練,取得了良好效果。
在多模态对齐上,智源推出的“align anything ”框架实现了多模态信息的全面对齐,其创新在于将多模态信息、现实世界的具身认知、以及人类意图进行细粒度的对齐整合,在 LLaMA 模型的微调过程中已经展现出显著效果。
同樣是解決大模型的可控性,螞蟻集團的因應之道是把知識圖譜的優點──邏輯推理能力強、知識準確可靠,與大模型結合。透過在大模型預訓練、提示指令、思維鏈、RAG(檢索增強生成)和模型對齊等環節中引入符號知識,有效增強了模型輸出的專業性和可靠性。
大模型作為一種通用技術,既可以用於“攻”,也可以用於“防”。在擁抱大模型,以AI 對抗AI 方面,華為、螞蟻集團、360 集團、深信服等廠商進行了有益探索。
華為提出業界首個L4 級AI 安全智能體,用大模型加上一些安全知識圖譜實現安全的縱深推理,發現一些以前沒有發現過的安全攻擊。
螞蟻集團發布了大模型安全一體化解決方案“蟻天鑑”,包含大模型安全檢測平台“蟻鑑”、大模型風險防禦平台“天鑑”兩大產品,擁有檢測與防禦兩大核心安全技術能力。
「蟻鑑」是全球第一個實現工業級應用的可信任AI 檢測平台,以生成式能力檢測生成式系統,涵蓋了內容安全、資料安全、科技倫理全風險類型,適用文字、表格、圖像、音訊、視訊等全資料模態。
在防禦能力上,「天鑑」會動態監測使用者與模型的交互,防止誘導攻擊,同時對產生的回答內容進行風險過濾,保障大模型上線後從使用者輸入到產生輸出的整體安全防禦。
360 集團推出了基於類腦分區專家協同架構的安全大模型,透過EB 級安全資料訓練,已具備L4 級「自動駕駛」能力,實現了從威脅偵測到溯源分析的全流程自動化。
深信服的「安全GPT 」可提供7×24 小時即時線上智慧值守,提升安全營運效率,同時深入挖掘傳統安全設備難以偵測的高對抗、高繞過的Web 攻擊、釣魚攻擊。
除了監管、關鍵技術的推進,產業也積極加強AI 安全協作。
在安全治理領域,模型的安全評測是一個非常重要的環節。 2024 年4 月,聯合國科技大會發布了兩項大模型安全標準,其中,螞蟻集團牽頭制定《大語言模型安全測試方法》,首次給出四種攻擊強度分類,提供了可衡量的安全評估標準: L1 隨機攻擊、L2 盲盒攻擊、L3 黑盒攻擊和L4 白盒攻擊。
這種分級不僅考慮了攻擊的技術複雜度,更重要的是基於攻擊者能取得的模型資訊程度來劃分,這讓防護措施的部署更有針對性。
在推動國際對話上,2024 年3 月,北京智源研究院發起並承辦我國首個AI 安全國際對話高端閉門論壇,與全球AI 領袖學者及產業專家聯合簽署《北京AI 安全國際共識》,設定模型安全紅線,禁止模型自我演進、自我複製和不受控的權力增長等行為,確保開發者遵循嚴格的安全標準。
9 月威尼斯,一場推動AI 安全的全球對話落幕,圖靈獎得主Yoshua Bengio、姚期智等科學家共同簽署“ AI 安全國際對話威尼斯共識”,強調了人工智慧安全作為“全球公共產品”的重要性。
放眼全球,英美專注於輕觸式監管,美國加州的SB 1047因爭議被否決。歐盟AI 法案已經生效,它建立起四級風險分類體系,明確了人工智慧產品的全生命週期監管要求。
在業界,主要頭部AI 公司相繼發布安全框架。
OpenAI 在核心安全團隊解散後公佈了前10 個安全措施,試圖在技術創新與社會責任之間尋求平衡。
Google 也緊跟著發布了SAIF 安全框架,以應對模型竊取、資料污染等風險。
Anthropic 發布了負責任擴展策略( Responsible Scaling Policy, RSP ),被認為是降低AI 災難性風險(如恐怖分子利用模型製造生物武器)最有前途的方法之一。
RSP 最近更新,引入了更靈活和細緻的風險評估與管理方法,同時堅持不培訓或部署未實施充分保障措施的模型。
一年多前《經濟學人》就開始討論人工智慧的快速發展既讓人興奮,又讓人恐懼,我們該有多擔心?
2024 年初,中國社會科學院大學在研究報告中指出,安全科技將成為社會的公共品,並與人工智慧並列為未來的兩項通用技術。一年後,智源研究院再次呼籲關注安全治理印證了這項戰略判斷的前瞻性,AI 越強大,安全科技價值也在同步放大。
我們不可能丟掉利刃,放棄科技,唯有為其打造足夠安全的刀鞘,讓AI 在造福人類的同時始終處於可控軌道。變與不變中,AI 安全治理或許才是AI 產業永恆的話題。