預計2024年中期”不良演員”AI將對民主國家構成日常威脅
一項新的研究預測,到2024 年中期,”不良演員”透過傳播虛假訊息造成網路傷害的人工智慧活動將每天都在發生。鑑於包括美國在內的50 多個國家將在今年舉行全國大選,而大選結果將對全球產生影響,這項研究結果令人擔憂。
即使在最新迭代的生成預訓練轉換器(GPT)系統發布之前,人工智慧專家就預測,到2026 年,90% 的線上內容將由電腦生成,無需人工幹預,從而導致錯誤訊息和虛假訊息的傳播。
有一種假設認為,擁有最多用戶的大型社群媒體平台應該受到監管,以控制風險。這種假設在某種程度上是正確的,也使它們成為歐盟《數位服務法》和《人工智慧法》等立法的目標。然而,還有其他一些規模較小的”不良行為者”–蓄意從事對他人造成傷害的行為的個人、團體和國家–也在濫用人工智慧。
喬治華盛頓大學(GW)的研究人員領導的一項新研究首次進行了定量科學分析,研究了不良行為者如何濫用人工智慧和GPT 系統在全球社交媒體平台上造成危害,以及可以採取的應對措施。
「每個人都在談論人工智慧的危險,但在我們的研究之前,這背後沒有任何科學依據,」該研究的主要作者尼爾-約翰遜(Neil Johnson)說。”不深入了解戰場,就無法贏得戰鬥”。
研究人員首先繪製了由相互連結的社群媒體社群組成的動態網路圖,這些社群構成了全球網路人口的全貌。使用者–有時是幾個人,有時是數百萬人–因為共同的興趣愛好而加入這些社區,其中可能包括傷害。研究人員重點研究了極端的”反X”社區,每個社區最近發布的20條帖子中有兩條或兩條以上包含明確的仇恨言論和/或極端民族主義和/或種族主義。這些反X 社群包括反美國、反婦女、反墮胎或反猶太等社群。隨著時間的推移,這些社群之間的聯繫會在不同的社群媒體平台內部和平台之間形成社群群集。
研究人員說:”任何社區A都可以創建一個指向任何社區B 的鏈接(即超鏈接),只要B的內容是A的成員感興趣的。該鏈接將A的成員的注意力引向B,A的成員可以在B的成員不知道該連結的情況下添加對B的評論–因此,社區B的成員可以接觸到社區A 的成員,並受到其潛在的影響”。
透過數學模型,研究人員確定了不良行為者與人工智慧之間可能發生的活動及其原因。具體來說,他們發現最基本的GPT 系統(如GPT-2)就足夠了,而且比更複雜的版本(如GPT-3 或-4)更容易吸引壞人。這是因為GPT-2 可以輕鬆複製極端網路社群中的人類風格和內容,”不良演員”可以利用GPT-2 這樣的基本工具,透過巧妙地改變線上查詢的形式而不改變其含義,從而產生更具煽動性的輸出。相較之下,GPT-3 和-4 包含一個過濾器,可以覆蓋對潛在爭議性提示的回答,從而防止此類輸出。
研究人員說,網路”戰場”上的不良演員-人工智慧活動很可能會蓬勃發展,這就是”不良演員”社區和他們直接連結的社區,也就是脆弱的主流社區。將這些社群加在一起,就相當於一個擁有超過10 億人的線上生態系統,從而使惡人-演員-人工智慧在全球範圍內蓬勃發展。研究人員引用了與COVID-19 以及最近的俄烏戰爭和以色列-哈馬斯戰爭相關的非人工智慧產生的仇恨和極端主義來說明他們的觀點。
他們預測,到2024 年中期,人工智慧的不良行為將成為日常事件。為了確定這一點,他們使用了兩起涉及操縱線上電子系統的歷史性技術相似事件的代理資料:2008 年對美國金融市場的自動演算法攻擊和2013 年中國對美國基礎設施的網路攻擊。透過分析這些資料集,他們推斷出了這兩起事件在當前人工智慧技術進步背景下的攻擊頻率。
2024 年被譽為”史上最大規模的選舉年”,包括美國在內的50 多個國家將在今年舉行全國大選。從俄羅斯、台灣、英國、印度到薩爾瓦多和南非,一些選舉的結果將產生全球性影響,並對人權、經濟、國際關係和世界和平產生巨大影響。因此,研究人員說,在這些選舉期間,壞人利用人工智慧傳播和擴大虛假資訊的威脅是真實存在的。
他們建議社群媒體公司採用遏制假訊息的策略,而不是刪除每一條由不良演員產生的內容。
鑑於人工智慧的發展瞬息萬變,研究人員對其研究結果提出了警告。儘管如此,這項研究還是凸顯了壞人利用人工智慧所帶來的一些重大挑戰。
研究人員說:”由於技術發展日新月異,網路環境瞬息萬變,沒有人能夠準確預測未來不良行為人工智慧會發生什麼,因此嚴格來說,本文中的預測是推測性的。但這些預測都是量化的、可檢驗的,也是可推廣的,因此為加強壞人-人工智慧政策的討論提供了一個具體的出發點”。
該研究發表在《PNAS Nexus》雜誌。