換臉已不算事兒能換整個身體的AI偽造技術馬上就來了
在俄羅斯小說家維克多·佩雷溫(Victor Pelevin)的網絡科幻小說《智人》(Homo Zapiens)中,名叫巴比倫·塔塔斯基(Babylen Tatarsky)的詩人被大學老友招募,前往莫斯科擔任廣告撰稿人。憑藉其在文字方面的聰明天賦,塔塔斯基迅速爬上了公司高層,他在那裡發現,當時有很多事情實際上都是虛擬模擬的結果。而隨著越來越複雜的深度偽造(Deepfake)應用出現,讓人不禁覺得佩雷溫的設想似乎正在慢慢變成現實。
圖:加州大學伯克利分校研究人員發布的《人人皆為舞王》論文和視頻,展示了深度學習算法將專業舞者的動作轉移到業餘愛好者身上的場景
在深度偽造領域,或者研究人員所謂的“合成媒體”領域,大部分注意力都集中在可能對現實造成嚴重破壞的換臉以及其他深度學習算法帶來的危害上,例如模仿某人的寫作風格和聲音。但是合成媒體技術的另一個分支正取得快速進步,即人體深度偽造。
2018年8月,美國加州大學伯克利分校的研究人員發布了名為《人人皆為舞王》(Everybody Dance Now)的論文和視頻,展示了深度學習算法如何將專業舞者的動作轉移到業餘愛好者身上的場景。雖然這種技術依然處於早期階段,但它表明機器學習研究人員正在應對更困難的任務,即創建全身深度偽造視頻。
同樣在2018年,由德國海德堡大學圖像處理合作實驗室(HCI)和科學計算跨學科中心(IWR)的計算機視覺教授比約恩·奧默爾(Bj?rn Ommer)博士領導的研究小組,發表了一篇關於教授機器以逼真形態渲染人類身體運動的論文。今年4月,日本人工智能(AI)公司Data Grid開發了一種AI應用,它可以自動生成不存在的人的全身模型,並可以將其應用到時尚和服裝行業。
雖然很明顯,全身深度偽造技術具有有趣的商業應用潛力,如在深度偽造舞蹈視頻或體育和生物醫學研究等領域,但在當今社會中,惡意使用案例越來越令人擔憂。目前,全身深度偽造技術還不能完全愚弄人類的眼睛,但就像任何深度學習技術一樣,它正慢慢取得進步。全身深度偽造還需要多久就能變得與現實無法區分?這可能只是時間問題。
合成整個人體
為了創造深度偽造視頻,計算機科學家需要使用生成性對抗網絡(GANS)。這是由兩個神經網絡組成的,分別是合成器或稱為生成網絡,以及檢測器或稱鑑別網絡,這些神經網絡在精煉的反饋迴路中工作,以創建逼真的合成圖像和視頻。合成器利用數據庫創建圖像,而後者從利用其他的數據庫,確定合成器給出的圖像是否準確和可信。
第一次惡意使用深度偽造技術出現在Reddit上,像斯嘉麗·約翰遜(Scarlett Johansson)這樣的女演員的臉被換到色情演員身上。Fast.AI公司的雷切爾·托馬斯(Rachel Thomas)表示,當前95%的深度偽造旨在用合成色情行為圖像騷擾某些人。他說:“這些深度偽造視頻中,有些並不一定使用了非常複雜的技術。但是,這種情況正逐漸發生改變。”
達特茅斯大學計算機科學系主席、專門研究打擊視頻偽造的圖像取證專家哈尼·法里德(Hany Farid)指出,深度偽造應用Zao說明了這項技術在不到兩年的時間裡發展的速度有多快。法里德說:“從Zao身上,我發現這種技術已經變得非常好,並且抹掉了很多人工痕跡,比如電影版本中的臉部閃爍問題。雖然情況正在改善,但將其大規模運行,下載給數百萬人,依然很難。這也正是深度偽造技術成熟的標誌。”
海德堡大學的奧默爾教授領導著一個研究和開發全身合成媒體的團隊。與該領域的大多數研究人員一樣,該團隊的總體目標是理解圖像,並教授機器如何理解圖像和視頻。最終,他希望團隊能夠更好地理解人類是如何理解圖像的。
合成面部和整個身體的過程之間存在著關鍵性差異。奧默爾說,對人臉合成已經進行了許多研究,這其中有幾個原因:首先,任何數碼相機或智能手機都有內置的面部檢測技術,這項技術可用於微笑檢測等任務,或用於識別觀眾正在看的人的身份。這樣的用例可以產生收入,以支持更多的研究。但是,正如奧默爾所說,它們也導致了“大量的數據集組裝、數據整理和獲取面部圖像,這些都是深度學習研究的基礎。”
其次,也是奧默爾更感興趣的,雖然每個人的臉看起來都不同,但當把臉與整個人體進行比較時,它的變化可能更小。奧默爾解釋稱:“這就是為何對臉部的研究已經到了瓶頸階段的原因,與整個人體相比,臉部研究已經十分透徹,但身體有更多的可變性,處理起來也更複雜。如果你在朝那個方向研究,你會學到更多的東西。”
奧默爾不確定何時完全合成的身體將具有他和研究人員想要的質量。然而,從惡意深度偽造技術的日益成熟來看,奧默爾注意到,即使沒有深度學習計算機視覺智能、AI或其他技術創建的虛假圖像或視頻,人類非常容易受到欺騙。美國眾議院議長南希·佩洛西(Nancy Pelosi)放慢速度的視頻讓她看起來像是喝醉了酒。這段視頻向奧默爾表明,這種簡單扭曲的深度偽造技術即將出現,並可能會被某些人所利用。
奧默爾說:“但是,如果你想讓它產生更大的吸引力,可能還需要幾年的時間,那時全身和其他深度偽造技術將變得更便宜,更普遍。研究社區本身已經朝著這個方向前進,他們需要為我們看到的這種穩定進步負責,算法很容易獲得,比如在Github上等等。所以,你可以從某些論文中找到可以下載的最新代碼,然後在沒有太多知識的情況下,應用它即可。”
改變事實真相
並不是每個人都能創造出深度偽造行業的“重磅炸彈”。但是若給予更多的時間,金錢將不再是限制計算資源的問題,軟件的適用性也將變得更容易。法里德稱,有了全身深度偽造技術,惡意的創作者將能夠使用深度偽造技術的典型靜態人物直接對著攝像頭講話,指示目標去做他們永遠不會去做的事情,或說他們不可能說的話。
隨著2017年深度偽造技術的崛起,調查記者、佛蘭芒廣播公司駐外記者湯姆·范德韋格(Tom Van De Weghe)開始研究合成媒體。2018年夏天,他開始在斯坦福大學建立研究獎學金,以研究打擊惡意使用深度偽造技術的方法。他說:“受威脅最大的不是大人物,而是像你、我、女記者這樣的普通人,以及某種程度上的邊緣群體,他們可能成為或已經成為深度偽造的受害者。”
兩週前,荷蘭新聞主播迪翁·斯塔克斯(Dionne Stax)的相關視頻被上傳到某非法網站並在互聯網上發布,她的臉被“深度偽造”到了一位色情女演員的身體上。雖然該非法網站迅速刪除了視頻,但范德韋格表示,斯塔克斯的聲譽已經受到損害。
要想了解全身深度偽造技術的效果,范德韋格提到了2018年CNN駐白宮首席記者吉姆·阿科斯塔(Jim Acosta)的視頻。在Infowars的編輯保羅·約瑟夫·沃森(Paul Joseph Watson)上傳的一段視頻片段中,阿科斯塔似乎在猛推試圖拿走其麥克風的白宮工作人員。
但由C-SPAN播放的原始視頻與沃森上傳的視頻內容截然不同。沃森聲稱,他沒有篡改視頻片段,並將這種差異歸因於人為的“視頻壓縮”所致。但是,正如《獨立報》在編輯時間線中對視頻進行並排分析中所展示的那樣,沃森的視頻與原始視頻相比缺失了幾幀。全身的深度偽造就像編輯視頻幀一樣,可以改變事件的真實性。
Deeptrace實驗室成立於2018年,是一家網絡安全公司,它正在構建基於計算機視覺和深度學習的工具,以分析和理解視頻,特別是那些可以被任何類型AI操縱或合成的視頻。公司創始人喬治·帕特里尼(Giorgio Patrini)曾是阿姆斯特丹大學三角洲實驗室(Delta Lab)深度學習的博士後研究員。他說,幾年前他開始研究防止或防範未來對合成媒體濫用的技術。
帕特里尼相信,惡意的深度偽造視頻由合成的全身、面部和音頻組成,很快就會被用來攻擊記者和政客。他指著一段深度偽造的色情視頻稱,視頻中印度記者拉娜·阿尤布(Rana Ayyub)的臉被換到了一名色情女演員的身體上,這是一場造謠運動的一部分,目的是詆毀她的調查性報導。
《華爾街日報》最近報導稱,一家英國能源公司的首席執行官被騙將24.3萬美元資金轉到了匈牙利供應商的賬戶上。這位高管說,他以為自己是在老闆對話,後者似乎已經批准了這筆交易。現在,這位首席執行官認為,他是一場音頻深度偽造騙局的受害者。法里德認為,其他欺詐性的深度偽造犯罪出現只是時間問題,可能包括全身深度偽造。
法里德說:“我可以製作一段傑夫·貝索斯(Jeff Bezos)的深度偽造視頻,他說亞馬遜的股票正在下跌,想想做空亞馬遜股票可以賺到多少錢。當你控制住它傳播的時候,損害已經造成了。”
法里德認為,社交媒體和深度偽造技術的結合,無論是面部還是全身偽造,都很容易造成嚴重破壞。社交媒體公司在很大程度上不能或不願意審查他們的平台和內容,所以深度偽造內容可能會像野火一樣傳播。他說:“當你將創造深度偽造內容的能力與在全球範圍內分發和消費它們的能力結合起來時,這會造成巨大影響。”
正如隱私學者丹妮爾·西特龍(Danielle Citron)所指出的那樣,當深度偽造視頻被揭穿時,它可以向那些購買謊言的人暗示,這樣做是值得的。西特龍稱其為“騙子的紅利”。法里德認為,全身深度偽造技術的進步將使這種邪惡深度偽造的整體問題變得更糟。這項技術發展迅速,它受到大學研究“人人皆為舞王”以及諸如Zao等深度偽造應用貨幣化的推動。
法里德說:“一旦你能偽造全部人體都工作,就不會滿足再模仿面部了,你可以模擬人們不同場景下發生的活動。這樣的場景即將成為現實嗎?可能不會在近期出現。但最終,在一兩年內,人們將能夠實現全身深度偽造,而且它將具有令人難以置信的強大功能。”
行業反應
目前,在科技行業中還沒有找到根除深度偽造的共識方法,許多不同的技術正在研究和測試中。例如,范德韋格的研究團隊創造了各種探索深度偽造視頻方法的內部挑戰。一個團隊調查鏡頭的數字水印,以識別深度偽造內容。另一個團隊使用區塊鏈技術來建立信任,這是它的優勢之一。還有一個團隊通過使用最初創偽造視頻的相同深度學習技術來識別它們。
范德韋格表示:“有些斯坦福大學的輟學生創造了AI神探夏洛克,這是一種深度偽造視頻自動檢測工具。他們取樣了某些卷積模型,然後在視頻中尋找異常。這是一種被其他深度偽造探測器使用的程序,比如Deeptrace實驗室。他們使用名為FaceForensics+的數據集,然後對其進行測試。這種技術的識別準確率高達97%,而且更擅長識別換臉。”
Deeptrace實驗室基於API的監控系統可以看到深度偽造視頻的創建、上傳和共享。自2018年成立以來,該公司已經在互聯網上發現了超過1.4萬個假視頻。Deeptrace實驗室的系統收集的信息可以告知公司及其客戶,偽造者正在製造什麼樣的深度假視頻,假視頻來自哪裡,他們正在使用什麼算法,以及這些工具的可訪問性如何。
帕特里尼說,他的研究小組發現,95%的深度偽造視頻是色情類別中的換臉,其中大多數是名人被換臉。到目前為止,Deeptrace實驗室還沒有看到任何全身合成技術出現。帕特里尼指出:“你不能用一個算法或想法來總結這些問題的解決方案,這需要構建幾個可以告訴你關於合成媒體整體不同信息的工具。”
范德韋格認為,探測深度偽造技術的下一件大事將是“軟”生物特徵簽名。每個人都有自己獨特的面部特徵,比如揚起的眉毛、嘴唇的動作以及手部動作等,這些都是獨一無二的。加州大學伯克利分校的研究員舒迪·阿加瓦爾(Shruti Agarwal)使用這類軟生物識別模型,來確定這種面部抽搐是否是為視頻人工創建的。
阿加瓦爾今年6月接受采訪時表示:“基本想法是,我們可以為一些人建立軟生物識別模型,然後當視頻開始瘋傳時,我們可以分析它們,努力確定它們是否是真實的。”
儘管阿加瓦爾的模型不是完全可靠,因為不同情況下的人們可能使用不同的面部抽搐,但范德韋格認為,公司可以在未來提供用於身份驗證目的軟生物特徵簽名。這樣的簽名可以是眾所周知的眼睛掃描或全身掃描。他說:“我認為這是未來技術前進的方向:與學者和大型科技公司合作創建更大的數據集。作為新聞編輯部,我們應該嘗試培訓人員,並建立關於深度偽造視頻的媒體素養。”
最近,Facebook和微軟正與大學合作推出“深度偽造視頻探測挑戰賽”。另一項值得注意的努力是美國國防高級研究計劃局(DARPA)的項目,即通過語義取證來解決深度偽造問題,該機構尋找算法錯誤,例如在深度偽造視頻中發現某個人佩戴的耳環不匹配。2018年9月,AI基金會籌集了1000萬美元資金,用於創建一個工具,通過機器學習和人類版主識別深層偽造和其他惡意內容。
為何深度偽造難監管
Fast.AI的托馬斯說:“在短期內,推廣虛假信息和其他有毒、煽動性內容對主要平台來說是有利可圖的,所以我們的激勵機製完全不一致。我不認為這些平台應該對它們託管的內容負責,但我確實認為它們應該對它們積極宣傳的內容負責。例如,YouTube向那些甚至沒有尋找的人推薦了160億次亞歷克斯·瓊斯(Alex Jones)的視頻。”
Deeptrace實驗室的帕特里尼說,對合成媒體的監管可能證明是複雜的。但是,他相信某些現行的法律,比如那些涵蓋誹謗和版權的法律,可以用來監管惡意的深度偽造行為。帕特里尼說,阻止深度偽造的全面法律將會被誤導。相反,他認為應該支持造福社會的合成媒體應用,同時資助研究開發工具來檢測深度偽造內容,並鼓勵初創企業和其他公司也這樣做。
帕特里尼說:“我們還可以告訴大眾,這項技術已經存在,我們需要重新訓練我們的耳朵和眼睛,不要相信我們在互聯網上看到和聽到的一切。我們需要為人和社會接種’疫苗’,而不是在兩年內修復東西,因為濫用這項技術可能會引發許多災難性或有爭議的事情。”
奧默爾稱:“我們都看到了圖像理解的應用及其潛在的好處,但這涉及非常重要的責任問題,誰將為此承擔責任?公司很可能為了股東的利益著想也需要明確自己的責任。但是,我們都知道他們到目前為止是如何處理這一責任的。這是個非常棘手的問題,它們只是希望深度偽造視頻自然而然地消失,但這顯然是不現實的。”(選自:Fastcompany 作者:DJ Pangburn 編譯:網易智能參與:小小)