從AI換臉到AI開會潘多拉的魔盒會否打開?
新冠疫情讓我們實踐了史上最大規模的遠程辦公和線上學習,我們使用的Zoom和釘釘等遠程辦公工具,正經歷著前所未有的需求增長。微軟Teams僅一周就新增1200萬用戶,從3200萬增長到4400萬;Zoom更是在短短兩個多月使用戶量翻了20倍,達到2億。
可以說疫情改變了全球的工作方式,也改變了學生群體的學習、答辯甚至畢業方式。在疫情蔓延的地區,有些高校畢業生甚至被告知將原地畢業。
在家的枯燥讓不少人迷上了AI換臉,將自己的臉替換成別人的臉,以此來增加樂趣。遠程辦公、線上學習的局限性,也讓一些人想出五花八門的“摸魚”方式,甚至想通過AI克隆另一個自己,代替自己辦公和學習。
那麼,從AI換臉到AI克隆,是AI的又一大進步還是新一個潘多拉魔盒的打開?未來,
有沒有可能真的出現這樣的場景:當我們打開視頻會議,參加的卻全都是AI替身?
AI換臉並不新奇
AI換臉可以追溯到2017 年底,國外論壇就出現了ID 為“deepfakes”的用戶,
該用戶發布了通過機器學習來更換視頻人臉的AI 算法。不過當時該技術的使用門檻還比較高,需要編譯代碼等操作。
一個月後,
有人將他公開的的算法加以改造並推出簡易版AI 換臉工具“FakeApp”。這次,就算是普通用戶,也能夠順利操作。
FakeApp 令AI 換臉的使用門檻大幅降低,不過它還是需要一定的準備工作。首先它需要安裝額外的運行庫;其次它對硬件有需求,需要高性能顯卡參與運算,其中對N 卡的兼容最好。
FakeApp還需要較新版的Windows 10系統才可以安裝,運行起來還得等待一段時間———因為過程越久效果越好,畢竟機器學習還是需要足夠的時長和样本;最後,FakeApp就可以生成幾乎以假亂真的AI換臉視頻了。
AI換臉裡有一個關鍵的項目,那就是一階運動模型。
一階運動模型(動畫模型)是用一組自學習的關鍵點+局部仿射變化來建立復雜的運動模型,其目的是為了解決在大目標姿勢動態變化的情況下,傳統模型生成質量差的問題。模型採用自監督的方法將外觀和運動信息分離,主要由兩個主要模塊組成:運動估計模塊和圖像生成模塊。
運動估計模塊的目的在於預測密集的運動場,此處假設存在一個抽象的參考坐標,並預估存在’從參考到源(from reference to source)’和’從參考到驅動(from reference to driving)’兩種轉換。因此可以獨立處理源幀和驅動幀。做這樣的處理是因為模型在測試時會接收從不同視頻中採樣的源圖像幀和驅動幀的組,從視覺上來說可能會很不同。
第一步,研究者使用通過自監督方式學習的特徵點獲得稀疏軌跡集來近似計算兩種轉換。與僅使用特徵點位移相比,使用局部仿射變換對每個特徵點附近的運動進行建模能夠獲得更多的變換。
第二步,一個密集的運動網絡能將局部仿射組合起來,獲得最終的密集運動場。除此之外,該網絡還可輸出遮擋遮罩,遮擋遮罩會顯示driving 的哪些部分可以通過變形源圖像來重構,哪些部分該修復。
最終,生成模塊渲染源對象的圖像。這裡使用了一個生成器網絡,可根據密集運動對源圖像進行變形,並修復源圖像中被遮擋的部分。
簡單講,一階運動模型的優勢在於一旦經過一組描述相同類別對象的視頻訓練(例如人臉、人體),這種方法就可以應用於此類的任何對象。
從AI換臉到AI克隆
最近,一位名為馬特· 里德(Matt Reed)的工程師,
就在一階運動模型的基礎上成功開發出了代替自己參加ZOOM 視頻會議的AI。
整個方案並不復雜,據里德介紹,他先截了一些自己通過Zoom 開會的圖片,然後基於Artyom.js 開源庫(進行偵聽和響應)構建了一個簡單的Web 應用程序,對其進行編程以便可以聽懂一些簡單的對話,比如“你好嗎?”、“你明白了嗎”、“再見”等。
理想情況下,Zoombot 可以處理從“Hello”到“Bye”的整個會議過程而不會引起任何人注意。但是,現階段的項目更多是出於興趣建立的,還不是很完善。
里德認為比較好的部分是不必給它一個像“Hey,Siri”這樣的喚醒詞就可以開始使用。只要外界有語音觸發,它就可以響應並配合臉部的運動給出答复。
Zoombot 項目的構建一共花費了大約四個小時,而里德又花了大約四個小時來組織Zoom 會議並記錄同事們的真實反應。里德調侃道:“訣竅是在聊完之前就離開會議室,因為一旦進入“我聽不到你的聲音,可以重複一遍嗎?”的死循環中就麻煩了。
潘多拉的魔盒會否打開
當然,里德在真實的視頻會議中使用他的Zoombot 時,確實給已經對視頻會議日益麻木的同事們帶來了很多歡樂。
但歡樂的背後帶來的往往是更深的警惕。
AI 換臉不得不面臨的風險問題,首先是對於信息的真實性形成嚴峻的挑戰。PS 發明後,有圖不再有真相; AI 視頻換臉技術的出現,則讓視頻也開始變得鏡花水月了起來。人們普遍認為視頻可以擔當“實錘”,而現在這把實錘竟可憑空製造。對於本來就假消息滿天飛的互聯網來說,這無疑會造成更嚴重的信任崩塌。
其次,這會大大增加侵犯肖像權的可能性,沒人願意自己的臉龐出現在莫名其妙的視頻當中。和多用途的PS 等修圖軟件不同,AI 換臉技術的功能只有一個,那就是換臉。從這個角度來說,它的存在天然就是一種對肖像權的威脅。
換言之,AI 換臉技術或許玩著有趣,然而真正的問題在於,這樣風險百出的技術我們到底玩不玩得起?
隨著AI換臉的普遍出現,AI變聲也開始展露頭角,
谷歌之前曾經研究過AI 變聲的相關技術,但並沒有大規模實裝。但是國內廠商則更加激進,不少研究輸入法的廠商都已經嘗試在產品當中推廣AI 變聲功能。
在一些輸入法當中,現在就可以找到AI 變聲的開關。在輸入一段語音後,等待片刻即可生成特定音調和音色的語音,擬真度相當出色。
Modulate.ai這個網站就提供了AI 變聲服務,甚至連奧巴馬的聲音都能被完美模仿。
AI 變聲技術已經逐漸成熟,它和AI 換臉技術結合後將會形成威力無窮的組合拳。就在2019 年3 月份,《華爾街日報》報導顯示,有犯罪分子使用AI 技術成功模仿了英國某能源公司在德國母公司CEO 的聲音,詐騙了220 000 歐元(約1 730 806 人民幣)。僅僅依靠AI 變聲就能釀造出一宗如此重大的詐騙案,AI 騙術的威力可見一斑。
甚至,AI變聲都不是AI技術的終點,里德的Zoombot就似乎是一個暗喻。
未來,我們或許不僅可以看到逼真的AI 換臉、AI 變聲,甚至可能連應答都由AI 來完成。
當AI 能自動生成以假亂真的面容、聲音乃至語言的時候,互聯網乃至整個社會該如何應對這種身份信息混亂的局面?
今天,一些銀行基於人工智能,推出人臉識別的網絡支付轉賬系統來進行大額轉賬。這項技術看起來很“完美”、很安全,但是在AI變臉技術面前,或許這項技術會成為最脆弱的安全防禦技術。
或許有一天,任何人發布或者引用的任何資料,都有理由被質疑存在刻意或無意的修正。
而比這更可怕的是我們甚至不知道自己正在被欺騙。
如果夠幸運,人們或許會發現,從遙遠的那一天起,又一個潘多拉魔盒正在被開啟。科技正在以我們難以預見的方式發展、演變,而這將給當下的全球治理與法律監管體繫帶來巨大的挑戰。