新深度偽造算法讓你可以用文本方式編輯視頻講話者的話

據外媒報導，現在一項新的技術可以讓你添加、刪除或編輯視頻裡說話者所說的文字，而這一切就像在文字處理器上編輯文本那麼簡單。獲悉，一種新的深度偽造(deepfake)算法可以將音頻和視頻處理成一個新文件。

由來自斯坦福大學、馬克斯普朗克信息學研究所、普林斯頓大學以及Adobe研究所的研究人員組成的研究團隊開發了這樣一套算法。

為了學習說話者的面部動作，該算法大概需要40分鐘接受訓練視頻和說話者文字記錄，所以如果想要得到好的結果就不能只用一個簡短的視頻。40分鐘可以讓算法能夠精確地計算出受試者為原始腳本中的每個語音音節做出的臉型。

在此基礎上，當人們編輯腳本，算法就可以創建人臉的3D模型並生成所需的新形狀。一種叫做神經渲染(Neural Rendering)的機器學習技術可以用真實感紋理繪製出3D模型，使其看起來與真實物體基本沒有區別。

不過研究團隊也意識到了該算法在不道德領域的使用潛力。雖然世界上還沒有發生一起深度造假醜聞，但不難想像，在沒有受過教育的觀眾面前，深度造假是一種極其有效的欺騙工具。更令人擔憂的是，它們的存在會讓不誠實的公眾人物否認或質疑真實但可能影響到他們個人形象的視頻。

對此，研究團隊提出了一個解決方案，即任何使用該軟件的人都可以選擇性地加上水印並提供完整的編輯文件，但這顯然不是阻止濫用的最有效辦法。

另外，該團隊還建議其他研究人員開發出更好的取證技術來以確定某一視頻是否被別有用心的人改過。事實上，區塊鍊式的永久記錄在這裡有著一些潛力，它將允許任何一段視頻可以回到其原始狀態來進行比較。但這樣的技術還沒到位也不清楚如何在全球範圍內推行。

在非指紋識別方面，許多深度學習應用已經在研究如何識別贗品等問題。通過生成對抗性網絡的方法，兩個網絡相互競爭–一個生成一個假冒產品，另一個試圖從真品中挑出假貨。經過不斷的學習，識別網絡在識別贗品方面開始做得越來越好，而伴隨越做越好，生成贗品的網絡就也就必須變得越好，才能達到欺騙的目的。

因此，這些系統在自動識別假視頻方面做得越好，假視頻也就會變得越好。所以很顯然，識別偽造視頻是一個複雜而嚴重的問題，在未來幾十年裡，它幾乎肯定會對新聞報導產生重大影響。

WONGCW 網誌