NVIDIA宣稱其AI可以解決視頻通話中的一些最大問題
Nvidia宣佈為開發者推出一款名為Nvidia Maxine的新視頻會議平台,它聲稱可以解決視頻通話中最常見的一些問題。Maxine將使用Nvidia的GPU在雲端處理通話,並在人工智能的幫助下以多種方式提升通話質量。
利用人工智能,Maxine可以重新調整呼叫者的臉部和目光,讓他們始終直視攝像頭,通過只傳輸”關鍵的面部點”,將視頻的帶寬要求”降低到H.264流媒體視頻壓縮標準要求的十分之一”,並提升視頻的分辨率。Maxine提供的其他功能還包括人臉重光、實時翻譯和轉錄,以及動畫頭像。
當然,並非所有這些功能都是新的。視頻壓縮和實時轉錄已經很常見了,微軟和蘋果已經在Surface Pro X和FaceTime中引入了目光對準功能,以確保人們在視頻通話時保持目光接觸。但Nvidia無疑希望其在雲計算領域的影響力以及令人印象深刻的AI研發工作能夠幫助其超越競爭對手。不過,真正的考驗將是看是否有成熟的視頻會議公司真正採用Nvidia的技術。Maxine不是一個消費者平台,而是一個供第三方公司改進自己軟件的工具包。不過到目前為止,Nvidia只宣布了一項合作–與通信公司Avaya合作,後者將使用Maxine的部分功能。
在與記者的電話會議上,Nvidia負責媒體和娛樂的總經理Richard Kerris將Maxine描述為一個”真正令人興奮和非常及時的公告”,並強調其AI驅動的視頻壓縮是一個特別有用的功能。他表示:”我們都經歷過這樣的時刻,在我們現在每天進行的會議中,帶寬一直是一個限制,如果我們將AI應用到這個問題上,我們就可以重構兩端的差異場景,只傳輸需要傳輸的內容,從而大幅降低帶寬。”
Nvidia表示,其壓縮功能使用了一種被稱為生成性對抗網絡或GANs的AI方法,在雲端部分重建呼叫者的面孔。這也是許多深度偽造中使用的技術。人工智能軟件不是將整個屏幕的像素進行流式傳輸,而是分析通話中每個人的關鍵面部點,然後在另一邊的視頻中智能地重新生成面部,該公司在一篇博客文章中表示,這使得在互聯網上來回傳輸數據量少得多的視頻流成為可能。