完美摳圖王冰冰 位元組實習生開發的AI實現4K60幀視頻實時摳圖
看這一頭蓬鬆的秀髮,加上帥氣的動作,你以為是在綠幕前拍大片? No、No、No…… 這其實是AI拿來視頻即時摳圖后的效果。 沒想到吧,實時視頻摳圖,現在能精細到每一根髮絲。
換到alpha通道再看一眼,不用多說,德芙打錢吧(手動狗頭)。
這就是來自位元組跳動實習生小哥的最新研究:即時高解析度視頻摳圖大法。
無需任何輔助輸入,把視頻丟給這個名為RVM的AI,它分分鐘就能幫你把人像高精度摳出,將背景替換成可以任意二次加工的綠幕。
不信有這麼絲滑? 我們用線上Demo親自嘗試了一波。
相比之下,現在在線會議軟體裡的摳圖,一旦頭髮遮住臉,人就會消失……
頭髮絲更是明顯糊了。
難怪看得網友直言:
不敢想像你們把這隻AI塞進手機裡的樣子。
不敢想像你們把這隻AI塞進手機裡的樣子。
目前,這篇論文已經入選WACV 2022。
你也可以上手一試
目前,RVM已經在GitHub上開源,並給出了兩種試玩途徑:
於是我們也趕緊上手試了試。
先來看看效果:
首先來點難度低的。
對於這種人物在畫面中基本不移動的情況,RVM可以說是表現的非常好,和人工摳圖幾乎無差別。
現在,王冰冰進入動森都毫不違和了。
於是開腦洞,也變得簡單了許多……
咳咳,言歸正傳。 人物動作幅度加大會怎樣呢?
對於多人舞蹈視頻而言,RVM的表現也很nice。
即便動來動去、頭髮亂甩,也沒有影響它的摳圖效果。
只有在人物出現遮擋的情況下,才會出現瑕疵。
對比前輩方法MODNet,確實有不小的進步。
不過我們也發現,如果視頻的背景較暗,就會影響RVM的發揮。
比如在這種背景光線昏暗的情況下,摳圖的效果就非常不盡人意了。
可以看到,博主老哥的頭髮完全糊了。
而且身體的邊界線也不夠清晰。
所以,如果你想自己拍視頻試玩,就一定要選擇光線充足的場景。
利用時間資訊
那麼這樣的「魔法」,具體又是如何實現的?
照例,我們先來扒一扒論文~
實際上,有關視頻摳圖的演算法如今已不鮮見,其中大多數採用的是將視頻中的每一幀作為獨立圖像來實現摳圖的方法。
不同與此,在這篇論文中,研究人員構建了一個循環架構,利用上了視頻的時間資訊,在時間一致性和摳圖品質上取得了明顯改進。
從上圖中可以看出,RVM的網路架構包括3個部分:
特徵提取編碼器,用來提取單幀特徵;
迴圈解碼器,用於匯總時間資訊;
深度引導濾波 (DGF)模組,用於高解析度上採樣。
其中,迴圈機制的引入使得AI能夠在連續的視頻流中自我學習,從而瞭解到哪些資訊需要保留,哪些資訊可以遺忘掉。
具體而言,迴圈解碼器採用了多尺度ConvGRU來聚合時間資訊。 其定義如下:
在這個編碼器-解碼器網路中,AI會完成對高解析度視頻的下採樣,然後再使用DGF對結果進行上採樣。
除此之外,研究人員還提出了一種新的訓練策略:同時使用摳圖和語義分割目標數據集來訓練網路。
這樣做到好處在於:
首先,人像摳圖與人像分割任務密切相關,AI必須學會從語義上理解場景,才能在定位人物主體方面具備魯棒性。
其次,現有的大部分摳圖數據集只提供真實的alpha通道和前景資訊,所以必須對背景圖像進行合成。 但前景和背景的光照往往不同,這就影響了合成的效果。 語義分割數據集的引入可以有效防止過擬合。
最後,語義分割數據集擁有更為豐富的訓練數據。
首先,人像摳圖與人像分割任務密切相關,AI必須學會從語義上理解場景,才能在定位人物主體方面具備魯棒性。
其次,現有的大部分摳圖數據集只提供真實的alpha通道和前景資訊,所以必須對背景圖像進行合成。 但前景和背景的光照往往不同,這就影響了合成的效果。 語義分割數據集的引入可以有效防止過擬合。
最後,語義分割數據集擁有更為豐富的訓練數據。
經過這一番調教之後,RVM和前輩們比起來,有怎樣的改進?
從效果對比中就可以明顯感受到了:
另外,與MODNet相比,RVM更輕更快。
從下面這張表格中可以看出,在1080p視頻上RVM的處理速度是最快的,在512×288上比BGMv2略慢,在4K視頻上則比帶FGF的MODNet慢一點。 研究人員分析,這是因為RVM除了alpha通道外還預判了前景。
更直觀的數據是,在英偉達GTX 1080Ti上,RVM能以76FPS的速度處理4K視頻,以104FPS的速度處理HD視頻。
一作位元組跳動實習生
這篇論文是一作林山川在位元組跳動實習期間完成的。
他本科、碩士均畢業於華盛頓大學,曾先後在Adobe、Facebook等大廠實習。
2021年3月-6月,林山川在位元組跳動實習。 8月剛剛入職微軟。
事實上,林山川此前就曾憑藉AI摳圖大法拿下CVPR 2021最佳學生論文榮譽獎。
他以一作身份發表論文《Real-Time High-Resolution Background Matting》,提出了Background Matting V2方法。
這一方法能夠以30FPS的速度處理4K視頻,以60FPS的速度處理HD視頻。
值得一提的是,Background Matting這一系列方法不止一次中了CVPR。 此前,第一代Background Matting就被CVPR 2020收錄。
兩次論文的通訊作者都是華盛頓大學副教授Ira Kemelmacher-Shlizerman,她的研究方向為計算機視覺、計算機圖形、AR/VR等。
此外,本次論文的二作為Linjie Yang,他是位元組跳動的研究科學家。 本科畢業於清華大學,在香港中文大學獲得博士學位。
對了,除了能在Colab上試用之外,你也可以在網頁版上即時感受一下這隻AI的效果,位址拿好:
https://peterl1n.github.io/RobustVideoMatting/#/demo
GitHub位址:
https://github.com/PeterL1n/RobustVideoMatting
論文位址:
https://arxiv.org/abs/2108.11515
參考連結: