只需2張照片就能2D變3D 這個AI能自己腦補蠟燭吹滅過程
2張廢片啪地一合!錯過的精彩瞬間立刻重現,還能從2D升到3D效果。看,小男孩可愛的笑容馬上躍然浮現:吹滅生日蛋糕蠟燭的瞬間也被還原了出來:
咧嘴笑起來的過程看著也太治癒了吧~
咱就是說,這回相機裡熊孩子/毛孩子的廢片終於有救了!
而且完全看不出是後期合成的效果,彷彿是原生拍攝的一般。
這就是Google、康奈爾大學、華盛頓大學最近聯合推出的成果,能只用2張相近的照片還原出3D瞬間,目前已被CVPR 2022收錄。
論文作者一作、二作均為華人,一作小姐姐本科畢業於浙江大學。
用2張照片正反向預測中間場景
這種方法適用於兩張非常相似的照片,比如連拍時產生的一系列照片。
方法的關鍵在於將2張圖片轉換為一對基於特徵的 分層深度圖像(LDI),並通過場景流進行增強。
整個過程可以把兩張照片分別看做是“起點”和“終點”,然後在這二者之間逐步預測出每一刻的變化。
具體來看,過程如下:
首先,將兩張照片用單應矩陣(homegraphy)對齊,分別預測兩張照片的稠密深度圖。
然後將每個RGBD圖像轉換為彩色的LDI,通過深度感知修復背景中被遮擋的部分。
其中,RGB圖像即為普通RGB圖像+深度圖像。
之後用二維特徵提取器修復LDI的每個顏色層,以獲取特徵層,從而生成兩份特徵圖層。
下一步就到了 模擬場景運動部分。
通過預測兩個輸入圖像之間的深度和光流,就能計算出LDI中每個像素的場景流。
而如果想要兩張圖之間渲染出一個新的視圖、並提升到3D,在此需要將兩組帶特徵值的LDI提升到一對3D點雲中,還要沿著場景流雙向移動到中間的時間點。
然後再將三維的特徵點投影展開,形成正向、反向的二維特徵圖及對應深度圖。
最後將這些映射與時間線中對應時間點的權重線性混合,將結果傳給圖像合成網絡,就能得到最後的效果了。
實驗結果
從數據方面來看,該方法在所有誤差指標上,均高於基線水平。
在UCSD數據集上,這一方法可以保留畫面中的更多細節,如(d)所示。
在NVIDIA數據集上進行消融實驗表明,該方法在提高渲染質量上表現也很nice。
不過也存在一些問題:當兩張圖像之間的改變比較大時,會出現物體錯位的現象。
比如下圖中酒瓶的瓶嘴移動了,不該發生變化的酒杯也搖晃了起來。
還有照片如果沒有拍全的地方,在合成的時候難免會出現“截肢”的情況,比如下圖中餵考拉的手。
團隊介紹
該研究的一作為Qianqian Wang,現在在康奈爾大學讀博四。
她本科畢業於浙江大學,師從周曉巍。
研究興趣為計算機視覺、計算機圖形學和機器學習。
二作是Zhengqi Li,博士畢業於康納爾大學,本科畢業於明尼蘇達大學,目前在Google Research。
曾獲提名CVPR 2019最佳論文,Google2020博士獎研金,2020年Adobe Research獎學金,入圍百度2021年AI華人新星百強榜單。
參與此項研究的還有華盛頓大學教授Brian Curless。
他還提出過另一種方法能夠實現類似效果,同樣只用到了2張照片,通過新型幀插值模型生成連貫的視頻。
論文地址: