靠網上曬的景點照就能還原3D建模浙大團隊這是要帶我們雲旅遊?
以NeRF為代表的神經渲染技術高速發展,學界已經不滿足合成幾個新視角讓照片動起來了。接下來要挑戰的是根據照片直接輸出3D模型,可以直接導入到電影、遊戲和VR等圖形生產線裡的那種。
所用照片不是出自高質量數據庫,就是直接從網上蒐集遊客拍攝的各大景點,設備、天氣、距離角度等都會不一致。
生成的結果遠看結構完整,近看細節豐富,如果你有VR設備也可以在Demo中直接預覽3D版。
這項最新突破由浙江大學和康奈爾大學團隊合作完成,登上圖形學頂會SIGGRAPH 2022。
而在這之前,同類技術生成的3D模型連形狀完整都做不到。
看到這裡,網友紛紛表示這個領域的進展比人們想像的要快。
“慢點學,等等我”。
那麼,這項研究靠什麼取得了突破?
融合兩種採樣方式
具體來說,這項研究的基本框架借鑒了NeurIPS 2021上的NeuS,一種把隱式神經標準和體積渲染結合起來的方法。
但是NeuS使用基於球體的採樣(Sphere-based sampling)方法,對於近景、小物體來說還算適合。
用於結構複雜的大型建築物的話會有大量採樣點採在空白區域,增加大量不必要的計算壓力。
為解決這個問題,研究人員提出體素引導(Voxel-guided)和表面引導(Surface -guided)混合的新採樣方法。
體素引導可以避免不必要的浪費,訓練時所需射線(Traning ray)可以減少30%。
再結合表面引導增加真實曲面周圍的採樣密度,幫助神經網絡更好擬合,避免丟失細節。
在消融實驗中可以看到,僅使用體素引導方法收斂的比基於球體的方法快,但不如混合方法細節豐富。
與之前同類研究對比,新方法生成模型的完整性和細節方面更出色。
訓練速度上也有明顯優勢,特別是在大型場景墨西哥城美術宮(PBA)。
△
Ours為完全收斂結果,帶小人圖標的是訓練過程中一個檢查點
當然,新方法也不是完全沒有缺點。
一個繼承自NeRF的局限性是,如果相機位置校準有偏差會影響最終結果。
還有一個難以解決的問題,就是照片拍不到的建築物背面和內部就無法精確重建了。
還有一件事
最後再補充一點,浙大團隊中一些成員,之前還研究了神經3D人體重建。
可應用於為體育比賽提供自由視角的視頻重放。
也是666了。
來源:量子位