Nvidia研究人員提出用2D圖像生成3D對象的渲染框架的方法
外媒報導稱,計算機很擅長計算3D模型,並將之放在2D屏幕上作展示。但若要將2D圖像逆推成3D模型,計算機就有些力不從心了。好消息是,在機器學習技術的加持下,英偉達研究人員已經提出了一種類似的渲染框架。其通過AI來獲取2D信息,並將之準確地轉換為3D對象——這套系統被稱作DIB-R 。
(題圖via TechSpot)
DIB-R 的全稱是“基於可微分插值計算的渲染器”,底層由PyTorch 機器學習框架構建。在本周於溫哥華舉辦的年度神經信息處理系統會議上,英偉達研究團隊介紹了他們的最新進展。
該框架的工作原理,幾乎是與GPU 的日常工作反過來幹。它需要分析2D 圖像,然後形成一個高保真的3D 對象,包括形狀、紋理、顏色和照明。
編解碼器的體系結構,會從多變球形開始,並使用2D 圖像中給定的信息,對其進行變形處理。值得一提的是,該流程僅需1 / 10 秒。
若使用單個英偉達V100 GPU 進行訓練,需要對神經網絡展開為期2 天的訓練。若使用其它GPU 進行訓練,更需要耗費數週的時間。
在對其投餵了包含鳥類圖片的多個數據集之後,DIB-R 能夠在給出單個圖像時,準確地創建3D 模型。
不過論文合著者Jun Gao 表示,該系統還可將任何2D 圖像渲染為3D 模型:“實際上,這是有史以來的第一次,您幾乎可以拍攝任何2D 圖像,並預測相關的3D 屬性”。
研究人員認為,該系統可用於自主式機器人的深度感知應用,從而增強其在現實環境中工作時的安全性和準確性。通過這樣的三維化處理,機器人能夠更好地導航、以及操縱其需要處理的對象。
據悉,英偉達已將DIB-R 添加到其3D 深度學習的PyTorch GitHub 庫中(Kaolin),以幫助研究人員加速3D 深度學習實驗。