新型人工智慧演算法可在5秒鐘內從2D影像中建立3D模型
創意產業需要源源不絕的內容才能讓粉絲滿意,而這些內容需要以某種方式創造。說到三維模型,人工智慧演算法可以提供很大的幫助,縮短生成時間。透過使用大型資料集來訓練機器學習演算法,Adobe 公司和澳洲國立大學的研究人員創造出了一種技術,可以在3D 模型創建方面創造奇蹟。
研究人員創建了第一個大型重建模型(LRM),他們認為該模型能夠透過單張二維影像預測三維模型的形狀,而且只需5 秒鐘即可完成。
研究人員在論文中解釋說,先前的三維生成模型是在專注於單一圖像類別的小規模資料集上進行訓練的。相反,他們的LRM 模型具有高度可擴展性、基於變換器的架構,擁有5 億個可學習參數,並已在Objaverse 和MVImgNet 資料集中的約100 萬個3D 物體上進行了訓練。
研究人員解釋說,大容量模型和大規模訓練資料的結合為LRM 演算法提供了”高度通用”的內容創建能力。論文稱,該模型能夠從包括真實世界照片在內的各種測試圖像中生成”高品質”的三維重建。此外,LRM 還能將”正常”影像和由DALL-E 和Stable Diffusion 等人工智慧服務產生的視覺拼湊影像作為其輸入二維模型。
研究的第一作者洪一聰認為,LRM 是單一影像三維重建領域的重大突破。這種人工智慧演算法可以從視訊或形狀圖像中產生詳細的幾何圖形,並保留木紋等複雜紋理。
研究人員指出,LRM 具有潛在的”變革”能力,可應用於設計、娛樂和遊戲等眾多產業。設計師或三維藝術家可以簡化三維建模過程,大大縮短生成電玩遊戲或動畫資產所需的時間。在快速發展的行業中創建三維內容已成為一項挑戰,人工智慧公司正急於提供潛在的解決方案,例如Stability AI 最近推出的Stable 3D 服務。
LRM 也能讓3D 建模的工作普及化,因為”普通”用戶有可能透過智慧型手機拍攝的照片製作出高度精細的模型。儘管LRM 仍面臨挑戰,例如影像隱藏部分的紋理模糊,但它為創意和商業機會開闢了廣闊天地。研究人員提供了一個頁面,上面有視訊演示和互動式3D 網格,展示LRM 目前能做什麼: