樂高不會拼了?這款AI能幫你根據手冊拼搭出成品
被樂高套裝難住了?最新開發的機器學習框架能夠引導你拼接完成。來自斯坦福大學、麻省理工大學加速季科學和人工智能實驗室、Autodeck AI 實驗室的科研團隊聯合開發了一種基於機器學習的框架,能夠根據2D 拼搭指導手冊來展示3D 效果。
該框架叫做Manual-to-Executable-Plan Network(簡稱MEPNet),目前已經在多款計算機生成的樂高套裝、真實的樂高套裝指南和Minecraft 風格的立體建築上成功測試,科研人員表示其性能已經超過現有其他版本。
對於人工智能來說,理解2D 指導手冊並不容易。研究人員表示,視覺指令有幾個關鍵問題,就像樂高套裝一樣,完全由圖像組成:識別2D 和3D 對象之間的對應關係,以及處理許多基本部件都非常困難。
研究人員表示在,任何復雜的樂高套裝都是建立在基礎的樂高磚塊上。研究人員表示這增加了機器對樂高手冊的理解難度,它需要推斷由可見圖元組成的不可見物體的3D 姿勢。
研究人員表示,現有的將手動步驟解析為機器可執行計劃的方法主要包括兩種形式:基於搜索的方法,簡單準確但計算成本高;以及基於學習的模型,這些模型速度很快,但不太擅長處理看不見的3D 形狀。
研究人員說,MEPNet 結合了兩者。研究人員寫道,從組件的3D 模型、樂高集的當前狀態和2D 手動圖像開始,MEPNet “預測每個組件的一組2D 關鍵點和掩碼”。
完成後,2D 關鍵點“通過找到基本形狀和新組件之間的可能連接,反向投影到3D”。該團隊寫道,這種組合“保持了基於學習的模型的效率,並更好地推廣到看不見的3D 組件”。在論文中,研究人員表示,他們的目標是創造幫助人們組裝複雜物體的機器,他們的應用列表中包括家具、樂高積木和像素世界。