NeurIPS 2019:英偉達展示基於AI的自動編舞軟件
最近,英偉達宣布了該公司在人工智能(AI)研究領域的諸多進展。比如本月早些時候,該公司就與Hackster合作,在Edge挑戰賽上介紹了自家的AI 。其能夠利用Jetson Nano開發者套件,打造基於神經網絡的新模型。同時,英偉達在11月發布了多模式AI軟件開發套件Jarvis,能夠將多種傳感器整合到一個系統中。此外,該公司設計了一種新算法的原型,可幫助機器人拾取任意物體。
(題圖via Neowin)
不過本文要為大家介紹的,則是英偉達在NeurIPS 2019 上推出的一種基於深度學習的新模型。它能夠根據輸入的音樂,自動生成合適的舞蹈動作。
這款由加州大學和默塞德大學合作開發的能夠自動編舞的軟件,亦被稱作AI Choreographer 。
儘管表面上看起來並不難,但研究團隊注意到:測量音樂和舞蹈之間的精確相關性,仍需考慮諸多的變量,比如音樂的節拍和風格。
為此,研究團隊收集了三種具有代表性的舞蹈類別,分別是芭蕾舞、尊巴舞、以及嘻哈。在分析了36.1 萬段舞蹈剪輯後,研究人員再通過訓練系統來使用對抗網絡(GAN)。
作為分解合成框架的核心組件,GAN的複雜程度如上圖所示(來自:GitHub)
自上而下來看,團隊借助運動節拍檢測器,對從實際舞蹈序列中切割出來的各個單元進行歸一化,然後訓練DU-VAE 對舞蹈單元進行建模。
編舞階段,需給予其一定的音樂與舞蹈數據源,然後藉助MM-GAN 學習如何根據特定音樂來編排各個小節。
測試期間,研究人員從音樂中提取了樣式和節拍,然後以循環方式合成一系列舞蹈單元,最終套上節拍整形器進行梳理輸出。
為了訓練模型,研究團隊使用了PyTorch 深度學習框架和Nvidia Tesla v100 GPU,輔以OpenPose 執行姿勢處理。
後者是一種實時多人系統,用於聯合檢測單個圖像中的人體、手部、面部和足部的關鍵點。
展望未來,Nvidia 計劃將這套方法拓展到其它舞蹈風格,比如流行舞和伴舞。NeurIPS 會議結束後,相關源碼和模型將在GitHub 上發布。