中國研究團隊發布多視角資料集「FreeMan」 解決3D人體姿勢估計局限性
從真實場景中估計人體的三維結構是一項具有挑戰性的任務,對於人工智慧、圖形學和人機互動等領域具有重要意義。然而,現有的3D人體姿態估計資料集通常在受控條件下收集,具有靜態背景,無法代表真實世界場景的多樣性,從而限制了用於真實應用的準確模型的開發。 在這方面,類似於Human3.6M和HuMMan的現有數據集廣泛用於3D人體姿態估計,但它們是在受控的實驗室環境中收集的,無法充分捕捉真實世界環境的複雜性。這些數據集在場景多樣性、人體動作和可擴展性方面存在局限性。研究人員提出了各種模型用於3D人體姿態估計,但由於現有資料集的局限性,它們的效果通常在應用於真實場景時受到阻礙。中國的一支研究團隊推出了“FreeMan”,這個由來自香港中文大學(深圳)和騰訊等機構的團隊共同合作開發的項目,被譽為革新性的多視角數據集,旨在為3D人體姿勢估計領域帶來新的突破。 FreeMan是一個新穎的大規模多視角資料集,旨在解決現有資料集在真實場景中3D人體姿態估計方面的局限性。FreeMan是一項重要的貢獻,旨在促進更準確和穩健模型的開發。FreeMan專案的特點之一是其資料集的規模和多樣性。該資料集由8部智慧型手機在不同場景下的同步錄製組成,包括10個不同場景、27個真實場地,總計包含了超過1,100萬幀的影片。每個場景都涵蓋了不同的照明條件,使得這個資料集成為一個獨一無二的資源。FreeMan資料集的開源是為了促進大規模預訓練資料集的發展,同時也為戶外3D人體姿勢估計提供了全新的基準。這一數據集不僅包括視頻,還提供了豐富的註解訊息,包括2D和3D人體關鍵點、SMPL參數、邊界框等,為研究人員提供了豐富的資源以推動相關領域的研究。值得注意的是,FreeMan引入了相機參數和人體尺度的變化,使其更具代表性。研究團隊開發了自動化的標註流程,以從收集的數據中高效產生精確的3D標註。此流程包括人體偵測、2D關鍵點偵測、3D姿態估計和網格標註。由此產生的資料集對於多種任務都非常有價值,包括單目3D估計、2D到3D轉換、多視角3D估計和人體主體的神經渲染。研究人員提供了對FreeMan進行各種任務的全面評估基線。他們將在FreeMan上訓練的模型與在Human3.6M和HuMMan上訓練的模型的表現進行了比較。值得注意的是,在3DPW資料集上測試時,訓練在FreeMan上的模型表現出顯著更好的效能,突顯了FreeMan在真實場景中的卓越泛化能力。在多視角3D人體姿態估計實驗中,與在Human3.6M上訓練的模型相比,在跨領域資料集上測試時,訓練在FreeMan上的模型表現出更好的泛化能力。結果一致顯示了FreeMan多樣性和規模的優勢。在2D到3D姿態轉換實驗中,FreeMan的挑戰顯而易見,因為在這個資料集上訓練的模型面臨更大的難度。然而,當模型在整個FreeMan訓練集上進行訓練時,其效能得到改善,顯示出該資料集提高模型效能的潛力。FreeMan的可用性預計將推動人體建模、電腦視覺和人機互動領域的進步,彌合了受控實驗室條件與真實場景之間的差距。