清華大學發布全球最大的公開人臉數據集含數百萬ID和數億圖片
近年來,經過業界多年來在數據集構建、神經網絡架構、損失函數設計等方面的詳盡研究,人臉識別技術在識別精度上已經取得了長足進步,並實現了大規模落地。但當前人臉識別仍然面臨公開數據規模小、標準混雜、測評無法對齊等問題。
其中,目前公開的人臉識別訓練數據集中,規模最大的是MegaFace2和MS1M,分別僅擁有67.2萬ID和470萬圖片,以及10萬ID和1000萬圖片,遠遠無法滿足實際人臉識別系統的數據需求。可以說,公開數據規模與實際落地系統所需數據規模之間的巨大差距,已經較大程度上阻礙了當前人臉識別相關技術的持續發展。
另一方面,評測準則和測試集也是影響人臉識別技術進一步發展的重要製約因素。目前公開的人臉識別評測集在精度上基本已經比較飽和。同時這些測試集對於人臉識別不同場景下的分類測評不夠細緻,沒有持續迭代、升級和維護,也沒有根據實際應用限制搭建評測準則。
業界公認,NIST-FRVT是目前唯一符合現實應用的測評系統。然而,由於NIST-FRVT對提交頻率和提交條件的嚴格要求,一定程度上也限制了人臉識別技術的發展。
基於當前行業的現狀,芯翌科技與清華大學的研究人員在FRVT參賽基礎上,完全基於全球互聯網公開人臉數據,聯合推出了當前全球規模最大的人臉數據集WebFace260M,人臉ID數目首次達到數百萬,圖片數目首次達到數億規模,將很大程度上推動以深度學習為基礎的人臉識別相關技術發展。
WebFace260M數據集和公開數據集在人臉ID和數量上的比較
同時在WebFace260M的基礎上,芯翌科技和清華大學的研究人員採用自訓練全自動迭代的清洗流程(Cleaning Automatically by Self-Training, CAST),得到WebFace42M,是目前全球規模最大的可直接用於訓練的干淨人臉數據集。該數據集包含200萬ID和4200萬圖片,ID數目和圖片數目相比目前使用最廣泛、最受認可的公開數據集MS1MV2都提高了一個數量級以上。
針對目前人臉識別的評測問題,研究人員發布了更貼近實際應用的“時間受限人臉識別評測準則”-FRUITS (Face Recognition Under Inference Time conStraint)和分佈更廣泛、更具挑戰性、分類更細緻的人臉測試集,這將推動人臉識別評測更靠近真實場景。同時,研究人員將持續維護、迭代和升級該測試集以及評測系統,助力行業技術發展。
基於WebFace260M清洗得到的WebFace42M數據,能夠在目前公開的、最具挑戰性的IJBC測試集上,達到新的SOTA (State-Of-The-Art),並把相對錯誤率降低了40%。
基於WebFace42M,在IJBC測試集上取得了SOTA的性能
同時,僅基於WebFace42M的數據,芯翌科技在2020年10月NIST-FRVT的榜單上,取得了1:1人臉識別評測綜合排名世界前三的成績。
更進一步,以WebFace42M為基礎,在2021年3月最新一期的NIST-FRVT榜單上,芯翌科技在戴口罩人臉識別評測中以絕對優勢獲得世界第一,並在1:1人臉識別評測綜合排名世界前三。
然而目前,國內外普遍對數據資源這一重要的生產資料重視程度不夠,行業規範不足,分享壁壘嚴重,缺乏長期規劃。生產資料的匱乏,嚴重影響和製約了數字經濟和智能化時代生產力的釋放,限制了行業的發展。
芯翌科技和清華大學的研究人員合作推出了目前全球最大的公開人臉數據集——WebFace260M以及相應的Benchmark。通過這個數據集,希望能夠助力AI時代科技創新,持續推動智能化產業落地。
出品|搜狐科技
編輯|陳凱燁