人臉識別碰壁,百度如何“破圈”?
這個春天,人臉識別遇到了點小麻煩。一場疫情讓國人帶上了口罩,沒人會想到,首先受到影響的竟是蘋果手機用戶。由於蘋果從iPhone X就已經開始使用Face ID進行手機解鎖,Face ID採用的又是安全性很高的3D人臉識別技術,近期,不少蘋果手機用戶表示“帶上口罩後,手機都不好使了”,網上甚至出現大量教學視頻,教學如何訓練你的iPhone,讓你的iPhone認識戴口罩的你。
訓練結果因人而異,也有博主表示,訓練數百次也沒能讓自己的“傻兒子”認識戴口罩的自己。
那麼,當人臉識別不再能識別到你的臉,它還會認識你嗎?
復工後,人臉識別碰壁了
近年來,隨著人臉識別技術成熟度不斷提高,相關產品在國內諸如酒店登記、車站人群篩查、公司考勤等場景應用已經十分廣泛。以公司考勤為例,據2018年相關產業調研數據顯示,人臉識別考勤機出貨量已突破百萬。
然而,在2020年,一場疫情讓國民紛紛戴上了口罩。口罩成為國民“剛需”後,開始頻頻脫銷,而年後復工的你發現,你家公司門口那台你原以為很高科技的人臉識別考勤機已經完全不認識戴著口罩的你。
事實上,佩戴口罩屬於大面積遮擋問題,在人臉識別領域是一個公認的難題,難點主要有三個:
- 第一,人臉識別算法主要依據人臉面部特徵進行身份判定,佩戴口罩會使下巴、嘴部、鼻子等用於識別的臉部特徵大量丟失;
- 第二,當前人臉識別算法使用的深度學習技術依賴海量的訓練數據,短期內難以收集到大量佩戴口罩照片,並進行人工標註;
- 第三,人臉識別系統一般包含人臉識別、跟踪、活體檢測、識別等多個模塊,佩戴口罩影響的不僅僅是人臉檢測模塊的工作情況,而是對系統中每個模塊都帶來了很大的影響。
人臉識別技術之所有在國內普及速度如此之快,是因為其後有大批互聯網公司在推動。BAT在此之前其實都有相關專利在手,疫情期間,也可見騰訊優圖推出的“口罩佩戴識別專用AI”、商湯科技公佈的“讀取眼部、嘴部和鼻部周圍240個面部特徵點的人臉識別算法”,以及百度視覺團隊推出的“戴口罩人臉識別算法”。
當人臉識別,識別的不再是人臉……
1月21日,從北京回到廣州的鐘南山參加了當地首場新冠肺炎疫情新聞發布會,會上鐘南山表示,新冠肺炎已經出現人傳人。
也是在這一天,百度視覺團隊開始研發“戴口罩人臉識別算法”。
- 首先,針對遮擋帶來的信息丟失問題,百度視覺團隊發現,人臉各個區域包含的用於身份識別的信息量不是均勻分佈的,眼部區域相比其他位置包含了更多的身份信息,所以只要讓算法更加關注對眼部區域的特徵學習,就能將佩戴口罩、帽子等遮擋帶來的信息丟失對算法識別率的影響降到最低。
基於這一發現,通過採用基於空間位置的注意力機制特徵學習方法,充分獲取戴口罩人臉的身份信息。
基於空間位置的注意力機制特徵學習
- 其次,針對缺乏戴口罩訓練數據的問題,百度算法團隊通過人工生成的方式來解決。
傳統直接在人臉上疊加口罩圖片的方法,由於人臉姿態變化和不同場景採集圖像的分佈差異等問題,無法真實模擬實際場景中的戴口罩人臉圖片,實驗結果表明效果提升非常有限。因此,百度視覺團隊採用了基於人臉關鍵點的三維圖像融合技術,不僅解決了人臉姿態變化帶來的口罩形變和遮擋問題,同時生成的照片更加自然、真實,最終,通過收集市面上各種顏色、大小和样式的口罩圖片,與之前積累的未佩戴口罩人臉圖片進行融合,快速合成了各種場景、海量真實的戴口罩訓練照片。
合成口罩圖片
- 最後,在人臉識別系統的各個環節,針對戴口罩問題,百度算法團隊做了一系列的優化。
例如檢測算法採用了百度最新的PyramidBox-lite檢測算法,並加入超過10萬張口罩人臉數據訓練,在準確率不變的情況下,召回率提升了30%;口罩分類算法基於人臉關鍵點網絡抽取具有豐富面部語義信息的人臉特徵表示,並基於該特徵進行口罩遮擋判斷,通過PaddleSlim進行模型壓縮,模型大小壓縮超過3倍。
顯然,“戴口罩人臉識別算法”識別的已經不再是人臉,而是?“身份信息”相對更為集中的、沒有被遮擋的眼部,這樣勢必會降低人臉識別算法的準確率,??為了保證“戴口罩人臉識別算法”的準確率,算法團隊也需要花大功夫進一步優化算法。
2月21日,百度視覺團隊完成“戴口罩人臉識別算法”的研發和優化,該算法隨後也被應用到了百度園區中。
同樣被應用到百度自家園區的還有其針對多人、戴口罩、遠距離的人臉檢測近日推出的“企業AI入場解決方案”。
百度視覺技術,會是別人家的孩子嗎
計算機視覺作為當下擁有高商用價值的人工智能技術之一,除被互聯網巨頭廠商緊盯外,也可見眾多AI獨角獸企業的步步緊逼。
目前來看,衡量計算機視覺能力強弱可以參照兩方面實力,一方面是技術研發能力,另一方是技術商業化能力。
技術研發能力上,百度早在2016年對外開放了其深度學習平台飛槳(PaddlePaddle),在IDC 2019年發布的《深度學習框架和平台市場份額》分析報告中,飛槳平台在國內市場排名第三,與穀歌、Facebook一起坐擁近80%的國內市場份額。
百度在計算機視覺方面的技術能力及相關產品皆基於這一平台打造,在此次“戴口罩人臉識別算法”研發過程中,使用基於百度飛槳(PaddlePaddle)的大規模分類庫PLSC,實現了快速對數百萬ID的訓練數據進行訓練;採用飛槳模型壓縮庫PaddleSlim進行模型搜索與壓縮,產出了高性能的人臉識別模型;使用飛槳PaddleLite,實現了雲端和移動端的快速部署。並且在2月13日,百度在業內首個宣布開源基於飛槳的口罩人臉檢測及分類模型, 該模型可以有效檢測密集人流區域中的所有人臉,並判斷其是否佩戴口罩,目前已通過飛槳PaddleHub 對外開源。
此外,計算機視覺頂級學術會議CVPR 2020在近日公佈了收錄的論文,錄取率創下新低,相比去年下降3%,僅有22%,但百度仍有22篇論文入選,其中針對人臉識別和檢測被收錄的論文提出了在線高質量錨點挖掘策略HAMBox、從單幅圖像預測高精度可操控人臉三維模型、大尺度高精度人臉三維模型數據庫FaceScape、基於神經網絡架構搜索同時搜索適合人臉檢測的特徵提取器和特徵金字塔的BFBox等模型和方法。
技術商業化能力上,此次百度研發的“戴口罩人臉識別算法”也已經與科升智能、十牛信息、華捷電子、智體科技聯合在諸如城中村出租屋門禁改造、智慧校園、公共交通人臉識別、出租車駕駛行為分析等應用場景中。?此外,在線下門店無感刷臉購物、智慧社區刷臉門禁、企業員工刷臉考勤等應用場景,也已有超過100家開始使用。
由此可見,百度視覺技術及其研發團隊,儼然成了別人家的孩子,也正是這些別人家的孩子正在助推計算機視覺在各產業領域持續商業化。
“靠臉吃飯”的時代終將到來
2020年,人臉識別技術已經嵌入到生活中各個方面,解鎖手機時需要刷臉、在線支付時需要刷臉、上班打卡時需要刷臉、乘機過安檢時需要刷臉;人臉識別技術也在各方面悄悄影響著這個社會,抓捕嫌犯時會用到人臉識別技術篩選罪犯、酒店入住時需用人臉識別技術驗證身份。
雖然當下的用戶的交互習慣仍停留在按鍵、觸屏、語音交互方式上,“解鎖”習慣仍停留在密碼、指紋等識別方式上,但是由於人臉識別的便利度和安全性,未來終將會是一個“靠臉吃飯”的時代。
在這之前,如何將視覺算法的複雜環境適應能力、成熟度、安全性做到極致,仍要靠各家的研發團隊以及開源力量的長期打磨。