10萬個名人,1000 萬張照片,全球最大人臉識別數據庫被刪除了
人臉識別技術發展到今天,已經不僅僅在技術發展層面受到關注,實際上,在政策和用戶隱私層面,它引起的爭議越來越多,在某些區域或者領域也頗不受待見;比如說,2019 年5 月,舊金山市對人臉識別技術發出了禁令,禁止該技術在政府機關和執法機關中使用,從而成為全球首個對人臉識別技術發出禁令的城市。
近日,微軟公司悄然刪除了該公司於2016 年發布的人臉識別數據庫MS-Celeb-1M——該數據庫是全球最大的公開人臉識別數據庫。
微軟為什麼要發布MS-Celeb-1M 數據庫?
2016 年8 月,微軟在官網中公佈了一篇題為《MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition》的論文,論文作者包括來自微軟研究院的Yandong Guo(郭彥東,目前他已經離開微軟加入到小鵬汽車), Lei Zhang(張磊), Yuxiao Hu, Xiaodong He, Jianfeng Gao 等人。
在這篇論文中,微軟介紹了一個名為MS-Celeb-1M 的人臉識別挑戰賽,參賽者需要根據微軟提供的數據集作為訓練數據來開發自己的圖像識別系統,以便從100 萬個名人名單中進行人臉識別。
與此同時,隨著這一挑戰賽,微軟也發布了一個面向公眾開放下載的大規模人臉識別數據集MS-Celeb-1M,其中第一個版本包含了10 萬個名人(根據他們的受歡迎程度,從上述100 萬個名人名單中選擇而來)的1000 萬張臉部照片,來供研究者開發自己的人臉識別技術——微軟宣稱,這些照片來自於人們常用的搜索引擎,也就是公開渠道。
以Lady Gaga 為例,我們來看一下數據庫中的相關照片:
微軟宣稱,該數據庫是全球最大的公開人臉識別數據庫。
微軟技術與研究院首席研究員/ 研究經理張磊(即上述論文作者中的Lei Zhang)博士曾對外表示,MS-Celeb-1M 的目標是識別百萬人臉,是計算機視覺內最大規模的分類問題,並且其中一個人物對應一個entity,綁定了知識庫,並且知識庫中提供了每個人的職業,性別等等豐富的信息,從而解決了人物重名的問題,可以從識別達到認知。
基於這一數據庫,微軟舉行了MS-Celeb-1M 百萬名人識別競賽,這一競賽被業界認為是人臉識別的年度“世界杯”。在2017 年的微軟百萬名人識別競賽中:Panasonic-新加坡國立大學合作奪得第一,CIGIT(中科院重慶綠色智能技術研究院)和中科院合作隊伍位列第二,美國東北大學位列第三。
雖然在微軟的認知中,最開始這個數據集是面向學術界做的,但後來,這一數據集被許多工業界的同行所使用。
根據相關的引文資料,MS-Celeb-1M 數據庫已經被多商業機構所使用,比如說IBM、松下電氣、阿里巴巴、輝達、日立、商湯科技、曠視科技等,甚至有消息稱,也有相關的軍事研究人員採用了這一數據庫來訓練面部識別系統。
微軟刪除了,但它存在於全世界的硬盤裡
然而,伴隨著人臉識別技術的發展,人們對相關隱私的關注和擔憂越來越多增加,也有人認為微軟的這一數據庫涉嫌侵犯隱私,比如說來自德國柏林的藝術家和技術專家Adam Harvey,他在自己的Megapixel 項目中記載了包括MS-Celeb-1M 在內的數據庫的詳細信息以及使用用戶。
Adam Harvey 認為,微軟用Celebrity 一詞指的是那些在網上工作並且在數字世界具備知名度的人,而不僅僅是Lady Gaga、Steve Jobs 這樣的名人。
比如說,有媒體在針對MS-Celeb-1M 數據庫中的人臉進行核實後發現,MS-Celeb-1M 的確包含了不少名人的照片,比如說Lady Gaga、Steve Jobs 等,但是也包含一些媒體人的信息,比如說《連線》雜誌負責報導網絡犯罪、網絡安全、隱私等問題的高級記者Kim Zetter。
實際上,針對微軟涉嫌侵犯隱私問題,英國《金融時報》也設法聯繫了被收錄在MS-Celeb-1M 數據庫的當事人,某些當事人甚至根本不知道自己的照片已經被收錄——比如說科技作家Adam Greenfield;他在接受采訪時表示,自己絕不是公眾人士,無法放棄自己的隱私權。
也就是說,微軟在數據庫中使用的照片,並沒有徵得當事人的同意,即使他們是名人。
當然,微軟自己也意識到了這個問題,目前它已經刪除了MS-Celeb-1M 數據庫;在對英國《金融時報》的回應中,微軟表示:
這個網站原本是用於學術目的,它是由微軟的一個前員工來運營的。目前,該員工已經離開微軟,因此我們也已經移除了它。
值得一提的是,伴隨著微軟刪除了MS-Celeb-1M 數據庫,另外兩個學術單位也刪除了它們旗下的類似相關數據庫,包括由杜克大學研究人員建造的Duke MTMC 監控數據庫和斯坦福大學的Brainwash 數據庫。
就目前的情況來看,微軟用來介紹MS-Celeb-1M項目的網站還在,但是數據集本身已經不能下載;然而,相關的數據庫資源依然可以從其他網站進行下載。更重要的是,作為一個公開下載的數據集,MS-Celeb-1M實際上已經存在於不少企業或機構的本地硬盤中,被用作各類的用途,而照片當事人卻無法左右。
正如,Adam Harvey 所言:
一旦你發布了它,人們下載了它,那它就會存在於全世界的硬盤裡。