為減少AI偏見：IBM打造了一套更加多樣化的百萬人臉數據集

儘管技術本身是中立的，但在人工智能（AI）的開發過程中，難免會引入一些人類的偏見。為了減少這方面的偏差，IBM研究院剛剛打造了一套更加多樣化的“百萬人臉數據集”。近年來，隨著智能手機的普及，面部識別已經在許多領域得到了廣泛的運用。然而在一些測試中，某些看似很優秀的AI，竟然也會敗下陣來。

（圖自：IBM Research）

鑑於不少情況與某些膚色或年齡相關，IBM 研究院希望進一步消除這方面的偏差。

顯然，這是一個多層次的問題，很大程度上歸咎於人員和創建者沒有深思熟慮。
此外，如果沒有包羅萬象的人臉數據集，AI 也難免在訓練過程中有失偏頗。

憑藉全新的“百萬多樣性人臉數據集”，AI開發者將能夠充分考慮到多樣性的面部特徵（DiF）。論文解釋稱：

為使面部識別能夠按照要求執行（既公平又準確），訓練用的數據，必須提供足夠的平衡和覆蓋。
它應該足夠大、且多樣化，以便了解更多類型的面部固有差異。圖像必須反映我們在世界中看到的面部特徵的多樣性。

據悉，這批面孔來自一套更加龐大的1 億圖像數據集（Flickr 創作共用）。

通過運行另一套機器學習系統，並找到盡可能多的到面孔。然後將它們隔離並裁剪，再開始真正的工作。
這些集合可被其它機器學習算法所攝取，因此需要多樣化、且準確的標記。

（圖自：IBM Research）

DiF 數據集中包含了一百萬張面孔，且每個都附有元數據，以描述眼間距和額頭等特徵。

結合上述多種措施，系統可用於匹配圖像與個人的’面部印記’，但仍需考慮算法是否對某個種族群體是否合適。
有鑑於此，IBM 團隊整理了一套修訂版本，不僅包括了簡單的內容，還描述了各措施之間的關聯—— 比如眼睛上方和鼻子下方區域的比例、膚色、對比度、以及著色類型。

此外，用戶的年齡也可被自動估計。人們被要求標記男性或女性的面部，並猜測其年齡。

當然，這里肯定會存在一定的偏差，但與其它任何公開的面部識別訓練數據集相比，所有這些都可以在更廣義的尺度上去理解。

帶領這項研究的IBM 研究員John R. Smith 在一封電子郵件中稱：

在文化和生物學上，種族之間的界限並不明顯。我們選擇專注於能夠可靠測定的編碼方案，為多樣性分析提供一定規模的支持。

WONGCW 網誌