研究發現人工智慧演算法對黃色皮膚有偏見
2018 年時就曾有報道,有證據表明,領先的人臉分析演算法對膚色較深的人的準確性較低,此後,包括Google和Meta 在內的公司採用了膚色測量方法來測試其人工智慧軟體的有效性。索尼公司的最新研究表明,這些測試對人類膚色多樣性的一個重要方面視而不見。
索尼的研究人員表示,目前常用的膚色測量方法僅使用從最淺到最深或從白到黑的滑動尺度來表示膚色,從而忽略了黃色和紅色色調對人類膚色範圍的影響。他們發現,生成式人工智慧系統、影像抓取演算法和照片分析工具在處理較黃的皮膚時都特別吃力。同樣的弱點也可能適用於各種已被證實準確性會受膚色影響的技術,如用於人臉辨識、身體追蹤和深度偽造檢測的人工智慧軟體,或心率監測器和運動偵測器等小工具。
索尼公司首席研究科學家兼人工智慧倫理全球負責人愛麗絲-項(Alice Xiang)說:”如果只是以這種非常單一的方式對產品進行評估,那麼就會有很多偏見沒有被發現和減輕。我們的希望是,我們在這裡所做的工作可以幫助取代一些現有的膚色量表,這些量表實際上只關注淺色與深色。”
但並非所有人都確信,現有的選擇不足以對人工智慧系統進行分級。哈佛大學社會學家埃利斯-蒙克(Ellis Monk)說,他去年與Google一起推出的由10種膚色組成的調色板,提供了從淺到深的選項,但這並不是單一維度的。蒙克說:「我必須承認,我對先前這方面的研究忽略了底色和色調的說法感到有些困惑。研究工作致力於決定在量表中優先考慮哪些膚色,以及在哪些點上優先考慮哪些膚色。他根據自己對膚色歧視的研究,並在諮詢了其他專家和來自代表性不足社區的人之後,選擇了他的量表中的10 種膚色。”
X. 人工智慧倫理諮詢公司Malo Santo 的執行長、Google膚色研究團隊的創始人Eyeé 表示,蒙克量表從未打算作為最終解決方案,並稱索尼的工作是重要的進步。但Eyeé 也提醒說,相機定位會影響影像中的CIELAB 顏色值,這是導致該標準成為潛在不可靠參考點的幾個問題之一。Eyeé說:”在我們將皮膚色調測量應用於現實世界的人工智慧演算法(如相機濾鏡和視訊會議)之前,還需要做更多的工作來確保測量的一致性。”
關於量表的爭論不僅僅是學術性的。找到人工智慧研究人員所說的”公平性”的適當衡量標準,是科技業的當務之急,因為歐盟和美國等國的立法者正在討論要求公司對其人工智慧系統進行審計,並指出風險和缺陷。索尼公司的研究人員說,不健全的評估方法可能會削弱法規的一些實際好處。
關於膚色,Xiang 說,制定更多改進措施的努力是有必要的:”我們需要不斷嘗試,以取得進展。根據不同的情況,不同的措施可能會被證明是有用的。我很高興,在長期被忽視之後,人們對這一領域的興趣與日俱增。”
Google發言人布萊恩-加布里埃爾(Brian Gabriel)則表示,該公司歡迎這項新研究,並正在進行審查。
人的膚色來自於光線與蛋白質、血球以及黑色素等色素的相互作用。測試演算法是否因膚色而產生偏差的標準方法是檢查演算法在不同膚色上的表現,從最淺到最深的六個選項稱為菲茨帕特里克量表。該量表最初由皮膚科醫師開發,用於評估皮膚對紫外線的反應。去年,科技界的人工智慧研究人員對Google推出的蒙克量表大加讚賞,稱其更具包容性。
索尼公司的研究人員在本週於巴黎舉行的國際電腦視覺會議(International Conference on Computer Vision)上提交的一份研究報告中稱,用於照片編輯和製造的國際色彩標準CIELAB 為表現皮膚的廣泛光譜提供了一種更忠實的方法。當他們應用CIELAB 標準分析不同人的照片時,發現他們的皮膚不僅在色調(顏色的深度)上存在差異,而且在色相(即顏色的漸變)上也存在差異。
無法正確捕捉人體皮膚中紅色和黃色色調的膚色尺度似乎幫助了一些偏差在影像演算法中不被發現。索尼的研究人員測試了開源人工智慧系統,包括Twitter開發的圖像捕捉器和一對圖像生成演算法,他們發現這些演算法偏愛紅色皮膚,這意味著在演算法輸出的最終圖像中,大量皮膚偏黃的人沒有得到充分體現。這有可能使包括東亞、南亞、拉丁美洲和中東在內的不同人群處於不利地位。
索尼公司的研究人員提出了一種表現膚色的新方法,以捕捉以前被忽視的多樣性。他們的系統使用兩個座標而不是一個數字來描述圖像中的膚色。它既指定了膚色從淺到深的位置,也指定了從黃到紅的位置,即化妝品行業有時所說的從暖到冷的底色。
新方法的工作原理是分離影像中顯示皮膚的所有像素,將每個像素的RGB 顏色值轉換為CIELAB 程式碼,然後計算皮膚像素群的平均色調和色調。研究中的一個例子顯示,前美國橄欖球明星特雷爾-歐文斯和已故女演員伊娃-嘉寶的明顯頭像具有相同的膚色,但色調不同,歐文斯的圖像偏紅,嘉寶的圖像偏黃。
無法正確捕捉人體皮膚紅色和黃色色調的色標有助於影像演算法中的偏差不被發現。
當索尼團隊將他們的方法應用於網路上的資料和人工智慧系統時,他們發現了重大問題。研究人員發現,CelebAMask-HQ(一個用於訓練臉部辨識和其他電腦視覺程式的流行名人臉孔資料集)有82% 的影像偏向紅色膚色,而另一個由NVIDIA 開發的資料集FFHQ 有66% 偏向紅色。在FFHQ 上訓練的兩個人工智慧生成模型再現了這種偏差: 它們各自產生的每五張影像中,約有四張偏向紅色色調。
問題還不止於此。根據索尼公司的研究,當要求人工智慧程式ArcFace、FaceNet 和Dlib 識別兩張肖像是否對應同一個人時,它們在紅色皮膚上的表現更好。Dlib的開發者戴維斯-金(Davis King)說,他對這種偏差並不感到驚訝,因為該模型主要是在美國名人照片上訓練出來的。
微軟Azure 和亞馬遜網路服務公司提供的用於偵測微笑的雲端人工智慧工具在較紅的色調上也有較好的效果。微軟負責人工智慧工程的薩拉-伯德說,公司一直在加強對公平性和透明度的投資。亞馬遜發言人帕特里克-尼霍恩(Patrick Neighorn)說:”我們歡迎與研究界合作,我們正在仔細審查這項研究。”NVIDIA 則拒絕發表評論。
作為一個黃皮膚的人,Xiang 對揭示當今人工智慧測試方式的局限性非常關注。她表示,索尼將使用新系統分析自己的以人為本的電腦視覺模型,因為這些模型需要接受審查,但她拒絕具體說明是哪些模型。”我們每個人的皮膚都有不同的色調。這不應該被用來歧視我們,」她說。
索尼的做法還有一個潛在優點。像Google的蒙克量表(Monk scale)這樣的測量方法需要人類對特定個體的皮膚在光譜中的位置進行分類。人工智慧開發人員說,這是一項會帶來變數的任務,因為人們的看法會受到所在位置或自身種族和身分觀念的影響。
索尼的方法是完全自動化的,不需要人工判斷。但哈佛大學的蒙克質疑這是否更好。像索尼這樣的客觀測量方法最終可能會簡化或忽略人類多樣性的其他複雜性。他說:”如果我們的目標是剔除偏見,而偏見也是一種社會現象,那麼我就不太確定我們是否應該從分析中剔除人類是如何從社會角度看待膚色的。”