研究:AI在識別低收入國家家庭用品上表現糟糕
據外媒報導,包括谷歌、微軟和亞馬遜在內的數家科技巨頭公司都在銷售它們的物體識別算法,然而當這些算法在面對來自低收入國家的物品時其所作出的表現卻不盡如人意。這是Facebook AI實驗室進行的一項新研究得出的結論。該研究表明,AI偏見不僅會顯示一個國家內部的不平等,也會顯示重現國家之間的不平等。
在這項研究中,研究人員對眼下五種熱門的現成對象識別算法– 微軟 Azure、Clarifai、谷歌Cloud Vision、亞馬遜Rekognition和IBM Watson進行了研究,以此來了解每個系統對來自全球數據集的家庭物品的識別能力。
據悉,數據集包含了117個類別–從鞋子到肥皂再到沙發等等–和一系列不同的家庭收入和地理位置–從月收入27美元的布隆迪的家庭到月收入1090美元的烏克蘭的家庭等。
研究人員發現,與月收入超過3500美元的家庭相比,當被要求識別月收入只有50美元的家庭的物品時,物體識別算法的出錯率要高出10%左右。在準確性上的絕對差異甚至更大:與索馬里和布基納法索的物品相比,這些算法在識別來自美國的物品上要高出15%至20%。
研究人員在報告中指出,這些發現在一系列用於圖像識別的商業雲服務中的表現是一致的。
實際上,這種偏見在AI中是一個眾所周知的問題,它有著許多的根本原因。其中最常見的一種就是,用於創建算法的培訓數據往往反映了相關工程師的生活和背景。由於這些人通常是來自高收入國家的白人男性,所以他們教授的課程所要識別的東西自然也都是來自這些高收入的國家。
AI偏見最知名的例子之一就是面部識別算法,這種算法在識別女性面孔時表現更差,特別是在面對有色人種女性的時候。
在對象識別算法的例子中,研究作者指出,有幾個可能的錯誤原因:第一,用於創建系統的訓練數據受地理限制;第二,它們無法識別文化差異。
同樣的,大多數圖像數據集都是使用英語名詞作為起點,並展開相對應的數據收集。這可能意味著整個類別的物品在系統消失不見,或相同的物品在不同的國家實際上代表著兩種不同的東西。作者以dish soap為例,在一些國家,dish soap是一種肥皂,而在另一些國家,dish soap是一種液體容器。
而這可能只是冰山一角。雖然視覺算法是能相對容易評估出這些偏見,但創建這些程序的渠道同時也在為整個行業提供算法,而這些算法永遠不會受到同樣的審查。
雖然矽谷經常把自己的產品尤其是近年來的AI產品宣傳為人人平等、人人可得,然而類似的研究卻顯示,科技公司則是在按照自己的形象評估、定義和塑造世界。