Salesforce提出減輕AI性別偏見的新方法
通過與弗吉尼亞大學的研究人員合作,Salesforce提出了有助於減輕AI性別偏見的新方法。通常情況下,研究人員需要為AI模型投餵許多單次來展開訓練,但其中不可避免地會摻雜一些或隱性、或顯性的性別偏見。然後在執行語言翻譯或其它預測任務的時候,這些AI也會沾染上一些不良習性。
雙硬去偏器示意
有鑑於此,研究團隊嘗試糾正某些規律性,比如大數據集中的單詞頻率,以使AI 在推理前對嵌入的內容進行“純化”,拋棄那些帶有性別歧視的詞彙。
這套方案可以捕獲單詞的語義、句法、以及同其它單詞的關係,此前已被許多自然語言處理(NLP)方案所採用,但因不可避免的性別偏見而遭到批評。
先前補救方案是在後處理過程中引入幾個步驟,以剔除與性別歧視相關的成分,但有效性受到了較大的限制,比如在去偏見操作後又被復原了。
雙硬去偏器基準測試成績
為此,Salesforce 提出了名叫“雙硬去偏”(Double-Hard Debias)的新方案,以將嵌入空間轉換為表面上無性別的子空間。
然後在執行另一次消除偏見的操作之前,它會沿著這個維度去“投射”性別成分,以獲取修改後的嵌入內容。為評估效果,研究人員針對WinoBias 數據集開展了測試。
該數據集由贊成性別定型和反對性別定型的句子組成,性能差距反映了算法系統是如何在兩個句子組上執行、並導致“性別偏見”的得分。
tSNE 嵌入投影
結果顯示,在保留語義信息的同時,雙硬去偏方案將使用GloVe 算法獲得的嵌入偏差得分,從15 分砍半到了7.7 分。此外在對嵌入進行建模的可視化(tSNE 投影)上,它也較其它方案的混合更加均勻。
即便如此,一些專家仍認為無法從詞嵌入中完全消除偏見。比如慕尼黑工業大學的最近一項研究,就表明“沒有天然中性的文本”。因為單詞的語義內容,是始終與社會政治環境聯繫在一起的。