Salesforce提出減輕AI性別偏見的新方法

通過與弗吉尼亞大學的研究人員合作，Salesforce提出了有助於減輕AI性別偏見的新方法。通常情況下，研究人員需要為AI模型投餵許多單次來展開訓練，但其中不可避免地會摻雜一些或隱性、或顯性的性別偏見。然後在執行語言翻譯或其它預測任務的時候，這些AI也會沾染上一些不良習性。

雙硬去偏器示意

有鑑於此，研究團隊嘗試糾正某些規律性，比如大數據集中的單詞頻率，以使AI 在推理前對嵌入的內容進行“純化”，拋棄那些帶有性別歧視的詞彙。

這套方案可以捕獲單詞的語義、句法、以及同其它單詞的關係，此前已被許多自然語言處理（NLP）方案所採用，但因不可避免的性別偏見而遭到批評。

先前補救方案是在後處理過程中引入幾個步驟，以剔除與性別歧視相關的成分，但有效性受到了較大的限制，比如在去偏見操作後又被復原了。

雙硬去偏器基準測試成績

為此，Salesforce 提出了名叫“雙硬去偏”（Double-Hard Debias）的新方案，以將嵌入空間轉換為表面上無性別的子空間。

然後在執行另一次消除偏見的操作之前，它會沿著這個維度去“投射”性別成分，以獲取修改後的嵌入內容。為評估效果，研究人員針對WinoBias 數據集開展了測試。

該數據集由贊成性別定型和反對性別定型的句子組成，性能差距反映了算法系統是如何在兩個句子組上執行、並導致“性別偏見”的得分。

tSNE 嵌入投影

結果顯示，在保留語義信息的同時，雙硬去偏方案將使用GloVe 算法獲得的嵌入偏差得分，從15 分砍半到了7.7 分。此外在對嵌入進行建模的可視化（tSNE 投影）上，它也較其它方案的混合更加均勻。

即便如此，一些專家仍認為無法從詞嵌入中完全消除偏見。比如慕尼黑工業大學的最近一項研究，就表明“沒有天然中性的文本”。因為單詞的語義內容，是始終與社會政治環境聯繫在一起的。

WONGCW 網誌