公平衡量：MIT研究人員稱機器學習的可解釋性充滿偏見

麻省理工學院（MIT）的科學家們，在近期的一篇新論文中提到——幫助用戶確定機器學習模型的預測是否可信的方法，對弱勢群體來說可能不太準確。由於解釋方法可能存在長期偏見，弱勢群體面臨的結果或變得更加糟糕。

研究配圖- 1：非公正全局解釋示例（arXiv）

使用機器學習算法的時候，有時會造成相當高的風險—— 比如通過模型來預測哪些候選認更有可能通過法律考試，然後在讓校方在招生時優先錄取哪些學生。

即使理想很豐滿，但現實往往有些骨感—— 這些複雜模型動輒涉及數百萬個參數，而AI 研究人員幾乎不可能完全了解其運作機理。

研究配圖- 2：神經網絡黑箱模型模擬

此外科學家有時也會通過創建預測的簡單近似模型來簡化解釋，但這些易於理解的近似值，是否又能夠公平承託所有人的信任呢？

假設某種解釋方法讓男性獲得較女性更優的近似值、或讓白人較有色人種更具優勢，這種情況就會在兩組對照時產生潛在的巨大差異。

研究配圖- 3：有無健壯訓練子組之間的保真度差距

實踐中，這意味著如果女性申請人的近似質量較低，則解釋與模型之間的預測可能存在不匹配，進而導致招生官員錯誤地回絕了更多女性候選認。

為了解這些公平差距到底有多普遍，MIT 研究人員嘗試了多種技術來平衡競爭環境。但這麼做只能適當縮小一些差距，而無法徹底根除。

研究配圖- 4：即使底層黑箱足夠公正，非零保真差距仍存在。

研究一作、MIT 計算機科學與人工實驗室（CSAIL）健康機器學習小組研究生Aparna Balagopalan 表示：

在現實世界中，這意味著人們可能會錯誤地相信某些子群（而不是其它子群）的預測。
正因如此，解釋模型的改進、以及將相關細節傳達給最終用戶，也顯得同樣重要。
只有了解到這些差距的存在，用戶才會更加平和地接受並調節其對結果的預期。

研究配圖- 5：決策保真差的神經網絡模擬

研究人員發現，所有數據集和解釋模型都存在明顯的保真度差距。若是群體的保真度通常要低得多，某些情況下可能高達21% 。

研究配圖- 6：黑箱與解釋模型之間的DP 差距與剩餘誤差

數據集在種族子組之間的保真度差距，近似值的平均錯誤率也高出了7% 。假如有10000 名申請者，那很大一部分可能被錯誤地拒絕。

研究配圖- 7：更少特徵的稀疏模型的局部跨子組保真度差距

Ghassemi 補充道，他們對這些普遍存在於所有評估數據集中的保真度差距感到震驚，但也很難過分強調如何對相關機器學習模型進行修飾。

研究配圖- 8：稀疏模型往往有著更大的平均逼近誤差

在確定了保真度的差距後，研究人員嘗試訓練了解釋模型，以了解其識別數據集中可能容易出現低保真度的區域，然後對這些樣本給予更高的關注度。

研究配圖- 9：保真度差距與準確性，在一系列抽樣方差中持續存在。

此外他們嘗試了使用所有子組的相同數量樣本的平衡數據集，這些強大的訓練策略確實減少了一些保真度差距，但終究還是無法徹底消除。

研究配圖- 10：有無健壯LIME 和基於樹的模型訓練子組之間的差距

研究人員隨後修改了解釋模型，以探索為何會凸顯保真度差距。分析表明，解釋模型可能會間接地使用受保護、甚至隱藏的群體信息（比如性別或種族標籤）。

研究配圖- 11：解釋保真度與組間決策準確性差距的正相關性

最後，MIT 研究人員希望能夠在未來的工作中深入探索相關難題，並且計劃進一步研究真實世界決策背景下的保真度差距的影響。

WONGCW 網誌