為了不讓AI 做一個“混蛋” 谷歌操碎了心
土耳其語的“他”和“她”沒有性別的區分,統一用O 表示。過去Google Translate 在翻譯o bir doktor(ta 是一位醫生)和o bir hemşire(ta 是一位護士)時,會把前者翻譯成He is a doctor,把後者翻譯成She is a nurse,只因為機器在學習數億數據和某些“社會規律”之後,“偏向”把醫生男性化,護士女性化。
看到這個問題後,Google 意識到要想辦法更好地訓練模型,讓它變得更加“中立”。後來Google Translate 以增加選項的方式規避了這個問題。
“當然,該解決方案僅適用於幾種語言,僅適用幾個有代表性的單詞,但是我們正在積極嘗試擴展它。”Tulsee Doshi 在Google I/O’19 上說道。
這只是Google 這家公司將先進技術與技術價值觀合二為一的體現之一。上週Meg Mitchel,Tulsee Doshi,Tracy Frey 三位谷歌科學家、研究學者向包括極客公園(id: geekpark)在內的全球媒體闡釋了Google 如何理解機器學習公平性,以及為了打造一個“負責任的AI”,Google 做了哪些事情。
要讓AI 被人信任這件事情變得越來越重要。
“最近一次調研中,全球90% 的受訪高管都遇到過人工智能的倫理問題,因此有40% 的人工智能項目被放棄。從企業的角度來看,對AI 的不信任正在成為部署AI 最大的障礙,只有在AI 被負責任地開發出來並且取得終端用戶信任的語境下,效率提升和競爭優勢才會得到充分體現。”Tracy Frey 說,打造一個負責任的AI 成為Google 上下最重要的事情之一。
兩年之前Google 公佈了AI principles(人工智能原則),這些直指AI 技術應用倫理的原則包括:
· 對社會有益(Be socially beneficial)
· 避免建立和加劇不公的偏見(Avoid creating or reinforcing unfair bias)
· 保障建立和測試安全性(Be built and tested for safety)
· 對人類負責(Be accountable to people)
· 建立並體現隱私保護原則(Incorporate privacy design principles)
· 支持並鼓勵高標準的技術品格(Uphold high standards of scientific excellence)
· 提供並保障上述原則的可操作性(Be made available for uses that accord with these principles)
只是把這些原則停留在字面上沒有意義,Google 為此形成了一個從理論到實踐的“閉環”。Tulsee Doshi 和她的團隊通過一些基礎性質的研究建立和迭代AI 原則、規範,作為閉環的中心,他們一邊通過向高級顧問尋求改進建議,一邊讓產品團隊(Chrome、Gmail、Cloud 等)來實施和反饋。
Tulsee 舉了一個例子,Google 內部孵化器Jigsaw 曾經開發了一個名叫Perspective 的API,它的工作就是在網絡對話、評論中尋找各種各樣的言論,自動評價它們是否帶有仇恨、辱罵、不尊重等行為,從0-1 代表“毒性”從低到高。比如“我想抱抱這只可愛的小狗”和“這隻小狗也太討厭了吧”分別評分為0.07 和0.84。
當然機器也不是從一開始就“完美無瑕”。在2017 年的1.0 版本中,它給“我是直男”打分0.07 分,給“我是同性戀”打分0.84 分,與之相似的很多測試中,系統都被證實帶著身份認知上的偏見。
為了提昇機器學習的公平性,Google 內部研發了一項名為對抗訓練(Adversarial Training)的技術——如何使機器學習模型對抗樣本更魯棒。2018 年開始,對抗訓練開始應用在Google 產品中。緊接著今年11 月,Google 會將此應用在TensorFlow 更加廣泛的生態裡。
“事實上,任何一位Googler 都可以對一款產品、一份研究報告、一項合作進行AI 原則審查。”Tulsee 說道。
比如去年,一位Google 員工將照片跑在Cloud Vision API 上時發現自己的性別被搞錯了,而這違反了AI 原則的第二條“避免建立和加劇不公的偏見”。發生這樣的失誤很好理解,單單從外表一個維度,機器很難正確地判斷出一個人的性別,所以後來Google 乾脆取消Cloud Vision API 將圖像中的人標記為“男人”或“女人”的標籤功能。
Tracy Frey 稱這是因為今天機器學習面臨社會語境下的挑戰比以前更多了。在AI 深入社會的過程中,必然有人類的刻板印象和偏見被帶入AI,所以需要對模型進行迭代,保證其透明性和可解釋性,找准模型性能和公平之間的平衡點。