科技公司的尷尬戰爭:算法的“好意” 險些毀了一位父親的人生
家住舊金山的馬克怎麼都沒想到,本來急著給自己兒子看病,給醫生髮了一張照片,結果卻讓自己險些身敗名裂。事情發生在去年年初,由於當時仍處在疫情高峰期,一些非緊急醫療機構都關閉了服務,也包括馬克家選擇的兒童診所。馬克發現自己兒子的私處出現腫脹,急忙尋求專業人士的幫助,和醫生打視頻電話。
在視頻之前,護士讓馬克發一張照片給醫生看下。馬克照做了。
然而讓他沒想到的是,這張照片可給他惹了大禍了。
/ 愛子心切的父親,算法眼中的“戀童癖” /
在照片發出的兩天后,馬克突然接到了Google的一紙通知。
由於涉嫌儲存和傳播有害內容,嚴重違反用戶協議和公司政策,並且涉嫌違法,他的Google賬號被完全關閉。
由於馬克是Google全家桶的忠實用戶,Google這一決定的後果相當慘痛:
他不僅失去了自己的Gmail 郵件、通訊錄、日曆,還因為是Google Fi 虛擬運營商的用戶,連手機號都被一起凍結了。
到了這裡,噩夢還遠未結束。
Google不僅封了他的賬號,還直接把這件事報到專門打擊兒童色情/性虐待內容的監督機構那去了,該機構後來又聯繫了舊金山警察部門。終於在去年年底,舊金山警方從Google公司那裡調取了關於馬克的所有資料和記錄,正式對馬克展開了調查。
長達一年的時間裡,馬克面臨“戀童癖”的嚴重指控,工作生活都難以開展,甚至幾乎“身敗名裂”……
《紐約時報》描述此事的文章提到,將馬克置於尷尬境地的,正是Google少為人知的兒童性虐待內容打擊系統。
根據美國政府的定義,兒童性虐待內容(Child Sexual Abuse Material,以下簡稱CSAM),包括照片、視頻等,只要其中涉及未成年人露骨色情行為的畫面,都屬於此類內容。更具體來說,涉及包括誘騙、勒索、展示/鼓動/宣揚性化(sexualization) 未成年人、拐賣兒童性質的內容,都屬於Google明令禁止的CSAM 範疇。
圖片來源:Google
為了防止平台、產品和技術被用於傳播CSAM,Google投入了大量資源,對CSAM 進行掃描、阻止、移除和舉報——然而這次讓馬克遭殃的並不是Google的掃描技術,而是Google的人工查驗流程出了疏漏。
在各大公司,CSAM 檢索和事後舉報的流程,都包括了算法掃描和人工查驗的雙保險制度,Google也不免俗。然而在馬克的遭遇當中,在算法發現了照片,並自動觸發系統鎖死馬克的賬戶,並交由人工查驗之後,核查員似乎並沒有考慮當時的場景,沒有發現這張照片是發給醫療專業人士的。
事後,馬克立即進行了申訴。然而Google不僅拒絕复核之前做出的決定,甚至都不讓他下載保存自己的數據。被關閉的賬號,數據在兩個月後就被自動刪除了,馬克失去了過去多年積累的很多重要信息。
事情就這樣拖了整整一年,直到去年年底警方正式啟動了調查。
在這一年裡,馬克幾近“社死”,很難跟同事和朋友完整、誠實地解釋,自己的電話號碼、郵箱,為什麼突然就憑空消失了。
直到今年前不久,當地警方才完成了調查並予以結案。
結果毫無意外:馬克無罪。
對於把自己的忠實用戶推進深淵,Google用法律作為擋箭牌的解釋,很合情合理,卻也綿軟無力。一位公司發言人表示,美國的兒童保護相關法律要求像Google這樣的公司必須對發現的CSAM 事件進行上報。
根據Google的透明度報告,僅在2021年度,公司就屏蔽了近120萬個涉及CSAM 的超鏈接,向美國相關監督機構“全國失踪與受虐兒童服務中心” (NCMEC) 提交了87萬份報告,涉及約670萬條內容,關閉了約27萬個賬號。
遺憾的是,馬克不幸成為了27萬分之一。
身處這27萬人中間,就像那些進了監獄卻高喊著無辜的人一樣,那種有冤情說不出,說出也不被人相信的滋味,簡直無法想像。
/ 好心辦壞事 /
在介紹打擊CSAM 工作的官方頁面上,Google宣稱,公司組建並訓練了專門的隊伍,使用最尖端的技術來識別CSAM。
目前在美國大公司的範圍裡,檢索CSAM 有兩種技術途徑:哈希值匹配,和計算機視覺識別。
哈希值匹配比較簡單,就是調取市面上第三方機構維護的數據庫裡的條目,和自己平台上的圖片進行哈希值匹配,從而檢測已知的CSAM 相關內容。這方面早年Google曾經用過微軟的PhotoDNA。這項技術已經存在了10年多的時間了,不止Google,包括Meta、Reddit、Twitter 等公司,以及CSAM 領域的權威公共監督機構NCMEC,都在使用它。
圖片來源:微軟
以及,Google系的YouTube 也在使用自研的CSAI Match 技術來,實現流媒體視頻的哈希匹配。
當然,每天都有新的違法圖片和視頻誕生,所以除了哈希匹配之外,Google還自研並部署了基於計算機視覺技術的機器學習分類器,從而檢索“未曾見過”的相關內容。
Google將這一技術整合到了Content Safety API 當中,也開放給第三方使用。目前,包括Meta、Reddit、Adobe、雅虎等公司,也是Google自研CSAM 檢索技術的用戶和合作夥伴。
圖片來源:Google
至於本次案件,Google似乎是從馬克的Google Photos 檢索到了相關內容。
Google Photos 是Google推出的照片備份和雲端相冊服務,在自有品牌以及其它一些主流Android 手機廠商的機型上都有預裝。值得注意的是,用戶在Google Photos 裡登錄Google賬號後,應用會提示建議用戶打開自動上傳備份——馬克可能就是在這裡吃了虧。
如果打開了自動上傳功能,除了在某些第三方應用(比如Twitter、Instagram) 下載的照片之外,包括相機照片集,以及手機上生成的其它照片,都會被Google Photos 會自動上傳到雲端。
而根據官方網站和公司發言人透露的情況,Google不止明令限制用戶通過Google Photos 上傳和傳播相關內容,它的CSAM 打擊系統,也會對Google Photos 裡的照片進行掃描和匹配。
問題在於,根據Google發言人的表述,CSAM 打擊系統的對象僅限於用戶“主動行為” (affirmative action) 上傳的圖片。
從務實的角度來看,馬克開啟了Google Photos 自動上傳,結果因為急著給娃看病,拍了這張照片,自動上傳了,忘了刪,回頭被Google找上麻煩——這樣也要算作主動行為,未免有點牽強。
圖片來源:《紐約時報》
掃描CSAM,能夠保護兒童安全,有效地打擊戀童癖和各種變態,聽上去怎麼都是一件好事對不對?
然而實際上,近年來美國大型互聯網和科技公司在做這件事的時候各種問題故障和醜聞不斷——結果就是,算法自動化打擊CSAM 這件事,在技術道德和隱私權方面已經引發了巨大爭議。
如果把Google這次烏龍事件形容為“人禍”的話,那麼去年同一時間蘋果出的事故,可以稱得上“天災”了。
去年8月初,蘋果突然宣布,將要在iOS 平台上推出一個專門掃描CSAM 的客戶端側工具。
圖片來源:蘋果公司
蘋果突出的關鍵詞在“端側”上:和Google一直以來掃描雲端服務器存儲的用戶內容的做法不同,蘋果表示只會在用戶設備上做這件事,系統會下載NCMEC 的數據庫,然後完全在本地進行哈希值匹配。
然而,蘋果所謂的“端側”、“注重隱私”等,只是表面說辭。有專家發現,實際上用戶發送到iCloud 保存的照片也會成為檢測對象。還有研究者發現蘋果所採用的匹配算法NeuralHash 存在設計理念缺陷。而且這一技術根本不是即將推出,而是好久以前就偷偷植入到公開版iOS 裡了,蘋果還專門混淆了API 命名,以便“隱姓埋名”。
結果,蘋果宣布了這件事之後沒出一個月,就有人對NeuralHash 算法實現了哈希碰撞和“原像攻擊”。
簡單來說,哈希碰撞就是找到兩張哈希值相同的隨機照片;而原像攻擊,則是“刻意生成的碰撞”,也即先給定一張照片,然後生成另一張和其哈希值相同,但內容不同的照片。
甚至,有人直接在廣受歡迎的ImageNet 標註圖像數據庫裡,都能夠找到幾對天然的NeuralHash “雙胞胎”(兩張不同的原視圖片,哈希值相同)……
這些攻擊測試的結果,從原理和邏輯上直接推翻了蘋果的CSAM 檢索技術,使其一文不值。
圖片來源:Cory Cornelius
早期測試的結果顯示,NeuralHash 的哈希碰撞發生率和蘋果宣稱的誤報率水平差不多,屬於可以接受的範圍。然而考慮到蘋果在全球擁有超過15億設備用戶,基數過於巨大,一旦NeuralHash 出現誤報,甚至哈希碰撞導致的事故,都會波及大量用戶。
總的來看,目前Google、蘋果這兩大移動平台級超大型公司,在掃描和打擊兒童色情這件事上,都確實努力做了一些事情,也值得鼓勵。
然而這件事的另一面,卻令人大為遺憾:
因為一張隨手拍出的照片,工作和生活陷入僵局,甚至險些身敗名裂,這恐怕是馬克,以及不少和他經歷相似的人,所完全沒有預料到的。
這也是整件事的尷尬之處:在過界的科技平台和糟糕的算法面前,好心真的可能會辦壞事。