蘋果CSAM醜聞再升級:掃描演算法存嚴重缺陷,三年前就”偷窺”使用者
美國時間8月24日,是締造了蘋果公司輝煌傳奇的史蒂夫·賈伯斯卸任CEO,將大權交給Tim Cook十周年的日子。 十年過去了,蘋果的財務表現無比優秀,曾經多年保持著世界上最值錢公司的紀錄。 然而在名氣和財氣背後,這幾年的蘋果,風評卻越來越差。 就連經常被拿來自我吹捧的隱私,蘋果在這方面的種種表現,都越來越令人難以相信:這居然是蘋果能幹的出來的事?
文/杜晨
8月初,矽星人寫了一篇文章《蘋果要偷看你手機電腦上的照片了》,說的是當時蘋果被業界人士曝出(隨後很快官方承認)的一項爭議性極高的新舉措:對用戶手機上保存的照片,以及通過 iMessage 發佈、上傳到 iCloud 的圖片進行審核,從而識別兒童色情和虐待內容 (CSAM),打擊其傳播。
注意,我們在說的可是蘋果——號稱最注重用戶個人隱私的蘋果。 而現在,蘋果就這樣堂而皇之地搖身一變,成了一家隨時隨地都要”偷看”你照片的公司。
自從這項新政宣布以來,對蘋果不利的情況接連發生,使得 CSAM 掃描事件不斷升級,目前已經基本達到可以稱之為「醜聞」的程度了。
演算法漏洞浮現
首先來個快速前情提要:
美國時間8月5日,約翰霍普金斯大學加密學教授Matthew Green曝光蘋果將推出一項用於檢測 CSAM 的技術。 這項技術名為 NeuralHash,基本上就是在用戶手機本地和 iCloud/蘋果伺服器雲端,用演算法對用戶圖片和一個第三方 CSAM 資料庫進行哈希值比對。 一旦比對成功,蘋果就會遮罩這張照片,並且不排除後續還會進行報警或通知青少年家長之類的操作。
這件事被曝出后,矽星人已經進行了詳細報導,並點評了這項技術存在的一些應用層面的問題,主要有兩點:
1)所謂只打擊 CSAM 的技術,無法從技術上被限制只針對 CSAM,因為↓
2)此類工具已經在技術上被攻破,使得兩張完全不同的照片,可以實現哈希碰撞(也即擁有相同的哈希值)
自那之後,這項 CSAM 技術又被曝出新的情況,使得醜聞再度升級。
機器學習研究者 Asuhariet Ygvar 發現,NeuralHash 演算法早在 iOS 14.3 版本就已經植入到iPhone的操作系統裡了,並且蘋果還故意混淆了其 API 命名。 (而此前蘋果在 CSAM 技術的官網頁面上宣稱,這項技術是新的,計劃在 iOS 15 和 macOS Monterey 正式版推出時才啟動。 )
Ygvar 通過逆向工程的方法,成功導出了NeuralHash演算法並且將其重新打包為 Python 可執行。 這位研究者還在 GitHub 上提供了導出方法,讓其它數據安全人士可以對 NeuralHash 進行更深的探索研究:
(這位研究者沒有提供導出后的成品演算法,顯然是為了避免遭到蘋果的知識產權訴訟,這一點稍後會詳述。 )
演算法連結:https://github.com/AsuharietYgvar/AppleNeuralHash2ONNX (這位研究者沒有提供導出后的成品演算法,顯然是為了避免遭到蘋果的知識產權訴訟,這一點稍後會詳述。 ) 演算法連結:https://github.com/Asuhariet Ygvar/AppleNeuralHash2ONNX
Ygvar 自己做的早期測試顯示,NeuralHash 演演算法對於圖片尺寸和壓縮調整的抗性較好。 但如果圖片進行了切割或者旋轉,NeuralHash 就不好用了。 這表明,NeuralHash 演算法投入到 CSAM 檢測的實際效果可能會打折。
不出意外,很快就有人實現了對於 NeuralHash 演算法的哈希值碰撞。 位於波特蘭的安全研究員 Cory Cornelius 發佈了一張比格犬照片和另一張灰色亂碼圖片。 這兩張看起來毫無關聯的圖片,通過 NeuralHash 演演算法計算出的哈希值居然是一模一樣的。
緊接著,最早發佈了模型導出方法的Ygvar,也復現了這次碰撞:
這條 GitHub 留言下方,有人進一步指出,Cornelius 發現的情況,其實比碰撞更嚴重,已經屬於原像攻擊 (pre-image) 的範疇了。
簡單來說,哈希碰撞就是找到兩張哈希值相同的隨機照片,而原像攻擊,你可以將其理解為”刻意生成的碰撞”,也即先給定一張照片,然後生成另一張和其哈希值相同,但內容不同的照片。
緊接著,更多開發者也用同一張照片實現了更多的碰撞:
甚至,有人在 ImageNet(一個備受機器學習人士歡迎,適用範圍超級廣的標註圖片資料庫)里,都能找到天然的 NeuralHash “雙胞胎”。
ImageNet 裡的一張釘子照片和一張滑雪板照片,NeuralHash 算出的哈希值相同。 另一張斧子的照片和線蟲的圖片,也是天然的 NeuralHash 哈希值”雙胞胎”。
對 NeuralHash 演演算法實現原像攻擊,以及天然哈希值雙胞胎的存在,進一步表明:蘋果打算大規模推廣的這個 CSAM 識別演算法,存在遠比人們想像更嚴重的,有可能被濫用的缺陷。
以下是一種可能性:
你在網上跟某人結仇,他想要報復你。 於是他去找了一張 CSAM 照片,然後生成了幾張看起來人畜無害,但是跟原始照片哈希值相同的圖片,發了過來。 你的手機將它們識別成了 CSAM,你被舉報了,員警上門了,那人得逞了。
沒錯,我們完全不需要”設身處地”,把自己當作一個可能傳播色情內容的人。 每一個普通人都完全有可能成為技術濫用或是錯誤使用的受害者。 如果今天被濫用的是 NeuralHash,而物件碰巧是你,那你的名譽將可能變得不堪一擊。
研究者 Brad Dwyer 表示,儘管上述漏洞存在,目前的早期測試似乎表明,哈希碰撞的發生率和蘋果宣稱的誤報率在相似水準。
但是,Dwyer 也強調,蘋果目前在全球擁有超過15億使用者。 這意味著NeuralHash 一旦出現誤報,會對很大數量的使用者造成負面影響。
瞞天過海、封口威脅
矽星人的讀者可能還記得,前段時間我們寫過 Epic Games 和蘋果的訴訟,和這兩家公司因為「蘋果稅」、應用商城政策等問題而結下的梁子。
這樁案子其實是 Epic Games 挑起的針對蘋果的一場註定曠日持久的反壟斷戰爭,話題也是完全”不設限”。 所以在證據採集的階段,Epic Games 這邊的律師也搜集了大量跟案件原本話題有關或無關的資料,其中有很多都是蘋果內部的高度機密資料。
也是在昨天,這樁訴訟再次曝出一條和蘋果 CSAM 掃描醜聞有關的猛料:
蘋果反欺詐技術部門「FEAR」(Fraud Engineering Algorithms and Risk)的老大 Eric Friedman在2020年和同事的一段 iMessage 聊天當中是這樣說的:「我們(蘋果)是全世界最大的兒童色情內容分發平臺。 ”
這當然是一句帶有諷刺調侃意味的發言。 Friedman 實際表達的是,由於蘋果的隱私安全設計,更多不法分子選擇蘋果通訊產品傳播這些內容。
從表面上來看,這句話似乎是這位工作內容包括打擊兒童色情內容的蘋果高管在用一種苦澀諷刺的方式,來證明蘋果為什麼要做這件事。
但是結合今天關於 CSAM 已經討論的情況,不禁令人感到細思極恐:蘋果又是怎麼知道自己平臺上有如此多的兒童色情內容,以至於這位高管可以在2020年就下如此斷言呢? 難道蘋果在此之前已經在掃描用戶的設備和 iCloud 帳戶了嗎?
一些人開始猜測,這家公司早就在私下掃描了。
在這條證據通過訴訟公開之後,蘋果發言人回應 9to5Mac記者質詢時表示:我們從2019年就已經開始掃描使用者的 iCloud 帳戶了。
(這個時間,比剛才提到包含了 NeuralHash 演演算法的 iOS 14.3 版本的發佈時間,又早了整整整整一年。 )
具體來說,蘋果掃描的是使用者的 iCloud Mail,也即用戶註冊 iCloud 帳戶時得到的那個 @iCloud.com 後綴的登錄電子郵箱。
同時蘋果還表示,也在對一些「其它數據」進行同樣的掃描,但拒絕透露具體是哪些數據。 該公司宣稱,從未掃描過使用者的 iCloud Photos(雲端相片存儲,iOS 預設開啟的功能)。
截圖來自 9to5Mac 報導此事件的文章
更令人費解的是,蘋果號稱將用戶數據隱私至於無上地位,時不時也會用這套說辭去攻擊貶低其它競爭對手(比如 Facebook),卻從未以足夠清晰的方式向使用者告知過它也在掃描使用者隱私數據的情況。
它號稱珍惜用戶的忠誠,所以重視使用者的數據隱私,但現在我們看的越來越清楚,”保護用戶隱私”更像是它採用的一種宣傳口徑。
蘋果當然想要瞞天過海。 但當一切再也瞞不住了的時候,它也會不惜通過各種手段去封住別人的口,阻撓第三方揭露它的問題。 這一點,沒有任何人比 Corellium 感受的更加深刻。
簡單來說,常規管道銷售的iPhone有一套非常複雜的用戶協定。 如果安全研究人士如果要深度分析破解它(且未獲得蘋果的專門許可),這樣的行為就會違反協定。 而 Corellium 這家公司提供一種「虛擬化 ARM 架構設備」的服務,包括 iOS 和 Android 設備,讓研究人士可以在電腦上對 ARM 架構的系統和軟體安全性進行研究,而無需購買實體的手機。
於是在2019年,蘋果以違反數位千年版權法為由起訴了 Corellium。 一開始外界擔心,考慮到蘋果強大的法務力量,這個案子的走向最終可能會對安全行業不利。 好在去年12月,主審案子的法官下達了一個初步裁決,確定 Corellium 的商業行為並不構成侵犯版權。
今年8月10日,原定開庭日期的一周前,蘋果和 Corellium 突然達成了庭外和解。
這次和解還有一個更加微妙的細節:它發生在蘋果正式宣佈 CSAM 掃描,並且引發科技行業史無前例般巨大爭議的幾天之後。
很明顯,蘋果不希望在這個尷尬的時間點上,這樁懸而未決且對自己不利的案子被行業人士和公眾當作它跟安全行業作對的證據。 畢竟,在蘋果官網 CSAM 的介紹頁面上也有提到,蘋果也在和第三方安全專家就 NeuralHash 的有效性和安全性展開合作。 蘋果軟體 SVP Craig Federighi 接受採訪時也表示,歡迎安全專家對 CSAM/NeuralHash 進行檢驗。
誰曾想到,這邊剛跟蘋果和解,幾天後,Corellium 就又”欠招”了。
8月17日,Corellium 四周年的這一天,該公司發起了一個”開放安全計劃”,招募安全研究人員,向最優秀的三組申請者提供每組5000美元撥款,以及長達一年的 Corellium 技術工具免費使用許可權。
截圖來源:Corellium 網站
這項計畫的主題是「驗證設備廠商的安全宣傳」。 而這個廠商是誰也就不用猜了……
截圖來源:Corellium 網站
“我們讚賞蘋果公司做出的承諾,允許第三方研究人員對其問責。 我們也相信,我們的平臺非常適合説明研究者實現這個目標。 “Corellium 公司在官網上寫道。
這一舉動再次激怒了蘋果。 可能蘋果太憤怒了,以至於它的法務團隊已經不按套路出牌了……
在 Corellium 宣佈這一計劃的第二天,蘋果撕毀了之前達成的和解,就去年12月法院下達的”Coreelium行為不構成侵犯版權”的裁決,重新提交了上訴。
現在你應該能理解,為什麼本文前一小節提到的那個逆向工程了 NeuralHash 的開發者,只是提供了破解提取方法,沒有把提取出來的演算法做成下載連結了。
畢竟,這世界上可能沒有人想要被蘋果告侵犯版權啊……