Reddit使用者逆向工程蘋果CSAM工具:發現演算法早已存在
據外媒報導,本月早些時候,蘋果宣佈將為其整個生態系統引入新的兒童安全功能。 作為這項努力的一部分,這家位於庫比蒂諾的公司將通過使用設備上的機器學習來掃描iCloud和Messages應用上的內容以此來檢測出可能存在的兒童性虐待材料(CSAM)。儘管蘋果澄清稱,這款應用不會被用來侵犯隱私,也不會被利用來獲取他人的資訊和照片,但該聲明還是在科技界和公眾中引發了大量爭議。
在受到批評后,蘋果發佈了一份六頁的檔以概述其使用設備上的機器學習和一種名為NeuralHash的演算法來對抗CSAM的方法。
蘋果進一步表示,其CSAM檢測模組正在開發中且只會掃描被標記為有問題的圖像。
然而在最新的進展中,一位好奇的Reddit用戶進入了蘋果隱藏的API並對NeuralHash演算法進行了逆向工程。 令人驚訝的是,他們發現這種演算法早在iOS 14.3就存在於蘋果的生態系統中。 這可能會引起一些人的驚訝,因為整個CSAM事件是一個最近才出現的東西,但這位使用者卻指出,有很好的理由相信這一發現是合法的。
首先,發現模型的檔都附加了NeuralHashv3b前綴。 它遵循了蘋果六頁紙的命名規則。 其次,還注意到,未公開的原始程式碼使用了跟蘋果文檔中概述的相同的合成哈希的過程。 第三,蘋果稱他們的哈希方案創建的哈希幾乎獨立於圖像的大小和壓縮,這也是該名Reddit使用者在原始程式碼中發現的,這進一步鞏固了他們的信念,即確實發現了隱藏在原始程式碼深處的NeuralHash。
Reddit使用者在GitHub上發佈了發現。 雖然他沒有公佈導出的模型檔,但他概述了提取模型並將其轉換為可部署的ONNX運行時格式的過程。 在導出模型后,他測試運行了推斷並給出了一個樣本圖像。
根據這位Reddit用戶的說法,所有設備上的哈希都是一樣的,除了幾個bits之外,而這是意料之中的行為,因為NeuralHash負責處理浮點計算,其準確性在很大程度上取決於硬體。 另外,他還補充稱,蘋果很可能會在隨後的資料庫匹配演算法中適應這些相差幾位的差異。
這位Reddit用戶認為,現在是深入研究NeuralHash的工作原理及其對用戶隱私的影響的好時機。