: - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複
: 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值
: 為了要避免他們儲存太多重複的檔案
: 有兩個用戶上傳一樣hash的檔案可以只存一份就好
: (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間)
用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同
我覺得蘋果不會做這種智障系統,否則這系統根本沒用
所以去翻了一下相關文件
https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
看起來是用蘋果自己開發的新演算法 NeuralHash
看名字就知道一定跟神經網路有關
大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵
最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值
LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化
以避免相似的資料產生一樣的 hash
LSH 則否,越相似的資料產生相同 hash 的機率越高
以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash
是很厲害的技術