Re: [新聞] 蘋果將偵測兒童色情影像 用戶上傳iCloud

作者: pupuliao (pupu)   2021-08-09 00:26:02
※ 引述《s25g5d4 (function(){})()》之銘言:
: : - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複
: : 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值
: : 為了要避免他們儲存太多重複的檔案
: : 有兩個用戶上傳一樣hash的檔案可以只存一份就好
: : (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間)
六七年前在讀研究所的時候,因為主題是影像分析比對,所以有找了許多論文
我就看過幾篇google 發表的論文 透過快速比對 hash 值來快速搜尋圖片
論文中就提到他們把 原先比較距離使用的 兩個值相減平方 這類的概念
直接改成把所有資料簡化成0與1 利用 OR XOR 的方法 來高速比對
當然 論文中並沒有提到 google 是如何對圖片做hash的 或是 用什麼方法取特徵點的
但我不認為 那個hash 是單純用來比較檔案完整性的那種,一定還保留了一定程度的圖片特徵
資訊
例如我在實驗用的廠景資料庫中,就是儲存把圖片處理過的特徵點資訊
我們在研究的 就是找訓更高效率的特徵點比較方式或是更精準更有效的擷取特徵點
: 用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同
: 我覺得蘋果不會做這種智障系統,否則這系統根本沒用
: 所以去翻了一下相關文件
: https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
: 看起來是用蘋果自己開發的新演算法 NeuralHash
: 看名字就知道一定跟神經網路有關
: 大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵
: 最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值
: LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化
: 以避免相似的資料產生一樣的 hash
: LSH 則否,越相似的資料產生相同 hash 的機率越高
: 以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash
: 是很厲害的技術
這大概是我前面說的那個吧 反正我當時沒找到相關論文,論文說用了xx hash計算
再轉化成32位二進位資料
,但我相信GOOGLE也有自己的一套方法,有效率的擷取每張圖片的特徵資訊
我認為 這類技術對google來說並不難,他們在搜尋引擎上本來就有以圖搜圖的功能
而運用在雲端儲存功能來說可能更為輕鬆,他們甚至可以把每張圖片的預處理工作
讓各位的手機/電腦 幫你算好一定程度的資料,google 只需要去做比對即可
再說了
google 都可以幫你把照片中的 人物/場景 標記出來
或是自動幫你把多張照片合成一張環景圖
順手檢查一下 幼女什麼的 沒啥難度吧

Links booklink

Contact Us: admin [ a t ] ucptt.com