圖中看到的 bounding box 其實只是 object detection
今天 neural network 可以框出 人、貓、狗、車、杯子
自然也可框出人臉的位置
'辨識'自然要能夠理解
就是我給你兩個人的照片,你必須要告訴我這兩個人是不是同個人
而不是只是把人臉的位置標示出來
也就是帶有記憶、分析、理解的含意
這就是所謂的 one-shot learning
一般 Computer Vision 所用的模型,都必須要以數以十萬、百萬計的的圖片
來告訴模型這個東西是杯子、這是貓、這是車
但顯然這有個問題
我不可能收集某一個人的照片數以千計
多要辨識一個人,就要再蒐集數千張照片、重新訓練模型
所以事實上,我只要給一種資料,就是數千個不同人的人臉,每張臉可能有幾百張
譬如說名人好了,名人應該很容易蒐集到幾百張
再來告訴模型,這幾百張都是同個人,那幾百張都是同個人
事實上模型理解的是什麼是'相似'的概念
數學意義上,就是兩張照片的'距離'
if D( f(x1) - f(x2) ) -> 0 , x1 & x2 is the same person
所以事實上對於訓練成功的模型,根本不需要你幾百張照片
只要一張就好,就可認得你,這是 one-shot learning
接下來我想問
朋友 A 把你的一張照片拿給 B 說,這是我朋友
算是侵犯隱私嗎?
你搜尋 FB ,跟朋友說,這個學妹超正,好想跟她一起起床
是侵犯學妹的隱私嗎?
文中這個場景是
欸欸,你幫我注意一下照片裡這個人有沒有認真上課
是侵犯隱私嗎
中國那個人臉辨識抓罪犯
當然大家會覺得它是拿來抓政治犯啦
但假設今天場景換到台灣
用 one-shot learning 建檔、使用人臉辨識抓人,需要法官開強制庭
是侵犯罪犯隱私嗎?
同個場景下,把照片交給人或人工智慧,去做某件事
前者和後者比較,問是否侵犯隱私答案會不同嗎
如果會,為什麼
我沒答案,你們討論