[新聞] 阿里AI鑑黃師上線:一日鑑圖上億張 能聽

作者: TWOOOOOOOOOO (給妳2億)   2018-08-19 19:55:24
阿里AI鑑黃師上線:一日鑑圖上億張 能聽懂外語方言
2018-08-19 16:49聯合報 記者林宸誼╱即時報導
隨著AI鑑黃技術的發展,人工鑑黃師將會逐漸從鑑黃行業裡被解放出來。阿里AI鑑黃語音反
垃圾服務日前上線公測,能辨別外語或大陸方言中涉黃或廣告等違規信息,一天還能「過濾
」上億張「涉黃」圖片。
鑑黃師是大陸一種專門鑑定淫穢色情光碟的職業,隸屬於公安機關,工作內容是將辦案單位
送來的淫穢光碟和影片進行區分和鑑定,並開具鑑定結論,提供給辦案單位進行處罰的依據

澎湃新聞報導,阿里巴巴集團安全部高級演算法專家威視表示,假設一天要審核4億張圖片
,單純交由人工來審,1人一天審1萬張,就需要4萬人力;而經由AI鑑黃後,需要交由人工
審核的量大約只需20萬張,這樣只需要20人,大大節省了人力。
不僅在識圖領域,阿里AI鑑黃還覆蓋到語音、影片等多媒體領域,目前已可以識別中文、英
文、日文、俄文等語言,還可以識別大陸多省份方言,無語義的呻吟聲也能識別。
阿里的鑑黃AI做的色情圖片檢測,從原理上來說,就是一個典型的圖像分類問題,目前的解
決方案是標註樣本後,使用深度學習技術訓練人工神經網路。
具體步驟包括明確分類標準→收集樣本→樣本打標→模型訓練共四個步驟,其中前三個步驟
主要由人工完成。
四個步驟聽起來似乎是最後一步的技術難度最高,但阿里的相關人士透露,花時間最久的是
第一步,例如「露點不露點」之類的色情,還有比較明確的判斷標準。
在收集樣本的過程中,團隊「集思廣益」,瀏覽了近2,000家網站,下載了超過6,000萬張疑
似色情圖片,實際去重後約2300萬張圖片,並實際標注了超過1,300萬張圖片。
這1,300多萬張圖片成為類比訓練的原始資料庫,因此這一浩大的工程,被技術人員認為是
鑑黃引擎成功最重要的基礎。
阿里安全部產品專家念夏表示,目前AI鑑黃最好的應用模式仍然是人工+機器,不管是前期
設計模型的標準和實際打標,或是後期人工覆核,人的參與都是不可或缺。
https://udn.com/news/story/7086/3318120?from=udn-ch1_breaknews-1-0-news

Links booklink

Contact Us: admin [ a t ] ucptt.com