1.原文連結:
https://goo.gl/S3MEby
2.原文內容:
不少網站防止 BOT 攻擊的機制採用 CAPTCHA,要你辨識圖像中的數字與文字,從而分辨
人類與 BOT。但你知道嗎,這些人類順手之勞的打打字小工作,不少次是幫助 Google 地
圖做機器學習,辨識街景中出現的門牌與路名。
即便像 Google 這類大量依靠機器學習的公司,仍有不少地方要靠人工去做,要靠大量的
人力協助辨識門牌、路名區塊中,裡面出現的數字或是文字。Google 地圖軟體工程師 An
drew Lookingbill 表示,不只是 Google 地圖採用機器學習的問題,這是整體機器學習
技術領域遇到的挑戰。長遠的目標會是減少涉入的人力,但又不會破壞建立的模型,仍然
能用既有模型去跑。
Lookingbill 說採用深度學習處理電腦視覺闆題,是相當高難度的事情,街景車每天上街
拍攝的照片數量相當龐大,但仍然需要有方式處理。一般人很快就能辨識出門牌及街上路
牌上的路名,用深度學習則是挑戰。Google 地圖採用遞歸神經網路 (recurrent neural
network, RNN),找出街景車拍攝的照片,辨識不同角度照片中出現的路牌資訊,從中截
取需要的路名或是門牌資訊。
https://i.imgur.com/7KmJJC4.jpg
商家的店面入口除了店名之外,還有販售產品資訊、特價優惠等文字。上述資訊也許當地
人能找出店家叫什麼,但對於機器來說,以及遠在天邊並不是當地人,訓練 AI 的工程師
來說,是相當有挑戰性的事情。Google 地圖團隊運用注意力機制 (Attention Mechanism
),從街景車拍攝的店面,找出人類視覺集中之處,從而判斷店家店名。
https://i.imgur.com/0Oorp9a.jpg
路名常用縮寫表示,而對當地人來說,很容易還原完整的路名。Lookingbill 說他們會對
路名做規範化 (Normalization) 工作,處理路名中的縮寫,像是 Av. 代表 Avene,Pres
. 則是 President 的縮寫。
https://i.imgur.com/hdrSiW9.jpg
Lookingbill 還提及 Google 地圖整合經機器學習方式繪製的 1.1 億棟建築外框,補充
說道沒有限制在全球某個地方,而是看那個地方影像適合他們模型,能得到最好的結果。
https://i.imgur.com/O4IZWDS.jpg
https://i.imgur.com/GXdNz26.jpg
Google 街景車當初推出是相當大的噱頭,但如今是餵養 Google 機器學習模型的龐大資
料。當被問到街景影像以及衛星圖辨識的問題,Lookingbill 說影像如有遮蔭,會增加辨
識建築物的困難度。
Lookingbill 談到用機器學習處理地圖資訊,技術本身是其次,而是要怎麼將不斷變動的
現實世界,相關變動反映到地圖,而且儘可能縮短地圖資料處理時間。更快速的反映現實
變化的地圖,Lookingbill 說這是他們的團隊一直在努力的方向。
3.心得/評論:
目前Google致力於AI發展,雖然還沒有到很成熟,但是Google手握資金和技術,未來也是
會是AI界的霸主。
尤其Google又是一間有壟斷性的公司,其他公司很難超越它,或者直接被它買下,未來最
強大的公司,沒有之一。