[新聞] 自然語言處理標竿測試，百度打敗微軟、Go pooznn PTT批踢踢實業坊

[新聞] 自然語言處理標竿測試，百度打敗微軟、Go

作者: pooznn (我~~~是來被打臉滴!!!) 2020-01-01 14:39:27

自然語言處理標竿測試，百度打敗微軟、Google
百度的預訓練語言模型ERNIE，在GLUE平台一次16項自然語言處理測試中拿下第一，表現
優於Google、微軟和卡內基美隆大學
iThome 文/林妍溱 | 2020-01-01發表
在最近一次自然語言處理GLUE標竿測試中，中國網路業者百度的AI預訓練語言模型達到
90.1分，超越Google、微軟和卡內基美隆大學登上榜首。
GLUE（General Language Understanding Evaluation）是知名的自然語言理解（NLU）多
任務標竿測試和分析平台，包含9項測試，像是聽取句子中的人名和組織名，或是聽句子
中的同音異形字等等。在最近一次16項自然語言處理測試中，百度的預訓練（
pre-training）語言模型ERNIE拿到90.1分居冠。
其次為微軟的MT-DNN-SMART（89.9）及Google T5（89.7）。阿里巴巴的ALICE DAMO NLP
和卡內基美隆大學的XLNet以89.5 同列第4名，臉書的RoBERTa則名列第8。微軟另二個模
型（FreeRoBERT MT-DNN –ensemble）也擠進前十。GLUE真人測試基準得分為87.1分（第
11名）。
百度去年推出的ERNIE （Enhanced Representation through kNowledge IntEgration）
模型是一種連續型預訓練框架，經由連續給予模型多任務學習（multi-task learning）
方法，每當引入新任務時，該框架可在學習該任務的同時不遺忘之前學過的資訊，達到漸
進式學習與建構的目的。百度今年初推出ERNIE 1.0，7月再升級為2.0。
百度的ERNIE是從Google BERT獲得靈感（兩者都是取自「芝麻街」的主角名字）。BERT利
用名為遮罩（masking）的技巧，隨機隱藏文句中15%的字再試圖預測剩下的字。這種方法
大幅推升自然語言處理的能力。但BERT主要是基於英文。百度則根據中、英文的差異，為
ERNIE模型加入中文需要的特有演算法。
在英文之中每個字都有獨立意義。例如波士頓（Boston）、美國（America）。但在中文
，如果抽出「波」或「美」獨立一個字，就完全和「波士頓」或「美國」不同意義。
百度團隊於是提出動態邊界遮罩演算法（Dynamic Boundary Masking），發展出隱藏中文
字串、而非單一字的遮罩法。這項演算法也能分辨有意義和無意義的隨機字串的不同。
ERNIE在理解中文組成，以及預測中文漏字的能力比外國模型來得強，用於中文翻譯和在
文件中汲取資訊上相當有用。
但百度表示，他們發現ERNIE以意義為基礎的理解能力，除了中文外，理解及預測英文文
句也比用單字使用統計為基礎的模型來得好。
ERNIE預訓練技術已被用於百度多項產品，包括百度搜尋、小度音箱、資訊推薦等。百度
ERNIE 2.0的論文已被國際人工智慧頂級學術會議AAAI-2020收錄，預定明年2月7日到12日
在美國紐約舉行及發表。
https://www.ithome.com.tw/news/135127

繼續閱讀

[問卦] 正妹跨完年在捷運上睡覺可以偷舔幾口嗎DevilHotel Re: [問卦] 歐洲科技業是如何被台灣打趴的???wnglon [新聞] 馬紹章：中華民國台灣化使兩岸關係愈來hito0509 Fw: [轉錄] 盾牌牙醫史書華FBijofi [問卦] 楊貴妃怎麼會那麼瘦!?CavendishJr Re: [新聞] 政黨票遭台灣基進分食恐難國會過半　民進chenroseyaks Re: [爆卦] 礦業法的靈壓…消失了……dagoma [問卦] 這樣午餐多少錢？remember318 [問卦] 2020第一天不能發文的在想什麼?mmmpkxabc36 [問卦] 岡本484史上最強殺人魔啊?openbestbook