[新聞] 自然語言處理標竿測試,百度打敗微軟、Go

作者: pooznn (我~~~是來被打臉滴!!!)   2020-01-01 14:39:27
自然語言處理標竿測試,百度打敗微軟、Google
百度的預訓練語言模型ERNIE,在GLUE平台一次16項自然語言處理測試中拿下第一,表現
優於Google、微軟和卡內基美隆大學
iThome 文/林妍溱 | 2020-01-01發表
在最近一次自然語言處理GLUE標竿測試中,中國網路業者百度的AI預訓練語言模型達到
90.1分,超越Google、微軟和卡內基美隆大學登上榜首。
GLUE(General Language Understanding Evaluation)是知名的自然語言理解(NLU)多
任務標竿測試和分析平台,包含9項測試,像是聽取句子中的人名和組織名,或是聽句子
中的同音異形字等等。在最近一次16項自然語言處理測試中,百度的預訓練(
pre-training)語言模型ERNIE拿到90.1分居冠。
其次為微軟的MT-DNN-SMART(89.9)及Google T5(89.7)。阿里巴巴的ALICE DAMO NLP
和卡內基美隆大學的XLNet以89.5 同列第4名,臉書的RoBERTa則名列第8。微軟另二個模
型(FreeRoBERT MT-DNN –ensemble)也擠進前十。GLUE真人測試基準得分為87.1分(第
11名)。
百度去年推出的ERNIE (Enhanced Representation through kNowledge IntEgration)
模型是一種連續型預訓練框架,經由連續給予模型多任務學習(multi-task learning)
方法,每當引入新任務時,該框架可在學習該任務的同時不遺忘之前學過的資訊,達到漸
進式學習與建構的目的。百度今年初推出ERNIE 1.0,7月再升級為2.0。
百度的ERNIE是從Google BERT獲得靈感(兩者都是取自「芝麻街」的主角名字)。BERT利
用名為遮罩(masking)的技巧,隨機隱藏文句中15%的字再試圖預測剩下的字。這種方法
大幅推升自然語言處理的能力。但BERT主要是基於英文。百度則根據中、英文的差異,為
ERNIE模型加入中文需要的特有演算法。
在英文之中每個字都有獨立意義。例如波士頓(Boston)、美國(America)。但在中文
,如果抽出「波」或「美」獨立一個字,就完全和「波士頓」或「美國」不同意義。
百度團隊於是提出動態邊界遮罩演算法(Dynamic Boundary Masking),發展出隱藏中文
字串、而非單一字的遮罩法。這項演算法也能分辨有意義和無意義的隨機字串的不同。
ERNIE在理解中文組成,以及預測中文漏字的能力比外國模型來得強,用於中文翻譯和在
文件中汲取資訊上相當有用。
但百度表示,他們發現ERNIE以意義為基礎的理解能力,除了中文外,理解及預測英文文
句也比用單字使用統計為基礎的模型來得好。
ERNIE預訓練技術已被用於百度多項產品,包括百度搜尋、小度音箱、資訊推薦等。百度
ERNIE 2.0的論文已被國際人工智慧頂級學術會議AAAI-2020收錄,預定明年2月7日到12日
在美國紐約舉行及發表。
https://www.ithome.com.tw/news/135127

Links booklink

Contact Us: admin [ a t ] ucptt.com