[新聞] 突破長篇上下文理解挑戰,Google發布全新

作者: doig (dd)   2019-02-02 17:53:08
1.媒體來源:
iThome
2.完整新聞標題:
突破長篇上下文理解挑戰,Google發布全新自然語言理解架構Transformer-XL
3.完整新聞內文:
Transformer-XL利用片段式遞迴機制搭配相對位置編碼設計,突破過去NLU模型對長篇文
章理解的問題
文/何維涓 | 2019-02-02發表
https://i.imgur.com/65Pd3DA.png
Google近日針對超越固定長度的上下文資料,發布全新的NLU架構Transformer-XL,並將
Transformer-XL於GitHub上開源釋出,包含研究論文中用到的預先訓練的模型、超參數和
程式碼。現今的自然語言理解模型有一定的限制,由於上下文之間的依賴性,導致既有的
自然語言理解模型,在面對篇幅較長的上下文理解時,效果有限。
在自然語言理解研究中,通常必須使用前面的片段資訊來了解當前的訊息,稱之為長期依
賴性(long-range dependence),簡單來說,就是為了正確地理解一篇文章,有時候需
要參考數千個字之前的一個單詞或是一個句子,大多數的研究人員用神經網路處理這項問
題時,會用門控循環網路(Gating-based RNNs)和梯度裁剪(gradient clipping )技
術,來改善長期依賴模型,但是還是不足以完全解決這項問題。
目前最好的方法是透過Google於2017年推出的NLU神經網路架構Transformers,
Transformers允許數據元(data unit)之間直接連接的特性,能夠有效地擷取長期依賴
性,但是在語言建模中,Transformers目前實現的方法適用於固定長度的文章,舉例來說
,一個長篇文章會被切成由幾百個字符組成的固定長度的片段,每個片段再分開處理,而
這樣的方法有2大限制,一是該演算法無法為超過固定長度的文字篇幅建立依賴模型,二
是裁切片段的程式無法識別句子的邊界,導致上下文破碎化而難以優化,這個問題就算對
長期依賴性不強的較短序列而言,也是非常麻煩。
為了解決上述的限制,Google針對超越固定長度的上下文資料,發布了全新的NLU架構
Transformer-XL,該架構包含2項技術: 片段式遞迴機制(segment-level recurrence
mechanism)和相對位置編碼設計(relative positional encoding scheme)。
片段式遞迴機制是在訓練的過程中,將前一個片段的計算結果修復並保存,以利在下一個
新的片段執行時重新利用,由於上下文資訊可以在片段的邊界中流動,神經網路深度有幾
層,這項額外的連接機制就能為依賴關係的長度提升幾倍,除此之外,遞迴的機制也解決
了上下文破碎化的問題,提供新的片段上下文必要的標註。
而當系統要重複使用上一個片段的結果時,必須將上一個片段的編碼位置,整合至新的片
段位置編碼中,這樣的操作會導致位置編碼不連貫,為了實現片段式遞迴機制,因此需要
搭配相對位置編碼的設計,與其他相對位置編碼設計不同的是,Google是用可學習的轉換
固定向量,如此一來,該相對位置編碼設計能夠更廣泛地適用於較長的序列中。
Google研究團隊實驗發現,Transformer-XL比vanilla Transformer模型更能有效地理解
更長的上下文,且不需要重新計算就能處理新片段的資料,因此大幅提升自然語言理解的
效能,Google認為,該研究成果可以改善語言模型預先訓練的方法、創造逼真的長篇文章
,也能協助影像和語音領域的應用開發。
4.完整新聞連結 (或短網址):
https://www.ithome.com.tw/news/128609
作者: ryanmulee (ryanmulee)   2018-02-02 17:53:00
趕快推一個免得大家以為我看不懂
作者: anper (鏡中人)   2019-02-02 17:54:00
嗯嗯跟我想的差不多
作者: tetani (喵喵)   2019-02-02 17:54:00
和我想的一樣 只是google先實做了
作者: jason743145 (睡不飽的阿亮)   2019-02-02 17:55:00
之前才想到,被孤狗先發表了
作者: hackfox (自家朘仔歪,嫌人尿桶漏)   2019-02-02 17:56:00
沒錯,跟我的理論有87%像
作者: shala (沙羅)   2019-02-02 17:57:00
其實路還很遠很遠
作者: Neisseria (Neisseria)   2019-02-02 17:57:00
推文臥虎藏龍 XD
作者: babyMclaren (test)   2019-02-02 17:59:00
這我妹妹昨天跟我說過

Links booklink

Contact Us: admin [ a t ] ucptt.com