嗨,我之前處理tm的時候,也有遇到同樣的問題,
我要抓雙字詞的出現頻率,但tm包都會直接分成兩個字,
例如「social design」會被分成「social」跟「design」,
我的做法是直接把兩個字的空格去掉,黏在一起,然後用gsub()把原文替換成黏起來的,
這樣tm包在處理的時候,就會認為是一個單字了。
希望能夠解決你的問題。
※ 引述《piercelin (pierce)》之銘言:
: [問題敘述]:
: 大家好,最近在練習用R跑NLP,目前處理英文文章,在斷詞方面我想使用自己的
: 詞庫進行斷詞,例如文章中"My name is Pierce",正常斷詞會斷在空格處變成"My" "name"
: "is" "Pierce",但我想使用自己的詞庫讓斷詞變成:"My name" "is" "Pierce"。
: 目前Google關鍵字name entity recognition已經搜尋過,試過openNLP package,
: 但都沒有辦法達到我想要的效果(使用自己的詞庫進行斷詞),請問其他有經驗的大大有
: 什麼解決的辦法嗎?
: [環境敘述]:
: R version 3.4.2 (2017-09-28)
: Platform: x86_64-w64-mingw32/x64 (64-bit)
: Running under: Windows >= 8 x64 (build 9200)
: [關鍵字]:
: NLP、斷詞、name entity recognition