Re: [問題] NLP英文文章處理 Darlsa PTT批踢踢實業坊

Re: [問題] NLP英文文章處理

作者: Darlsa (WSP) 2018-03-14 21:25:50

嗨，我之前處理tm的時候，也有遇到同樣的問題，
我要抓雙字詞的出現頻率，但tm包都會直接分成兩個字，
例如「social design」會被分成「social」跟「design」，
我的做法是直接把兩個字的空格去掉，黏在一起，然後用gsub()把原文替換成黏起來的，
這樣tm包在處理的時候，就會認為是一個單字了。
希望能夠解決你的問題。
※ 引述《piercelin (pierce)》之銘言：
: [問題敘述]:
: 大家好，最近在練習用R跑NLP，目前處理英文文章，在斷詞方面我想使用自己的
: 詞庫進行斷詞，例如文章中"My name is Pierce"，正常斷詞會斷在空格處變成"My" "name"
: "is" "Pierce"，但我想使用自己的詞庫讓斷詞變成："My name" "is" "Pierce"。
: 目前Google關鍵字name entity recognition已經搜尋過，試過openNLP package，
: 但都沒有辦法達到我想要的效果(使用自己的詞庫進行斷詞)，請問其他有經驗的大大有
: 什麼解決的辦法嗎?
: [環境敘述]:
: R version 3.4.2 (2017-09-28)
: Platform: x86_64-w64-mingw32/x64 (64-bit)
: Running under: Windows >= 8 x64 (build 9200)
: [關鍵字]:
: NLP、斷詞、name entity recognition

作者: newdawn1106 (mao) 2018-03-16 19:12:00

謝謝你，你的方法我目前正在嘗試，成功了再上來回覆給可能需要的人

作者: piercelin (pierce) 2018-03-25 14:11:00

感謝D大的分法，英文斷詞確實比較難像中文依樣給予自訂詞庫(原諒小弟不才QQ)，靠著大大的方法成功解決問題，謝謝!

繼續閱讀

[問題] shiny跑出來的速度很慢a3236852 Re: [問題] 分割data.frame裡的文字(像excel資料剖析)clansoda [問題] 分割data.frame裡的文字(像excel資料剖析)a3236852 [問題] 使用Ｒ進行購物籃分析zhiying [問題] 如何讓legend在圖表中標示正確的資料paranoia5201 [問題] NLP英文文章處理piercelin [問題] 寫write.csv遇到問題earlywinter [問題] 匯出xlsx到檔案的指定分頁dailylily [分享] 修改既有的R function內容Wush978 [問題] 關聯式規則有空集合a3236852