[問題] 文字探勘自訂辭典 zcyee PTT批踢踢實業坊

[問題] 文字探勘自訂辭典

作者: zcyee (散落吧) 2018-05-18 11:35:39

[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式，只是對語法不熟悉)
[問題敘述]:
想要分詞的時候，依我自訂的辭典分，例如：閃電狼＞他會分成"閃電","狼"
姆咪>"姆","咪" 其實我已經利用edit_dict() 將我要的字詞輸入到裡面了，
但分出來還是不是我要的
[程式範例]:
edit_dict()
seg <- worker()
seg$encoding
corpus <- NULL
for(i in 1:length(article)){
corpus[[i]] <- segment(article[i], seg)
}
[環境敘述]:
R version 3.5.0 (2018-04-23)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
Matrix products: default
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 LC_CTYPE=Chinese
(Traditional)_Taiwan.950
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.950
LC_NUMERIC=C
[5] LC_TIME=Chinese (Traditional)_Taiwan.950
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] tm_0.7-3 NLP_0.1-11 RCurl_1.95-4.10 bitops_1.0-6
XML_3.98-1.11
[6] jiebaR_0.9.99 jiebaRD_0.1 readr_1.1.1
loaded via a namespace (and not attached):
[1] Rcpp_0.12.16 slam_0.1-43 R6_2.2.2 pillar_1.2.2
rlang_0.2.0
[6] xml2_1.2.0 tools_3.5.0 hms_0.4.2 parallel_3.5.0
yaml_2.1.19
[11] compiler_3.5.0 pkgconfig_2.0.1 tibble_1.4.2
[關鍵字]:

作者: zcyee (散落吧) 2018-05-18 11:42:00

https://i.imgur.com/zOXk41t.jpg補上個人辭典

作者: eric500g (魚頭) 2018-05-18 12:33:00

worker的user參數中的檔案就是使用者自訂字典，可把你的字輸進去

作者: zcyee (散落吧) 2018-05-18 16:13:00

對呀..我也是這樣用打完儲存後還是一樣...

作者: eric500g (魚頭) 2018-05-18 19:09:00

如果你是用畫面中的格式，那不是他要求的格式哦

作者: zcyee (散落吧) 2018-05-18 19:36:00

了解謝謝大大我用notepad++編輯就可以了

繼續閱讀

[問題] 如何將讀入資料由一行變多行MITIEN [問題] 給訂座標點與該座標點的值畫 3D 圖j0958322080 [問題] 求信賴區間piggyhawk [問題] 類別變數迴歸Sagara [問題] 公司電腦讀取XML檔alanfengjkl Re: [問題] dimensions of z are not length(x)(-1)cywhale Re: [問題] dimensions of z are not length(x)(-1)AndrewShi [問題] 想請教"%%"在R中代表的計算意義AmigoSafin [問題] dimensions of z are not length(x)(-1)AndrewShi [問題] 無法在CentOS 7上安裝rgeos和leafletclsmbstu

[問題] 文字探勘 自訂辭典

[問題] 文字探勘自訂辭典