PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
R_Language
[問題] 自訂網頁關鍵字
作者:
Tampa
(光芒)
2016-07-04 23:17:10
程度:自學一個月左右
問題:如何自訂搜尋網頁關鍵字
已安裝套件 tmcn 與 RCurl
#讀取網頁
y<-url.exists("https://zh.wikipedia.org/wiki/%E5%85%B3%E7%BE%BD")
想自訂關鍵字 關羽,關帝聖君(有關於關羽的別稱都搜尋出來)
匯出每種名稱的種類以及頻率
如關羽:10次
關公:5次
等等
請問大大們 是要設定甚麼函數啊??
作者:
andrew43
(討厭有好心推文後刪文者)
2016-07-05 04:09:00
你可能問得太快了。爬一下文了解怎麼把全文轉字串,再對串字進行處理。在板上按 s 找找 "網頁" 這個關鍵字
作者:
Tampa
(光芒)
2016-07-05 00:20:00
C 大 我已經把網頁宣告為y 他有辦法直接讀取y全部並搜尋嗎
作者:
celestialgod
(天)
2016-07-04 23:28:00
stringr的str_extract_all應該可以
http://pastebin.com/gqsQipkT
這裡要有regexp的知識比較好做
作者:
psinqoo
(零度空間)
2016-07-05 08:19:00
codeJob 不是以徵得嗎??? Orz還有 不要隨便刪除文~~~ @@
作者:
Tampa
(光芒)
2016-07-05 08:41:00
P大,徵得算是找到人可諮詢 主要還是想靠自己
作者:
psinqoo
(零度空間)
2016-07-05 12:10:00
#1KizQPJ
作者:
Tampa
(光芒)
2016-07-05 15:09:00
抱歉 不知道 規則所以刪掉了
作者:
celestialgod
(天)
2016-07-05 19:17:00
httr的GET 加上 content就可以拿到網頁的文字了,要去掉html標籤的話用httr的GET + content + xml2的xml_text看一下前面我回的幾篇parsing網頁的文章吧
繼續閱讀
[問題] 處理資料 效能詢問
spiderway
[心得] strptime 與中文
Edster
[問題] R graph with two y-axes
amber219212
[問題] 判斷row的重複個數並做某個計算
bedroom0204
[問題] 在mac上plot中文出現方塊的永久解決方案
JJabrams
[問題] 請教Rmpi設定哪裡出了問題
dp2046
[問題] R的規劃求解 optim()、constrOptim()
MrSomebody
[情報] R 語言入門課程(7/21 ~ 7/22,南科)
wanggz
Re: [問題] Magrittr 小問題
celestialgod
[問題] Magrittr 小問題
swedrf0112
Links
booklink
Contact Us: admin [ a t ] ucptt.com