[問題]中文的斷句存成data.frame

作者: empireisme (empireisme)   2020-04-28 09:55:55
如題 假設我有一段文章
content <- "紐約商業交易所(NYMEX)6月原油期貨5月6日收盤上漲0.31美元或0.5%成為
每桶62.25美元,因伊朗的局勢升溫,歐洲ICE期貨交易所(ICE Futures Europe)近月布
蘭特原油上漲0.39美元或0.6%成為每桶71.24美元。路透社報導,美國正在向中東部署一
個航母打擊群和一個轟炸機特遣部隊,美國代理國防部長稱伊朗政權的威脅是可信的。
卡達半島電視台網站5月5日報導,美國本月起取消對8個經濟體(中國、印度、日本、韓
國、台灣、土耳其、義大利和希臘)購買伊朗石油的豁免,相比去年11月美國對伊朗石油
出口實施制裁的時候允許這些國家在6個月內繼續購買以避免過度影響油價,顯然美國認
為如今油市已經有足夠的供應。美國國務卿蓬佩奧(Mike Pompeo)表示,美國已經與主
要產油國家進行溝通,希望確保油市的供應充足;加上美國國內的產油也在持續增長,這
令美國有信心油市的供應不會匱乏。 不過,實際局勢可能未必如美國所想。目前有多個
產油國家內政動盪並影響產量,包括阿爾及利亞、安哥拉、利比亞、伊朗、奈及利亞與委
內瑞拉,一旦動盪升級,隨時會進一步影響油市供應。此外,伊朗重質原油也並非任何國
家都能替代,遑論美國的輕質原油,與伊朗原油在品質上最為相近的是沙烏地阿拉伯,其
次為阿拉伯聯合大公國。"
我要如何把這段文章去做斷句
存成一個表格
第一列 是第一個句子 紐約商業交易所(NYMEX)6月原油期貨5月6日收盤上漲0.31美元或0.5%成為每桶62.25美

第二列 是第二個句子 因伊朗的局勢升溫
作者: locka (locka)   2020-04-28 10:40:00
regular expression為什麼要存成表格/dataframe?list不好嗎XDstringr::str_split(content, regex("[,。]"))
作者: locka (locka)   2020-04-28 02:40:00
regular expression為什麼要存成表格/dataframe?list不好嗎XDstringr::str_split(content, regex("[,。]"))
作者: cywhale (cywhale)   2020-04-28 15:36:00
tstrsplit(content,',|。') 會是你要的嗎?~~
作者: empireisme (empireisme)   2020-04-29 16:48:00
謝l大,因為習慣表格xdc大那不work即使加了s也一樣喔
作者: cywhale (cywhale)   2020-04-29 16:56:00
我忘了tstrsplit是data.table的,用strsplit功能也一樣

Links booklink

Contact Us: admin [ a t ] ucptt.com