Fw: [請益] 將英文文章 軟換成單字的程式.軟體

作者: unknow3121 (alex)   2019-07-22 23:38:45
※ [本文轉錄自 Eng-Class 看板 #1TDTTUZS ]
作者: unknow3121 (alex) 看板: Eng-Class
標題: [請益] 將英文文章 軟換成單字的程式.軟體
時間: Mon Jul 22 23:33:48 2019
本人最近欲學習某一領域英文,若手邊有數篇該領域文章的話,請問有沒有
“軟體/程式/APP”可以直接自動“轉換or分類or排序or解析”文章內出現的所有單字?
抱歉! 講得有點攏統,實在不知道該怎麼描述... 以下用條列的方式簡單敘述:
1. 一篇上千字的某領域文章
2. 直接將該篇文章貼至需求的"軟體"
3. 該軟體自動將文章內出現的所有單字依序排列(例如從a-z)
4. 排列完後,將這些單字解析成 (a)中文 (b)詞性 (c)音標 ...等等
例如:
<文章>
I have a pen
I have an apple
Ugh
Apple pen
I have a pen
I have pineapple
Ugh
Pineapple pen
<解析> a-z排序
a 一個 冠詞 該字音標
an 一個 冠詞 該字音標
apple 蘋果 名詞 該字音標
have 擁有 及物動詞 該字音標
I 我 代名詞 該字音標
pen 筆 名詞 該字音標
pineapple 鳳梨 名詞 該字音標
Ugh 呃 詞性 該字音標
作者: jack0204 (Jarbar王朝)   2019-07-24 08:00:00
想學就自己寫啊,這用chrome套件寫就行了
作者: unknow3121 (alex)   2019-07-22 23:40:00
我是原po, 若有違反版規請告知, 謝謝!
作者: Hsins (翔)   2019-07-22 23:46:00
簡單的字串處理跟爬蟲啊,整篇文章去掉標點符號之後根據空格做 split 出單字,根據單字去爬意思、詞性跟音標,最後排序。就算不用程式語言,單純用 Excel 或 Google Spreadsheet 也能做到。
作者: dspp779 (蒼疾)   2019-07-23 00:05:00
你聽過 Linggle Booster 嗎? https://b.linggle.com
作者: viper9709 (阿達)   2019-07-23 00:28:00
推二樓
作者: enthos (影斯作業系統)   2019-07-23 00:50:00
作者: xiangying (xiangying)   2019-07-23 07:17:00
google斷詞系統
作者: BlacksPig (Black Handsome s Pig)   2019-07-23 12:58:00
推二樓
作者: remmurds (Stronghold)   2019-07-23 13:18:00
連標題都打不好
作者: alihue (wanda wanda)   2019-07-23 13:37:00
2f 還需要再多做 Stemming/Lemmatization
作者: weiber82 (weiber)   2019-07-23 16:02:00
jieba
作者: windclara (null)   2019-07-23 18:19:00
2F已給答案。這真的不難QQ
作者: sxy67230 (charlesgg)   2019-07-26 10:36:00
請搜索Spacy或是nltk tool,翻譯可以用wiktionary api
作者: jennya (Jennya)   2019-07-27 01:30:00
反推二樓,這其實並不簡單。蠻好奇推二樓的人是否真的有做過。事實上字串處理部分就有一堆細節,包含大小寫、時態轉換、專有名詞(get/gets/got)(Joe,Joe's)(don't) 等等等非常多無法備載。再來你還要去抓字典檔、把斷詞後的單字套用上去。總之這不是一個五小時內能做完的簡單的東西,如果二三十小時可能可以吧。不過如果有好用的library就另當別論。總之反推二樓。
作者: Hsins (翔)   2019-07-29 15:55:00
如果說要考慮到 morphology 當然就麻煩許多了,我說的做法只是陽春的處理。我會這樣推文是針對於這篇發文者可能要做到的成果。其中比如你提到的大小寫跟時態轉換,甚至我說的構詞方法,目前部分的網路字典所提供的 API 是可以處理的。以這篇他所要的結果來說,我的推文應該是可以 fit 他需求的。至於是要做成一個實際的產品要考慮到的東西,應該不是發文者要的吧?

Links booklink

Contact Us: admin [ a t ] ucptt.com