[問題] 找出文章中的數字跟對應的名詞

作者: PHONm (USA~USA)   2016-06-15 13:52:11
想要將文章中的數字找出來
譬如 文章中會出現很多次的
.....kobe 24,
.....james 23,
然後比對分析後就可以得出
kobe 是24
james 是23
請問有這種函示庫可以用嗎
我現在自己寫是很笨的作法
1.先找出第一個出現的數字, (ex: xxx ooo xxx kobe 24 jump shot 的 2)
2.存下第一個出現數字往前20個字元的字串(xxx ooo xxx kobe)
以及對應的數字後結尾而成的數字串( 24 )
3.重複上面將整篇文章有數字的都抓下來
4.比對步驟2中儲存同樣對應24的字串
xxx ooo xxx kobe
ooo xxx ooo kobe
5.將相同的存下來 對應24 (kobe 24)
不知道有沒有更好的函示庫可以直接拿來用,感謝。
作者: ccvs (kisS x Sis)   2016-06-15 14:15:00
語意分析的工具很多啊
作者: PHONm (USA~USA)   2016-06-15 14:43:00
有推薦的嗎? 我找了一些 越找越多 Orz新手初學中 感覺自己寫會比花時間找來的快 但又覺得這種東西應該很多人寫過,而且會比我自己寫得來的好 囧
作者: ripple0129 (perry tsai)   2016-06-15 16:11:00
你的規則不複雜,re寫比較快,用別人的還要先研究api
作者: PHONm (USA~USA)   2016-06-15 18:10:00
了解了! 感謝樓上分析
作者: ql4au04 (泡麵)   2016-06-21 02:53:00
用bI-gram找完再回頭對tf idf 自己寫應該算快吧

Links booklink

Contact Us: admin [ a t ] ucptt.com