[問題]想請教關於計算文章相似度的問題

作者: willieyeh1 (yeh)   2017-12-27 11:41:32
各位好,想請教關於文章相似度計算的問題.
目前知道計算文章相似度有一些演算法,例如下列這四種:
1.LSI
2.LDA
3.Doc2vec
4.TF-IDF
因為想運用這四種演算法做文章相似度的計算,但由於之前無相關背景,
也請教過一些資訊系的教授,但目前問到的教授,皆未從事相關領域的研究.
能否請教各位有經驗的大大是否能提供一些關於這些演算法的說明介紹
或是哪些網站可以找尋到相關的資訊,以便了解如何實作出這幾個系統,謝謝.
或是有哪些特定的軟體,可以模擬這幾種算法,並能夠求解,謝謝.
所要解決的題目網站:http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
作者: castman ( )   2017-12-27 13:07:00
google "gensim tutorial", 有LSI計算相似度的範例, lda,word2vec 基本上也是換個 method callgensim 是 python 的 library
作者: willieyeh1 (yeh)   2017-12-29 00:55:00
謝謝分享!

Links booklink

Contact Us: admin [ a t ] ucptt.com