一、人物出場次數分析
https://reurl.cc/MdALXX
二、人物共現分析
https://reurl.cc/Oq0LER
三、親密度分析
層次聚類方法
https://reurl.cc/Oq0LVR
空間聚類方法
https://reurl.cc/gmWpDz
我們選擇詞向量模型對人物關係進行分析。詞向量模型是將word映射到一個新的空間中,
並以連續多維的實數向量進行表示(即Word Represention或Word Embedding)。
我們選擇最近比較的Word2Vector模型,其利用深度學習的思想,可以通過訓練,把對文
本內容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文
本語義上的相似。
我們使用了Python中的gensim包進行分析,將人物進行向量化。我們選取了與韋小寶最相
似(親密度最高的)人物
https://reurl.cc/gmWpaR
綜上,我們可以發現韋小寶與康熙的關係很不一般。種種分析的結果都指向二者有著異常
密切的關係——常常結伴出現,親密係數又是最高的,空間距離(人物關係)又是最近的
,聚類又首先被聚到一起。連幾個世紀前一段塵封的感情糾葛的真相都能大白於天下,還
有什麼是大數據挖掘做不到的呢?
來源(簡體不喜勿入)
https://reurl.cc/m9L4yl