[問題] Clustering 問題求解

作者: moodoa3583 (金牌台灣啤酒)   2020-10-13 23:22:09
嗨大家好
我現在有約莫 2000 個 entity,每個 entity 都有自己的 features,例如:
”LeBron”:[”NBA” ,”籃球”,”美國人”]
”電風扇”:[”家電”,”機械”]
...之類
而我的目的是要讓 entity 分群,例如 LeBron 就會跟 Westbrook 分成一堆,電風扇就會跟吹風機分成一堆。
目前有兩個卡住的點
1.每個 entity 所帶的 features 長度不同,可能有些有 5,6 個 features 有些只有一個,這樣子是否有方法可以餵給模型?
2.每個 entity 的 features 不盡相同,即使他們表示同一事物,例如 A 球員被標 NBA , B 球員被標 國家籃球協會,我得怎麼讓模型知道 NBA = 國家籃球協會 這件事?
以上兩點,還請不吝告知關鍵字,讓我有個查詢方向,謝謝各位。
作者: mirror0227 (鏡子)   2020-10-14 00:29:00
李宏毅好啦認真回,自然語言處理 NLP
作者: moodoa3583 (金牌台灣啤酒)   2020-10-14 00:46:00
感謝回應,NLP 算是我比較陌生的領域,想問有沒有處理類似問題的 repo 可以推薦給我呢?謝謝
作者: mychiux413 (小邱)   2020-10-14 11:57:00
NBA 籃球 還不是feature,你要先把他們train成embedding向量,這樣每個詞都會是一個可能512的向量,那feature尺寸就都一樣了關鍵字:embedding
作者: tsoahans (ㄎㄎ)   2020-10-14 14:02:00
非NN做法:bag of words+LSA/LDA來抽entity的特徵再分群

Links booklink

Contact Us: admin [ a t ] ucptt.com