※ 引述《jizzer5566 (陳雅姿噗滋)》之銘言:
: 假設在一個二維的空間有許多點
: 每個點有三種屬性的其中一種 分別是A或B或C屬性
: 我想藉由點與點的距離來做分群
: 希望在同一群裡面都是相同屬性
: 假設我分10群 取10個中心點
: 某1中心點為B屬性
: 那該群內的每個點我都預測為B屬性
: 再以 猜對的點數/全部點數 算正確率
: 我想請問一下
: 如果將分群數提升為20群甚至30群後
: 正確率反而下降了 是合理的嗎
: 其原因可能有哪些?
分群的演算法看起來向k-means 所以我用k-means來分析
假設你資料在二維空間中 長這樣好了
AAAAAAAAA* B*BBBBBBB* C*CCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
當K越大時 每個cluster的半徑越小
因此 在屬性交集的地方 ex:如a和b交接處 與b和c交接處
原本k很小時 群的半徑大
即使有些離群值離群中心(上圖的A' B' C')很遠
還是可以正確的分群
但當K變大時 會發現 有些ABC(上圖的A* B* C*)離它們的中心點很遠
反而這些離群值彼此比較近 互相結合成cluster
正確性就下降了
以上是小弟的一點看法 如果有錯請各位多多包含