勵志

勵志人生知識庫

什麼是層次聚類

層次聚類(Hierarchical Clustering)是一種在數據分析機器學習中廣泛使用的聚類算法,它通過計算不同類別數據點間的相似度來創建一棵有層次的嵌套聚類樹。

在層次聚類中,不同類別的原始數據點是聚類樹的最低層,而樹的頂層通常是一個根節點,代表所有數據點的聚合。層次聚類的過程可以分為兩種策略:

聚合策略(自底向上)。開始時假設每個樣本都是一個單獨的簇,然後根據相似度高低逐步合併簇,直到滿足停止條件,例如只剩下一個簇。

分裂策略(自頂向下)。開始時所有數據點都在一個簇中,然後遞歸地將其分割成更小的簇,直到每個數據點都在自己的簇中。

層次聚類使用不同的方法來計算簇間的相似度,例如最小距離(單連結算法)、最大距離(全連結算法)、平均距離(均連結算法)、中心距離或最小方差(Ward連結算法)等。這些方法決定了合併或分裂的標準。層次聚類不僅可以幫助發現數據的自然分組,而且可以通過在聚類樹的適當層次上切割來選擇簇的數量,從而對數據結構有更深入的理解。