分類是把某個對象劃分到某個具體的已經定義的類別當中,而聚類是把一些對象按照具體特征組織到若干個類別里。
相關視頻
雖然都是把某個對象劃分到某個類別中,但是分類的類別是已經預定義的,而聚類操作時,某個對象所屬的類別卻不是預定義的。所以,對象所屬類別是否為事先,是二者的最基本區別。而這個區別,僅僅是從算法實現流程來看的。
本文幫助客戶對數據進行聚類和分類,需要得到的結果是,聚類的二維效果圖,聚類個數,聚類中心點值。用聚類得到的結果貝葉斯建模后去預測分類。需要得到貝葉斯的模型精度,分類預測結果。
聚類算法(clustering analysis)是指將一堆沒有標簽的數據自動劃分成幾類的方法,屬于無監督學習方法。K-means算法,也被稱為K-平均或K-均值,是一種廣泛使用的聚類算法,或者成為其他聚類算法的基礎,它是基于點與點距離的相似度來計算最佳類別歸屬。幾個相關概念:
K值:要得到的簇的個數;
質心:每個簇的均值向量,即向量各維取平均即可;
距離量度:常用歐幾里得距離和余弦相似度(先標準化);
kmeans(data, 3)
lusplot(data, fit$cluster
將數據使用kmean算法分成3個類別后可以看到 每個類別之間分布呈不同的簇,交集較少 ,因此 可以認為得到的聚類結果較好。