K-means-高斯混合模型GMM

作为机器学习算法的一员，不同于SVMs（支持向量机），贝叶斯，logistic regression这些监督学习算法，K-means是一种无监督的聚类算法。这里的K表示类别的个数。

K-means算法EM步骤如下：

下图显示了K-means的每一步骤的结果：

高斯混合模型GMMs Gaussian Mixture Models

高斯模型即正态分布，高斯混合模型就是几个正态分布的叠加，每一个正态分布代表一个类别，所以和K-means很像，高斯混合模型也可以用来做无监督的聚类分析。

高斯混合模型聚类算法EM步骤如下：

针对每一个高斯分布，每一个样本对该高斯分布的贡献可以由其下的概率表示，如概率大则表示贡献大，反之亦然。这样把样本对该高斯分布的贡献作为权重来计算加权的均值和方差。之后替代其原本的均值和方差。
重复3~4直到每一个高斯分布的均值和方差收敛。

下图显示了高斯混合模型的聚类过程：

注：当高斯混合模型的特征值维数大于一维时，在计算加权的时候还要计算协方差，即要考虑不同维度之间的相互关联。

高斯混合模型和K-means的比较：

相同点：

不同点：

results matching ""