机器学习-无监督机器学习-高斯混合模型-22-526互联

假设不同的簇数据来自于不同的高斯分布。或者换句话说，高斯混合模型就是当成数据集是由多个高斯分布混合而成的。这是这个模型的核心思想.

一维的gauss分布：

多变量（比如d个变量）高斯分布的概率密度函数：

μ是一个n维向量，对应着分布的均值
sigma：是一个n*n协方差矩阵

假设数据蕴含着K个簇，那么μ和sigma也同样需要为了每一个簇k进行参数估计。

这里有K个簇，所以概率密度由K个分布的线性函数来定义

是第k个分布的混合系数，落入第k个簇是有一定概率的。

使用最大对数似然方法来进行参数估计

引入知识点----Jenson不等式关于凸函数性质的不等式
若：

则：
即：

初始化：

Expectation Step：

样本i落入分类k中的概率；

Maximization Step:

估计出模型的参数
反复进程 E-M
得到最终的模型-- k个gauss分布的概率密度参数以及这些模型是如何组成的：

density estimation
GMM本质上是一个密度估计算法；也就是说，从技术的角度考虑，一个 GMM 拟合的结果并不是一个聚类模型，而是描述数据分布的生成概率模型。

clustering
数据点x属于component
的概率