机器学习-无监督机器学习-高斯混合模型-22

发布时间 2023-12-26 21:57:40作者: jack-chen666

1.

假设不同的簇数据来自于不同的高斯分布。或者换句话说,高斯混合模型就是当成数据集是由多个高斯分布混合而成的。这是这个模型的核心思想.

一维的gauss分布:

多变量(比如d个变量)高斯分布的概率密度函数:

μ是一个n维向量, 对应着分布的均值
sigma:是一个n*n协方差矩阵

假设数据蕴含着K个簇,那么μ和sigma也同样需要为了每一个簇k进行参数估计。

这里有K个簇,所以概率密度由K个分布的线性函数来定义


是第k个分布的混合系数,落入第k个簇 是有一定概率的。

使用最大对数似然方法来进行参数估计

引入知识点----Jenson不等式关于凸函数性质的不等式
若:

则:
即:

2. GMM 算法的一般流程

初始化:

Expectation Step:

样本i落入分类k中的概率;

Maximization Step:

估计出模型的参数
反复进程 E-M
得到最终的模型-- k个gauss分布的概率密度参数 以及这些模型是如何组成的:

3. 使用模型

density estimation
GMM本质上是一个密度估计算法;也就是说,从技术的角度考虑,一个 GMM 拟合的结果并不是一个聚类模型,而是描述数据分布的生成概率模型。

clustering
数据点x属于component
的概率