您好,欢迎访问三七文档
混合高斯模型(GMM)每个GMM由K个Gaussian分布组成,每个Gaussian称为一个“Component”,这些Component线性加成在一起就组成了GMM的概率密度函数:基本概念将k个高斯模型混合在一起,每个点出现的概率是几个高斯混合的结果。基本概念有了数据,假定它们是由GMM生成出来的,那么我们只要根据数据推出GMM的概率分布,然后GMM的K个Component实际上就对应了K个cluster。那么要推出GMM的概率分布就要对其进行“参数估计”。1、对于每个数据Xi来说,它由第K个Component生成的概率为其中N(xi|μk,Σk)就是后验概率那么如何用GMM来做clustering呢?怎么去确定每个类的影响因子πk,每个类的均值(μk)及协方差矩阵(Σk)?最大似然估计!通过EM算法来求取。找到这样一组参数,它所确定的概率分布生成这些给定的数据点的概率最大,而这个概率实际上就等于,这个乘积称作似然函数。2、通过最大期望算法得到参数μk,Σk的值.其中,。3重复迭代前面两步,直到似然函数的值收敛为止。其中Φj即为每个类的影响因子πj,Qi(z(i)=j)=ωj(i)=,表示xi由类别j生成的概率。Z(i)表示每个样例i的隐含类别,Qi满足的条件是固定Φj和Σj,对求μj求导得令其等于0时,得到其他参数πk和Σk的推导过程不述,查询EM算法的内容可知。
本文标题:GMM算法详解
链接地址:https://www.777doc.com/doc-2237420 .html