博客
关于我
从EM算法理解k-means与GMM的关系
阅读量:180 次
发布时间:2019-02-28

本文共 988 字,大约阅读时间需要 3 分钟。

EM算法是一种解决含有无法观测隐含变量的参数估计问题的方法,常用于概率模型中。其核心思想是通过迭代过程,在最大化目标函数的前提下,逐步逼近最优解。具体而言,EM算法采用两阶段循环:在E阶段(Expectation阶段),固定一个变量,将目标函数转化为凸优化函数,求其最大值;在M阶段(Maximization阶段),利用E阶段求得的最优参数更新被固定的变量,进入下一个循环。该过程直到收敛或满足停止条件为止。

在实际应用中,EM算法的核心优势在于其灵活性和适用性。然而,值得注意的是,EM算法仅能保证收敛到局部最优解,可能存在多个最优解的情况。

k-means算法

k-means是一种经典的无监督学习算法,用于聚类任务。其基本思路是将数据划分为K个簇,使得每个簇内的数据点与簇中心的距离之和最小。k-means算法的执行过程同样分为E和M两个阶段:

  • E阶段(Expectation阶段):根据当前已知的簇中心,对每个样本进行簇分配,即确定每个样本属于哪个簇。
  • M阶段(Maximization阶段):基于E阶段的簇分配结果,重新计算簇中心的位置,更新簇分配结果。
  • k-means算法需要预先指定簇的数量K,这一点成为其主要的局限性之一。

    高斯混合模型(GMM)

    高斯混合模型是一种基于概率模型的聚类方法,其核心思想是将数据看作多个高斯分布的混合物。具体而言,GMM假设数据由K个高斯分布混合而成,每个高斯分布对应一个簇。每个高斯分布有三个主要参数:均值μ_i、方差Σ_i和权重π_i。数据生成过程可以表示为:每个样本点独立地从各个高斯分布中按权重π_i生成。

    GMM算法同样需要预先设定簇的数量K,但其在参数估计方面具有EM算法的优势。具体来说,GMM的E和M阶段分别为:

  • E阶段(Expectation阶段):在已知高斯分布参数的情况下,计算每个样本属于各个高斯分布的概率。
  • M阶段(Maximization阶段):利用E阶段计算出的概率更新高斯分布的均值、方差和权重参数。
  • GMM算法的一个显著优势是可以为每个样本提供归属某类的概率,这对于后续的分类任务具有重要意义。

    总结

    k-means和GMM算法在EM算法框架下都采用了两阶段迭代方法。两者的主要区别体现在具体的聚类逻辑上:k-means关注的是簇中心的位置,而GMM不仅关注簇中心,还关注每个样本所属各簇的概率。

    转载地址:http://wydi.baihongyu.com/

    你可能感兴趣的文章
    Nginx配置文件nginx.conf中文详解(总结)
    查看>>
    Nginx配置负载均衡到后台网关集群
    查看>>
    ngrok | 内网穿透,支持 HTTPS、国内访问、静态域名
    查看>>
    NHibernate学习[1]
    查看>>
    NHibernate异常:No persister for的解决办法
    查看>>
    NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
    查看>>
    NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
    查看>>
    NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
    查看>>
    NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
    查看>>
    NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
    查看>>
    NIFI大数据进阶_NIFI监控的强大功能介绍_处理器面板_进程组面板_summary监控_data_provenance事件源---大数据之Nifi工作笔记0025
    查看>>
    NIFI大数据进阶_内嵌ZK模式集群1_搭建过程说明---大数据之Nifi工作笔记0015
    查看>>
    NIFI大数据进阶_外部ZK模式集群1_实际操作搭建NIFI外部ZK模式集群---大数据之Nifi工作笔记0017
    查看>>