当前位置: 代码网 > 科技>人工智能>机器学习 > 机器学习笔记之EM算法(三)隐变量与EM算法的本质

机器学习笔记之EM算法(三)隐变量与EM算法的本质

2024年08月01日 机器学习 我要评论
上一节介绍了EM算法公式的导出过程,本节将重新回顾EM算法,比对各模型的求解方式,并探究引入隐变量与EM算法的本质。

引言

介绍了em算法公式的导出过程,本节将重新回顾em算法,比对各模型的求解方式,并探究引入隐变量与em算法的本质。

回顾:em算法

从性质上介绍em算法

em算法本质上是一种算法它的目标是通过求解参数 θ \theta θ,将概率模型 p ( x ∣ θ ) p(\mathcal x \mid \theta) p(xθ)表示出来
em算法具有 相似性质 的如:极大似然估计(mle),最大后验概率估计(map):
θ ^ m l e = arg ⁡ max ⁡ θ log ⁡ p ( x ∣ θ ) θ ^ m a p ∝ arg ⁡ max ⁡ θ log ⁡ p ( x ∣ θ ) p ( θ ) \hat \theta_{mle} = \mathop{\arg\max}\limits_{\theta} \log p(\mathcal x \mid \theta) \\ \hat \theta_{map} \propto \mathop{\arg\max}\limits_{\theta} \log p(\mathcal x \mid \theta)p(\theta) θ^mle=θargmaxlogp(xθ)θ^mapθargmaxlogp(xθ)p(θ)

和上述两种方法不同的是,em算法并没有求解析解,而是迭代解
与其说是求解,不如说是对求解过程中‘对解进行优化’。相似方法的有‘梯度下降’~
θ ( t + 1 ) = arg ⁡ max ⁡ θ ∫ z p ( x , z ∣ θ ) p ( z ∣ x , θ ( t ) ) d z \theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \int_{\mathcal z} p(\mathcal x,\mathcal z \mid \theta)p(\mathcal z \mid \mathcal x,\theta^{(t)}) d\mathcal z θ(t+1)=θargmaxzp(x,zθ)p(zx,θ(t))dz
通过em算法的收敛性证明,可以推导出em算法在迭代过程中可以对模型参数的解 θ \theta θ进行优化,从而达到一个至少是局部最优的解
log ⁡ p ( x ∣ θ ( t + 1 ) ) ≥ log ⁡ p ( x ∣ θ ( t ) ) \log p(\mathcal x \mid \theta^{(t+1)}) \geq \log p(\mathcal x \mid \theta^{(t)}) logp(xθ(t+1))logp(xθ(t))

其他概念回顾

由于em算法的算法性质,自然和之前介绍的其他概念存在明显区分:

线性回归

例如之前介绍的很多概念如:线性回归,它的模型只是一个线性函数
f ( w , b ) = w t x + b f(\mathcal w,b) = \mathcal w^{t}\mathcal x + b f(w,b)=wtx+b
基于该模型,如何通过求解模型参数 w , b \mathcal w,b w,b来实现回归任务?因此介绍一种求解模型参数 w , b \mathcal w,b w,b工具:最小二乘估计
l ( w , b ) = ∑ i = 1 n ∣ ∣ w t x ( i ) + b − y ( i ) ∣ ∣ ( x ( i ) , y ( i ) ) ∈ d a t a \mathcal l(\mathcal w,b) = \sum_{i=1}^n||\mathcal w^{t}x^{(i)} + b - y^{(i)}|| \quad (x^{(i)},y^{(i)}) \in data l(w,b)=i=1

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com