📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 2.3.1 定义
  • 均值
  • 协方差
  • 2.3.2 迭代运算
  • 均值
  • 协方差
  • 2.3.4 贝叶斯学习
  • 单变量正态密度的均值学习

这有帮助吗?

在GitHub上编辑
  1. 第二章 生成式分类器

2.3 均值向量和协方差矩阵的参数估计

上一页2.2 正态分布模式的贝叶斯分类器下一页附 第二章作业

最后更新于1年前

这有帮助吗?

  • 在贝叶斯分类器中,构造分类器需要知道类概率密度函数p(x∣ωi)p(x|\omega_i)p(x∣ωi​)

  • 如果按先验知识已知其分布,则只需知道分布的参数即可

    • 例如:类概率密度是正态分布,它完全由其均值向量和协方差矩阵所确定

对均值向量和协方差矩阵的估计即为贝叶斯分类器中的一种参数估计问题

参数估计的两种方式

  • 一种是将参数作为非随机变量来处理,例如矩估计就是一种非随机参数的估计

  • 另一种是随机参数的估计,即把这些参数看成是随机变量,例如贝叶斯参数估计

2.3.1 定义

均值

设模式的概率密度函数为p(x)p(x)p(x),则均值的定义为:

m=E(x)=∫xxp(x)dxm = E(x) = \int_x xp(x)dxm=E(x)=∫x​xp(x)dx

其中,x=(x1,x2,…,xn)Tx=(x_1,x_2,\dots,x_n)^Tx=(x1​,x2​,…,xn​)T,m=(m1,m2,…,mn)Tm=(m_1,m_2,\dots,m_n)^Tm=(m1​,m2​,…,mn​)T

由大数定律有,均值的估计量为:

协方差

协方差矩阵为:

其中,每个元素的定义为:

将协方差矩阵写成向量的方式为:

则根据大数定律,协方差的估计量可以写为:

2.3.2 迭代运算

均值

假设已经计算了N个样本的均值估计量,此时若新增一个样本,则新的估计量为:

协方差

协方差与均值类似,当前已知

则新加入一个样本后:

2.3.4 贝叶斯学习

  • 按这些估计量统计特性的先验知识,可以先粗略地预选出它们的密度函数

具体而言,就是:

单变量正态密度的均值学习

其中a是一定值。由贝叶斯法则有:

上述两式相比较,可得:

m^=1N∑j=1Nxj\hat{m} = \frac{1}{N}\sum^N_{j=1}x_jm^=N1​j=1∑N​xj​
C=(c11c12⋯c1nc21c22⋯c2n⋮⋮⋱⋮cn1cn2⋯cnn)C= \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n}\\ c_{21} & c_{22} & \cdots & c_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{pmatrix}C=​c11​c21​⋮cn1​​c12​c22​⋮cn2​​⋯⋯⋱⋯​c1n​c2n​⋮cnn​​​
cij=E{(xi−mi)(xj−mj)}=∫−∞∞∫−∞∞(xi−mi)(xj−mj)p(xi,xj)dxidxj\begin{align} c_{ij} &= E\{(x_i-m_i)(x_j-m_j)\} \nonumber \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x_i-m_i)(x_j-m_j)p(x_i,x_j)dx_idx_j \nonumber \end{align}cij​​=E{(xi​−mi​)(xj​−mj​)}=∫−∞∞​∫−∞∞​(xi​−mi​)(xj​−mj​)p(xi​,xj​)dxi​dxj​​

其中,xix_ixi​、xjx_jxj​和mim_imi​、mjm_jmj​分别为x、m的第i和j个分量。

C=E{(x−m)(x−m)T}=E{xxT}−mmT\begin{align} C&=E\{(x-m)(x-m)^T\} \nonumber \\ &=E\{xx^T\} - mm^T \nonumber \end{align}C​=E{(x−m)(x−m)T}=E{xxT}−mmT​
C^≈1N∑k=1N(xk−m^)(xk−m^)T\hat{C} \approx \frac{1}{N}\sum^{N}_{k=1}(x_k-\hat{m})(x_k-\hat{m})^TC^≈N1​k=1∑N​(xk​−m^)(xk​−m^)T
m^(N+1)=1N+1∑j=1N+1xj=1N+1[∑j=1Nxj+xN+1]=1N+1[Nm^(N)+xN+1]\begin{align} \hat{m}(N+1) &= \frac{1}{N+1}\sum^{N+1}_{j=1}x_j \nonumber \\ &= \frac{1}{N+1}\left[\sum_{j=1}^Nx_j + x_{N+1}\right] \nonumber \\ &= \frac{1}{N+1}[N\hat{m}(N) + x_{N+1}] \end{align}m^(N+1)​=N+11​j=1∑N+1​xj​=N+11​[j=1∑N​xj​+xN+1​]=N+11​[Nm^(N)+xN+1​]​​

迭代的初始化取m^(1)=x1\hat{m}(1)=x_1m^(1)=x1​

C^(N)=1N∑j=1NxjxjT−m^(N)m^T(N)\hat{C}(N)=\frac{1}{N}\sum^N_{j=1}x_jx_j^T - \hat{m}(N)\hat{m}^T(N)C^(N)=N1​j=1∑N​xj​xjT​−m^(N)m^T(N)
C^(N+1)=1N+1∑j=1N+1xjxjT−m^(N+1)m^T(N+1)=1N+1[∑j=1NxjxjT+xN+1xN+1T]−m^(N+1)m^T(N+1)=1N+1[NC^(N)+Nm^(N)m^T(N)+xN+1xN+1T]− 1(N+1)2[Nm^(N)+xN+1][Nm^(N)+xN+1]T\begin{align} \hat{C}(N+1) &= \frac{1}{N+1}\sum^{N+1}_{j=1}x_jx_j^T - \hat{m}(N+1)\hat{m}^T(N+1) \nonumber \\ &= \frac{1}{N+1}\left[\sum_{j=1}^Nx_jx_j^T + x_{N+1}x_{N+1}^T\right] - \hat{m}(N+1)\hat{m}^T(N+1) \nonumber \\ &=\frac{1}{N+1}[N\hat{C}(N) + N\hat{m}(N)\hat{m}^T(N) + x_{N+1}x_{N+1}^T] - \nonumber \\ &\ \frac{1}{(N+1)^2}[N\hat{m}(N) + x_{N+1}][N\hat{m}(N) + x_{N+1}]^T \end{align}C^(N+1)​=N+11​j=1∑N+1​xj​xjT​−m^(N+1)m^T(N+1)=N+11​[j=1∑N​xj​xjT​+xN+1​xN+1T​]−m^(N+1)m^T(N+1)=N+11​[NC^(N)+Nm^(N)m^T(N)+xN+1​xN+1T​]− (N+1)21​[Nm^(N)+xN+1​][Nm^(N)+xN+1​]T​​

由于m^(1)=x1\hat{m}(1)=x_1m^(1)=x1​,因此有C^(1)=0\hat{C}(1) = 0C^(1)=0

将概率密度函数的参数估计量看成是随机变量θ\thetaθ,它可以是纯量、向量或矩阵

通过训练模式样本集{xi}\{x_i\}{xi​},利用贝叶斯公式设计一个迭代运算过程求出参数的后验概率密度p(θ∣xi)p(\theta|x_i)p(θ∣xi​)

当后验概率密度函数中的随机变量θ\thetaθ的确定性提高时,可获得较准确的估计量

p(θ∣x1,⋯ ,xN)=p(xN∣θ,x1,⋯ ,xN−1)p(θ∣x1,⋯ ,xN−1)p(xN∣x1,⋯ ,xN−1)p(\theta|x_1,\cdots,x_N) = \frac{p(x_N|\theta,x_1,\cdots,x_{N-1})p(\theta|x_1,\cdots,x_{N-1})}{p(x_N|x_1,\cdots,x_{N-1})}p(θ∣x1​,⋯,xN​)=p(xN​∣x1​,⋯,xN−1​)p(xN​∣θ,x1​,⋯,xN−1​)p(θ∣x1​,⋯,xN−1​)​

其中,先验概率p(θ∣x1,⋯ ,xN−1)p(\theta|x_1,\cdots,x_{N-1})p(θ∣x1​,⋯,xN−1​)由迭代计算而来,而全概率则由以下方式计算:

p(xN∣x1,⋯ ,xN−1)=∫xp(xN∣θ,x1,⋯ ,xN−1)p(θ∣x1,⋯ ,xN−1)dθp(x_N|x_1,\cdots,x_{N-1})=\int_xp(x_N|\theta,x_1,\cdots,x_{N-1})p(\theta|x_1,\cdots,x_{N-1})d\thetap(xN​∣x1​,⋯,xN−1​)=∫x​p(xN​∣θ,x1​,⋯,xN−1​)p(θ∣x1​,⋯,xN−1​)dθ

因此,实际上需要知道的就是初始的p(θ)p(\theta)p(θ)

假设有一个模式样本集,其概率密度函数是单变量正态分布N(θ,σ2)N(\theta,\sigma^2)N(θ,σ2),均值θ\thetaθ待求,即:

p(x∣θ)=12πσexp⁡[−12(x−θσ2)2]p(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp{\left[-\frac{1}{2}\left(\frac{x-\theta}{\sigma^2}\right)^2\right]}p(x∣θ)=2π​σ1​exp[−21​(σ2x−θ​)2]

给出N个训练样本{x1,x2,…,xN}\{x_1,x_2,\dots,x_N\}{x1​,x2​,…,xN​},用贝叶斯学习计算其均值估计量。

对于初始条件,设 p(θ)=N(θ0,σ02)p(\theta)=N(\theta_0,\sigma^2_0)p(θ)=N(θ0​,σ02​),p(x1∣θ)=N(θ,σ2)p(x_1|\theta)=N(\theta,\sigma^2)p(x1​∣θ)=N(θ,σ2),由贝叶斯公式可得:

p(θ∣x1)=a⋅p(x1∣θ)p(θ)=a⋅12πσexp⁡[−12(x−θσ2)2]⋅12πσ0exp⁡[−12(x−θ0σ02)2]\begin{align} p(\theta|x_1) &= a\cdot p(x_1|\theta)p(\theta)\nonumber \\ &= a\cdot \frac{1}{\sqrt{2\pi}\sigma}\exp{\left[-\frac{1}{2}\left(\frac{x-\theta}{\sigma^2}\right)^2\right]}\cdot \frac{1}{\sqrt{2\pi}\sigma_0}\exp{\left[-\frac{1}{2}\left(\frac{x-\theta_0}{\sigma_0^2}\right)^2\right]}\nonumber \end{align}p(θ∣x1​)​=a⋅p(x1​∣θ)p(θ)=a⋅2π​σ1​exp[−21​(σ2x−θ​)2]⋅2π​σ0​1​exp[−21​(σ02​x−θ0​​)2]​
p(θ∣x1,…,xN)=p(x1,…,xN∣θ)p(θ)∫φp(x1,…,xN∣θ)p(θ)dθp(\theta|x_1,\dots,x_N)=\frac{p(x_1,\dots,x_N|\theta)p(\theta)}{\int_\varphi p(x_1,\dots,x_N|\theta)p(\theta)d\theta}p(θ∣x1​,…,xN​)=∫φ​p(x1​,…,xN​∣θ)p(θ)dθp(x1​,…,xN​∣θ)p(θ)​

此处ϕ\phiϕ表示整个模式空间,由于每一次迭代是逐个从样本子集中抽取,因此N次运算是独立的,上式由此可以写成:

p(θ∣x1,…,xN)=a⋅{∏k=1Np(xk∣θ)}p(θ)=a⋅{∏k=1N12πσexp⁡[−12(xk−θσ2)2]}⋅12πσ0exp⁡[−12(x−θ0σ02)2]=a′exp⁡[−12{∑k=1N(xk−θσ)2}+(x−θ0σ02)2]=a′′exp⁡[−12{(Nσ2+1σ02)θ2−2(1σ2∑k=1Nxk+θ0σ02)θ}]\begin{align} p(\theta|x_1,\dots,x_N)&=a\cdot\left\{\prod_{k=1}^Np(x_k|\theta)\right\}p(\theta)\nonumber \\ &=a\cdot\left\{\prod_{k=1}^N\frac{1}{\sqrt{2\pi}\sigma}\exp{\left[-\frac{1}{2}\left(\frac{x_k-\theta}{\sigma^2}\right)^2\right]}\right\}\cdot\frac{1}{\sqrt{2\pi}\sigma_0}\exp{\left[-\frac{1}{2}\left(\frac{x-\theta_0}{\sigma_0^2}\right)^2\right]}\nonumber \\ &=a^{'}\exp{\left[-\frac{1}{2}\left\{\sum_{k=1}^N\left(\frac{x_k-\theta}{\sigma}\right)^2\right\} + \left(\frac{x-\theta_0}{\sigma_0^2}\right)^2\right]}\nonumber \\ &= a^{\prime \prime} \exp \left[-\frac{1}{2}\left\{\left(\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}\right) \theta^2-2\left(\frac{1}{\sigma^2} \sum_{k=1}^N x_k+\frac{\theta_0}{\sigma_0^2}\right) \theta\right\}\right]\nonumber \end{align}p(θ∣x1​,…,xN​)​=a⋅{k=1∏N​p(xk​∣θ)}p(θ)=a⋅{k=1∏N​2π​σ1​exp[−21​(σ2xk​−θ​)2]}⋅2π​σ0​1​exp[−21​(σ02​x−θ0​​)2]=a′exp[−21​{k=1∑N​(σxk​−θ​)2}+(σ02​x−θ0​​)2]=a′′exp[−21​{(σ2N​+σ02​1​)θ2−2(σ21​k=1∑N​xk​+σ02​θ0​​)θ}]​

将上式中所有与θ\thetaθ无关的变量并入常数项a′a^{'}a′和a′′a^{''}a′′,则p(θ∣x1,…,xN)p(\theta|x_1,\dots,x_N)p(θ∣x1​,…,xN​)是θ\thetaθ平方函数的指数集合,仍是正态密度函数,写为N(θN,σN2)N(\theta_N,\sigma_N^2)N(θN​,σN2​)的形式,有:

p(θ∣x1,…,xN)=12πσNexp⁡[−12(θ−θNσN)2]=a′′′exp⁡[−12(θ2σN2−2θNθσN2)]\begin{align} p(\theta|x_1,\dots,x_N) &= \frac{1}{\sqrt{2\pi}\sigma_N}\exp{\left[-\frac{1}{2}\left(\frac{\theta-\theta_N}{\sigma_N}\right)^2\right]}\nonumber \\ &= a^{'''}\exp{\left[-\frac{1}{2}\left(\frac{\theta^2}{\sigma^2_N}-2\frac{\theta_N\theta}{\sigma^2_N}\right)\right]}\nonumber \end{align}p(θ∣x1​,…,xN​)​=2π​σN​1​exp[−21​(σN​θ−θN​​)2]=a′′′exp[−21​(σN2​θ2​−2σN2​θN​θ​)]​
1σ2=Nσ2+1σ02θNσN2=1σ2∑k=1Nxk+θ0σ02=Nσ2m^+θ0σ02\begin{align} \frac{1}{\sigma^2}&=\frac{N}{\sigma^2} + \frac{1}{\sigma^2_0}\nonumber \\ \frac{\theta_N}{\sigma_N^2} &= \frac{1}{\sigma^2}\sum^N_{k=1}x_k + \frac{\theta_0}{\sigma_0^2}\nonumber \\ &= \frac{N}{\sigma^2}\hat{m} + \frac{\theta_0}{\sigma_0^2}\nonumber \end{align}σ21​σN2​θN​​​=σ2N​+σ02​1​=σ21​k=1∑N​xk​+σ02​θ0​​=σ2N​m^+σ02​θ0​​​

解出θN\theta_NθN​和σN\sigma_NσN​,得:

θN=Nσ02Nσ02+σ2m^N+σ2Nσ02+σ2σN2=σ02σ2Nσ02+σ2\begin{align} \theta_N &= \frac{N\sigma_0^2}{N\sigma_0^2 + \sigma^2}\hat{m}_N + \frac{\sigma^2}{N\sigma_0^2 + \sigma^2}\nonumber \\ \sigma_N^2 &= \frac{\sigma_0^2\sigma^2}{N\sigma_0^2 + \sigma^2}\nonumber \end{align}θN​σN2​​=Nσ02​+σ2Nσ02​​m^N​+Nσ02​+σ2σ2​=Nσ02​+σ2σ02​σ2​​

即根据对样本的观测,求得均值θ\thetaθ的后验概率密度p(θ∣xi)p(\theta|x_i)p(θ∣xi​)为N(θN,σN2)N(\theta_N,\sigma_N^2)N(θN​,σN2​),其中:

θN\theta_NθN​是先验信息(θ0,σ02,σ2\theta_0,\sigma_0^2,\sigma^2θ0​,σ02​,σ2)与训练样本所给信息(N,m^N,\hat{m}N,m^)适当结合的结果,是N个训练样本对均值的先验估计θ0\theta_0θ0​的补充

σN2\sigma_N^2σN2​是对这个估计的不确定性的度量,随着N的增加而减少,因此当N→∞N\to\infinN→∞时,σN→0\sigma_N \to 0σN​→0,代入上式可知只要σ0≠0\sigma_0\neq0σ0​=0,则当N数量足够大时,θN\theta_NθN​趋于样本均值的估计量m^\hat{m}m^