📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 2.2.1 M种模式类别的正态密度函数
  • 特点
  • 2.2.2 符合正态分布的二分类问题
  • 当 时
  • 当 时
  • 2.2.3 朴素贝叶斯

这有帮助吗?

在GitHub上编辑
  1. 第二章 生成式分类器

2.2 正态分布模式的贝叶斯分类器

2.2.1 M种模式类别的正态密度函数

具有M种模式类别的多变量正态密度函数为:

p(x∣ωi)=1(2π)n2(∣Ci∣)12e−12(x−mi)TCi−1(x−mi)p(x|\omega_i)=\frac{1}{(2\pi)^{\frac{n}{2}} (|C_i|)^{\frac{1}{2}}}e^{-\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i)}p(x∣ωi​)=(2π)2n​(∣Ci​∣)21​1​e−21​(x−mi​)TCi−1​(x−mi​)

其中,

  • nnn 为模式向量的维度

  • mim_imi​ 为均值向量

  • CiC_iCi​ 为协方差矩阵

  • ∣Ci∣|C_i|∣Ci​∣ 为协方差矩阵的行列式

mi=Ei{x}Ci=Ei{(x−mi)(x−mi)T}\begin{align} m_i &= E_i\{x\} \nonumber \\ C_i &= E_i\{(x-m_i)(x-m_i)^T\}\nonumber \end{align}mi​Ci​​=Ei​{x}=Ei​{(x−mi​)(x−mi​)T}​

EixE_i{x}Ei​x表示对类别属于ωi\omega_iωi​的模型的数学期望

CiC_iCi​是一个对称的正定阵,其对角线上的值代表元素的方差,非对角线上为元素之间的协方差。因此若元素之间全部独立时,多变量的正态概率密度函数可以简化为单个正态类密度函数的乘积。

由于类别ωi\omega_iωi​的判别函数可以写为:

di(x)=p(x∣ωi)P(ωi), i=1,2,…,Md_i(x)=p(x|\omega_i)P(\omega_i),\ i=1,2,\dots,Mdi​(x)=p(x∣ωi​)P(ωi​), i=1,2,…,M

对于正态密度函数,可以取对数方便计算,则将正态类密度函数带入,可得:

di(x)=ln⁡[p(x∣ωi)]+ln⁡(P(ωi))=−[n2ln⁡(2π)+12ln⁡(∣Ci∣)]−12(x−mi)TCi−1(x−mi)+ln⁡(P[ωi)]=ln⁡[P(ωi)]−12ln⁡(∣Ci∣)−12(x−mi)TCi−1(x−mi)−n2ln⁡(2π)\begin{align} d_i(x) &= \ln[p(x|\omega_i)] + \ln(P(\omega_i)) \nonumber \\ &= -[\frac{n}{2}\ln(2\pi) + \frac{1}{2}\ln(|C_i|)] -\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i) + \ln(P[\omega_i)] \nonumber \\ &= \ln[P(\omega_i)] - \frac{1}{2}\ln(|C_i|) -\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i) - \frac{n}{2}\ln(2\pi) \nonumber \end{align}di​(x)​=ln[p(x∣ωi​)]+ln(P(ωi​))=−[2n​ln(2π)+21​ln(∣Ci​∣)]−21​(x−mi​)TCi−1​(x−mi​)+ln(P[ωi​)]=ln[P(ωi​)]−21​ln(∣Ci​∣)−21​(x−mi​)TCi−1​(x−mi​)−2n​ln(2π)​

将其中与 iii 无关的项去除,即可得到正态分布模式的贝叶斯判别函数:

di(x)=ln⁡[P(ωi)]−12ln⁡(∣Ci∣)−12(x−mi)TCi−1(x−mi), i=1,2,…,Md_i(x) = \ln[P(\omega_i)] - \frac{1}{2}\ln(|C_i|) -\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i),\ i=1,2,\dots,Mdi​(x)=ln[P(ωi​)]−21​ln(∣Ci​∣)−21​(x−mi​)TCi−1​(x−mi​), i=1,2,…,M

特点

  • 判别函数是一个超二次曲面

  • 对于正态分布模式的贝叶斯判别器,将模式类别之间用一个二此判别界面分开,即可得到最优的分类结果

2.2.2 符合正态分布的二分类问题

当 C1≠C2C_1\neq C_2C1​=C2​ 时

假设两类模式的分布分别为N(m1,C1)N(m_1,C_1)N(m1​,C1​)和N(m2,C2)N(m_2,C_2)N(m2​,C2​),则两类的判别函数分别为

d1(x)=ln⁡P(ω1)−12ln⁡(∣C1∣)−12(x−m1)TC1−1(x−m1)d2(x)=ln⁡P(ω2)−12ln⁡(∣C2∣)−12(x−m2)TC2−1(x−m2)d1(x)−d2(x)={>0x∈ω1<0x∈ω2\begin{align} d_1(x) &= \ln P(\omega_1) - \frac{1}{2}\ln(|C_1|) -\frac{1}{2}(x-m_1)^T C_1^{-1}(x-m_1) \nonumber \\ d_2(x) &= \ln P(\omega_2) - \frac{1}{2}\ln(|C_2|) -\frac{1}{2}(x-m_2)^T C_2^{-1}(x-m_2) \nonumber \\ &d_1(x)-d_2(x) = \begin{cases} >0& x \in \omega_1 \\ <0& x\in \omega_2 \end{cases} \nonumber \end{align}d1​(x)d2​(x)​=lnP(ω1​)−21​ln(∣C1​∣)−21​(x−m1​)TC1−1​(x−m1​)=lnP(ω2​)−21​ln(∣C2​∣)−21​(x−m2​)TC2−1​(x−m2​)d1​(x)−d2​(x)={>0<0​x∈ω1​x∈ω2​​​
  • 判别界面d1(x)−d2(x)=0d_1(x)-d_2(x)=0d1​(x)−d2​(x)=0是x的二次型方程

  • 当x是二维模式时,判别界面为二次曲线。如圆、椭圆、双曲线、抛物线等

当 C1=C2=CC_1=C_2=CC1​=C2​=C 时

当两个模式的协方差矩阵相等时,意味着它们具有相同的方差和相同的线性关系。这可以解释为两个模式具有相似的变化模式,并且它们之间的相关性和方向相同。这种情况下,可以说这两个模式在数据中具有相似的特征和变化方式。

由于C1=C2C_1=C_2C1​=C2​,上式可以简化为:

d1(x)−d2(x)=ln⁡P(ω1)−ln⁡P(ω2)+(m1−m2)TC−1x−12m1TC−1m1+12m2TC−1m2d_1(x) - d_2(x) = \ln P(\omega_1) - \ln P(\omega_2) + (m_1 - m_2)^TC^{-1}x - \frac{1}{2}m_1^TC_{-1}m_1 + \frac{1}{2}m_2^TC^{-1}m_2d1​(x)−d2​(x)=lnP(ω1​)−lnP(ω2​)+(m1​−m2​)TC−1x−21​m1T​C−1​m1​+21​m2T​C−1m2​
  • 判别界面为x的线性函数,为一超平面

  • 当x是二维时,判别界面为一条直线

例:两类问题且模式均为正态分布的实例P(ω1)=P(ω2)=12P(\omega_1) = P(\omega_2) = \frac{1}{2}P(ω1​)=P(ω2​)=21​,求判别界面

计算均值向量和协方差矩阵,由大数定律:

mi=Ei{x}=1N∑j=1NixijCi=Ei{(x−mi)(x−mi)T}=1N∑j=1Ni(xij−mi)(xij−mi)T\begin{align} m_i &= E_i\{x\} \nonumber \\ &= \frac{1}{N}\sum_{j=1}^{N_i}x_{ij} \nonumber \\ C_i &= E_i\{(x-m_i)(x-m_i)^T\} \nonumber \\ &=\frac{1}{N}\sum_{j=1}^{N_i}(x_{ij}-m_i)(x_{ij}-m_i)^T \nonumber \end{align}mi​Ci​​=Ei​{x}=N1​j=1∑Ni​​xij​=Ei​{(x−mi​)(x−mi​)T}=N1​j=1∑Ni​​(xij​−mi​)(xij​−mi​)T​

其中,NiN_iNi​ 为 ωi\omega_iωi​ 中模式的数目,xijx_{ij}xij​ 表示第i个类别中的第j个模式,可得:

m1=14(3 1 1)Tm2=14(1 3 3)TC1=C2=C=116(31113−11−13)C−1=4(2−1−1−121−112)m_1 = \frac{1}{4}(3\ 1\ 1)^T \\ \\ m_2 = \frac{1}{4}(1\ 3\ 3)^T \\ \\ C_1 = C_2 = C = \frac{1}{16} \begin{pmatrix} 3 & 1 &1\\ 1 & 3 &-1\\ 1 & -1 & 3 \end{pmatrix} \\ \\ C^{-1} = 4 \begin{pmatrix} 2 &-1 & -1\\ -1 & 2 & 1\\ -1 & 1 & 2 \end{pmatrix}m1​=41​(3 1 1)Tm2​=41​(1 3 3)TC1​=C2​=C=161​​311​13−1​1−13​​C−1=4​2−1−1​−121​−112​​

带入可得判别界面为:

d1(x)−d2(x)=ln⁡P(ω1)−ln⁡P(ω2)+(m1−m2)TC−1x−12m1TC−1m1+12m2TC−1m2=8x1−8x2−8x3+4=0\begin{align} d_1(x) - d_2(x) &= \ln P(\omega_1) - \ln P(\omega_2) + (m_1 - m_2)^TC^{-1}x - \frac{1}{2}m_1^TC_{-1}m_1 + \frac{1}{2}m_2^TC^{-1}m_2 \nonumber \\ &=8x_1-8x_2 -8x_3 + 4 = 0 \end{align}d1​(x)−d2​(x)​=lnP(ω1​)−lnP(ω2​)+(m1​−m2​)TC−1x−21​m1T​C−1​m1​+21​m2T​C−1m2​=8x1​−8x2​−8x3​+4=0​​
  • 贝叶斯分类是基于统计规则的

  • 若样本量较少,一般难以获得最有效果

2.2.3 朴素贝叶斯

在特征 x=(x_1,x_2,x_3,…,x_d)x=(x\_1,x\_2,x\_3,\dots,x\_d)x=(x_1,x_2,x_3,…,x_d) 是多维向量时,朴素贝叶斯算法假设各个特征之间相互独立

p(x1,x2,…,xd∣ω)=∏dp(xi∣ω)p(x_1,x_2,\dots,x_d|\omega)= \prod^d p(x_i|\omega)p(x1​,x2​,…,xd​∣ω)=∏d​p(xi​∣ω)
上一页2.1 模式识别与机器学习的目标下一页2.3 均值向量和协方差矩阵的参数估计

最后更新于1年前

这有帮助吗?