📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 2.1.1 贝叶斯判别原则
  • 2.1.2 贝叶斯最小风险判别

这有帮助吗?

在GitHub上编辑
  1. 第二章 生成式分类器

2.1 模式识别与机器学习的目标

判别式的分类器:

  • 即建立一个映射y=F(x)y=F(x)y=F(x)

  • 是非概率的,确定的

但是现实中,并非所有事件都是因果对应的,而是概率性的,此时判别式的模式识别就不再能解决问题。需要用模式集的统计特征来分类,使得分类器发生错误的概论最小。

2.1.1 贝叶斯判别原则

贝叶斯公式

P(A∣B)=p(B∣A)p(A)p(B)P(A|B) = \frac{p(B|A)p(A)}{p(B)}P(A∣B)=p(B)p(B∣A)p(A)​

贝叶斯判别

将实例带入其中,假设有两种模式ω1\omega_1ω1​和ω2\omega_2ω2​,需要分析xxx来自其中哪个,则有

P(ω1∣x)=p(x∣ω1)p(ω1)p(x)P(ω2∣x)=p(x∣ω2)p(ω2)p(x)P(\omega_1|x)=\frac{p(x|\omega_1)p(\omega_1)}{p(x)} \\ P(\omega_2|x)=\frac{p(x|\omega_2)p(\omega_2)}{p(x)}P(ω1​∣x)=p(x)p(x∣ω1​)p(ω1​)​P(ω2​∣x)=p(x)p(x∣ω2​)p(ω2​)​

以其中第一个式子举例,

  • 要求的 P(ω1∣x)P(\omega_1|x)%P(ω1​∣x) 即为 x∈ω1x \in \omega_1x∈ω1​ 的概率,称为后验概率

  • p(ω1)p(\omega_1)p(ω1​) 是来自数据集和历史数据,称为先验概率

  • p(x∣ω1)p(x|\omega_1)p(x∣ω1​) 是x的条件概率,这里也称为似然函数

  • p(x)p(x)p(x) 是全概率

这里全概率计算时也可能是使用条件概率来计算的,但是在贝叶斯判别中将其称为全概率

实际上在使用中,由于每个后验概率的全概率是相同的,因此只需要比较分子即可,进一步说,比较似然函数和先验函数即可。

若P(ω1∣x)>P(ω2∣x),则c∈ω1若P(ω1∣x)<P(ω2∣x),则c∈ω2若P(\omega_1|x) > P(\omega_2|x),则c\in \omega_1 \\ 若P(\omega_1|x)< P(\omega_2|x),则c\in \omega_2若P(ω1​∣x)>P(ω2​∣x),则c∈ω1​若P(ω1​∣x)<P(ω2​∣x),则c∈ω2​

特别的,将l12(x)=p(x∣ω1)p(x∣ω2)l_{12}(x)=\dfrac{p(x|\omega_1)}{p(x|\omega_2)}l12​(x)=p(x∣ω2​)p(x∣ω1​)​称为似然比,将θ21=P(ω2)P(ω1)\theta_{21} = \dfrac{P(\omega_2)}{P(\omega_1)}θ21​=P(ω1​)P(ω2​)​称为似然比的判决阈值,则将上式简化可得:

若l12(x)>θ21,则c∈ω1若l12(x)<θ21,则c∈ω2若l_{12}(x) > \theta_{21},则c\in \omega_1 \\ 若l_{12}(x) < \theta_{21},则c\in \omega_2若l12​(x)>θ21​,则c∈ω1​若l12​(x)<θ21​,则c∈ω2​

此判别就称为贝叶斯判别。

例:假设对地震进行分析,ω1\omega_1ω1​表示地震,ω2\omega_2ω2​表示正常,根据统计得知P(ω1)=0.2P(\omega_1)=0.2P(ω1​)=0.2。而生物是否发生异常反应是与地震发生与否相关的,统计地震前一周生物是否发生异常,得到了以下数据:

  • 地震前一周生物发生异常的概率为0.6

  • 地震前一周生物没有发生异常的概率为0.4

  • 没有发生地震但生物发生异常的概率为0.1

  • 没有发生地震且生物没有异常的概率为0.9

那么某日观测到生物发生异常,问是否会发生地震?

由题意可知:

P(ω1)=0.2  P(ω2)=0.8p(x=异常∣ω1)=0.6  p(x=正常∣ω1)=0.4p(x=异常∣ω2)=0.1  p(x=正常∣ω2)=0.9\begin{align} &P(\omega_1) = 0.2 \ \ P(\omega_2) = 0.8 \nonumber\\ &p(x=\text{异常}|\omega_1) =0.6 \ \ p(x=\text{正常}|\omega_1)=0.4\nonumber\\ &p(x=\text{异常}|\omega_2) =0.1 \ \ p(x=\text{正常}|\omega_2)=0.9\nonumber\\ \end{align}​P(ω1​)=0.2  P(ω2​)=0.8p(x=异常∣ω1​)=0.6  p(x=正常∣ω1​)=0.4p(x=异常∣ω2​)=0.1  p(x=正常∣ω2​)=0.9​​

带入贝叶斯公式,有:

P(ω1∣x=异常)=p(x=异常∣ω1)P(ω1)p(x=异常)=p(x=异常∣ω1)P(ω1)p(x=异常∣ω1)P(ω1)+p(x=异常∣ω2)P(ω2)=0.6×0.20.6×0.2+0.1×0.8=0.6\begin{align} P(\omega_1|x=异常) &= \frac{p(x=异常|\omega_1)P(\omega_1)}{p(x=异常)} \nonumber \\ &=\frac{p(x=异常|\omega_1)P(\omega_1)}{p(x=异常|\omega_1)P(\omega_1) + p(x=异常|\omega_2)P(\omega_2)} \nonumber \\ &= \frac{0.6\times0.2}{0.6\times0.2+0.1\times0.8} = 0.6 \nonumber \end{align}P(ω1​∣x=异常)​=p(x=异常)p(x=异常∣ω1​)P(ω1​)​=p(x=异常∣ω1​)P(ω1​)+p(x=异常∣ω2​)P(ω2​)p(x=异常∣ω1​)P(ω1​)​=0.6×0.2+0.1×0.80.6×0.2​=0.6​

计算似然比与判决阈值:

l12=p(x=异常∣ω1)p(x=异常∣ω2)=6θ21=P(ω2)P(ω1)=4l_{12} = \frac{p(x=异常|\omega_1)}{p(x=异常|\omega_2)} = 6\\ \theta_{21} = \frac{P(\omega_2)}{P(\omega_1)} = 4l12​=p(x=异常∣ω2​)p(x=异常∣ω1​)​=6θ21​=P(ω1​)P(ω2​)​=4

似然比大于判别阈值,因此会发生地震。

2.1.2 贝叶斯最小风险判别

实际上,不同模式误判的代价是不一样的,因此需要对贝叶斯判别做一些修正,提出了条件平均风险 rj(x)r_j(x)rj​(x)。

M类分类问题的平均条件风险

对于M类分类问题,若样本被判定为属于ωj\omega_jωj​的平均风险为:

rij(x)=∑i=1MLijP(ωi∣x)r_{ij}(x) = \sum_{i=1}^ML_{ij}P(\omega_i|x)rij​(x)=i=1∑M​Lij​P(ωi​∣x)

其中,LijL_{ij}Lij​表示误判的损失,称为将属于ωi\omega_iωi​类的物品误判为ωj\omega_jωj​的是非代价

一般而言,是非代价表现为一个对称阵,其中LiiL_{ii}Lii​一般为0或负数,表示判定成功,其他值表示判定失败,用正数表示。

最小平均风险

按照贝叶斯公式,最小平均风险可以表示为:

rj=1p(x)∑i=1MLijp(x∣ωi)P(ωi)r_{j}=\frac{1}{p(x)}\sum_{i=1}^{M} L_{ij} p(x|\omega_i)P(\omega_i)rj​=p(x)1​i=1∑M​Lij​p(x∣ωi​)P(ωi​)

其中全概率可以省去,因此最小平均风险可以表示为:

rj=∑i=1MLijp(x∣ωi)P(ωi)r_{j}=\sum_{i=1}^{M} L_{ij} p(x|\omega_i)P(\omega_i)rj​=i=1∑M​Lij​p(x∣ωi​)P(ωi​)

贝叶斯最小风险判别

对于M分类的情况,若 ri(x)<rj(x),j=1,2,…,M, j≠ir_i(x) < r_j(x),j=1,2,\dots,M,\ j\neq iri​(x)<rj​(x),j=1,2,…,M, j=i ,则有x∈ωix \in \omega_ix∈ωi​

对于是非代价,取

Lij={0when i=j1when i≠jL_{ij} = \begin{cases} 0& \text{when}\ i=j\\ 1& \text{when}\ i\neq j \end{cases}Lij​={01​when i=jwhen i=j​

则条件平均风险表示为:

rj=∑i=1MLijp(x∣ωi)P(ωi)=L1jp(x∣ω1)P(ω1)+L2jp(x∣ω2)P(ω2)+⋯+LMjp(x∣ωM)P(ωM)=∑i=1Mp(x∣ωi)P(ωi)−p(x∣ωi)P(ωi)=p(x)−p(x∣ωi)P(ωi)\begin{align} r_{j}&=\sum_{i=1}^{M} L_{ij} p(x|\omega_i)P(\omega_i) \nonumber \\ &=L_{1j}p(x|\omega_1)P(\omega_1) + L_{2j}p(x|\omega_2)P(\omega_2) + \cdots + L_{Mj}p(x|\omega_M)P(\omega_M) \nonumber \\ &= \sum_{i=1}^Mp(x|\omega_i)P(\omega_i) - p(x|\omega_i)P(\omega_i) \nonumber \\ &=p(x)-p(x|\omega_i)P(\omega_i) \nonumber \end{align}rj​​=i=1∑M​Lij​p(x∣ωi​)P(ωi​)=L1j​p(x∣ω1​)P(ω1​)+L2j​p(x∣ω2​)P(ω2​)+⋯+LMj​p(x∣ωM​)P(ωM​)=i=1∑M​p(x∣ωi​)P(ωi​)−p(x∣ωi​)P(ωi​)=p(x)−p(x∣ωi​)P(ωi​)​

记di(x)=p(x∣ωi)P(ωi),i=1,2,…,Md_i(x)=p(x|\omega_i)P(\omega_i),i=1,2,\dots,Mdi​(x)=p(x∣ωi​)P(ωi​),i=1,2,…,M,则有若di(x)>rj(x)d_i(x) > r_j(x)di​(x)>rj​(x),则x∈ωix \in \omega_ix∈ωi​

上一页1.1 概述下一页2.2 正态分布模式的贝叶斯分类器

最后更新于1年前

这有帮助吗?