2.1 模式识别与机器学习的目标

判别式的分类器

  • 即建立一个映射y=F(x)y=F(x)

  • 是非概率的,确定的

但是现实中,并非所有事件都是因果对应的,而是概率性的,此时判别式的模式识别就不再能解决问题。需要用模式集的统计特征来分类,使得分类器发生错误的概论最小。

2.1.1 贝叶斯判别原则

贝叶斯公式

P(AB)=p(BA)p(A)p(B)P(A|B) = \frac{p(B|A)p(A)}{p(B)}

贝叶斯判别

将实例带入其中,假设有两种模式ω1\omega_1ω2\omega_2,需要分析xx来自其中哪个,则有

P(ω1x)=p(xω1)p(ω1)p(x)P(ω2x)=p(xω2)p(ω2)p(x)P(\omega_1|x)=\frac{p(x|\omega_1)p(\omega_1)}{p(x)} \\ P(\omega_2|x)=\frac{p(x|\omega_2)p(\omega_2)}{p(x)}

以其中第一个式子举例,

  • 要求的 P(ω1x)P(\omega_1|x)% 即为 xω1x \in \omega_1 的概率,称为后验概率

  • p(ω1)p(\omega_1) 是来自数据集和历史数据,称为先验概率

  • p(xω1)p(x|\omega_1) 是x的条件概率,这里也称为似然函数

  • p(x)p(x) 是全概率

这里全概率计算时也可能是使用条件概率来计算的,但是在贝叶斯判别中将其称为全概率

实际上在使用中,由于每个后验概率的全概率是相同的,因此只需要比较分子即可,进一步说,比较似然函数和先验函数即可。

P(ω1x)>P(ω2x),则cω1P(ω1x)<P(ω2x),则cω2若P(\omega_1|x) > P(\omega_2|x),则c\in \omega_1 \\ 若P(\omega_1|x)< P(\omega_2|x),则c\in \omega_2

特别的,将l12(x)=p(xω1)p(xω2)l_{12}(x)=\dfrac{p(x|\omega_1)}{p(x|\omega_2)}称为似然比,将θ21=P(ω2)P(ω1)\theta_{21} = \dfrac{P(\omega_2)}{P(\omega_1)}称为似然比的判决阈值,则将上式简化可得:

l12(x)>θ21,则cω1l12(x)<θ21,则cω2若l_{12}(x) > \theta_{21},则c\in \omega_1 \\ 若l_{12}(x) < \theta_{21},则c\in \omega_2

此判别就称为贝叶斯判别

:假设对地震进行分析,ω1\omega_1表示地震,ω2\omega_2表示正常,根据统计得知P(ω1)=0.2P(\omega_1)=0.2。而生物是否发生异常反应是与地震发生与否相关的,统计地震前一周生物是否发生异常,得到了以下数据:

  • 地震前一周生物发生异常的概率为0.6

  • 地震前一周生物没有发生异常的概率为0.4

  • 没有发生地震但生物发生异常的概率为0.1

  • 没有发生地震且生物没有异常的概率为0.9

那么某日观测到生物发生异常,问是否会发生地震?

由题意可知:

P(ω1)=0.2  P(ω2)=0.8p(x=异常ω1)=0.6  p(x=正常ω1)=0.4p(x=异常ω2)=0.1  p(x=正常ω2)=0.9\begin{align} &P(\omega_1) = 0.2 \ \ P(\omega_2) = 0.8 \nonumber\\ &p(x=\text{异常}|\omega_1) =0.6 \ \ p(x=\text{正常}|\omega_1)=0.4\nonumber\\ &p(x=\text{异常}|\omega_2) =0.1 \ \ p(x=\text{正常}|\omega_2)=0.9\nonumber\\ \end{align}

带入贝叶斯公式,有:

P(ω1x=异常)=p(x=异常ω1)P(ω1)p(x=异常)=p(x=异常ω1)P(ω1)p(x=异常ω1)P(ω1)+p(x=异常ω2)P(ω2)=0.6×0.20.6×0.2+0.1×0.8=0.6\begin{align} P(\omega_1|x=异常) &= \frac{p(x=异常|\omega_1)P(\omega_1)}{p(x=异常)} \nonumber \\ &=\frac{p(x=异常|\omega_1)P(\omega_1)}{p(x=异常|\omega_1)P(\omega_1) + p(x=异常|\omega_2)P(\omega_2)} \nonumber \\ &= \frac{0.6\times0.2}{0.6\times0.2+0.1\times0.8} = 0.6 \nonumber \end{align}

计算似然比与判决阈值:

l12=p(x=异常ω1)p(x=异常ω2)=6θ21=P(ω2)P(ω1)=4l_{12} = \frac{p(x=异常|\omega_1)}{p(x=异常|\omega_2)} = 6\\ \theta_{21} = \frac{P(\omega_2)}{P(\omega_1)} = 4

似然比大于判别阈值,因此会发生地震。

2.1.2 贝叶斯最小风险判别

实际上,不同模式误判的代价是不一样的,因此需要对贝叶斯判别做一些修正,提出了条件平均风险 rj(x)r_j(x)

M类分类问题的平均条件风险

对于M类分类问题,若样本被判定为属于ωj\omega_j的平均风险为:

rij(x)=i=1MLijP(ωix)r_{ij}(x) = \sum_{i=1}^ML_{ij}P(\omega_i|x)

其中,LijL_{ij}表示误判的损失,称为将属于ωi\omega_i类的物品误判为ωj\omega_j是非代价

一般而言,是非代价表现为一个对称阵,其中LiiL_{ii}一般为0或负数,表示判定成功,其他值表示判定失败,用正数表示。

最小平均风险

按照贝叶斯公式,最小平均风险可以表示为:

rj=1p(x)i=1MLijp(xωi)P(ωi)r_{j}=\frac{1}{p(x)}\sum_{i=1}^{M} L_{ij} p(x|\omega_i)P(\omega_i)

其中全概率可以省去,因此最小平均风险可以表示为:

rj=i=1MLijp(xωi)P(ωi)r_{j}=\sum_{i=1}^{M} L_{ij} p(x|\omega_i)P(\omega_i)

贝叶斯最小风险判别

对于M分类的情况,若 ri(x)<rj(x),j=1,2,,M, jir_i(x) < r_j(x),j=1,2,\dots,M,\ j\neq i ,则有xωix \in \omega_i

对于是非代价,取

Lij={0when i=j1when ijL_{ij} = \begin{cases} 0& \text{when}\ i=j\\ 1& \text{when}\ i\neq j \end{cases}

则条件平均风险表示为:

rj=i=1MLijp(xωi)P(ωi)=L1jp(xω1)P(ω1)+L2jp(xω2)P(ω2)++LMjp(xωM)P(ωM)=i=1Mp(xωi)P(ωi)p(xωi)P(ωi)=p(x)p(xωi)P(ωi)\begin{align} r_{j}&=\sum_{i=1}^{M} L_{ij} p(x|\omega_i)P(\omega_i) \nonumber \\ &=L_{1j}p(x|\omega_1)P(\omega_1) + L_{2j}p(x|\omega_2)P(\omega_2) + \cdots + L_{Mj}p(x|\omega_M)P(\omega_M) \nonumber \\ &= \sum_{i=1}^Mp(x|\omega_i)P(\omega_i) - p(x|\omega_i)P(\omega_i) \nonumber \\ &=p(x)-p(x|\omega_i)P(\omega_i) \nonumber \end{align}

di(x)=p(xωi)P(ωi),i=1,2,,Md_i(x)=p(x|\omega_i)P(\omega_i),i=1,2,\dots,M,则有若di(x)>rj(x)d_i(x) > r_j(x),则xωix \in \omega_i

最后更新于