2.2 正态分布模式的贝叶斯分类器

2.2.1 M种模式类别的正态密度函数

具有M种模式类别的多变量正态密度函数为:

p(xωi)=1(2π)n2(Ci)12e12(xmi)TCi1(xmi)p(x|\omega_i)=\frac{1}{(2\pi)^{\frac{n}{2}} (|C_i|)^{\frac{1}{2}}}e^{-\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i)}

其中,

  • nn模式向量的维度

  • mim_i均值向量

  • CiC_i协方差矩阵

  • Ci|C_i| 为协方差矩阵的行列式

mi=Ei{x}Ci=Ei{(xmi)(xmi)T}\begin{align} m_i &= E_i\{x\} \nonumber \\ C_i &= E_i\{(x-m_i)(x-m_i)^T\}\nonumber \end{align}

EixE_i{x}表示对类别属于ωi\omega_i的模型的数学期望

CiC_i是一个对称的正定阵,其对角线上的值代表元素的方差,非对角线上为元素之间的协方差。因此若元素之间全部独立时,多变量的正态概率密度函数可以简化为单个正态类密度函数的乘积。

由于类别ωi\omega_i判别函数可以写为:

di(x)=p(xωi)P(ωi), i=1,2,,Md_i(x)=p(x|\omega_i)P(\omega_i),\ i=1,2,\dots,M

对于正态密度函数,可以取对数方便计算,则将正态类密度函数带入,可得:

di(x)=ln[p(xωi)]+ln(P(ωi))=[n2ln(2π)+12ln(Ci)]12(xmi)TCi1(xmi)+ln(P[ωi)]=ln[P(ωi)]12ln(Ci)12(xmi)TCi1(xmi)n2ln(2π)\begin{align} d_i(x) &= \ln[p(x|\omega_i)] + \ln(P(\omega_i)) \nonumber \\ &= -[\frac{n}{2}\ln(2\pi) + \frac{1}{2}\ln(|C_i|)] -\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i) + \ln(P[\omega_i)] \nonumber \\ &= \ln[P(\omega_i)] - \frac{1}{2}\ln(|C_i|) -\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i) - \frac{n}{2}\ln(2\pi) \nonumber \end{align}

将其中与 ii 无关的项去除,即可得到正态分布模式的贝叶斯判别函数

di(x)=ln[P(ωi)]12ln(Ci)12(xmi)TCi1(xmi), i=1,2,,Md_i(x) = \ln[P(\omega_i)] - \frac{1}{2}\ln(|C_i|) -\frac{1}{2}(x-m_i)^T C_i^{-1}(x-m_i),\ i=1,2,\dots,M

特点

  • 判别函数是一个超二次曲面

  • 对于正态分布模式的贝叶斯判别器,将模式类别之间用一个二此判别界面分开,即可得到最优的分类结果

2.2.2 符合正态分布的二分类问题

C1C2C_1\neq C_2

假设两类模式的分布分别为N(m1,C1)N(m_1,C_1)N(m2,C2)N(m_2,C_2),则两类的判别函数分别为

d1(x)=lnP(ω1)12ln(C1)12(xm1)TC11(xm1)d2(x)=lnP(ω2)12ln(C2)12(xm2)TC21(xm2)d1(x)d2(x)={>0xω1<0xω2\begin{align} d_1(x) &= \ln P(\omega_1) - \frac{1}{2}\ln(|C_1|) -\frac{1}{2}(x-m_1)^T C_1^{-1}(x-m_1) \nonumber \\ d_2(x) &= \ln P(\omega_2) - \frac{1}{2}\ln(|C_2|) -\frac{1}{2}(x-m_2)^T C_2^{-1}(x-m_2) \nonumber \\ &d_1(x)-d_2(x) = \begin{cases} >0& x \in \omega_1 \\ <0& x\in \omega_2 \end{cases} \nonumber \end{align}
  • 判别界面d1(x)d2(x)=0d_1(x)-d_2(x)=0是x的二次型方程

  • 当x是二维模式时,判别界面为二次曲线。如圆、椭圆、双曲线、抛物线等

C1=C2=CC_1=C_2=C

当两个模式的协方差矩阵相等时,意味着它们具有相同的方差和相同的线性关系。这可以解释为两个模式具有相似的变化模式,并且它们之间的相关性和方向相同。这种情况下,可以说这两个模式在数据中具有相似的特征和变化方式。

由于C1=C2C_1=C_2,上式可以简化为:

d1(x)d2(x)=lnP(ω1)lnP(ω2)+(m1m2)TC1x12m1TC1m1+12m2TC1m2d_1(x) - d_2(x) = \ln P(\omega_1) - \ln P(\omega_2) + (m_1 - m_2)^TC^{-1}x - \frac{1}{2}m_1^TC_{-1}m_1 + \frac{1}{2}m_2^TC^{-1}m_2
  • 判别界面为x的线性函数,为一超平面

  • 当x是二维时,判别界面为一条直线

:两类问题且模式均为正态分布的实例P(ω1)=P(ω2)=12P(\omega_1) = P(\omega_2) = \frac{1}{2},求判别界面

计算均值向量和协方差矩阵,由大数定律:

mi=Ei{x}=1Nj=1NixijCi=Ei{(xmi)(xmi)T}=1Nj=1Ni(xijmi)(xijmi)T\begin{align} m_i &= E_i\{x\} \nonumber \\ &= \frac{1}{N}\sum_{j=1}^{N_i}x_{ij} \nonumber \\ C_i &= E_i\{(x-m_i)(x-m_i)^T\} \nonumber \\ &=\frac{1}{N}\sum_{j=1}^{N_i}(x_{ij}-m_i)(x_{ij}-m_i)^T \nonumber \end{align}

其中,NiN_iωi\omega_i 中模式的数目,xijx_{ij} 表示第i个类别中的第j个模式,可得:

m1=14(3 1 1)Tm2=14(1 3 3)TC1=C2=C=116(311131113)C1=4(211121112)m_1 = \frac{1}{4}(3\ 1\ 1)^T \\ \\ m_2 = \frac{1}{4}(1\ 3\ 3)^T \\ \\ C_1 = C_2 = C = \frac{1}{16} \begin{pmatrix} 3 & 1 &1\\ 1 & 3 &-1\\ 1 & -1 & 3 \end{pmatrix} \\ \\ C^{-1} = 4 \begin{pmatrix} 2 &-1 & -1\\ -1 & 2 & 1\\ -1 & 1 & 2 \end{pmatrix}

带入可得判别界面为:

d1(x)d2(x)=lnP(ω1)lnP(ω2)+(m1m2)TC1x12m1TC1m1+12m2TC1m2=8x18x28x3+4=0\begin{align} d_1(x) - d_2(x) &= \ln P(\omega_1) - \ln P(\omega_2) + (m_1 - m_2)^TC^{-1}x - \frac{1}{2}m_1^TC_{-1}m_1 + \frac{1}{2}m_2^TC^{-1}m_2 \nonumber \\ &=8x_1-8x_2 -8x_3 + 4 = 0 \end{align}
  • 贝叶斯分类是基于统计规则的

  • 若样本量较少,一般难以获得最有效果

2.2.3 朴素贝叶斯

在特征 x=(x_1,x_2,x_3,,x_d)x=(x\_1,x\_2,x\_3,\dots,x\_d) 是多维向量时,朴素贝叶斯算法假设各个特征之间相互独立

p(x1,x2,,xdω)=dp(xiω)p(x_1,x_2,\dots,x_d|\omega)= \prod^d p(x_i|\omega)

最后更新于