2.2 正态分布模式的贝叶斯分类器
2.2.1 M种模式类别的正态密度函数
具有M种模式类别的多变量正态密度函数为:
p(x∣ωi)=(2π)2n(∣Ci∣)211e−21(x−mi)TCi−1(x−mi) 其中,
∣Ci∣ 为协方差矩阵的行列式
miCi=Ei{x}=Ei{(x−mi)(x−mi)T} Eix表示对类别属于ωi的模型的数学期望
Ci是一个对称的正定阵,其对角线上的值代表元素的方差,非对角线上为元素之间的协方差。因此若元素之间全部独立时,多变量的正态概率密度函数可以简化为单个正态类密度函数的乘积。
由于类别ωi的判别函数可以写为:
di(x)=p(x∣ωi)P(ωi), i=1,2,…,M 对于正态密度函数,可以取对数方便计算,则将正态类密度函数带入,可得:
di(x)=ln[p(x∣ωi)]+ln(P(ωi))=−[2nln(2π)+21ln(∣Ci∣)]−21(x−mi)TCi−1(x−mi)+ln(P[ωi)]=ln[P(ωi)]−21ln(∣Ci∣)−21(x−mi)TCi−1(x−mi)−2nln(2π) 将其中与 i 无关的项去除,即可得到正态分布模式的贝叶斯判别函数:
di(x)=ln[P(ωi)]−21ln(∣Ci∣)−21(x−mi)TCi−1(x−mi), i=1,2,…,M 特点
对于正态分布模式的贝叶斯判别器,将模式类别之间用一个二此判别界面分开,即可得到最优的分类结果
2.2.2 符合正态分布的二分类问题
当
C1=C2 时
假设两类模式的分布分别为N(m1,C1)和N(m2,C2),则两类的判别函数分别为
d1(x)d2(x)=lnP(ω1)−21ln(∣C1∣)−21(x−m1)TC1−1(x−m1)=lnP(ω2)−21ln(∣C2∣)−21(x−m2)TC2−1(x−m2)d1(x)−d2(x)={>0<0x∈ω1x∈ω2 判别界面d1(x)−d2(x)=0是x的二次型方程
当x是二维模式时,判别界面为二次曲线。如圆、椭圆、双曲线、抛物线等
当
C1=C2=C 时
当两个模式的协方差矩阵相等时,意味着它们具有相同的方差和相同的线性关系。这可以解释为两个模式具有相似的变化模式,并且它们之间的相关性和方向相同。这种情况下,可以说这两个模式在数据中具有相似的特征和变化方式。
由于C1=C2,上式可以简化为:
d1(x)−d2(x)=lnP(ω1)−lnP(ω2)+(m1−m2)TC−1x−21m1TC−1m1+21m2TC−1m2 2.2.3 朴素贝叶斯
在特征 x=(x_1,x_2,x_3,…,x_d) 是多维向量时,朴素贝叶斯算法假设各个特征之间相互独立
p(x1,x2,…,xd∣ω)=∏dp(xi∣ω)