4.1 模式类别可分性的测度

4.1.1 概述

  • 如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果,产生特征维数灾难问题

  • 为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征

  • 在保证一定分类精度的前提下,减少特征维数,即进行降维处理,使分类器实现快速、准确和高效的分类

  • 为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择

    • 去掉模棱两可、不易判别的特征

    • 所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征

4.1.2 特征选择和提取

特征选择:从nn个度量值集合{x1,x2,,xn}\left\{x_1,x_2,\dots,x_n\right\}中,按照某一准则选取出供分类的子集,作为降维的分类特征

特征提取:使{x1,x2,,xn}\{x_1,x_2,\dots,x_n\}通过某种变换,产生mm个特征作为新的分类特征(也称为二次特征

上述两种方法的目的都是为了在尽可能保留识别信息的前提下,降低特征空间的维数,已达到有效的分类。

4.1.3 模式类别可分性的测度

一、点到点之间的距离

在n维空间中,两点a、b之间的欧式距离为:

D(a,b)=abD(a,b)= \Vert a-b\Vert

写成距离平方的形式:

D2(a,b)=(ab)T(ab)=k=1n(akbk)2\begin{align} D^2(a,b)&=(a-b)^T(a-b) \nonumber \\ &=\sum_{k=1}^n(a_k-b_k)^2 \nonumber \end{align}

其中,aka_kbkb_k为向量a,b\boldsymbol{a},\boldsymbol{b}的第k个分量

二、点到点集之间的距离

在n维空间中,点xx到点a(i)a^{(i)}之间的距离平方为:

D2(x,a(i))=k=1n(xkak(i))2D^2(x,a^{(i)})=\sum_{k-=1}^n(x_k-a_k^{(i)})^2

带入得点xx到点集{a(i)}i=1,2,,k\{a^{(i)}\}_{i=1,2,\dots,k}之间的均方距离为:

D2(x,a(i))=1Ki=1KD2(x,a(i))=1Ki=1K{k=1n(xkak(i))2}\begin{align} \overline{D^2(x,a^{(i)})} &= \frac{1}{K}\sum_{i=1}^KD^2(x,a^{(i)}) \nonumber \\ &= \frac{1}{K}\sum_{i=1}^K\left\{\sum_{k-=1}^n(x_k-a_k^{(i)})^2\right\} \end{align}

三、类内距离

n维空间中同一类内各模式样本点集{a(i)}i=1,2,,K\{a^{(i)}\}_{i=1,2,\dots,K},其内部各点的均方距离为:

D2({a(j)},{a(i)})=1Kj=1K[1K1i=1ijKk=1n(ak(j)ak(i))2]\overline{D^2(\{a^{(j)}\}, \{a^{(i)}\})} = \frac{1}{K}\sum_{j=1}^K\left[\frac{1}{K-1}\sum_{\substack{i=1\\i\neq j}}^K\sum_{k=1}^n(a_k^{(j)}-a_k^{(i)})^2\right]

此外,可证明:

D2=2k=1nσk2\overline{D^2}=2\sum_{k=1}^n\sigma_k^2

其中,σk2\sigma_k^2{a(i)}\{a^{(i)}\}在第k个份量上的无偏方差

σk2=1K1i=1K(ak(i)ak)2\sigma_k^2=\frac{1}{K-1}\sum_{i=1}^K(a_k^{(i)}-\overline{a_k})^2

其中,ak\overline{a_k}a(i)a^{(i)}在第k个分量上的均值

ak=1Ki=1Kak(i)\overline{a_k} = \frac{1}{K}\sum_{i=1}^Ka_k^{(i)}

证明略

四、类内散布矩阵

一类内各模式样本点集{a(i)}i=1,2,,K\{a^{(i)}\}_{i=1,2,\dots,K},其类内散布矩阵为:

S=i=1K{(a(i)m)(a(i)m)T}S=\sum_{i=1}^K\{(a^{(i)}-m)(a^{(i)}-m)^T\}

其中

m=1Ki=1Ka(i)m=\frac{1}{K}\sum_{i=1}^Ka^{(i)}

五、类间距离和类间散布矩阵

两个点集的距离D2({a(i)},{b(j)})i=1,2,,Ka;j=1,2,,Kb\overline{D^2(\{a^{(i)}\}, \{b^{(j)}\})}_{i=1,2,\dots,K_a;j=1,2,\dots,K_b}对类别的可分性起着重要的作用,为简化起见,常用两类样本各自质心间的距离作为类间距离,并假设两类样本出现的概率相等,则:

D2=k=1n(m1km2k)2D^2=\sum_{k=1}^n(\boldsymbol{m}_{1_k}-\boldsymbol{m}_{2_k})^2

其中,m1\boldsymbol{m}_1m2\boldsymbol{m}_2为两类模式样本集各自的均值向量m1k\boldsymbol{m}_{1_k}m2k\boldsymbol{m}_{2_k}为各自的第k个分量,n为维数

这两个模式的类间散布矩阵为:

Sb2=(m1m2)(m1m2)TS_{b2}=(m_1-m_2)(m_1-m_2)^T

扩展到三个以上的类别,类间散布矩阵可以写作:

Sb=i=1cP(ωi)(mim0)(mim0)TS_b = \sum_{i=1}^cP(\omega_i)(m_i-m_0)(m_i-m_0)^T

其中,m0m_0为多类模式分布的总体均值向量,c为类别数量:

m0=E{x}=i=1cp(ωi)mi, ωi,i=1,2,,cm_0=E\{x\}=\sum_{i=1}^cp(\omega_i)m_i,\ \forall\omega_i,i=1,2,\dots,c

六、多类模式集散布矩阵

多类情况类内散布矩阵,可以写成各类的类内散布矩阵的先验概率的加权和

Sw=i=1cP(ω1)E{(xmi)(xmi)Tωi}=i=1cP(ωi)Ci\begin{align} S_w &=\sum_{i=1}^cP(\omega_1)E\{(x-m_i)(x-m_i)^T\vert\omega_i\} \nonumber \\ &=\sum_{i=1}^cP(\omega_i)C_i \nonumber \end{align}

其中,CiC_i是第i类的协方差矩阵

有时,使用多类模式总体分布的散布矩阵来反映其可分性,即:

St=E{(xm0)(xm0)T},  x,i=1,2,,cS_t = E\{(x-m_0)(x-m_0)^T\},\ \ x\in\forall,i=1,2,\dots,c

其中m0\boldsymbol{m}_0为多类模式分布的总体均值向量

七、关系

St=Sw+SbS_t = S_w+S_b

最后更新于

这有帮助吗?