4.2 特征选择

4.2.1 概念

设有n个可用作分类的测量值,为了在尽量不降低分类精度的前提下,减小特征空间的维数以减少计算量,需从中直接选出m个作为分类的特征。

那么,怎么选呢?

4.2.2 类间可分性准则

  • 对于不同类别模式之间,均值向量间的距离应该尽可能的大

  • 对于同一类的模式特征,方差之和应该尽可能的小

假设各原始特征测量值是统计独立的,此时,只需对训练样本的n个测量值独立地进行分析,从中选出m个最好的作为分类特征即可。

则定义可分性准则函数:

4.2.3 可分性准则的适用范围

总结:假若类概率密度函数不是或不近似正态分布,均值和方差就不足以用来估计类别的可分性,此时该准则函数不完全适用

4.2.4 一般特征的散布矩阵准则

类内离散度矩阵

类间离散度矩阵

由上可以推出散布矩阵准则采用以下两种形式:

  • 行列式形式

  • 迹形式

这里计算的散布矩阵不受模式分布形式的限制,但需要有足够数量的模式样本才能获得有效的结果

最后更新于