4.2 特征选择
4.2.1 概念
设有n个可用作分类的测量值,为了在尽量不降低分类精度的前提下,减小特征空间的维数以减少计算量,需从中直接选出m个作为分类的特征。
那么,怎么选呢?
4.2.2 类间可分性准则
对于不同类别模式之间,均值向量间的距离应该尽可能的大
对于同一类的模式特征,方差之和应该尽可能的小
假设各原始特征测量值是统计独立的,此时,只需对训练样本的n个测量值独立地进行分析,从中选出m个最好的作为分类特征即可。
则定义可分性准则函数:
4.2.3 可分性准则的适用范围
总结:假若类概率密度函数不是或不近似正态分布,均值和方差就不足以用来估计类别的可分性,此时该准则函数不完全适用
4.2.4 一般特征的散布矩阵准则
类内离散度矩阵:
类间离散度矩阵:
由上可以推出散布矩阵准则采用以下两种形式:
行列式形式
迹形式
这里计算的散布矩阵不受模式分布形式的限制,但需要有足够数量的模式样本才能获得有效的结果
最后更新于