4.2 特征选择
4.2.1 概念
设有n个可用作分类的测量值,为了在尽量不降低分类精度的前提下,减小特征空间的维数以减少计算量,需从中直接选出m个作为分类的特征。
那么,怎么选呢?
要从n个特征值中选出m个,共有种选法,使用穷举法对每种选法进行测试耗时过大,因此需要寻找一种简便的可分性准则,间接判断每种子集的优劣
4.2.2 类间可分性准则
对于不同类别模式之间,均值向量间的距离应该尽可能的大
对于同一类的模式特征,方差之和应该尽可能的小
假设各原始特征测量值是统计独立的,此时,只需对训练样本的n个测量值独立地进行分析,从中选出m个最好的作为分类特征即可。
例:对于和两类训练样本,设其均值向量为和,其在k维度方向上的分量为、,方差为和
则定义可分性准则函数:
若越大,代表测度值的第k个分量对分离两类越有效。将按照大小分类,选出最大的m个对应的测度值既可作为分类特征。
4.2.3 可分性准则的适用范围
对于(a)中的特征,其分布有着很好的可分性,通过它可以分离两种类别
对于(b)中的特征,其分布存在很大的重叠,单靠不足以打到较好的分类,需要添加其他特征
对于(c)中的特征,它的分布有两个最大值,虽然与不存在重叠,但是由于计算出来约等于0,因此它作为可分性准则已经不再合适
总结:假若类概率密度函数不是或不近似正态分布,均值和方差就不足以用来估计类别的可分性,此时该准则函数不完全适用
4.2.4 一般特征的散布矩阵准则
类内离散度矩阵:
类间离散度矩阵:
由上可以推出散布矩阵准则采用以下两种形式:
行列式形式
迹形式
其中,是矩阵的特征值,使得和最大的子集可以作为可选择的分类特征。
这里计算的散布矩阵不受模式分布形式的限制,但需要有足够数量的模式样本才能获得有效的结果
最后更新于
这有帮助吗?