4.1 模式类别可分性的测度
4.1.1 概述
特征选择和提取是模式识别中的一个关键问题
如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果,产生特征维数灾难问题
为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征
在保证一定分类精度的前提下,减少特征维数,即进行降维处理,使分类器实现快速、准确和高效的分类
为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择
去掉模棱两可、不易判别的特征
所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征
4.1.2 特征选择和提取
特征选择:从个度量值集合中,按照某一准则选取出供分类的子集,作为降维的分类特征
特征提取:使通过某种变换,产生个特征作为新的分类特征(也称为二次特征)
上述两种方法的目的都是为了在尽可能保留识别信息的前提下,降低特征空间的维数,已达到有效的分类。
4.1.3 模式类别可分性的测度
一、点到点之间的距离
在n维空间中,两点a、b之间的欧式距离为:
写成距离平方的形式:
其中,、为向量的第k个分量
二、点到点集之间的距离
在n维空间中,点到点之间的距离平方为:
带入得点到点集之间的均方距离为:
三、类内距离
n维空间中同一类内各模式样本点集,其内部各点的均方距离为:
此外,可证明:
其中,为在第k个份量上的无偏方差:
其中,为在第k个分量上的均值:
证明略
四、类内散布矩阵
一类内各模式样本点集,其类内散布矩阵为:
其中
类内散布矩阵表示各样本点围绕其均值周围的散布情况
五、类间距离和类间散布矩阵
两个点集的距离对类别的可分性起着重要的作用,为简化起见,常用两类样本各自质心间的距离作为类间距离,并假设两类样本出现的概率相等,则:
其中,和为两类模式样本集各自的均值向量,和为各自的第k个分量,n为维数
这两个模式的类间散布矩阵为:
扩展到三个以上的类别,类间散布矩阵可以写作:
其中,为多类模式分布的总体均值向量,c为类别数量:
六、多类模式集散布矩阵
多类情况的类内散布矩阵,可以写成各类的类内散布矩阵的先验概率的加权和:
其中,是第i类的协方差矩阵
有时,使用多类模式总体分布的散布矩阵来反映其可分性,即:
其中为多类模式分布的总体均值向量
七、关系
总体散布矩阵是各类类内散布矩阵与类间散布矩阵之和
最后更新于
这有帮助吗?