4.1.1 概述
如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果,产生特征维数灾难问题
为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征
在保证一定分类精度的前提下,减少特征维数,即进行降维处理,使分类器实现快速、准确和高效的分类
为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择
所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征
4.1.2 特征选择和提取
特征选择:从n个度量值集合{x1,x2,…,xn}中,按照某一准则选取出供分类的子集,作为降维的分类特征
特征提取:使{x1,x2,…,xn}通过某种变换,产生m个特征作为新的分类特征(也称为二次特征)
上述两种方法的目的都是为了在尽可能保留识别信息的前提下,降低特征空间的维数,已达到有效的分类。
4.1.3 模式类别可分性的测度
一、点到点之间的距离
在n维空间中,两点a、b之间的欧式距离为:
D(a,b)=∥a−b∥ 写成距离平方的形式:
D2(a,b)=(a−b)T(a−b)=k=1∑n(ak−bk)2 其中,ak、bk为向量a,b的第k个分量
二、点到点集之间的距离
在n维空间中,点x到点a(i)之间的距离平方为:
D2(x,a(i))=k−=1∑n(xk−ak(i))2 带入得点x到点集{a(i)}i=1,2,…,k之间的均方距离为:
D2(x,a(i))=K1i=1∑KD2(x,a(i))=K1i=1∑K{k−=1∑n(xk−ak(i))2} 三、类内距离
n维空间中同一类内各模式样本点集{a(i)}i=1,2,…,K,其内部各点的均方距离为:
D2({a(j)},{a(i)})=K1j=1∑KK−11i=1i=j∑Kk=1∑n(ak(j)−ak(i))2 此外,可证明:
D2=2k=1∑nσk2 其中,σk2为{a(i)}在第k个份量上的无偏方差:
σk2=K−11i=1∑K(ak(i)−ak)2 其中,ak为a(i)在第k个分量上的均值:
ak=K1i=1∑Kak(i) 证明略
四、类内散布矩阵
一类内各模式样本点集{a(i)}i=1,2,…,K,其类内散布矩阵为:
S=i=1∑K{(a(i)−m)(a(i)−m)T} 其中
m=K1i=1∑Ka(i) 五、类间距离和类间散布矩阵
两个点集的距离D2({a(i)},{b(j)})i=1,2,…,Ka;j=1,2,…,Kb对类别的可分性起着重要的作用,为简化起见,常用两类样本各自质心间的距离作为类间距离,并假设两类样本出现的概率相等,则:
D2=k=1∑n(m1k−m2k)2 其中,m1和m2为两类模式样本集各自的均值向量,m1k和m2k为各自的第k个分量,n为维数
这两个模式的类间散布矩阵为:
Sb2=(m1−m2)(m1−m2)T 扩展到三个以上的类别,类间散布矩阵可以写作:
Sb=i=1∑cP(ωi)(mi−m0)(mi−m0)T 其中,m0为多类模式分布的总体均值向量,c为类别数量:
m0=E{x}=i=1∑cp(ωi)mi, ∀ωi,i=1,2,…,c 六、多类模式集散布矩阵
多类情况的类内散布矩阵,可以写成各类的类内散布矩阵的先验概率的加权和:
Sw=i=1∑cP(ω1)E{(x−mi)(x−mi)T∣ωi}=i=1∑cP(ωi)Ci 其中,Ci是第i类的协方差矩阵
有时,使用多类模式总体分布的散布矩阵来反映其可分性,即:
St=E{(x−m0)(x−m0)T}, x∈∀,i=1,2,…,c 其中m0为多类模式分布的总体均值向量
七、关系
St=Sw+Sb