特征选择:从n个度量值集合{x1,x2,…,xn}中,按照某一准则选取出供分类的子集,作为降维的分类特征
特征提取:使{x1,x2,…,xn}通过某种变换,产生m个特征作为新的分类特征(也称为二次特征)
D(a,b)=∥a−b∥ D2(a,b)=(a−b)T(a−b)=k=1∑n(ak−bk)2 其中,ak、bk为向量a,b的第k个分量
在n维空间中,点x到点a(i)之间的距离平方为:
D2(x,a(i))=k−=1∑n(xk−ak(i))2 带入得点x到点集{a(i)}i=1,2,…,k之间的均方距离为:
D2(x,a(i))=K1i=1∑KD2(x,a(i))=K1i=1∑K{k−=1∑n(xk−ak(i))2} n维空间中同一类内各模式样本点集{a(i)}i=1,2,…,K,其内部各点的均方距离为:
D2({a(j)},{a(i)})=K1j=1∑KK−11i=1i=j∑Kk=1∑n(ak(j)−ak(i))2 D2=2k=1∑nσk2 其中,σk2为{a(i)}在第k个份量上的无偏方差:
σk2=K−11i=1∑K(ak(i)−ak)2 其中,ak为a(i)在第k个分量上的均值:
ak=K1i=1∑Kak(i) 一类内各模式样本点集{a(i)}i=1,2,…,K,其类内散布矩阵为:
S=i=1∑K{(a(i)−m)(a(i)−m)T} m=K1i=1∑Ka(i) 两个点集的距离D2({a(i)},{b(j)})i=1,2,…,Ka;j=1,2,…,Kb对类别的可分性起着重要的作用,为简化起见,常用两类样本各自质心间的距离作为类间距离,并假设两类样本出现的概率相等,则:
D2=k=1∑n(m1k−m2k)2 其中,m1和m2为两类模式样本集各自的均值向量,m1k和m2k为各自的第k个分量,n为维数
Sb2=(m1−m2)(m1−m2)T Sb=i=1∑cP(ωi)(mi−m0)(mi−m0)T 其中,m0为多类模式分布的总体均值向量,c为类别数量:
m0=E{x}=i=1∑cp(ωi)mi, ∀ωi,i=1,2,…,c Sw=i=1∑cP(ω1)E{(x−mi)(x−mi)T∣ωi}=i=1∑cP(ωi)Ci St=E{(x−m0)(x−m0)T}, x∈∀,i=1,2,…,c 其中m0为多类模式分布的总体均值向量
St=Sw+Sb