设有一集合Γ包含N个d维样本x1,x2,…,xN,其中N1个属于ω1类的样本记为子集Γ1,N2个属于ω2类的样本记为子集Γ2,若对xn的分量做线性组合可得标量:
yn=wTxn, n=1,2,…,N 这样可以得到N个一维样本yn组成的集合,且可以分为两个子集Γ1,Γ2
这里关心的是w的方向,即样本投影的方向,而具体的值并不重要,只是一个比例因子
所以,抽象到数学层面,本质就是寻找最好的变换向量w∗
各样本的均值向量mi
mi=Ni1x∈Γi∑x, i=1,2 样本类内离散度矩阵Si和总样本类内离散度矩阵Sw
SiSw=x∈Γi∑(x−mi)(x−mi)T, i=1,2=S1+S2 样本类间离散度矩阵Sb,Sb是一个对称半正定矩阵
Sb=(m1−m2)(m1−m2)T 各类样本的均值mi
mi=Ni1y∈Γi∑y, i=1,2 样本类内离散度Si2和总样本类内离散度Sw
Si2Sw=y∈Γi∑(y−mi)2, i=1,2=S12+S22 JF(w)=S12+S22(m1−m2)2 mi=Ni1y∈Γi∑y=Ni1x∈Γi∑wTx=wT(Ni1x∈Γi∑x)=wTmi (m1−m2)2=(wTm1−wTm2)2=(wTm1−wTm2)(wTm1−wTm2)T=(wTm1−wTm2)(m1Tw−m2Tw)=wT(m1−m2)(m1−m2)Tw=wTSbw Si2=y∈Γi∑(y−mi)2=x∈Γi∑(wTx−wTmi)2=wT[x∈Γi∑(x−mi)(x−mi)T]w=wTSiw S12+S22=wT(S1+S2)w=wTSww 将上述各式带回JF(w),可得:
JF(w)=wTSwwwTSbw 要求使得准则函数取极大值时的w∗,可以采用拉格朗日乘数法求解:
y=f(x), x=(x1,x2,…,xn) 求其在m (m<n)个约束条件
gk(x)=0, k=1,2,…,m L(x,λ1,λ2,…,λm)=f(x)+k=1∑mλkgk(x) 其中λk, k=1,2,…,m为待定常数,将L当作m+n个变量x1,x2,…,xn和λ1,λ2,…,λm的无约束的函数,对其求一阶偏导数可得稳定点所需要的方程:
∂xi∂L=0, i=1,2,…,ngk=0, k=1,2,…,m wTSww=c=0 L(w,λ)=wTSbw−λ(wTSww−c) 对w∗求偏导,可得:
∂w∂L(w,λ)=2(Sbw−λSww) Sbw∗−λSww∗=0Sbw∗=λSww∗ 由于Sw非奇异,因此存在逆矩阵,可得:
Sw−1Sbw∗=λw∗ 此时本质即为求矩阵Sw−1Sb的特征值问题,将Sb=(m1−m2)(m1−m2)T代入上式,可将Sbw∗写为:
Sbw∗=(m1−m2)(m1−m2)Tw∗=(m1−m2)R 其中R=(m1−m2)Tw∗为一标量,因此Sbw∗总是在向量(m1−m2)的方向上,故λw∗可以写成:
λw∗=Sw−1(Sbw∗)=Sw−1(m1−m2)R w∗=λRSw−1(m1−m2) w∗=Sw−1(m1−m2) 其中,Sw−1为高维空间中的总样本类内离散度矩阵的逆矩阵,mi为高维空间中各样本的均值向量
3.4.5 基于最佳变换向量
m∗的投影
w∗是使Fisher准则函数JF(w)取极大值时的解,也就是d维X空间到一维Y空间的最佳投影方向。有了w∗,就可以把d维样本X投影到一维,这实际上是多维空间到一维空间的一种映射,这个一维空间的方向w∗相对于Fisher准则函数JF(w)是最好的。
利用Fisher准则,就可以将d维分类问题转化为一维分类问题,然后,只要确定一个阈值T,将投影点yn与T相比较,即可进行分类判别。