3.4.1 概述
出发点
应用统计方法解决模式识别问题时,一再碰到的问题之一就是维数问题
在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通
问题描述
考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维
然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别
但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开
Fisher判别方法所要解决的基本问题,就是如何根据实际情况找到一条最好的、最易于分类的投影线
3.4.2 降维的数学原理
从d维空间降到一维空间的一般数学变换方法:
3.4.3 Fisher准则
一、Fisher准则中的基本参量
在高维空间X中:
在一维空间Y中:
我们希望投影后,在一维Y空间中各类样本尽可能分得开些,同时各类样本内部尽量密集,实际上就是
3.4.3 Fisher准则函数的定义
Fisher准则函数定义为:
而其中,样本均值可以写为:
则准则函数的分子可以写为:
而由于
因此分母可以写成:
3.4.4 最佳变换向量求解
由于需要使得均值之差(即分子)尽可能大,同时使得样本内离散度(即分母)尽可能小,故实际上就是要使得准则函数尽可能的大
拉格朗日乘数法
基本思想是将等式约束条件下的最优化问题转化为无约束条件下的最优化问题
问题: 设目标函数为
下的极值
描述: 引进函数
令分母等于非零常数,即:
则定义拉格朗日函数为:
令偏导数为0,有:
从而有:
由于只需要找最佳投影方向,因此可以忽略比例因子,有:
设有一集合Γ包含N个d维样本x1,x2,…,xN,其中N1个属于ω1类的样本记为子集Γ1,N2个属于ω2类的样本记为子集Γ2,若对xn的分量做线性组合可得标量:
yn=wTxn, n=1,2,…,N 这样可以得到N个一维样本yn组成的集合,且可以分为两个子集Γ1,Γ2
这里关心的是w的方向,即样本投影的方向,而具体的值并不重要,只是一个比例因子
所以,抽象到数学层面,本质就是寻找最好的变换向量w∗
各样本的均值向量mi
mi=Ni1x∈Γi∑x, i=1,2 样本类内离散度矩阵Si和总样本类内离散度矩阵Sw
SiSw=x∈Γi∑(x−mi)(x−mi)T, i=1,2=S1+S2 样本类间离散度矩阵Sb,Sb是一个对称半正定矩阵
Sb=(m1−m2)(m1−m2)T 各类样本的均值mi
mi=Ni1y∈Γi∑y, i=1,2 样本类内离散度Si2和总样本类内离散度Sw
Si2Sw=y∈Γi∑(y−mi)2, i=1,2=S12+S22 JF(w)=S12+S22(m1−m2)2 mi=Ni1y∈Γi∑y=Ni1x∈Γi∑wTx=wT(Ni1x∈Γi∑x)=wTmi (m1−m2)2=(wTm1−wTm2)2=(wTm1−wTm2)(wTm1−wTm2)T=(wTm1−wTm2)(m1Tw−m2Tw)=wT(m1−m2)(m1−m2)Tw=wTSbw Si2=y∈Γi∑(y−mi)2=x∈Γi∑(wTx−wTmi)2=wT[x∈Γi∑(x−mi)(x−mi)T]w=wTSiw S12+S22=wT(S1+S2)w=wTSww 将上述各式带回JF(w),可得:
JF(w)=wTSwwwTSbw 要求使得准则函数取极大值时的w∗,可以采用拉格朗日乘数法求解:
y=f(x), x=(x1,x2,…,xn) 求其在m (m<n)个约束条件
gk(x)=0, k=1,2,…,m L(x,λ1,λ2,…,λm)=f(x)+k=1∑mλkgk(x) 其中λk, k=1,2,…,m为待定常数,将L当作m+n个变量x1,x2,…,xn和λ1,λ2,…,λm的无约束的函数,对其求一阶偏导数可得稳定点所需要的方程:
∂xi∂L=0, i=1,2,…,ngk=0, k=1,2,…,m wTSww=c=0 L(w,λ)=wTSbw−λ(wTSww−c) 对w∗求偏导,可得:
∂w∂L(w,λ)=2(Sbw−λSww) Sbw∗−λSww∗=0Sbw∗=λSww∗ 由于Sw非奇异,因此存在逆矩阵,可得:
Sw−1Sbw∗=λw∗ 此时本质即为求矩阵Sw−1Sb的特征值问题,将Sb=(m1−m2)(m1−m2)T代入上式,可将Sbw∗写为:
Sbw∗=(m1−m2)(m1−m2)Tw∗=(m1−m2)R 其中R=(m1−m2)Tw∗为一标量,因此Sbw∗总是在向量(m1−m2)的方向上,故λw∗可以写成:
λw∗=Sw−1(Sbw∗)=Sw−1(m1−m2)R w∗=λRSw−1(m1−m2) w∗=Sw−1(m1−m2) 其中,Sw−1为高维空间中的总样本类内离散度矩阵的逆矩阵,mi为高维空间中各样本的均值向量
3.4.5 基于最佳变换向量
m∗的投影
w∗是使Fisher准则函数JF(w)取极大值时的解,也就是d维X空间到一维Y空间的最佳投影方向。有了w∗,就可以把d维样本X投影到一维,这实际上是多维空间到一维空间的一种映射,这个一维空间的方向w∗相对于Fisher准则函数JF(w)是最好的。
利用Fisher准则,就可以将d维分类问题转化为一维分类问题,然后,只要确定一个阈值T,将投影点yn与T相比较,即可进行分类判别。