3.4 Fisher线性判别
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
出发点
应用统计方法解决模式识别问题时,一再碰到的问题之一就是维数问题
在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通
因此,降低维数有时就会成为处理实际问题的关键
问题描述
考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维
然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别
但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开
Fisher判别方法所要解决的基本问题,就是如何根据实际情况找到一条最好的、最易于分类的投影线
从d维空间降到一维空间的一般数学变换方法:
在高维空间X中:
在一维空间Y中:
我们希望投影后,在一维Y空间中各类样本尽可能分得开些,同时各类样本内部尽量密集,实际上就是
两类之间的均值相差越大越好
类内的离散度越小越好
Fisher准则函数定义为:
而其中,样本均值可以写为:
则准则函数的分子可以写为:
而由于
因此分母可以写成:
由于需要使得均值之差(即分子)尽可能大,同时使得样本内离散度(即分母)尽可能小,故实际上就是要使得准则函数尽可能的大
拉格朗日乘数法
基本思想是将等式约束条件下的最优化问题转化为无约束条件下的最优化问题
问题: 设目标函数为
下的极值
描述: 引进函数
令分母等于非零常数,即:
则定义拉格朗日函数为:
令偏导数为0,有:
从而有:
由于只需要找最佳投影方向,因此可以忽略比例因子,有:
设有一集合包含N个d维样本,其中个属于类的样本记为子集,个属于类的样本记为子集,若对的分量做线性组合可得标量:
这样可以得到N个一维样本组成的集合,且可以分为两个子集
这里关心的是的方向,即样本投影的方向,而具体的值并不重要,只是一个比例因子
所以,抽象到数学层面,本质就是寻找最好的变换向量
各样本的均值向量
样本类内离散度矩阵和总样本类内离散度矩阵
样本类间离散度矩阵,是一个对称半正定矩阵
各类样本的均值
样本类内离散度和总样本类内离散度
将上述各式带回,可得:
要求使得准则函数取极大值时的,可以采用拉格朗日乘数法求解:
求其在个约束条件
其中为待定常数,将当作个变量和的无约束的函数,对其求一阶偏导数可得稳定点所需要的方程:
对求偏导,可得:
由于非奇异,因此存在逆矩阵,可得:
此时本质即为求矩阵的特征值问题,将代入上式,可将写为:
其中为一标量,因此总是在向量的方向上,故可以写成:
其中,为高维空间中的总样本类内离散度矩阵的逆矩阵,为高维空间中各样本的均值向量
是使Fisher准则函数取极大值时的解,也就是d维X空间到一维Y空间的最佳投影方向。有了,就可以把d维样本X投影到一维,这实际上是多维空间到一维空间的一种映射,这个一维空间的方向相对于Fisher准则函数是最好的。
利用Fisher准则,就可以将d维分类问题转化为一维分类问题,然后,只要确定一个阈值T,将投影点与T相比较,即可进行分类判别。