3.4 Fisher线性判别

3.4.1 概述

出发点

  • 应用统计方法解决模式识别问题时,一再碰到的问题之一就是维数问题

  • 在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通

  • 因此,降低维数有时就会成为处理实际问题的关键

问题描述

  • 考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维

  • 然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别

  • 但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开

3.4.2 降维的数学原理

从d维空间降到一维空间的一般数学变换方法:

  • 设有一集合Γ\Gamma包含N个d维样本x1,x2,,xNx_1,x_2,\dots,x_N,其中N1N_1个属于ω1\omega_1类的样本记为子集Γ1\Gamma_1N2N_2个属于ω2\omega_2类的样本记为子集Γ2\Gamma_2,若对xnx_n的分量做线性组合可得标量:

yn=wTxn,  n=1,2,,Ny_n = \boldsymbol{w}^T\boldsymbol{x}_n,\ \ n=1,2,\dots,N
  • 这样可以得到N个一维样本yny_n组成的集合,且可以分为两个子集Γ1,Γ2\Gamma_1,\Gamma_2

  • 这里关心的是w\boldsymbol{w}的方向,即样本投影的方向,而具体的值并不重要,只是一个比例因子

  • 所以,抽象到数学层面,本质就是寻找最好的变换向量w\boldsymbol{w}^*

3.4.3 Fisher准则

一、Fisher准则中的基本参量

在高维空间X中:

  • 各样本的均值向量mi\boldsymbol{m}_i

mi=1NixΓix,  i=1,2\boldsymbol{m}_i = \frac{1}{N_i}\sum_{x\in \Gamma_i}x,\ \ i=1,2
  • 样本类内离散度矩阵SiS_i和总样本类内离散度矩阵SwS_w

Si=xΓi(xmi)(xmi)T,  i=1,2Sw=S1+S2\begin{align} S_i &= \sum_{x\in\Gamma_i}(x-\boldsymbol{m}_i)(x-\boldsymbol{m}_i)^T,\ \ i=1,2 \nonumber \\ S_w &= S_1 + S_2 \nonumber \end{align}
  • 样本类间离散度矩阵SbS_bSbS_b是一个对称半正定矩阵

Sb=(m1m2)(m1m2)TS_b = (\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^T

在一维空间Y中:

  • 各类样本的均值m~i\widetilde{m}_i

m~i=1NiyΓiy,  i=1,2\widetilde{m}_i = \frac{1}{N_i}\sum_{y \in \Gamma_i}y,\ \ i=1,2
  • 样本类内离散度S~i2\widetilde{S}_i^2和总样本类内离散度S~w\widetilde{S}_w

S~i2=yΓi(ym~i)2,  i=1,2S~w=S~12+S~22\begin{align} \widetilde{S}_i^2 &= \sum_{y\in \Gamma_i}(y-\widetilde{m}_i)^2,\ \ i=1,2\nonumber \\ \widetilde{S}_w &= \widetilde{S}_1^2 + \widetilde{S}_2^2 \end{align}

3.4.3 Fisher准则函数的定义

Fisher准则函数定义为:

JF(w)=(m~1m~2)2S~12+S~22J_F(\boldsymbol{w}) = \frac{(\widetilde{m}_1 - \widetilde{m}_2)^2}{\widetilde{S}_1^2 + \widetilde{S}_2^2}

而其中,样本均值可以写为:

m~i=1NiyΓiy=1NixΓiwTx=wT(1NixΓix)=wTmi\begin{align} \widetilde{m}_i &= \frac{1}{N_i}\sum_{y \in \Gamma_i}y \nonumber \\ &= \frac{1}{N_i}\sum_{x\in\Gamma_i}\boldsymbol{w}^Tx \nonumber \\ &= \boldsymbol{w}^T\left(\frac{1}{N_i}\sum_{x\in\Gamma_i}x\right) \nonumber \\ &= \boldsymbol{w}^T\boldsymbol{m}_i \nonumber \end{align}

则准则函数的分子可以写为:

(m~1m~2)2=(wTm1wTm2)2=(wTm1wTm2)(wTm1wTm2)T=(wTm1wTm2)(m1Twm2Tw)=wT(m1m2)(m1m2)Tw=wTSbw\begin{align} (\widetilde{m}_1 - \widetilde{m}_2)^2 &= (\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)^2 \nonumber \\ &=(\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)(\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)^T \nonumber \\ &= (\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)(\boldsymbol{m}_1^T\boldsymbol{w} - \boldsymbol{m}_2^T\boldsymbol{w}) \nonumber \\ &=\boldsymbol{w}^T(\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^T\boldsymbol{w} \nonumber \\ &=\boldsymbol{w}^TS_b\boldsymbol{w} \end{align}

而由于

S~i2=yΓi(ym~i)2=xΓi(wTxwTmi)2=wT[xΓi(xmi)(xmi)T]w=wTSiw\begin{align} \widetilde{S}_i^2 &= \sum_{y\in \Gamma_i}(y-\widetilde{m}_i)^2 \nonumber \\ &= \sum_{x\in\Gamma_i}(\boldsymbol{w}^Tx-\boldsymbol{w}^T\boldsymbol{m}_i)^2 \nonumber \\ &= \boldsymbol{w}^T\left[\sum_{x\in\Gamma_i}(x-\boldsymbol{m}_i)(x-\boldsymbol{m}_i)^T\right]\boldsymbol{w} \nonumber \\ &= \boldsymbol{w}^TS_i\boldsymbol{w} \nonumber \end{align}

因此分母可以写成:

S~12+S~22=wT(S1+S2)w=wTSww\begin{align} \widetilde{S}_1^2 + \widetilde{S}_2^2 &= \boldsymbol{w}^T(S_1 + S_2)\boldsymbol{w} \nonumber \\ &= \boldsymbol{w}^TS_w\boldsymbol{w} \end{align}

将上述各式带回JF(w)J_F(\boldsymbol{w}),可得:

JF(w)=wTSbwwTSwwJ_F(\boldsymbol{w}) = \frac{\boldsymbol{w}^TS_b\boldsymbol{w}}{\boldsymbol{w}^TS_w\boldsymbol{w}}

3.4.4 最佳变换向量求解

由于需要使得均值之差(即分子)尽可能大,同时使得样本内离散度(即分母)尽可能小,故实际上就是要使得准则函数尽可能的大

要求使得准则函数取极大值时的w\boldsymbol{w}^*,可以采用拉格朗日乘数法求解:

令分母等于非零常数,即:

wTSww=c0\boldsymbol{w}^TS_w\boldsymbol{w}=c\neq0

则定义拉格朗日函数为:

L(w,λ)=wTSbwλ(wTSwwc)L(\boldsymbol{w},\lambda) = \boldsymbol{w}^TS_b\boldsymbol{w}-\lambda(\boldsymbol{w}^TS_w\boldsymbol{w}-c)

w\boldsymbol{w}^*求偏导,可得:

L(w,λ)w=2(SbwλSww)\frac{\partial L(\boldsymbol{w},\lambda)}{\partial \boldsymbol{w}}= 2(S_b\boldsymbol{w}-\lambda S_w\boldsymbol{w})

令偏导数为0,有:

SbwλSww=0Sbw=λSww\begin{align} & S_b \boldsymbol{w}^*-\lambda S_w\boldsymbol{w}^*=0 \nonumber \\ & S_b\boldsymbol{w}^*=\lambda S_w \boldsymbol{w}^* \nonumber \end{align}

由于SwS_w非奇异,因此存在逆矩阵,可得:

Sw1Sbw=λwS_w^{-1}S_b\boldsymbol{w}^* = \lambda \boldsymbol{w}^*

此时本质即为求矩阵Sw1SbS_w^{-1}S_b特征值问题,将Sb=(m1m2)(m1m2)TS_b=(\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^T代入上式,可将SbwS_b\boldsymbol{w}^*写为:

Sbw=(m1m2)(m1m2)Tw=(m1m2)R\begin{align} S_b\boldsymbol{w}^* &= (\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^T\boldsymbol{w}^* \nonumber\\ &=(\boldsymbol{m}_1-\boldsymbol{m}_2)R \end{align}

其中R=(m1m2)TwR=(\boldsymbol{m}_1-\boldsymbol{m}_2)^T\boldsymbol{w}^*为一标量,因此SbwS_b\boldsymbol{w}^*总是在向量(m1m2)(\boldsymbol{m}_1-\boldsymbol{m}_2)的方向上,故λw\lambda \boldsymbol{w}^*可以写成:

λw=Sw1(Sbw)=Sw1(m1m2)R\begin{align} \lambda \boldsymbol{w}^* &= S_w^{-1}(S_b\boldsymbol{w}^*) \nonumber \\ &= S_w^{-1}(\boldsymbol{m}_1-\boldsymbol{m}_2)R \nonumber \end{align}

从而有:

w=RλSw1(m1m2)\boldsymbol{w}^* = \frac{R}{\lambda}S_w^{-1}(\boldsymbol{m}_1-\boldsymbol{m}_2)

由于只需要找最佳投影方向,因此可以忽略比例因子,有:

w=Sw1(m1m2)\boldsymbol{w}^* = S_w^{-1}(\boldsymbol{m}_1-\boldsymbol{m}_2)

其中,Sw1S_w^{-1}为高维空间中的总样本类内离散度矩阵的逆矩阵,mi\boldsymbol{m}_i为高维空间中各样本的均值向量

3.4.5 基于最佳变换向量m\boldsymbol{m}^*的投影

w\boldsymbol{w}^*是使Fisher准则函数JF(w)J_F(\boldsymbol{w})取极大值时的解,也就是d维X空间到一维Y空间的最佳投影方向。有了w\boldsymbol{w}^*,就可以把d维样本X投影到一维,这实际上是多维空间到一维空间的一种映射,这个一维空间的方向w\boldsymbol{w}^*相对于Fisher准则函数JF(w)J_F(\boldsymbol{w})是最好的。

利用Fisher准则,就可以将d维分类问题转化为一维分类问题,然后,只要确定一个阈值T,将投影点yny_n与T相比较,即可进行分类判别。

最后更新于

这有帮助吗?