📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 3.4.1 概述
  • 3.4.2 降维的数学原理
  • 3.4.3 Fisher准则
  • 一、Fisher准则中的基本参量
  • 3.4.3 Fisher准则函数的定义
  • 3.4.4 最佳变换向量求解
  • 3.4.5 基于最佳变换向量的投影

这有帮助吗?

在GitHub上编辑
  1. 第三章 判别式分类器

3.4 Fisher线性判别

上一页3.3 广义线性判别函数下一页3.5 感知器算法

最后更新于1年前

这有帮助吗?

3.4.1 概述

出发点

  • 应用统计方法解决模式识别问题时,一再碰到的问题之一就是维数问题

  • 在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通

  • 因此,降低维数有时就会成为处理实际问题的关键

问题描述

  • 考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维

  • 然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别

  • 但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开

Fisher判别方法所要解决的基本问题,就是如何根据实际情况找到一条最好的、最易于分类的投影线

3.4.2 降维的数学原理

从d维空间降到一维空间的一般数学变换方法:

  • 设有一集合Γ\GammaΓ包含N个d维样本x1,x2,…,xNx_1,x_2,\dots,x_Nx1​,x2​,…,xN​,其中N1N_1N1​个属于ω1\omega_1ω1​类的样本记为子集Γ1\Gamma_1Γ1​,N2N_2N2​个属于ω2\omega_2ω2​类的样本记为子集Γ2\Gamma_2Γ2​,若对xnx_nxn​的分量做线性组合可得标量:

yn=wTxn,  n=1,2,…,Ny_n = \boldsymbol{w}^T\boldsymbol{x}_n,\ \ n=1,2,\dots,Nyn​=wTxn​,  n=1,2,…,N
  • 这样可以得到N个一维样本yny_nyn​组成的集合,且可以分为两个子集Γ1,Γ2\Gamma_1,\Gamma_2Γ1​,Γ2​

  • 这里关心的是w\boldsymbol{w}w的方向,即样本投影的方向,而具体的值并不重要,只是一个比例因子

  • 所以,抽象到数学层面,本质就是寻找最好的变换向量w∗\boldsymbol{w}^*w∗

3.4.3 Fisher准则

一、Fisher准则中的基本参量

在高维空间X中:

  • 各样本的均值向量mi\boldsymbol{m}_imi​

mi=1Ni∑x∈Γix,  i=1,2\boldsymbol{m}_i = \frac{1}{N_i}\sum_{x\in \Gamma_i}x,\ \ i=1,2mi​=Ni​1​x∈Γi​∑​x,  i=1,2
  • 样本类内离散度矩阵SiS_iSi​和总样本类内离散度矩阵SwS_wSw​

Si=∑x∈Γi(x−mi)(x−mi)T,  i=1,2Sw=S1+S2\begin{align} S_i &= \sum_{x\in\Gamma_i}(x-\boldsymbol{m}_i)(x-\boldsymbol{m}_i)^T,\ \ i=1,2 \nonumber \\ S_w &= S_1 + S_2 \nonumber \end{align}Si​Sw​​=x∈Γi​∑​(x−mi​)(x−mi​)T,  i=1,2=S1​+S2​​
  • 样本类间离散度矩阵SbS_bSb​,SbS_bSb​是一个对称半正定矩阵

Sb=(m1−m2)(m1−m2)TS_b = (\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^TSb​=(m1​−m2​)(m1​−m2​)T

在一维空间Y中:

  • 各类样本的均值m~i\widetilde{m}_imi​

m~i=1Ni∑y∈Γiy,  i=1,2\widetilde{m}_i = \frac{1}{N_i}\sum_{y \in \Gamma_i}y,\ \ i=1,2mi​=Ni​1​y∈Γi​∑​y,  i=1,2
  • 样本类内离散度S~i2\widetilde{S}_i^2Si2​和总样本类内离散度S~w\widetilde{S}_wSw​

S~i2=∑y∈Γi(y−m~i)2,  i=1,2S~w=S~12+S~22\begin{align} \widetilde{S}_i^2 &= \sum_{y\in \Gamma_i}(y-\widetilde{m}_i)^2,\ \ i=1,2\nonumber \\ \widetilde{S}_w &= \widetilde{S}_1^2 + \widetilde{S}_2^2 \end{align}Si2​Sw​​=y∈Γi​∑​(y−mi​)2,  i=1,2=S12​+S22​​​

我们希望投影后,在一维Y空间中各类样本尽可能分得开些,同时各类样本内部尽量密集,实际上就是

  • 两类之间的均值相差越大越好

  • 类内的离散度越小越好

3.4.3 Fisher准则函数的定义

Fisher准则函数定义为:

JF(w)=(m~1−m~2)2S~12+S~22J_F(\boldsymbol{w}) = \frac{(\widetilde{m}_1 - \widetilde{m}_2)^2}{\widetilde{S}_1^2 + \widetilde{S}_2^2}JF​(w)=S12​+S22​(m1​−m2​)2​

而其中,样本均值可以写为:

m~i=1Ni∑y∈Γiy=1Ni∑x∈ΓiwTx=wT(1Ni∑x∈Γix)=wTmi\begin{align} \widetilde{m}_i &= \frac{1}{N_i}\sum_{y \in \Gamma_i}y \nonumber \\ &= \frac{1}{N_i}\sum_{x\in\Gamma_i}\boldsymbol{w}^Tx \nonumber \\ &= \boldsymbol{w}^T\left(\frac{1}{N_i}\sum_{x\in\Gamma_i}x\right) \nonumber \\ &= \boldsymbol{w}^T\boldsymbol{m}_i \nonumber \end{align}mi​​=Ni​1​y∈Γi​∑​y=Ni​1​x∈Γi​∑​wTx=wT(Ni​1​x∈Γi​∑​x)=wTmi​​

则准则函数的分子可以写为:

(m~1−m~2)2=(wTm1−wTm2)2=(wTm1−wTm2)(wTm1−wTm2)T=(wTm1−wTm2)(m1Tw−m2Tw)=wT(m1−m2)(m1−m2)Tw=wTSbw\begin{align} (\widetilde{m}_1 - \widetilde{m}_2)^2 &= (\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)^2 \nonumber \\ &=(\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)(\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)^T \nonumber \\ &= (\boldsymbol{w}^T\boldsymbol{m}_1 - \boldsymbol{w}^T\boldsymbol{m}_2)(\boldsymbol{m}_1^T\boldsymbol{w} - \boldsymbol{m}_2^T\boldsymbol{w}) \nonumber \\ &=\boldsymbol{w}^T(\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^T\boldsymbol{w} \nonumber \\ &=\boldsymbol{w}^TS_b\boldsymbol{w} \end{align}(m1​−m2​)2​=(wTm1​−wTm2​)2=(wTm1​−wTm2​)(wTm1​−wTm2​)T=(wTm1​−wTm2​)(m1T​w−m2T​w)=wT(m1​−m2​)(m1​−m2​)Tw=wTSb​w​​

而由于

S~i2=∑y∈Γi(y−m~i)2=∑x∈Γi(wTx−wTmi)2=wT[∑x∈Γi(x−mi)(x−mi)T]w=wTSiw\begin{align} \widetilde{S}_i^2 &= \sum_{y\in \Gamma_i}(y-\widetilde{m}_i)^2 \nonumber \\ &= \sum_{x\in\Gamma_i}(\boldsymbol{w}^Tx-\boldsymbol{w}^T\boldsymbol{m}_i)^2 \nonumber \\ &= \boldsymbol{w}^T\left[\sum_{x\in\Gamma_i}(x-\boldsymbol{m}_i)(x-\boldsymbol{m}_i)^T\right]\boldsymbol{w} \nonumber \\ &= \boldsymbol{w}^TS_i\boldsymbol{w} \nonumber \end{align}Si2​​=y∈Γi​∑​(y−mi​)2=x∈Γi​∑​(wTx−wTmi​)2=wT[x∈Γi​∑​(x−mi​)(x−mi​)T]w=wTSi​w​

因此分母可以写成:

S~12+S~22=wT(S1+S2)w=wTSww\begin{align} \widetilde{S}_1^2 + \widetilde{S}_2^2 &= \boldsymbol{w}^T(S_1 + S_2)\boldsymbol{w} \nonumber \\ &= \boldsymbol{w}^TS_w\boldsymbol{w} \end{align}S12​+S22​​=wT(S1​+S2​)w=wTSw​w​​

将上述各式带回JF(w)J_F(\boldsymbol{w})JF​(w),可得:

JF(w)=wTSbwwTSwwJ_F(\boldsymbol{w}) = \frac{\boldsymbol{w}^TS_b\boldsymbol{w}}{\boldsymbol{w}^TS_w\boldsymbol{w}}JF​(w)=wTSw​wwTSb​w​

3.4.4 最佳变换向量求解

由于需要使得均值之差(即分子)尽可能大,同时使得样本内离散度(即分母)尽可能小,故实际上就是要使得准则函数尽可能的大

要求使得准则函数取极大值时的w∗\boldsymbol{w}^*w∗,可以采用拉格朗日乘数法求解:

拉格朗日乘数法

基本思想是将等式约束条件下的最优化问题转化为无约束条件下的最优化问题

问题: 设目标函数为

y=f(x), x=(x1,x2,…,xn)y = f(x),\ x=(x_1,x_2,\dots,x_n)y=f(x), x=(x1​,x2​,…,xn​)

求其在m (m<n)m\ (m<n)m (m<n)个约束条件

gk(x)=0, k=1,2,…,mg_k(x) = 0,\ k=1,2,\dots,mgk​(x)=0, k=1,2,…,m

下的极值

描述: 引进函数

L(x,λ1,λ2,…,λm)=f(x)+∑k=1mλkgk(x)L(x,\lambda_1,\lambda_2,\dots,\lambda_m) = f(x) + \sum_{k=1}^{m}\lambda_kg_k(x)L(x,λ1​,λ2​,…,λm​)=f(x)+k=1∑m​λk​gk​(x)

其中λk, k=1,2,…,m\lambda_k,\ k=1,2,\dots,mλk​, k=1,2,…,m为待定常数,将LLL当作m+nm+nm+n个变量x1,x2,…,xnx_1,x_2,\dots,x_nx1​,x2​,…,xn​和λ1,λ2,…,λm\lambda_1,\lambda_2,\dots,\lambda_mλ1​,λ2​,…,λm​的无约束的函数,对其求一阶偏导数可得稳定点所需要的方程:

∂L∂xi=0, i=1,2,…,ngk=0, k=1,2,…,m\frac{\partial L}{\partial x_i} = 0,\ i=1,2,\dots,n \\ g_k = 0,\ k=1,2,\dots,m∂xi​∂L​=0, i=1,2,…,ngk​=0, k=1,2,…,m

令分母等于非零常数,即:

wTSww=c≠0\boldsymbol{w}^TS_w\boldsymbol{w}=c\neq0wTSw​w=c=0

则定义拉格朗日函数为:

L(w,λ)=wTSbw−λ(wTSww−c)L(\boldsymbol{w},\lambda) = \boldsymbol{w}^TS_b\boldsymbol{w}-\lambda(\boldsymbol{w}^TS_w\boldsymbol{w}-c)L(w,λ)=wTSb​w−λ(wTSw​w−c)

对w∗\boldsymbol{w}^*w∗求偏导,可得:

∂L(w,λ)∂w=2(Sbw−λSww)\frac{\partial L(\boldsymbol{w},\lambda)}{\partial \boldsymbol{w}}= 2(S_b\boldsymbol{w}-\lambda S_w\boldsymbol{w})∂w∂L(w,λ)​=2(Sb​w−λSw​w)

令偏导数为0,有:

Sbw∗−λSww∗=0Sbw∗=λSww∗\begin{align} & S_b \boldsymbol{w}^*-\lambda S_w\boldsymbol{w}^*=0 \nonumber \\ & S_b\boldsymbol{w}^*=\lambda S_w \boldsymbol{w}^* \nonumber \end{align}​Sb​w∗−λSw​w∗=0Sb​w∗=λSw​w∗​

由于SwS_wSw​非奇异,因此存在逆矩阵,可得:

Sw−1Sbw∗=λw∗S_w^{-1}S_b\boldsymbol{w}^* = \lambda \boldsymbol{w}^*Sw−1​Sb​w∗=λw∗

此时本质即为求矩阵Sw−1SbS_w^{-1}S_bSw−1​Sb​的特征值问题,将Sb=(m1−m2)(m1−m2)TS_b=(\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^TSb​=(m1​−m2​)(m1​−m2​)T代入上式,可将Sbw∗S_b\boldsymbol{w}^*Sb​w∗写为:

Sbw∗=(m1−m2)(m1−m2)Tw∗=(m1−m2)R\begin{align} S_b\boldsymbol{w}^* &= (\boldsymbol{m}_1-\boldsymbol{m}_2)(\boldsymbol{m}_1-\boldsymbol{m}_2)^T\boldsymbol{w}^* \nonumber\\ &=(\boldsymbol{m}_1-\boldsymbol{m}_2)R \end{align}Sb​w∗​=(m1​−m2​)(m1​−m2​)Tw∗=(m1​−m2​)R​​

其中R=(m1−m2)Tw∗R=(\boldsymbol{m}_1-\boldsymbol{m}_2)^T\boldsymbol{w}^*R=(m1​−m2​)Tw∗为一标量,因此Sbw∗S_b\boldsymbol{w}^*Sb​w∗总是在向量(m1−m2)(\boldsymbol{m}_1-\boldsymbol{m}_2)(m1​−m2​)的方向上,故λw∗\lambda \boldsymbol{w}^*λw∗可以写成:

λw∗=Sw−1(Sbw∗)=Sw−1(m1−m2)R\begin{align} \lambda \boldsymbol{w}^* &= S_w^{-1}(S_b\boldsymbol{w}^*) \nonumber \\ &= S_w^{-1}(\boldsymbol{m}_1-\boldsymbol{m}_2)R \nonumber \end{align}λw∗​=Sw−1​(Sb​w∗)=Sw−1​(m1​−m2​)R​

从而有:

w∗=RλSw−1(m1−m2)\boldsymbol{w}^* = \frac{R}{\lambda}S_w^{-1}(\boldsymbol{m}_1-\boldsymbol{m}_2)w∗=λR​Sw−1​(m1​−m2​)

由于只需要找最佳投影方向,因此可以忽略比例因子,有:

w∗=Sw−1(m1−m2)\boldsymbol{w}^* = S_w^{-1}(\boldsymbol{m}_1-\boldsymbol{m}_2)w∗=Sw−1​(m1​−m2​)

其中,Sw−1S_w^{-1}Sw−1​为高维空间中的总样本类内离散度矩阵的逆矩阵,mi\boldsymbol{m}_imi​为高维空间中各样本的均值向量

3.4.5 基于最佳变换向量m∗\boldsymbol{m}^*m∗的投影

w∗\boldsymbol{w}^*w∗是使Fisher准则函数JF(w)J_F(\boldsymbol{w})JF​(w)取极大值时的解,也就是d维X空间到一维Y空间的最佳投影方向。有了w∗\boldsymbol{w}^*w∗,就可以把d维样本X投影到一维,这实际上是多维空间到一维空间的一种映射,这个一维空间的方向w∗\boldsymbol{w}^*w∗相对于Fisher准则函数JF(w)J_F(\boldsymbol{w})JF​(w)是最好的。

利用Fisher准则,就可以将d维分类问题转化为一维分类问题,然后,只要确定一个阈值T,将投影点yny_nyn​与T相比较,即可进行分类判别。