📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 4.1.1 概述
  • 4.1.2 特征选择和提取
  • 4.1.3 模式类别可分性的测度
  • 一、点到点之间的距离
  • 二、点到点集之间的距离
  • 三、类内距离
  • 四、类内散布矩阵
  • 五、类间距离和类间散布矩阵
  • 六、多类模式集散布矩阵
  • 七、关系

这有帮助吗?

在GitHub上编辑
  1. 第四章 特征选择和提取

4.1 模式类别可分性的测度

4.1.1 概述

特征选择和提取是模式识别中的一个关键问题

  • 如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果,产生特征维数灾难问题

  • 为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征

  • 在保证一定分类精度的前提下,减少特征维数,即进行降维处理,使分类器实现快速、准确和高效的分类

  • 为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择

    • 去掉模棱两可、不易判别的特征

    • 所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征

4.1.2 特征选择和提取

特征选择:从nnn个度量值集合{x1,x2,…,xn}\left\{x_1,x_2,\dots,x_n\right\}{x1​,x2​,…,xn​}中,按照某一准则选取出供分类的子集,作为降维的分类特征

特征提取:使{x1,x2,…,xn}\{x_1,x_2,\dots,x_n\}{x1​,x2​,…,xn​}通过某种变换,产生mmm个特征作为新的分类特征(也称为二次特征)

上述两种方法的目的都是为了在尽可能保留识别信息的前提下,降低特征空间的维数,已达到有效的分类。

4.1.3 模式类别可分性的测度

一、点到点之间的距离

在n维空间中,两点a、b之间的欧式距离为:

D(a,b)=∥a−b∥D(a,b)= \Vert a-b\VertD(a,b)=∥a−b∥

写成距离平方的形式:

D2(a,b)=(a−b)T(a−b)=∑k=1n(ak−bk)2\begin{align} D^2(a,b)&=(a-b)^T(a-b) \nonumber \\ &=\sum_{k=1}^n(a_k-b_k)^2 \nonumber \end{align}D2(a,b)​=(a−b)T(a−b)=k=1∑n​(ak​−bk​)2​

其中,aka_kak​、bkb_kbk​为向量a,b\boldsymbol{a},\boldsymbol{b}a,b的第k个分量

二、点到点集之间的距离

在n维空间中,点xxx到点a(i)a^{(i)}a(i)之间的距离平方为:

D2(x,a(i))=∑k−=1n(xk−ak(i))2D^2(x,a^{(i)})=\sum_{k-=1}^n(x_k-a_k^{(i)})^2D2(x,a(i))=k−=1∑n​(xk​−ak(i)​)2

带入得点xxx到点集{a(i)}i=1,2,…,k\{a^{(i)}\}_{i=1,2,\dots,k}{a(i)}i=1,2,…,k​之间的均方距离为:

D2(x,a(i))‾=1K∑i=1KD2(x,a(i))=1K∑i=1K{∑k−=1n(xk−ak(i))2}\begin{align} \overline{D^2(x,a^{(i)})} &= \frac{1}{K}\sum_{i=1}^KD^2(x,a^{(i)}) \nonumber \\ &= \frac{1}{K}\sum_{i=1}^K\left\{\sum_{k-=1}^n(x_k-a_k^{(i)})^2\right\} \end{align}D2(x,a(i))​​=K1​i=1∑K​D2(x,a(i))=K1​i=1∑K​{k−=1∑n​(xk​−ak(i)​)2}​​

三、类内距离

n维空间中同一类内各模式样本点集{a(i)}i=1,2,…,K\{a^{(i)}\}_{i=1,2,\dots,K}{a(i)}i=1,2,…,K​,其内部各点的均方距离为:

D2({a(j)},{a(i)})‾=1K∑j=1K[1K−1∑i=1i≠jK∑k=1n(ak(j)−ak(i))2]\overline{D^2(\{a^{(j)}\}, \{a^{(i)}\})} = \frac{1}{K}\sum_{j=1}^K\left[\frac{1}{K-1}\sum_{\substack{i=1\\i\neq j}}^K\sum_{k=1}^n(a_k^{(j)}-a_k^{(i)})^2\right]D2({a(j)},{a(i)})​=K1​j=1∑K​​K−11​i=1i=j​∑K​k=1∑n​(ak(j)​−ak(i)​)2​

此外,可证明:

D2‾=2∑k=1nσk2\overline{D^2}=2\sum_{k=1}^n\sigma_k^2D2=2k=1∑n​σk2​

其中,σk2\sigma_k^2σk2​为{a(i)}\{a^{(i)}\}{a(i)}在第k个份量上的无偏方差:

σk2=1K−1∑i=1K(ak(i)−ak‾)2\sigma_k^2=\frac{1}{K-1}\sum_{i=1}^K(a_k^{(i)}-\overline{a_k})^2σk2​=K−11​i=1∑K​(ak(i)​−ak​​)2

其中,ak‾\overline{a_k}ak​​为a(i)a^{(i)}a(i)在第k个分量上的均值:

ak‾=1K∑i=1Kak(i)\overline{a_k} = \frac{1}{K}\sum_{i=1}^Ka_k^{(i)}ak​​=K1​i=1∑K​ak(i)​

证明略

四、类内散布矩阵

一类内各模式样本点集{a(i)}i=1,2,…,K\{a^{(i)}\}_{i=1,2,\dots,K}{a(i)}i=1,2,…,K​,其类内散布矩阵为:

S=∑i=1K{(a(i)−m)(a(i)−m)T}S=\sum_{i=1}^K\{(a^{(i)}-m)(a^{(i)}-m)^T\}S=i=1∑K​{(a(i)−m)(a(i)−m)T}

其中

m=1K∑i=1Ka(i)m=\frac{1}{K}\sum_{i=1}^Ka^{(i)}m=K1​i=1∑K​a(i)

类内散布矩阵表示各样本点围绕其均值周围的散布情况

五、类间距离和类间散布矩阵

两个点集的距离D2({a(i)},{b(j)})‾i=1,2,…,Ka;j=1,2,…,Kb\overline{D^2(\{a^{(i)}\}, \{b^{(j)}\})}_{i=1,2,\dots,K_a;j=1,2,\dots,K_b}D2({a(i)},{b(j)})​i=1,2,…,Ka​;j=1,2,…,Kb​​对类别的可分性起着重要的作用,为简化起见,常用两类样本各自质心间的距离作为类间距离,并假设两类样本出现的概率相等,则:

D2=∑k=1n(m1k−m2k)2D^2=\sum_{k=1}^n(\boldsymbol{m}_{1_k}-\boldsymbol{m}_{2_k})^2D2=k=1∑n​(m1k​​−m2k​​)2

其中,m1\boldsymbol{m}_1m1​和m2\boldsymbol{m}_2m2​为两类模式样本集各自的均值向量,m1k\boldsymbol{m}_{1_k}m1k​​和m2k\boldsymbol{m}_{2_k}m2k​​为各自的第k个分量,n为维数

这两个模式的类间散布矩阵为:

Sb2=(m1−m2)(m1−m2)TS_{b2}=(m_1-m_2)(m_1-m_2)^TSb2​=(m1​−m2​)(m1​−m2​)T

扩展到三个以上的类别,类间散布矩阵可以写作:

Sb=∑i=1cP(ωi)(mi−m0)(mi−m0)TS_b = \sum_{i=1}^cP(\omega_i)(m_i-m_0)(m_i-m_0)^TSb​=i=1∑c​P(ωi​)(mi​−m0​)(mi​−m0​)T

其中,m0m_0m0​为多类模式分布的总体均值向量,c为类别数量:

m0=E{x}=∑i=1cp(ωi)mi, ∀ωi,i=1,2,…,cm_0=E\{x\}=\sum_{i=1}^cp(\omega_i)m_i,\ \forall\omega_i,i=1,2,\dots,cm0​=E{x}=i=1∑c​p(ωi​)mi​, ∀ωi​,i=1,2,…,c

六、多类模式集散布矩阵

多类情况的类内散布矩阵,可以写成各类的类内散布矩阵的先验概率的加权和:

Sw=∑i=1cP(ω1)E{(x−mi)(x−mi)T∣ωi}=∑i=1cP(ωi)Ci\begin{align} S_w &=\sum_{i=1}^cP(\omega_1)E\{(x-m_i)(x-m_i)^T\vert\omega_i\} \nonumber \\ &=\sum_{i=1}^cP(\omega_i)C_i \nonumber \end{align}Sw​​=i=1∑c​P(ω1​)E{(x−mi​)(x−mi​)T∣ωi​}=i=1∑c​P(ωi​)Ci​​

其中,CiC_iCi​是第i类的协方差矩阵

有时,使用多类模式总体分布的散布矩阵来反映其可分性,即:

St=E{(x−m0)(x−m0)T},  x∈∀,i=1,2,…,cS_t = E\{(x-m_0)(x-m_0)^T\},\ \ x\in\forall,i=1,2,\dots,cSt​=E{(x−m0​)(x−m0​)T},  x∈∀,i=1,2,…,c

其中m0\boldsymbol{m}_0m0​为多类模式分布的总体均值向量

七、关系

总体散布矩阵是各类类内散布矩阵与类间散布矩阵之和

St=Sw+SbS_t = S_w+S_bSt​=Sw​+Sb​
上一页附 第三章作业下一页4.2 特征选择

最后更新于1年前

这有帮助吗?