📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 4.2.1 概念
  • 4.2.2 类间可分性准则
  • 4.2.3 可分性准则的适用范围
  • 4.2.4 一般特征的散布矩阵准则

这有帮助吗?

在GitHub上编辑
  1. 第四章 特征选择和提取

4.2 特征选择

4.2.1 概念

设有n个可用作分类的测量值,为了在尽量不降低分类精度的前提下,减小特征空间的维数以减少计算量,需从中直接选出m个作为分类的特征。

那么,怎么选呢?

要从n个特征值中选出m个,共有Cnm=n!m!(n−m)!C_n^m=\dfrac{n!}{m!(n-m)!}Cnm​=m!(n−m)!n!​种选法,使用穷举法对每种选法进行测试耗时过大,因此需要寻找一种简便的可分性准则,间接判断每种子集的优劣

4.2.2 类间可分性准则

  • 对于不同类别模式之间,均值向量间的距离应该尽可能的大

  • 对于同一类的模式特征,方差之和应该尽可能的小

假设各原始特征测量值是统计独立的,此时,只需对训练样本的n个测量值独立地进行分析,从中选出m个最好的作为分类特征即可。

例:对于ωi\omega_iωi​和ωj\omega_jωj​两类训练样本,设其均值向量为mi\boldsymbol{m}_imi​和mj\boldsymbol{m}_jmj​,其在k维度方向上的分量为mikm_{ik}mik​、mjkm_{jk}mjk​,方差为σik2\sigma_{ik}^2σik2​和σjk2\sigma_{jk}^2σjk2​

则定义可分性准则函数:

GK=(mik−mjk)2σik2+σjk2, k=1,2,…,nG_K=\frac{(m_{ik}-m_{jk})^2}{\sigma_{ik}^2+\sigma_{jk}^2},\ k=1,2,\dots,nGK​=σik2​+σjk2​(mik​−mjk​)2​, k=1,2,…,n

若GkG_kGk​越大,代表测度值的第k个分量对分离两类越有效。将GK, k=1,2,…,nG_K,\ k=1,2,\dots,nGK​, k=1,2,…,n按照大小分类,选出最大的m个对应的测度值既可作为分类特征。

4.2.3 可分性准则的适用范围

  • 对于(a)中的特征xkx_kxk​,其分布有着很好的可分性,通过它可以分离两种类别

  • 对于(b)中的特征xkx_kxk​,其分布存在很大的重叠,单靠xkx_kxk​不足以打到较好的分类,需要添加其他特征

  • 对于(c)中ωi\omega_iωi​的特征xkx_kxk​,它的分布有两个最大值,虽然与ωj\omega_jωj​不存在重叠,但是由于计算出来GkG_kGk​约等于0,因此它作为可分性准则已经不再合适

总结:假若类概率密度函数不是或不近似正态分布,均值和方差就不足以用来估计类别的可分性,此时该准则函数不完全适用

4.2.4 一般特征的散布矩阵准则

类内离散度矩阵:

Sw=∑i=1cP(ωi)E{(x−mi)(x−mi)T∣ωi}S_w=\sum_{i=1}^cP(\omega_i)E\{(x-m_i)(x-m_i)^T\vert\omega_i\}Sw​=i=1∑c​P(ωi​)E{(x−mi​)(x−mi​)T∣ωi​}

类间离散度矩阵:

Sb=∑i=1cP(ωi)(mi−m0)(mi−m0)TS_b = \sum_{i=1}^cP(\omega_i)(m_i-m_0)(m_i-m_0)^TSb​=i=1∑c​P(ωi​)(mi​−m0​)(mi​−m0​)T

由上可以推出散布矩阵准则采用以下两种形式:

  • 行列式形式

J1=det⁡(Sw−1Sb)=∏iλiJ_1=\det(S_w^{-1}S_b)=\prod_{i}\lambda_iJ1​=det(Sw−1​Sb​)=i∏​λi​
  • 迹形式

J2=tr(Sw−1Sb)=∑iλiJ_2=\text{tr}(S_w^{-1}S_b)=\sum_{i}\lambda_iJ2​=tr(Sw−1​Sb​)=i∑​λi​

其中,λi\lambda_iλi​是矩阵Sw−1SbS_w^{-1}S_bSw−1​Sb​的特征值,使得J1J_1J1​和J2J_2J2​最大的子集可以作为可选择的分类特征。

这里计算的散布矩阵不受模式分布形式的限制,但需要有足够数量的模式样本才能获得有效的结果

上一页4.1 模式类别可分性的测度下一页4.3 离散K-L变换

最后更新于1年前

这有帮助吗?