📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 3.3.1 基本思想
  • 3.3.2 f(x)的选择
  • 一、一次函数
  • 二、二次多项式函数
  • 三、r次多项式
  • 四、的项数
  • 3.3.3 分段线性判别函数
  • 一、出发点
  • 二、最小距离分类器

这有帮助吗?

在GitHub上编辑
  1. 第三章 判别式分类器

3.3 广义线性判别函数

3.3.1 基本思想

假设一个模式集{x}\{x\}{x},在模式空间xxx中线性不可分,但是在模式空间x∗x^*x∗中线性可分,其中x∗x^*x∗中的各分量是xxx的单值实函数,且x∗x^*x∗的维度高于xxx的维度,即:

x∗=(f1(x),f2(x),…,fk(x),1)T   k>nx^* = (f_1(x),f_2(x),\dots,f_k(x),1)^T\ \ \ k>nx∗=(f1​(x),f2​(x),…,fk​(x),1)T   k>n

则若有非线性判别函数:

d(x)=w1f1(x)+w2f2(x)+⋯+wkfk(x)+wk+1d(x)=w_1f_1(x) + w_2f_2(x) + \cdots + w_kf_k(x) + w_{k+1}d(x)=w1​f1​(x)+w2​f2​(x)+⋯+wk​fk​(x)+wk+1​

该判别函数可以表示为:

d(x∗)=wTx∗d(x^*)=w^Tx^*d(x∗)=wTx∗

此时非线性判别函数已经被转换为广义线性

3.3.2 f(x)的选择

一、一次函数

若取fi(x)f_i(x)fi​(x)为一次函数,则变换后的模式x∗=xx^*=xx∗=x,x∗x^*x∗的维数k等于xxx的维数n,此时广义化后的线性判别式仍然为:

d(x)=wTx=wn+1d(x) = w^Tx = w_{n+1}d(x)=wTx=wn+1​

二、二次多项式函数

设x的维度为n,则原判别函数为:

d(x)=∑j=1nwjjxj2+∑j=1n−1∑k=j+1nwjkxjxk+∑j=1nwjxj+wn+1d(x) = \sum_{j=1}^nw_{jj}x_j^2 + \sum_{j=1}^{n-1}\sum_{k=j+1}^nw_{jk}x_jx_k + \sum_{j=1}^nw_jx_j + w_{n+1}d(x)=j=1∑n​wjj​xj2​+j=1∑n−1​k=j+1∑n​wjk​xj​xk​+j=1∑n​wj​xj​+wn+1​

式中包含xxx各分量的二次项、一次项和常数项,其中:

  • 平方项nnn个

  • 二次项n(n−1)2\dfrac{n(n-1)}{2}2n(n−1)​个

  • 一次项nnn个

  • 常数项1个

总的项数为:

n+n(n−1)2+n+1=(n+1)(n+2)2>nn+\frac{n(n-1)}{2} + n +1 = \frac{(n+1)(n+2)}{2} > nn+2n(n−1)​+n+1=2(n+1)(n+2)​>n

显然对于x∗x^*x∗,其维数大于xxx的原维数,则x∗x^*x∗的各分量一般化为:

fi(x)=xp1sxp2t, p1,p2=1,2,…,n, s,t=0,1f_i(x) = x_{p_1}^sx_{p_2}^t,\ p_1,p_2=1,2,\dots,n,\ s,t=0,1fi​(x)=xp1​s​xp2​t​, p1​,p2​=1,2,…,n, s,t=0,1

三、r次多项式

若fi(x)f_i(x)fi​(x)为r次多项式函数,x为n维模式,则有:

fi(x)=xp1s1xp2s2⋯xprsr, p1,p2,…,pr=1,2,…,n, s1,s2,…,sr=0,1f_i(x) = x_{p_1}^{s_1}x_{p_2}^{s_2}\cdots x_{p_r}^{s_r},\ p_1,p_2,\dots,p_r=1,2,\dots,n,\ s_1,s_2,\dots,s_r=0,1fi​(x)=xp1​s1​​xp2​s2​​⋯xpr​sr​​, p1​,p2​,…,pr​=1,2,…,n, s1​,s2​,…,sr​=0,1

此时,判别函数d(x)d(x)d(x)可由以下递推关系给出:

常数项: d(0)(x)=wn+1一次项: d(1)(x)=∑p1=1nwp1xp1+d(0)(x)二次项: d(2)(x)=∑p1=1n∑p2=p1nwp1p2xp1xp2+d(1)(x)⋯r次项: d(r)(x)=∑p1=1n∑p2=p1n⋯∑pr=pr−1nwp1p2…prxp1xp2…xpr+d(r−1)(x)\begin{align} 常数项:\ d^{(0)}(x)&=w_{n+1} \nonumber \\ 一次项:\ d^{(1)}(x)&=\sum_{p_1=1}^nw_{p_1}x_{p_1} + d^{(0)}(x) \nonumber \\ 二次项:\ d^{(2)}(x)&=\sum_{p_1=1}^n\sum_{p_2=p_1}^nw_{p_1p_2}x_{p_1}x_{p_2} + d^{(1)}(x) \nonumber \\ & \cdots \nonumber \\ r次项:\ d^{(r)}(x)&=\sum_{p_1=1}^n\sum_{p_2=p_1}^n\dots\sum_{p_r=p_{r-1}}^nw_{p_1p_2\dots p_r}x_{p_1}x_{p_2}\dots x_{p_r} + d^{(r-1)}(x) \nonumber \end{align}常数项: d(0)(x)一次项: d(1)(x)二次项: d(2)(x)r次项: d(r)(x)​=wn+1​=p1​=1∑n​wp1​​xp1​​+d(0)(x)=p1​=1∑n​p2​=p1​∑n​wp1​p2​​xp1​​xp2​​+d(1)(x)⋯=p1​=1∑n​p2​=p1​∑n​⋯pr​=pr−1​∑n​wp1​p2​…pr​​xp1​​xp2​​…xpr​​+d(r−1)(x)​

例:当取r=2,n=2时,写出判别函数

常数项: d(0)(x)=wn+1=w3一次项: d(1)(x)=∑p1=1nwp1xp1+d(0)(x)=w1x1+w2x2+w3二次项: d(2)(x)=∑p1=1n∑p2=p1nwp1p2xp1xp2+d(1)(x)=w11x12+w12x1x2+w22x22+w1x1+w2x2+w3\begin{align} \text{常数项}:\ d^{(0)}(x)&=w_{n+1} \nonumber \\ &=w_3 \nonumber \\ \text{一次项}:\ d^{(1)}(x)&=\sum_{p_1=1}^nw_{p_1}x_{p_1} + d^{(0)}(x) \nonumber \\ &=w_1x_1+w_2x_2+w_3 \nonumber \\ \text{二次项}:\ d^{(2)}(x)&=\sum_{p_1=1}^n\sum_{p_2=p_1}^nw_{p_1p_2}x_{p_1}x_{p_2} + d^{(1)}(x) \nonumber \\ &=w_{11}x_1^2 + w_{12}x_1x_2 + w_{22}x_2^2 + w_1x_1+w_2x_2+w_3 \nonumber \\ \end{align}常数项: d(0)(x)一次项: d(1)(x)二次项: d(2)(x)​=wn+1​=w3​=p1​=1∑n​wp1​​xp1​​+d(0)(x)=w1​x1​+w2​x2​+w3​=p1​=1∑n​p2​=p1​∑n​wp1​p2​​xp1​​xp2​​+d(1)(x)=w11​x12​+w12​x1​x2​+w22​x22​+w1​x1​+w2​x2​+w3​​​

四、d(x)d(x)d(x)的项数

对于n维x向量,若用r次多项式,d(x)d(x)d(x)的权系数的总项数为:

Nw=Cn+rr=(n+r)!r!n!N_w=C_{n+r}^r=\frac{(n+r)!}{r!n!}Nw​=Cn+rr​=r!n!(n+r)!​

可以看出d(x)d(x)d(x)的项数随着r和n的增大而迅速增大,若采用次数较高的多项式变换,即使原来xxx的维数不高,也会使得变换后的x∗x^*x∗维数很高,给分类带来困难

实际情况可只取r=2,或只选多项式的一部分,例如r=2时只取二次项,略去一次项,以减少x∗x^*x∗的维数。

例:设有一维样本空间X,所希望的分类是若x≤bx\leq bx≤b或x≥ax\geq ax≥a,则x∈ω1x \in \omega_1x∈ω1​;若b<x<ab<x<ab<x<a,x∈ω1x \in \omega_1x∈ω1​

显然没有一个线性判别函数能在一维空间中解决上述问题。

要在一维空间中分类,只有定义判别函数:

d(x)=(x−a)(x−b)=x2−(a+b)x+abd(x) = (x-a)(x-b) = x^2 - (a+b)x + abd(x)=(x−a)(x−b)=x2−(a+b)x+ab

对应到二维空间,令:

x1=f1(x)=x2x2=f2(x)=xx_1 = f_1(x) = x^2 \\ x_2 = f_2(x) = xx1​=f1​(x)=x2x2​=f2​(x)=x

则可以得到线性判别函数:

d(x)=x1−(a+b)x2+ab=wTxd(x) = x_1 - (a+b)x_2 + ab = w^Txd(x)=x1​−(a+b)x2​+ab=wTx

其中

x=(x1, x2, 1)Tw=(1, −(a+b), ab)Tx = (x_1,\ x_2,\ 1)^T \\ w = (1,\ -(a+b),\ ab)^Tx=(x1​, x2​, 1)Tw=(1, −(a+b), ab)T

3.3.3 分段线性判别函数

一、出发点

  • 线性判别函数在进行分类决策时是最简单有效的,但在实际应用中,常常会出现不能用线性判别函数直接进行分类的情况

  • 采用广义线性判别函数的概念,可以通过增加维数来得到线性判别,但维数的大量增加会使在低维空间里在解析和计算上行得通的方法在高维空间遇到困难,增加计算的复杂性

  • 引入分段线性判别函数的判别过程,它比一般的线性判别函数的错误率小,但又比非线性判别函数简单

简单来说,就是用一个分段函数来逼近非线性的判别函数

二、最小距离分类器

设μ1\mu_1μ1​和μ2\mu_2μ2​为两个模式ω1\omega_1ω1​和ω2\omega_2ω2​的聚类中心,定义决策规则:

∥x−μ1∥2−∥x−μ2∥2={<0x∈ω1>0x∈ω2\Vert x- \mu_1\Vert^2-\Vert x - \mu_2\Vert^2= \begin{cases} <0 & x\in \omega_1 \\ >0 & x\in\omega_2 \end{cases}∥x−μ1​∥2−∥x−μ2​∥2={<0>0​x∈ω1​x∈ω2​​

此时的决策面是两类期望连线的垂直平分面,这样的分类器称为最小距离分类器

上一页3.2 线性判别函数下一页3.4 Fisher线性判别

最后更新于1年前

这有帮助吗?