📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 6.2.1 最小均方误差(LMS)
  • 批梯度下降
  • 随机梯度下降
  • 6.2.2 广义线性回归
  • 常见的非线性基函数
  • 广义线性回归的闭式解
  • 6.2.3 最大似然估计(MLE)
  • 6.2.4 最大化后验概率(MAP)
  • 6.2.5 MLE与MAP的比较

这有帮助吗?

在GitHub上编辑
  1. 第六章 有监督学习

6.2 回归任务

线性回归的任务:

  • 输入:N个独立同分布(i.i.d)的训练样本(xi,yi)∈X×R(\mathbf{x}^i,y^i)\in X\times R(xi,yi)∈X×R,i=1,2,…,Ni=1,2,\dots,Ni=1,2,…,N

  • 目标函数:f∈Ff\in \mathcal{F}f∈F

  • 损失函数:L(f;x,y)=(f(x)−y)2L(f;x,y) = (f(x)-y)^2L(f;x,y)=(f(x)−y)2

  • 期望风险:∫(f(x)−y)2dP(x,y)\int (f(x)-y)^2dP(x,y)∫(f(x)−y)2dP(x,y)

6.2.1 最小均方误差(LMS)

最小均方误差在分类上属于判别函数

当fff是线性函数,则最优化问题为:

\min_\limits{\mathbf{w}} J(\mathbf{w}) = \sum_{i=1}^N(\mathbf{w}^T\mathbf{x}^i - y^i)^2

也就是最小化经验风险,在这里即为最小二乘/均方误差

批梯度下降

对于上述最优化问题,采用梯度下降法进行更新,梯度为

∂J(w)∂wj=2∑i=1Nxji(wTxi−yi)\frac{\partial J(\mathbf{w})}{\partial w_j} = 2\sum_{i=1}^Nx_j^i(\mathbf{w}^T\mathbf{x}^i - y^i)∂wj​∂J(w)​=2i=1∑N​xji​(wTxi−yi)

对于批梯度下降法(BGD),更新规则为:

wj=wj−2α∑i=1Nxji(wTxi−yi), α>0w_j = w_j - 2\alpha\sum_{i=1}^Nx_j^i(\mathbf{w}^T\mathbf{x}^i - y^i),\ \alpha>0wj​=wj​−2αi=1∑N​xji​(wTxi−yi), α>0

这里α\alphaα为学习率

  • 优点

    • 一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行

    • 由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优

  • 缺点

    • 当样本数目N很大时,每迭代一步都需要对所有样本计算,训练过程会很慢

随机梯度下降

对于批梯度下降的缺点,随机梯度下降采用了不同的更新规则:

wj=wj−2α(wTxi−yi)xji, α>0w_j = w_j - 2\alpha (\mathbf{w}^T\mathbf{x}^i - y^i)x_j^i,\ \alpha>0wj​=wj​−2α(wTxi−yi)xji​, α>0

也可以写作:

w=w−2αXTbb=(b1,b2,…,bN)T where bi=wTxi−yi\mathbf{w} = \mathbf{w} - 2\alpha \mathbf{X}^T\mathbf{b} \\ \mathbf{b}=(b_1, b_2,\dots,b_N)^T\ \text{where}\ b_i = \mathbf{w}^T\mathbf{x}^i - y^iw=w−2αXTbb=(b1​,b2​,…,bN​)T where bi​=wTxi−yi

区别在于,随机梯度下降(SGD)每次迭代仅针对一个样本进行,而不像BGD每次对所有样本进行训练

6.2.2 广义线性回归

利用非线性基进行线性回归的思路就是对非线性基进行线性组合:

f(w,x)=w0+∑j=1Kwjϕj(x)其中 Φ=(1,ϕ1,…,ϕK)f(\mathbf{w},\mathbf{x}) = w_0+ \sum_{j=1}^Kw_j\phi_j(\mathbf{x}) \\ 其中\ \Phi=(1,\phi_1,\dots,\phi_K)f(w,x)=w0​+j=1∑K​wj​ϕj​(x)其中 Φ=(1,ϕ1​,…,ϕK​)

常见的非线性基函数

  • 多项式基函数

ϕ(x)=(1,x,x2,…,xK)\phi(\mathbf{x}) = (1,x,x^2,\dots,x^K)ϕ(x)=(1,x,x2,…,xK)
  • 高斯函数

ϕj(x)=exp⁡(−(x−μj)22s2)\phi_j(\mathbf{x}) = \exp\left(-\frac{(x-\mu_j)^2}{2s^2}\right)ϕj​(x)=exp(−2s2(x−μj​)2​)
  • Sigmoid函数

ϕj(x)=σ(x−μjs)σ(a)=11+exp⁡(−a)\phi_j(\mathbf{x}) = \sigma\left(\frac{x-\mu_j}{s}\right) \\ \sigma(a) = \frac{1}{1+\exp(-a)}ϕj​(x)=σ(sx−μj​​)σ(a)=1+exp(−a)1​

广义线性回归的闭式解

最优化问题:

min⁡wJ(w)=∑i=1N(wTϕ(xi)−yi)2\min\limits_w J(\mathbf{w}) = \sum_{i=1}^N(\mathbf{w}^T\phi(\mathbf{x}^i) - y^i)^2wmin​J(w)=i=1∑N​(wTϕ(xi)−yi)2

梯度:

∂J(w)∂wj=2∑i=1Nϕj(xi)(wTϕ(wi)−yi)\frac{\partial J(\mathbf{w})}{\partial w_j} = 2\sum_{i=1}^N\phi_j(\mathbf{x}^i)(\mathbf{w}^T\phi(\mathbf{w^i})-y^i)∂wj​∂J(w)​=2i=1∑N​ϕj​(xi)(wTϕ(wi)−yi)

闭式解:

w∗=(ΦTΦ)−1ΦTy\mathbf{w}^* = (\Phi^T\Phi)^{-1}\Phi^T\mathbf{y}w∗=(ΦTΦ)−1ΦTy

其中,

Φ=(ϕ0(x1)…ϕk(x1)⋮⋮⋮ϕ0(xN)…ϕk(xN))y=(y1,…,yN)T\begin{align} \Phi &= \begin{pmatrix} \phi_0(\mathbf{x}^1) & \dots & \phi_k(\mathbf{x}^1) \\ \vdots & \vdots & \vdots \\ \phi_0(\mathbf{x}^N) & \dots & \phi_k(\mathbf{x}^N) \end{pmatrix} \nonumber \\ \\ \mathbf{y} &= (y^1,\dots,y^N)^T \nonumber \end{align}Φy​=​ϕ0​(x1)⋮ϕ0​(xN)​…⋮…​ϕk​(x1)⋮ϕk​(xN)​​=(y1,…,yN)T​​

6.2.3 最大似然估计(MLE)

最大似然估计在分类上属于判别式模型

假设y是具有加性高斯噪声的确定函数fff给出的标量,即y=f(x,w)+εy=f(\mathbf{x},\mathbf{w})+\varepsilony=f(x,w)+ε,ε\varepsilonε是均值为0,方差为β−1\beta^{-1}β−1的高斯噪声

训练数据:(xi,yi)(\mathbf{x}^i,y^i)(xi,yi),i=1,2,…,Ni=1,2,\dots,Ni=1,2,…,N

似然函数:

p(y∣x,w,β−1)=N(y∣f(x,w),β−1)=∏i=1NN(yi∣wTxi,β−1)\begin{align} p(y\vert \mathbf{x},\mathbf{w},\beta^{-1}) &= \mathcal{N}(y\vert f(\mathbf{x},\mathbf{w}),\beta^{-1}) \nonumber \\ &= \prod_{i=1}^N \mathcal{N}(y^i\vert \mathbf{w}^T\mathbf{x}^i,\beta^{-1}) \end{align}p(y∣x,w,β−1)​=N(y∣f(x,w),β−1)=i=1∏N​N(yi∣wTxi,β−1)​​

对数似然函数:

∑i=1Nln⁡N(yi∣wTxi,β−1)=N2ln⁡β−N2ln⁡2π−12βJ(w)\sum_{i=1}^N\ln \mathcal{N}(y^i\vert \mathbf{w}^T\mathbf{x}^i,\beta^{-1}) = \frac{N}{2}\ln\beta-\frac{N}{2}\ln2\pi-\frac{1}{2}\beta J(\mathbf{w})i=1∑N​lnN(yi∣wTxi,β−1)=2N​lnβ−2N​ln2π−21​βJ(w)

其中,J(w)=∑i=1N(wTxi−yi)2J(\mathbf{w}) = \sum\limits_{i=1}^N(\mathbf{w}^T\mathbf{x}^i - y^i)^2J(w)=i=1∑N​(wTxi−yi)2

结论:在高斯噪声模型下,最大化似然相当于最小化平方误差之和

最小二乘法实际上是在假设误差项满足高斯分布且独立同分布情况下,使似然性最大化。

6.2.4 最大化后验概率(MAP)

最大化后验概率在分类上属于生成式模型

  • 采用正则项的LMS问题:

min⁡w∑i=1N(wTxi−yi)2+λwTw\min\limits_w \sum_{i=1}^N(\mathbf{w}^T\mathbf{x}^i-y^i)^2+\lambda\mathbf{w}^T\mathbf{w}wmin​i=1∑N​(wTxi−yi)2+λwTw
  • 闭式解

w∗=(ΦTΦ+λI)−1ΦTy\mathbf{w}^* = (\Phi^T\Phi+\lambda \mathbf{I})^{-1}\Phi^T\mathbf{y}w∗=(ΦTΦ+λI)−1ΦTy
  • 似然函数

p(y∣X,w,β)=∏i=1NN(yi∣wTxi,β−1)p(\mathbf{y}\vert\mathbf{X},\mathbf{w},\beta)=\prod_{i=1}^N\mathcal{N}(y^i\vert \mathbf{w}^T\mathbf{x}^i,\beta^{-1})p(y∣X,w,β)=i=1∏N​N(yi∣wTxi,β−1)

接下来假设参数的先验概率为多变量高斯分布:

p(w)=N(0,α−1I)p(\mathbf{w}) = \mathcal{N}(0,\mathbf{\alpha}^{-1}\mathbf{I})p(w)=N(0,α−1I)

这是因为根据贝叶斯公式,需要求似然与先验的联合分布,因此先验必须与似然同分布才能继续求解,则根据贝叶斯公式:

p(w∣y)=p(y∣X,w,β)p(w)p(y)p(\mathbf{w}\vert\mathbf{y})=\frac{p(\mathbf{y}\vert\mathbf{X},\mathbf{w},\beta)p(\mathbf{w})}{p(\mathbf{y})}p(w∣y)=p(y)p(y∣X,w,β)p(w)​

后验概率依然是高斯分布,对其取对数得:

ln⁡(p(w∣y))=−β∑i=1N(yi−wTxi)2−λwTw+C\ln(p(\mathbf{w}\vert\mathbf{y}))=-\beta\sum_{i=1}^N(y^i-\mathbf{w}^T\mathbf{x}^i)^2-\lambda\mathbf{w}^T\mathbf{w} + Cln(p(w∣y))=−βi=1∑N​(yi−wTxi)2−λwTw+C

因此,最大化后验等同于最小化带有正则项的平方和误差

6.2.5 MLE与MAP的比较

  • MLE是判别式模型,其先验为一常数

θ^MLE=arg⁡max⁡θP(D∣θ)\hat\theta_{MLE} = \arg \max\limits_\theta P(D\vert\theta)θ^MLE​=argθmax​P(D∣θ)
  • MAP是产生式模型

θ^MAP=arg⁡max⁡θP(θ∣D)=arg⁡max⁡θP(D∣θ)P(θ)\begin{align} \hat\theta_{MAP} &= \arg\max\limits_\theta P(\theta\vert D) \\ &= \arg\max\limits_\theta P(D\vert \theta)P(\theta) \end{align}θ^MAP​​=argθmax​P(θ∣D)=argθmax​P(D∣θ)P(θ)​​
  • MLE是频率学派的想法,MAP是贝叶斯学派的想法

  • 更多的数据会使得MLE拟合更好,但容易出现过拟合

上一页6.1 有监督学习下一页6.3 分类问题

最后更新于1年前

这有帮助吗?