6.2 回归任务

线性回归的任务:

  • 输入:N个独立同分布(i.i.d)的训练样本(xi,yi)X×R(\mathbf{x}^i,y^i)\in X\times Ri=1,2,,Ni=1,2,\dots,N

  • 目标函数fFf\in \mathcal{F}

  • 损失函数L(f;x,y)=(f(x)y)2L(f;x,y) = (f(x)-y)^2

  • 期望风险(f(x)y)2dP(x,y)\int (f(x)-y)^2dP(x,y)

6.2.1 最小均方误差(LMS)

最小均方误差在分类上属于判别函数

ff是线性函数,则最优化问题为:

也就是最小化经验风险,在这里即为最小二乘/均方误差

批梯度下降

对于上述最优化问题,采用梯度下降法进行更新,梯度为

J(w)wj=2i=1Nxji(wTxiyi)\frac{\partial J(\mathbf{w})}{\partial w_j} = 2\sum_{i=1}^Nx_j^i(\mathbf{w}^T\mathbf{x}^i - y^i)

对于批梯度下降法(BGD),更新规则为:

wj=wj2αi=1Nxji(wTxiyi), α>0w_j = w_j - 2\alpha\sum_{i=1}^Nx_j^i(\mathbf{w}^T\mathbf{x}^i - y^i),\ \alpha>0

这里α\alpha学习率

  • 优点

    • 一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行

    • 由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优

  • 缺点

    • 当样本数目N很大时,每迭代一步都需要对所有样本计算,训练过程会很慢

随机梯度下降

对于批梯度下降的缺点,随机梯度下降采用了不同的更新规则:

wj=wj2α(wTxiyi)xji, α>0w_j = w_j - 2\alpha (\mathbf{w}^T\mathbf{x}^i - y^i)x_j^i,\ \alpha>0

也可以写作:

w=w2αXTbb=(b1,b2,,bN)T where bi=wTxiyi\mathbf{w} = \mathbf{w} - 2\alpha \mathbf{X}^T\mathbf{b} \\ \mathbf{b}=(b_1, b_2,\dots,b_N)^T\ \text{where}\ b_i = \mathbf{w}^T\mathbf{x}^i - y^i

区别在于,随机梯度下降(SGD)每次迭代仅针对一个样本进行,而不像BGD每次对所有样本进行训练

6.2.2 广义线性回归

利用非线性基进行线性回归的思路就是对非线性基进行线性组合:

f(w,x)=w0+j=1Kwjϕj(x)其中 Φ=(1,ϕ1,,ϕK)f(\mathbf{w},\mathbf{x}) = w_0+ \sum_{j=1}^Kw_j\phi_j(\mathbf{x}) \\ 其中\ \Phi=(1,\phi_1,\dots,\phi_K)

常见的非线性基函数

  • 多项式基函数

ϕ(x)=(1,x,x2,,xK)\phi(\mathbf{x}) = (1,x,x^2,\dots,x^K)
  • 高斯函数

ϕj(x)=exp((xμj)22s2)\phi_j(\mathbf{x}) = \exp\left(-\frac{(x-\mu_j)^2}{2s^2}\right)
  • Sigmoid函数

ϕj(x)=σ(xμjs)σ(a)=11+exp(a)\phi_j(\mathbf{x}) = \sigma\left(\frac{x-\mu_j}{s}\right) \\ \sigma(a) = \frac{1}{1+\exp(-a)}

广义线性回归的闭式解

最优化问题

minwJ(w)=i=1N(wTϕ(xi)yi)2\min\limits_w J(\mathbf{w}) = \sum_{i=1}^N(\mathbf{w}^T\phi(\mathbf{x}^i) - y^i)^2

梯度

J(w)wj=2i=1Nϕj(xi)(wTϕ(wi)yi)\frac{\partial J(\mathbf{w})}{\partial w_j} = 2\sum_{i=1}^N\phi_j(\mathbf{x}^i)(\mathbf{w}^T\phi(\mathbf{w^i})-y^i)

闭式解

w=(ΦTΦ)1ΦTy\mathbf{w}^* = (\Phi^T\Phi)^{-1}\Phi^T\mathbf{y}

其中,

Φ=(ϕ0(x1)ϕk(x1)ϕ0(xN)ϕk(xN))y=(y1,,yN)T\begin{align} \Phi &= \begin{pmatrix} \phi_0(\mathbf{x}^1) & \dots & \phi_k(\mathbf{x}^1) \\ \vdots & \vdots & \vdots \\ \phi_0(\mathbf{x}^N) & \dots & \phi_k(\mathbf{x}^N) \end{pmatrix} \nonumber \\ \\ \mathbf{y} &= (y^1,\dots,y^N)^T \nonumber \end{align}

6.2.3 最大似然估计(MLE)

最大似然估计在分类上属于判别式模型

假设y是具有加性高斯噪声的确定函数ff给出的标量,即y=f(x,w)+εy=f(\mathbf{x},\mathbf{w})+\varepsilonε\varepsilon是均值为0,方差为β1\beta^{-1}的高斯噪声

训练数据(xi,yi)(\mathbf{x}^i,y^i)i=1,2,,Ni=1,2,\dots,N

似然函数

p(yx,w,β1)=N(yf(x,w),β1)=i=1NN(yiwTxi,β1)\begin{align} p(y\vert \mathbf{x},\mathbf{w},\beta^{-1}) &= \mathcal{N}(y\vert f(\mathbf{x},\mathbf{w}),\beta^{-1}) \nonumber \\ &= \prod_{i=1}^N \mathcal{N}(y^i\vert \mathbf{w}^T\mathbf{x}^i,\beta^{-1}) \end{align}

对数似然函数

i=1NlnN(yiwTxi,β1)=N2lnβN2ln2π12βJ(w)\sum_{i=1}^N\ln \mathcal{N}(y^i\vert \mathbf{w}^T\mathbf{x}^i,\beta^{-1}) = \frac{N}{2}\ln\beta-\frac{N}{2}\ln2\pi-\frac{1}{2}\beta J(\mathbf{w})

其中,J(w)=i=1N(wTxiyi)2J(\mathbf{w}) = \sum\limits_{i=1}^N(\mathbf{w}^T\mathbf{x}^i - y^i)^2

结论:在高斯噪声模型下,最大化似然相当于最小化平方误差之和

最小二乘法实际上是在假设误差项满足高斯分布且独立同分布情况下,使似然性最大化。

6.2.4 最大化后验概率(MAP)

最大化后验概率在分类上属于生成式模型

  • 采用正则项的LMS问题:

minwi=1N(wTxiyi)2+λwTw\min\limits_w \sum_{i=1}^N(\mathbf{w}^T\mathbf{x}^i-y^i)^2+\lambda\mathbf{w}^T\mathbf{w}
  • 闭式解

w=(ΦTΦ+λI)1ΦTy\mathbf{w}^* = (\Phi^T\Phi+\lambda \mathbf{I})^{-1}\Phi^T\mathbf{y}
  • 似然函数

p(yX,w,β)=i=1NN(yiwTxi,β1)p(\mathbf{y}\vert\mathbf{X},\mathbf{w},\beta)=\prod_{i=1}^N\mathcal{N}(y^i\vert \mathbf{w}^T\mathbf{x}^i,\beta^{-1})

接下来假设参数的先验概率多变量高斯分布

p(w)=N(0,α1I)p(\mathbf{w}) = \mathcal{N}(0,\mathbf{\alpha}^{-1}\mathbf{I})

这是因为根据贝叶斯公式,需要求似然与先验的联合分布,因此先验必须与似然同分布才能继续求解,则根据贝叶斯公式:

p(wy)=p(yX,w,β)p(w)p(y)p(\mathbf{w}\vert\mathbf{y})=\frac{p(\mathbf{y}\vert\mathbf{X},\mathbf{w},\beta)p(\mathbf{w})}{p(\mathbf{y})}

后验概率依然是高斯分布,对其取对数得:

ln(p(wy))=βi=1N(yiwTxi)2λwTw+C\ln(p(\mathbf{w}\vert\mathbf{y}))=-\beta\sum_{i=1}^N(y^i-\mathbf{w}^T\mathbf{x}^i)^2-\lambda\mathbf{w}^T\mathbf{w} + C

因此,最大化后验等同于最小化带有正则项的平方和误差

6.2.5 MLE与MAP的比较

  • MLE是判别式模型,其先验为一常数

θ^MLE=argmaxθP(Dθ)\hat\theta_{MLE} = \arg \max\limits_\theta P(D\vert\theta)
  • MAP是产生式模型

θ^MAP=argmaxθP(θD)=argmaxθP(Dθ)P(θ)\begin{align} \hat\theta_{MAP} &= \arg\max\limits_\theta P(\theta\vert D) \\ &= \arg\max\limits_\theta P(D\vert \theta)P(\theta) \end{align}
  • MLE是频率学派的想法,MAP是贝叶斯学派的想法

  • 更多的数据会使得MLE拟合更好,但容易出现过拟合

最后更新于