线性回归的任务:
输入:N个独立同分布(i.i.d)的训练样本(xi,yi)∈X×R,i=1,2,…,N
目标函数:f∈F
损失函数:L(f;x,y)=(f(x)−y)2
期望风险:∫(f(x)−y)2dP(x,y)
6.2.1 最小均方误差(LMS)
当f是线性函数,则最优化问题为:
\min_\limits{\mathbf{w}} J(\mathbf{w}) = \sum_{i=1}^N(\mathbf{w}^T\mathbf{x}^i - y^i)^2
也就是最小化经验风险,在这里即为最小二乘/均方误差
批梯度下降
对于上述最优化问题,采用梯度下降法进行更新,梯度为
∂wj∂J(w)=2i=1∑Nxji(wTxi−yi) 对于批梯度下降法(BGD),更新规则为:
wj=wj−2αi=1∑Nxji(wTxi−yi), α>0 这里α为学习率
优点
一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行
由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优
缺点
当样本数目N很大时,每迭代一步都需要对所有样本计算,训练过程会很慢
随机梯度下降
对于批梯度下降的缺点,随机梯度下降采用了不同的更新规则:
wj=wj−2α(wTxi−yi)xji, α>0 也可以写作:
w=w−2αXTbb=(b1,b2,…,bN)T where bi=wTxi−yi 区别在于,随机梯度下降(SGD)每次迭代仅针对一个样本进行,而不像BGD每次对所有样本进行训练
6.2.2 广义线性回归
利用非线性基进行线性回归的思路就是对非线性基进行线性组合:
f(w,x)=w0+j=1∑Kwjϕj(x)其中 Φ=(1,ϕ1,…,ϕK) 常见的非线性基函数
ϕ(x)=(1,x,x2,…,xK) ϕj(x)=exp(−2s2(x−μj)2) ϕj(x)=σ(sx−μj)σ(a)=1+exp(−a)1 广义线性回归的闭式解
最优化问题:
wminJ(w)=i=1∑N(wTϕ(xi)−yi)2 梯度:
∂wj∂J(w)=2i=1∑Nϕj(xi)(wTϕ(wi)−yi) 闭式解:
w∗=(ΦTΦ)−1ΦTy 其中,
Φy=ϕ0(x1)⋮ϕ0(xN)…⋮…ϕk(x1)⋮ϕk(xN)=(y1,…,yN)T 6.2.3 最大似然估计(MLE)
假设y是具有加性高斯噪声的确定函数f给出的标量,即y=f(x,w)+ε,ε是均值为0,方差为β−1的高斯噪声
训练数据:(xi,yi),i=1,2,…,N
似然函数:
p(y∣x,w,β−1)=N(y∣f(x,w),β−1)=i=1∏NN(yi∣wTxi,β−1) 对数似然函数:
i=1∑NlnN(yi∣wTxi,β−1)=2Nlnβ−2Nln2π−21βJ(w) 其中,J(w)=i=1∑N(wTxi−yi)2
结论:在高斯噪声模型下,最大化似然相当于最小化平方误差之和
最小二乘法实际上是在假设误差项满足高斯分布且独立同分布情况下,使似然性最大化。
6.2.4 最大化后验概率(MAP)
wmini=1∑N(wTxi−yi)2+λwTw w∗=(ΦTΦ+λI)−1ΦTy p(y∣X,w,β)=i=1∏NN(yi∣wTxi,β−1) 接下来假设参数的先验概率为多变量高斯分布:
p(w)=N(0,α−1I) 这是因为根据贝叶斯公式,需要求似然与先验的联合分布,因此先验必须与似然同分布才能继续求解,则根据贝叶斯公式:
p(w∣y)=p(y)p(y∣X,w,β)p(w) 后验概率依然是高斯分布,对其取对数得:
ln(p(w∣y))=−βi=1∑N(yi−wTxi)2−λwTw+C 因此,最大化后验等同于最小化带有正则项的平方和误差
6.2.5 MLE与MAP的比较
θ^MLE=argθmaxP(D∣θ) θ^MAP=argθmaxP(θ∣D)=argθmaxP(D∣θ)P(θ)