5.2 统计机器学习

5.2.1 统计机器学习的框架

  • 输入独立同分布的训练样本(xi,yi)X×Y,i=1,2,,N(x_i,y_i)\in X\times Y,i=1,2,\dots,N

    • 回归问题:Y是连续的

    • 分类问题:Y是类别

    • 排序问题:Y是序数

  • 目标函数fFf\in \mathcal{F}

  • 损失函数L(f;x,y)L(f;x,y)

  • 期望风险L(f;x,y)dP(x,y)\int L(f;x,y)dP(x,y)

5.2.2 回归及分类问题的最优函数

一、回归问题

  • 输入独立同分布的训练样本(xi,yi)X×Y,i=1,2,,N(x_i,y_i)\in X\times Y,i=1,2,\dots,N

  • 目标函数fFf\in \mathcal{F}

    • 线性回归:f是线性的

    • 广义线性:f是非线性的

  • 损失函数L(f;x,y)=(f(x)y)2L(f;x,y)=(f(x)-y)^2

  • 期望风险(f(x)y)2dP(x,y)\int (f(x)-y)^2dP(x,y)

二、回归问题的最优函数

(f(x)y)2dP(x,y)=(f(x)y)2p(x,y)dxdy=(f2(x)2yf(x)+y2)p(yx)p(x)dxdy=[(f2(x)2yf(x)+y2)p(yx)p(x)dy]dx=Q(f(x),y)p(x)dx\begin{align} &\int (f(x)-y)^2dP(x,y) \nonumber \\ =&\iint(f(x) - y)^2p(x,y)dxdy \nonumber \\ =&\iint(f^2(x) - 2yf(x) + y^2)p(y\vert x)p(x)dxdy \nonumber \\ =&\int\left[\int (f^2(x) - 2yf(x) + y^2)p(y\vert x)p(x)dy\right]dx \nonumber \\ =&\int Q(f(x),y)p(x)dx \nonumber \end{align}

其中,Q(f(x),y)=f2(x)2E(yx)f(x)+E(y2x)Q(f(x),y)=f^2(x)-2E(y\vert x)f(x) + E(y^2\vert x)

关于f(x)f(x)求导并令其等于0,即可得到上述问题的解:

f(x)=E(yx)=yp(yx)dyf(x) = E(y\vert x)=\int yp(y\vert x)dy

最小化均方误差(MSE)的回归函数是由有条件分布p(yx)p(y\vert x)的y的均值给出

三、分类问题

  • 输入独立同分布的训练样本(xi,yi)X×Y,i=1,2,,N(x_i,y_i)\in X\times Y,i=1,2,\dots,N

  • 目标函数fFf\in \mathcal{F}

  • 损失函数L(f;x,y)=I{f(x)y}L(f;x,y)=I_{\{f(x)\neq y\}}

  • 期望风险I{f(x)y}dP(x,y)=P(f(x)y)\int I_{\{f(x)\neq y\}}dP(x,y)=P(f(x)\neq y)

四、分类问题的最优函数

要求的是最小期望风险

I{f(x)y}dP(x,y)=P(f(x)y)=f(x)CiP(Cix)p(x)\begin{align} & \int I_{\{f(x)\neq y\}}dP(x,y) \nonumber \\ =& P(f(x)\neq y) \nonumber \\ =&\sum_{f(x)\neq C_i}P(C_i \vert x)p(x) \nonumber \end{align}

这里其实是求的分类错误的概率,因此需要将其最小化

因此,目标函数就是f(x)=maxCiP(Cix)f(x)=\max\limits_{C_i}P(C_i\vert x)

最小化0-损失的贝叶斯分类器选择具有最大条件分布p(yx)p(y\vert x)的类标签

choose Ci ifP(Cix)=maxkP(Ckx)\text{choose}\ C_i\ if P(C_i\vert x) = \max\limits_{k}P(C_k\vert x)

5.2.3 过拟合和正则化

一、风险最小化

期望风险最小化:

Rexp=L(f;x,y)dP(x,y)R_{exp} = \int L(f;x,y)dP(x,y)

经验风险最小化:

Remp(f)=1Ni=1NL(f;xi,yi)R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(f;x_i,y_i)

结构风险最小化:

Rsrm(f)=1Ni=1NL(f;x,y)+λJ(f)R_{srm}(f) = \frac{1}{N}\sum_{i=1}^NL(f;x,y) + \lambda J(f)

上式中的λJ(f)\lambda J(f)称为正则项惩罚函数

二、过拟合

5.2.4 泛化能力分析

最后更新于