5.2.1 统计机器学习的框架
输入:独立同分布的训练样本(xi,yi)∈X×Y,i=1,2,…,N
目标函数:f∈F
损失函数:L(f;x,y)
期望风险:∫L(f;x,y)dP(x,y)
5.2.2 回归及分类问题的最优函数
一、回归问题
输入:独立同分布的训练样本(xi,yi)∈X×Y,i=1,2,…,N
目标函数:f∈F
损失函数:L(f;x,y)=(f(x)−y)2
期望风险:∫(f(x)−y)2dP(x,y)
二、回归问题的最优函数
====∫(f(x)−y)2dP(x,y)∬(f(x)−y)2p(x,y)dxdy∬(f2(x)−2yf(x)+y2)p(y∣x)p(x)dxdy∫[∫(f2(x)−2yf(x)+y2)p(y∣x)p(x)dy]dx∫Q(f(x),y)p(x)dx 其中,Q(f(x),y)=f2(x)−2E(y∣x)f(x)+E(y2∣x)
关于f(x)求导并令其等于0,即可得到上述问题的解:
f(x)=E(y∣x)=∫yp(y∣x)dy 最小化均方误差(MSE)的回归函数是由有条件分布p(y∣x)的y的均值给出
三、分类问题
输入:独立同分布的训练样本(xi,yi)∈X×Y,i=1,2,…,N
目标函数:f∈F
损失函数:L(f;x,y)=I{f(x)=y}
期望风险:∫I{f(x)=y}dP(x,y)=P(f(x)=y)
四、分类问题的最优函数
要求的是最小期望风险:
==∫I{f(x)=y}dP(x,y)P(f(x)=y)f(x)=Ci∑P(Ci∣x)p(x) 因此,目标函数就是f(x)=CimaxP(Ci∣x)
最小化0-损失的贝叶斯分类器选择具有最大条件分布p(y∣x)的类标签
choose Ci ifP(Ci∣x)=kmaxP(Ck∣x) 5.2.3 过拟合和正则化
一、风险最小化
期望风险最小化:
Rexp=∫L(f;x,y)dP(x,y) 经验风险最小化:
Remp(f)=N1i=1∑NL(f;xi,yi) 结构风险最小化:
Rsrm(f)=N1i=1∑NL(f;x,y)+λJ(f) 上式中的λJ(f)称为正则项或惩罚函数
二、过拟合
5.2.4 泛化能力分析