📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 5.2.1 统计机器学习的框架
  • 5.2.2 回归及分类问题的最优函数
  • 一、回归问题
  • 二、回归问题的最优函数
  • 三、分类问题
  • 四、分类问题的最优函数
  • 5.2.3 过拟合和正则化
  • 一、风险最小化
  • 二、过拟合
  • 5.2.4 泛化能力分析

这有帮助吗?

在GitHub上编辑
  1. 第五章 统计机器学习

5.2 统计机器学习

5.2.1 统计机器学习的框架

  • 输入:独立同分布的训练样本(xi,yi)∈X×Y,i=1,2,…,N(x_i,y_i)\in X\times Y,i=1,2,\dots,N(xi​,yi​)∈X×Y,i=1,2,…,N

    • 回归问题:Y是连续的

    • 分类问题:Y是类别

    • 排序问题:Y是序数

  • 目标函数:f∈Ff\in \mathcal{F}f∈F

  • 损失函数:L(f;x,y)L(f;x,y)L(f;x,y)

  • 期望风险:∫L(f;x,y)dP(x,y)\int L(f;x,y)dP(x,y)∫L(f;x,y)dP(x,y)

5.2.2 回归及分类问题的最优函数

一、回归问题

  • 输入:独立同分布的训练样本(xi,yi)∈X×Y,i=1,2,…,N(x_i,y_i)\in X\times Y,i=1,2,\dots,N(xi​,yi​)∈X×Y,i=1,2,…,N

  • 目标函数:f∈Ff\in \mathcal{F}f∈F

    • 线性回归:f是线性的

    • 广义线性:f是非线性的

  • 损失函数:L(f;x,y)=(f(x)−y)2L(f;x,y)=(f(x)-y)^2L(f;x,y)=(f(x)−y)2

  • 期望风险:∫(f(x)−y)2dP(x,y)\int (f(x)-y)^2dP(x,y)∫(f(x)−y)2dP(x,y)

二、回归问题的最优函数

∫(f(x)−y)2dP(x,y)=∬(f(x)−y)2p(x,y)dxdy=∬(f2(x)−2yf(x)+y2)p(y∣x)p(x)dxdy=∫[∫(f2(x)−2yf(x)+y2)p(y∣x)p(x)dy]dx=∫Q(f(x),y)p(x)dx\begin{align} &\int (f(x)-y)^2dP(x,y) \nonumber \\ =&\iint(f(x) - y)^2p(x,y)dxdy \nonumber \\ =&\iint(f^2(x) - 2yf(x) + y^2)p(y\vert x)p(x)dxdy \nonumber \\ =&\int\left[\int (f^2(x) - 2yf(x) + y^2)p(y\vert x)p(x)dy\right]dx \nonumber \\ =&\int Q(f(x),y)p(x)dx \nonumber \end{align}====​∫(f(x)−y)2dP(x,y)∬(f(x)−y)2p(x,y)dxdy∬(f2(x)−2yf(x)+y2)p(y∣x)p(x)dxdy∫[∫(f2(x)−2yf(x)+y2)p(y∣x)p(x)dy]dx∫Q(f(x),y)p(x)dx​

其中,Q(f(x),y)=f2(x)−2E(y∣x)f(x)+E(y2∣x)Q(f(x),y)=f^2(x)-2E(y\vert x)f(x) + E(y^2\vert x)Q(f(x),y)=f2(x)−2E(y∣x)f(x)+E(y2∣x)

关于f(x)f(x)f(x)求导并令其等于0,即可得到上述问题的解:

f(x)=E(y∣x)=∫yp(y∣x)dyf(x) = E(y\vert x)=\int yp(y\vert x)dyf(x)=E(y∣x)=∫yp(y∣x)dy

最小化均方误差(MSE)的回归函数是由有条件分布p(y∣x)p(y\vert x)p(y∣x)的y的均值给出

三、分类问题

  • 输入:独立同分布的训练样本(xi,yi)∈X×Y,i=1,2,…,N(x_i,y_i)\in X\times Y,i=1,2,\dots,N(xi​,yi​)∈X×Y,i=1,2,…,N

  • 目标函数:f∈Ff\in \mathcal{F}f∈F

  • 损失函数:L(f;x,y)=I{f(x)≠y}L(f;x,y)=I_{\{f(x)\neq y\}}L(f;x,y)=I{f(x)=y}​

  • 期望风险:∫I{f(x)≠y}dP(x,y)=P(f(x)≠y)\int I_{\{f(x)\neq y\}}dP(x,y)=P(f(x)\neq y)∫I{f(x)=y}​dP(x,y)=P(f(x)=y)

四、分类问题的最优函数

要求的是最小期望风险:

∫I{f(x)≠y}dP(x,y)=P(f(x)≠y)=∑f(x)≠CiP(Ci∣x)p(x)\begin{align} & \int I_{\{f(x)\neq y\}}dP(x,y) \nonumber \\ =& P(f(x)\neq y) \nonumber \\ =&\sum_{f(x)\neq C_i}P(C_i \vert x)p(x) \nonumber \end{align}==​∫I{f(x)=y}​dP(x,y)P(f(x)=y)f(x)=Ci​∑​P(Ci​∣x)p(x)​

这里其实是求的分类错误的概率,因此需要将其最小化

因此,目标函数就是f(x)=max⁡CiP(Ci∣x)f(x)=\max\limits_{C_i}P(C_i\vert x)f(x)=Ci​max​P(Ci​∣x)

最小化0-损失的贝叶斯分类器选择具有最大条件分布p(y∣x)p(y\vert x)p(y∣x)的类标签

choose Ci ifP(Ci∣x)=max⁡kP(Ck∣x)\text{choose}\ C_i\ if P(C_i\vert x) = \max\limits_{k}P(C_k\vert x)choose Ci​ ifP(Ci​∣x)=kmax​P(Ck​∣x)

5.2.3 过拟合和正则化

一、风险最小化

期望风险最小化:

Rexp=∫L(f;x,y)dP(x,y)R_{exp} = \int L(f;x,y)dP(x,y)Rexp​=∫L(f;x,y)dP(x,y)

经验风险最小化:

Remp(f)=1N∑i=1NL(f;xi,yi)R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(f;x_i,y_i)Remp​(f)=N1​i=1∑N​L(f;xi​,yi​)

结构风险最小化:

Rsrm(f)=1N∑i=1NL(f;x,y)+λJ(f)R_{srm}(f) = \frac{1}{N}\sum_{i=1}^NL(f;x,y) + \lambda J(f)Rsrm​(f)=N1​i=1∑N​L(f;x,y)+λJ(f)

上式中的λJ(f)\lambda J(f)λJ(f)称为正则项或惩罚函数

二、过拟合

5.2.4 泛化能力分析

上一页5.1 机器学习简介下一页6.1 有监督学习

最后更新于1年前

这有帮助吗?