📔
国科大模式识别与机器学习笔记 2023
  • 课程概况
  • 第一章 概述
    • 1.1 概述
  • 第二章 生成式分类器
    • 2.1 模式识别与机器学习的目标
    • 2.2 正态分布模式的贝叶斯分类器
    • 2.3 均值向量和协方差矩阵的参数估计
    • 附 第二章作业
  • 第三章 判别式分类器
    • 3.1 判别式分类器与生成式分类器
    • 3.2 线性判别函数
    • 3.3 广义线性判别函数
    • 3.4 Fisher线性判别
    • 3.5 感知器算法
    • 3.6 可训练的确定性分类器的迭代算法
    • 3.7 势函数法
    • 3.8 决策树
    • 附 第三章作业
  • 第四章 特征选择和提取
    • 4.1 模式类别可分性的测度
    • 4.2 特征选择
    • 4.3 离散K-L变换
    • 附 第四章作业
  • 第五章 统计机器学习
    • 5.1 机器学习简介
    • 5.2 统计机器学习
  • 第六章 有监督学习
    • 6.1 有监督学习
    • 6.2 回归任务
    • 6.3 分类问题
    • 附 第六章作业
  • 第七章 支持向量机
    • 7.1 线性支持向量机
    • 7.2 核支持向量机
    • 7.3 序列最小优化算法
    • 附 第七章作业
  • 第八章 聚类
    • 8.1 基本概念
    • 8.2 经典聚类算法
    • 附 第八章作业
  • 第九章 降维
    • 9.1 基本概念
    • 9.2 维度选择
    • 9.3 维度抽取
  • 第十章 半监督学习
    • 10.1 基本概念
    • 10.2 半监督学习算法
  • 第十一章 概率图模型
    • 11.1 PGM简介
    • 11.2 有向图模型(贝叶斯网络)
    • 11.3 无向图模型(马尔科夫随机场)
    • 11.4 学习和推断
    • 11.5 典型概率图模型
    • 附 第十一章作业
  • 第十二章 集成学习
    • 12.1 简介
    • 12.2 Bagging
    • 12.3 Boosting
    • 附 第十二章作业
由 GitBook 提供支持
在本页
  • 3.6.1 梯度法
  • 定义
  • 采用梯度法求解的一般思想
  • 讨论

这有帮助吗?

在GitHub上编辑
  1. 第三章 判别式分类器

3.6 可训练的确定性分类器的迭代算法

上一页3.5 感知器算法下一页3.7 势函数法

最后更新于7个月前

这有帮助吗?

3.6.1 梯度法

定义

设函数f(y)f(y)f(y)是向量y=(y1,y2,…,yn)Ty=(y_1,y_2,\dots,y_n)^Ty=(y1​,y2​,…,yn​)T的函数,则f(y)f(y)f(y)的梯度定义为:

ablaf(y)=ddyf(y)=(∂f∂y1,∂f∂y2,…,∂f∂yn)Tabla f(y) = \frac{d}{dy}f(y)=\left(\frac{\partial f}{\partial y_1},\frac{\partial f}{\partial y_2},\dots,\frac{\partial f}{\partial y_n}\right)^Tablaf(y)=dyd​f(y)=(∂y1​∂f​,∂y2​∂f​,…,∂yn​∂f​)T
  • 梯度是一个向量,它的最重要性质就是指出了函数f在其自变量y增加时最大增长率的方向

  • 负梯度指出f的最陡下降方向

利用这个性质,可以设计一个迭代方案来寻找函数的最小值

采用梯度法求解的一般思想

首先,对于感知器算法而言

w(k+1)={w(k)if wT(k)xk>0w(k)+Cxkif wT(k)xk≤0w (k + 1) = \begin{cases} w (k) & \text{if } w^T(k) x_k > 0 \\ w (k) + C x_k & \text{if } w^T(k) x_k \leq 0 \end{cases}w(k+1)={w(k)w(k)+Cxk​​if wT(k)xk​>0if wT(k)xk​≤0​

其中C是步长,为一个正的比例因子

讨论

    • 若C值太小,则收敛太慢

    • 若C值太大,则搜索可能过头,引起发散

其中w(k)w(k)w(k)、xkx_kxk​随着迭代次数kkk变化

接下来,定义一个对于错误分类敏感的准则函数J(w,x)J(w,x)J(w,x)。先任选一个初始权向量w(1)w(1)w(1),计算准则函数JJJ的梯度,然后从w(1)w(1)w(1)出发,在最陡方向(梯度方向)上移动某一距离得到下一个权向量w(2)w(2)w(2) 。

类似的,可以得到从w(k)w(k)w(k)导出w(k+1)w(k+1)w(k+1)的一般关系式:

w(k+1)=w(k)−C{∂J(w,x)∂w}w=w(k)=w(k)−C⋅∇J\begin{align} w(k+1) &= w(k) - C\left\{\frac{\partial J(w,x)}{\partial w}\right\}_{w=w(k)}\nonumber \\ &=w(k)-C\cdot\nabla J \end{align}w(k+1)​=w(k)−C{∂w∂J(w,x)​}w=w(k)​=w(k)−C⋅∇J​​

若正确地选择了准则函数J(w,x)J(w,x)J(w,x),则当权向量w是一个解时,J达到极小值(此时J的梯度为零)。由于权向量是按J的梯度值减小,因此这种方法称为梯度法(最速下降法)。

为了使权向量能较快地收敛于一个使函数JJJ极小的解,C值的选择是很重要的: