3.6 可训练的确定性分类器的迭代算法
3.6.1 梯度法
定义
设函数f(y)是向量y=(y1,y2,…,yn)T的函数,则f(y)的梯度定义为:
ablaf(y)=dydf(y)=(∂y1∂f,∂y2∂f,…,∂yn∂f)T 梯度是一个向量,它的最重要性质就是指出了函数f在其自变量y增加时最大增长率的方向
利用这个性质,可以设计一个迭代方案来寻找函数的最小值
采用梯度法求解的一般思想
首先,对于感知器算法而言
w(k+1)={w(k)w(k)+Cxkif wT(k)xk>0if wT(k)xk≤0 其中w(k)、xk随着迭代次数k变化
接下来,定义一个对于错误分类敏感的准则函数J(w,x)。先任选一个初始权向量w(1),计算准则函数J的梯度,然后从w(1)出发,在最陡方向(梯度方向)上移动某一距离得到下一个权向量w(2) 。
类似的,可以得到从w(k)导出w(k+1)的一般关系式:
w(k+1)=w(k)−C{∂w∂J(w,x)}w=w(k)=w(k)−C⋅∇J 其中C是步长,为一个正的比例因子
讨论
若正确地选择了准则函数J(w,x),则当权向量w是一个解时,J达到极小值(此时J的梯度为零)。由于权向量是按J的梯度值减小,因此这种方法称为梯度法(最速下降法)。
为了使权向量能较快地收敛于一个使函数J极小的解,C值的选择是很重要的: