3.1 判别式分类器与生成式分类器

分类是监督学习的主要任务之一

3.1.1 分类器

  • 分类器:条件概率分别或判别函数

    • 条件概率分布P(yx)P(y|x):对于输入x,比较属于所有类的概率,输出概率最大的最为x的类别

    • 判别函数y=f(x)y=f(x):对于输入x,将输出y与阈值比较,判定x属于哪个类

生成式模型

  • 要学习所有的样本

  • 利用条件概率进行预测

判别式模型

  • 直接估计分布函数

  • 利用分布函数确定输出类别

  • 不需要学习所有样本

3.1.2 两者的区别

  • 生成式模型学习了联合概率分布,可以从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度,但是它不关心划分各类的边界

  • 生成式模型的学习收敛速度更快,即当样本容易增加的时候,学到的模型可以更快地收敛于真实模型

  • 生成模型能够应付存在隐变量的情况

  • 联合分布能提供更多的信息,但也需要更多的样本和更多计算,尤其是为了更准确估计类别条件分布,需要增加样本的数目,而且类别条件概率的许多信息是我们做分类用不到,因而如果我们只需要做分类任务,就浪费了计算资源

  • 实践中多数情况下判别模型效果更好

最后更新于