5.1 机器学习简介

桑克(R. Shank)

“一台计算机若不会学习,就不能说它具有智能。”

5.1.1 统计机器学习

  • 机器学习

    • 更强调面向算法

    • 机器学习强调算法的结果要好,所以机器学习很关注损失函数

  • 统计学

    • 更偏重于面向模型

    • 统计学要先扔出来一大堆模型假设,然后站在模型上面通 过严格的数学推导做出结果

统计机器学习:是基于数据构建概率统计模型并运用模型对数据进行预测分析的一门学科

5.1.2 机器学习三要素

"A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E"

--Tom M. Mitchell

  • 经验(E):训练数据

  • 模型(T):—需要学习的目标函数

  • 学习算法: 怎么样从经验中推断出模型

  • 评价(P):测试数据

机器学习的任务:Improve on task(T), with respect to performance metric(P), based on experience(E)

5.1.3 机器学习的特点

  • 数据大量、廉价;知识昂贵、稀少

  • 数据产生过程的细节是未知的,但是数据产生的过程不是完全随机的

  • 通过利用数据中的某些模式或规律从数据中学习模型:反推数据生成路径

  • 模型通常不是完整过程的精确复制品,而是一种良好且有用的近似:(George Box: “All models are wrong, but some are useful.”)

  • 模型可以描述从数据中获取知识,或预测将来(具有预测性),或者两者兼而有之

  • 几乎所有的科学都关注于用模型拟合数据:推理

5.1.4 机器学习的分类

  • 有监督学习:有标记数据,e.g. Fisher,感知器算法,线性判别分析

  • 无监督学习:无标注数据,降维方法K-L

  • 半监督学习:无标注数据+有标注数据

  • 多任务学习:共享相关任务之间的表征

  • 迁移学习:训练数据与测试数据不是同分布的

  • 增强学习:间接的标注数据(状态和对应的reward )

  • 主动学习:主动选择训练数据

  • 自监督学习:从无标注数据提取监督信号

最后更新于