2.1 模式识别与机器学习的目标
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
判别式的分类器:
即建立一个映射
是非概率的,确定的
但是现实中,并非所有事件都是因果对应的,而是概率性的,此时判别式的模式识别就不再能解决问题。需要用模式集的统计特征来分类,使得分类器发生错误的概论最小。
将实例带入其中,假设有两种模式和,需要分析来自其中哪个,则有
以其中第一个式子举例,
这里全概率计算时也可能是使用条件概率来计算的,但是在贝叶斯判别中将其称为全概率
实际上在使用中,由于每个后验概率的全概率是相同的,因此只需要比较分子即可,进一步说,比较似然函数和先验函数即可。
此判别就称为贝叶斯判别。
地震前一周生物发生异常的概率为0.6
地震前一周生物没有发生异常的概率为0.4
没有发生地震但生物发生异常的概率为0.1
没有发生地震且生物没有异常的概率为0.9
那么某日观测到生物发生异常,问是否会发生地震?
由题意可知:
带入贝叶斯公式,有:
计算似然比与判决阈值:
似然比大于判别阈值,因此会发生地震。
按照贝叶斯公式,最小平均风险可以表示为:
其中全概率可以省去,因此最小平均风险可以表示为:
对于是非代价,取
则条件平均风险表示为:
要求的 即为 的概率,称为后验概率
是来自数据集和历史数据,称为先验概率
是x的条件概率,这里也称为似然函数
是全概率
特别的,将称为似然比,将称为似然比的判决阈值,则将上式简化可得:
例:假设对地震进行分析,表示地震,表示正常,根据统计得知。而生物是否发生异常反应是与地震发生与否相关的,统计地震前一周生物是否发生异常,得到了以下数据:
实际上,不同模式误判的代价是不一样的,因此需要对贝叶斯判别做一些修正,提出了条件平均风险 。
对于M类分类问题,若样本被判定为属于的平均风险为:
其中,表示误判的损失,称为将属于类的物品误判为的是非代价
一般而言,是非代价表现为一个对称阵,其中一般为0或负数,表示判定成功,其他值表示判定失败,用正数表示。
对于M分类的情况,若 ,则有
记,则有若,则