贝叶斯决策论
基础知识
条件概率:描述两个有因果关系的随机事件之间的概率关系,定义为在事件发生的前提下事件发生的概率。
贝叶斯公式:两个随机事件之间的关系
分类问题:特征向量取值与样本所属类型有因果关系。因为样本属于类型,所以具有特征值.
分类器:已知样本的特征向量的条件下反推样本所属的类别。根据贝叶斯公式有 .
最小化分类错误率的贝叶斯最优分类器 对于每个样本,选择使后验概率最大的类别标记。(现实中难以直接获得)
判别模型与生成模型
机器学习所要实现的是基于有限的训练样本尽可能准确地估计出后验概率。
两种基本策略:
- 判别式模型
- 直接建模
- 决策树、BP神经网络、SVM
- 生成式模型
- 先建模联合概率分布,再计算
- 贝叶斯分类器
- 先建模联合概率分布,再计算
假设有4个samples:
生成模型:
判别模型:
朴素贝叶斯分类器
条件独立假设
给定类标号,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。
条件独立假设可以形式化的表达如下:
其中每个训练样本可用一个属性向量表示,各个属性之间条件独立。
有了条件独立假设,就不必计算和的每一种组合的类条件概率,只需对给定的,计算每个的条件概率。不需要很大的训练集就能获得较好的概率估计,更实用。
一般根据类别下包含属性的实例的比例来估计。
朴素贝叶斯分类器表达式
由于对所有类别来说相同,因此有朴素贝叶斯分类器的表达式
显然,朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率,并为每个属性估计条件概率.
令表示训练集中第类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率:.
估计每个属性的条件概率:
离散:
连续:
拉普拉斯修正
若某个属性值在训练集中没有与某个类同时出现过,则直接计算连乘式的概率值为0,导致分类结果显然不合理。为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“拉普拉斯修正”。
令表示数据集中可能的类别数,表示第个属性可能的取值数,则
(拉普拉斯修正,实际上是假设了属性与类别均匀分布)
- 若任务对预测速度要求较高:
计算所有概率估值存储,使用时“查表”。
- 若任务数据更替频繁:
使用“懒惰学习”,即先不进行任务训练,收到预测请求时再估值。
- 若任务数据不断增加:
使用“增量学习”,基于现有估值,对新样本涉及的概率估值进行修正。
半朴素贝叶斯分类器
对属性条件独立假设进行一定程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”。
半朴素贝叶斯分类器最常用的一种策略:“独依赖估计” (One-Dependent Estimator, ODE) ,假设每个属性在类别之外最多仅依赖一个其他属性,即
其中为属性所依赖的属性,称为的父属性。
问题关键转化为如何确定每个属性的父属性。常见方法有:
贝叶斯网络
把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。
贝叶斯网络 (Bayesian Network) ,是有向无环图模型,也是一种概率图模型,借由有向无环图DAG得知一组随机变量及其组条件概率分布的性质。
一般而言,贝叶斯网络的有向无环图中的结点表示随机变量,它们是可观察到的变量,或隐变量、未知参数等。连接两个结点的箭头代表此两个随机变量是具有因果关系(或非条件独立)。若两个结点间以一个单箭头连接在一起,表示其中一个结点是“因 (parents)”,另一个是“果 (children)”,两结点就会产生一个条件概率值。
每个结点在给定其直接前驱时,条件独立于其非后继。
概率图模型:用图来表示变量概率依赖关系的理论 - 贝叶斯网络 (Bayesian Network) :有向图结构表示 - 马尔可夫网络 (Markov Network) :无向图结构表示 概率图模型包括朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等。
- 一个简单的贝叶斯网络
- 全连接贝叶斯网络:每一对结点之间都有边连接
- 正常的贝叶斯网络:直观上有些边缺失
- 和独立
- 和在给定的条件下独立
- 的联合分布:
贝叶斯网络的结构形式
- head-to-head
成立,即在未知的条件下,被阻断 (blocked) ,是独立的,称之为head-to-head条件独立。
- tail-to-tail
- 在未知的条件下:,此时,无法得出,即未知时,不独立;
- 在已知的条件下:,将带入式子得到:,即已知时,独立。
- head-to-tail
- 未知时:,此时,无法得出,即未知时,不独立;
- 已知时:
,且根据,可得到:
在给定的条件下,被阻断 (blocked) ,是独立的,称之为head-to-tail条件独立。
head-to-tail是一个链式网络,在给定的条件下,的分布和条件独立。
的分布状态只和有关,和其他变量条件独立。
当前状态只跟上一状态有关,跟上上或上上之前的状态无关——马尔科夫链 (Markov chain)