- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
购买电脑实例:
购买电脑实例:
购买电脑实例:
(2)计算每个特征属性对于每个类别的条件概率:
P(age<=“30”|buys_computer=“yes”)=2/9=0.222 P(income<=“medium”|buys_computer=“yes”)=4/9=0.444 P(student<=“yes”|buys_computer=“yes”)=6/9=0.667 P(credit_rating<=“fair”|buys_computer=“yes”)=6/9=0.667 P(age<=“30”|buys_computer=“no”)=3/5=0.600 P(income<=“medium”|buys_computer=“no”)=2/5=0.400 P(student<=“yes”|buys_computer=“no”)=1/5=0.2 P(credit_rating<=“fair”|buys_computer=“no”)=2/5=0.400
i 1 n
全概率公式
证明
A A A (B1 B2 Bn )
AB1 AB2 ABn .
P( A) P( B1 ) P( A | B1 ) P( B2 ) P( A | B2 ) P( Bn ) P( A | Bn )
图示
B2
B3
B1
A
贝叶斯算法处理流程:
第二阶段——分类器训练阶段: 主要工作是计算每个类别在训练样本中出现 频率以及每个特征属性划分对每个类别的条件 概率估计。输入是特征属性和训练样本,输出 是分类器。 第三阶段——应用阶段:
这个阶段的任务是使用分类器对待分类项进行分类 ,其输入是分类器和待分类项,输出是待分类项与类 别的映射关系。
朴素贝叶斯算法原理:
朴素贝叶斯算法原理:
朴素贝叶斯算法原理:
朴素贝叶斯算法原理:
P( X | yi ) P(ak | yi )
k 1
n
朴素贝叶斯算法原理:
贝叶斯算法处理流程:
贝叶斯算法的处理流程:
第一阶段——准备阶段:
该阶段为朴素贝叶斯分类做必要的准备。主要是依 据具体情况确定特征属性,并且对特征属性进行适当 划分。然后就是对一部分待分类项进行人工划分,以 确定训练样本。 这一阶段的输入是所有的待分类项,输出时特征属性 和训练样本。分类器的质量很大程度上依赖于特征属 性及其划分以及训练样本的质量。
Thank you!
算法实例
• 购买电脑实例
• 算法优缺点 • 算法相关扩展
总结
贝叶斯理论
简单的说,贝叶斯定理是基于假设的先验概率 、给定假设下观察到不同数据的概率,提供了 一种计算后验概率的方法。
在人工智能领域,贝叶斯方法是一种非常具有 代表性的不确定性知识表示和推理方法。
贝叶斯定理:
P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考 虑任何B方面的因素。 P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称 作A的后验概率。 P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称 作B的后验概率。 P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant).
对比决策树分类
整棵决策树就对应着一组析取表达式规则。
总结:
扩展:
扩展:
对于第二个问题:朴素贝叶斯算法是在假定各个特征 属性相互独立的情况下提出来,这在现实生活中是很 难实现的,所以针对这个问题人们做了大量工作解决 这个缺点。 (1)如果特征属性之间是有联系的,并且是一个有 向无环图,可以采用另一个相关的贝叶斯分类算法— —贝叶斯网络。在此不再介绍。 (2)除了贝叶斯网络还有kononenko提出的seminaï ve bayesian 算法,称为半朴素贝叶斯算法,
总结
朴素贝叶斯算法的优点: a. 算法逻辑简单,易于实现; b. 分类过程中时空开销小; c. 算法稳定,对于不同的数据特点其分类性 能差别不大,健壮性比较好。
总结
那么“贝叶斯分类法的效率如何呢?”
该分类法与决策树和神经网络分类法的各种比较 试验表明,在某些领域,贝叶斯分类法足以与它们相 媲美。理论上讲,与其他所有分类算法相比,贝叶斯 分类具有最小的错误率,然而,实践中并非总是如此 。这是因为对其使用的假定(如类条件独立性)的不 正确性,以及缺乏可用的概率数据造成的。 贝叶斯分类法还可以用来为不直接使用贝叶斯定 理的其他分类法提供理论判定。例如,在某些假定下 ,可以证明:与朴素贝叶斯分类法一样,许多神经网 络和曲线拟合算法输出的最大的后验假定。
扩展:
该算法就是将特征相关的属性分成一组,然后假设不 同组中的属性是相互独立的,同一组中的属性是相互 关联的。 (3)还有一种具有树结构的TAN(tree augmented naï ve Bayes)分类器,它放松了朴素贝叶斯中的独 立性假设条件,允许每个属性结点最多可以依赖一个 非类结点。TAN具有较好的综合性能。算是一种受限 制的贝叶斯网络算法。
朴素贝叶斯算法 Naï ve Bayes
知识回顾
贝叶斯知识
1. 样本空间的划分
定义 设 为试验E的样本空间, B1 , B2 ,, Bn 为 E 的一组事件, 若 10 Bi B j , i, j 1, 2,, n; 20 B1 B2 Bn , 则称 B1 , B2 ,, Bn 为样本空间 的一个划分.
贝叶斯定理:
关于贝叶斯分类:
对于贝叶斯网络分类器,若某一待分类的样本D, 其分类特征值为
x=(x1,x 2 ,...,x n )
,则样本D 属于类别yi 的概率
P( C = yi | X1 = x1 , X2 = x 2 , ... , Xn = x n) ,( i = 1 ,2 , ... , m)
购买电脑实例:
购买电脑实例:
P(X | buys_computer = “no”) P(buys_computer = “no”) = 0.019×0.357 = 0.007
因此,对于样本X,朴素贝叶斯分类预测 buys_computer =”yes” 特别要注意的是:朴素贝叶斯的核心在于它假设向量 的所有分量之间是独立的。
乘法定理:
设 P( A) 0, 则有 P( AB) P(B A)P( A) P( A B)P(B).
先验概率与后验概率
由以往的数据分析得到的概率, 叫做先验 概率. 而在得到信息之后再重新加以修正的概率
叫做后验概率.
简介
• 贝叶斯定理 • 分类算法概念
朴素贝叶 斯算法
• 朴素贝叶斯算法原理 • 朴素贝叶斯算法流程
B2
B1
Bn 1
B3
Bn
2. 全概率公式
定义 设为试验E的样本空间, A为E的事件, B1 , B2 , , Bn为的一个划分, 且P( Bi ) 0 (i 1, 2, , n), 则 P( A) P( A | B1 ) P ( B1 ) P ( A | B2 ) P ( B2 ) P( A | Bn ) P ( Bn ) P( B) P( A | Bi )
P( A | B ) P( B )
j 1 j j
n
称此为贝叶斯公式.
证明
P( A |Bi ) P( Bi ) P( Bi A) P( A) P( Bi ) P( A | Bi ) n P( B j ) P( A | B j )
j 1
条件概率 的概念
i 1,2,, n.
若(,F ,P)是一个概率空间,B F ,且 P( B) 0, 对任意的A F ,称 P( AB) P( A | B) P( B) 为在事件 B 发生的条件下,事件 A 发生的条件概率.
应满足下式:
P(Y=y j X x ) =MAX{P(Y=y1 X x ),P(Y=y2 X x ),...,P(Y=ym X x )}
而由贝叶斯公式:
P(Y y j X x)
P( X x / Y y j ) P(Y y j ) P( X x )
其中,P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。
Bn1
化整为零 各个击破
Hale Waihona Puke Baidu
Bn
说明 全概率公式的主要用途在于它可以将一个 复杂事件的概率计算问题,分解为若干个简单事件 的概率计算问题,最后应用概率的可加性求出最终 结果.
B2
A
Bn1
B1
Bn
B3
3. 贝叶斯公式
定义 设为试验E的样本空间, A为E的事件, B1 , B2 , , Bn为的一个划分, 且P ( A) 0, P ( Bi ) 0(i 1, 2, , n), 则 P ( Bi | A) P ( A / Bi ) P ( Bi ) , i 1, 2, , n.