现代数据挖掘技术与发展(1)

  • 格式:ppt
  • 大小:291.00 KB
  • 文档页数:41

下载文档原格式

  / 41
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
覆盖率可以定义为
覆盖(A率 B)包含 A 元 和B组 的总 元数 组数
“兴趣度”为目标的关联规则
可编辑版
7
3.关联规则的算法 Apriori算法 1.找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称
为k-项集。 2.使用第1步找到的频集产生所期望的规则。
Apriori算法的第1步采用了递归方法,算法表示为 L1={large 1-itemsets};//产生频繁1项集L1 for (k=2;Lk-1≠○;k++) do //循环产生频繁2项集L2直到某个r使Lr为空 begin
知识发现 描述
数据仓库
数据 库接 口
知识库
知识发现评 价

据 选 择
知识 发现 引擎
图6.1 知识发现系统结构
可编辑版
商业分析员
4
1.知识发现系统管理器 控制并管理整个知识发现过程 2.知识库和商业分析员 知识库包含了源于各方面的知识。商业分析员要按一种有
效的方式指导关注信息的发现。 3.数据仓库的数据库接口 知识发现系统的数据库接口可以直接与数据仓库通信。 4.数据选择 确定从数据仓库中需要抽取的数据及数据结构 5.知识发现引擎 将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价 有助于商业分析员筛选模式,选出那些关注性的信息 7.发现描述 发现、评价并辅助商业分析员在知识库中保存关注性发现
Answer=UkLk
可编辑版
8
第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频 集Y=I1,I2,I3,…,Ik,k≥2,Ij∈I,那么只有包含集合{ I1,I2,I3,…,Ik}中 的项的规则最多有k条。这种规则形如I1,I2,I3,…Ii-1,Ii+1…,Ik→Ii,。这 些规则置信度必须大于用户给定的最小置信度。
结果以备将来引用,并保可编持辑版知识发现与管理人员的通信5 。
6.2现代挖掘技术及应用
6.2.1 规则型现代挖掘技术及应用
1.关联规则的基本概念
buys(x,“computer”)=>buys(x,“finacial_management_software”) age(“30..40”)∧income(“42000..50000”)=>buys(x,“high_resolution_TV”)
·知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预 先未知的商业模式与事实。
6.1.2 知识发现系统的结构
知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓 库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描 述等部分组成(图6.1)。
可编辑版
3
知识发现 管理器
{1,2} 扫 描 数 {1,2} 1
{1,3} 据
{1,3} 2
{1,5} 库D
{1,5} 1
{1,2} 2 比较 {2,3} 2 支持度 {2,5} 3
{2,3}
{2,3} 2
{3,5} 2
{2,5}
{2,5} 3
{3,5}
{3,5} 2
由L2产生C3
L3
项集 扫描数据
项集
支持度
{2,3,5} 库D
可编辑版
9
数据库D
事务标识 项集
项集
A1
1,3,4 扫 描 数 {1}
A2
2,3,5 据
{2}
A3
1,2,3,5 库D
{3}
A4
2,5
{4}
{5}
C1 支持度 2 3 3 1 3
比较 支持度
L1 项集 支持度 {1} 2 {2} 3 {3} 3 {5} 3
由L1产生C2 项集
项集
C2 支持度
项集
L2 支持度
第6章现代数据挖掘技术与发 展
本章学习目标:
(1) 通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识 发现系统的结构 。
(2) 通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传 算法型、粗糙集型和决策树型现代挖掘技术。
(3) 通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、 运用中的问题和知识挖掘的价值。
可编辑版
{2,3,5}
2
10
前件 百吉饼 百吉饼 百吉饼 百吉饼 面包 黄油 鸡蛋 奶酪
规划覆盖 率
覆盖率高
覆盖率低
4.关联规则的应用
后件
正确率
覆盖率
奶油干酪
80%
5%
橙汁
40%
3%
咖啡
40%
2%
鸡蛋
25%
2%
牛奶
35%
30%
牛奶
65%
20%
牛奶
35%
15%
牛奶
40%
8%
前件和后件规则中的正确率和覆盖率
Ck=apriori-gen(Lk-1);//产生k-项集的候选集 for all transactions t∈D do
begin Ct=subset(Ck,t);//事务t中包含的候选集 for all candidates c∈Ct do
c.count++;
end
Lk={c∈Ck|c.count≥minsup} end
正确率低
正确率高
规划很少wenku.baidu.com正确的,但可以 使用
规划很少是正确的,一般不 被使用
规划多数情况下是正确的,而且 可以经常使用
规划多数情况下是正确的,但很 少被使用
规划覆盖率可和编辑正版 确率的平衡
11
6.2.2 神经网络型现代挖掘技术
(4) 经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视 化数据挖掘、空间数据挖掘和分布式数据挖掘。
可编辑版
1
现代数据挖掘技术与发展
• 6.1知识挖掘系统的体系结构 • 6.2现代挖掘技术及应用 • 6.3知识发现工具与应用 • 6.4数据挖掘技术的发展 •练 习
可编辑版
2
6.1知识挖掘系统的体系结构
6.1.1知识发现的定义
·知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取 的信息是隐含的、未知的,并且具有潜在应用价值。
·知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题, 仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对 象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的 商业规则。
布尔关联规则
量化关联规则
单维规则
多维关联
多层关联规则
单层关联规则
age(“30..40”)=>buys(x,“IBM computer”) (6.3)
age(“30..40”)=>buys(x,“computer”)
(6.4)
可编辑版
6
2.关联规则的应用目标 置信度或正确率可以定义为:
置信(A度 B)包 包含 A和 含 A的 B的元 元组 组数 数 (6.5)

相关主题