第3章 数据泛化

  • 格式:docx
  • 大小:569.20 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3章数据泛化

数据挖掘的分类

描述性挖掘:以简洁概要的方式描述数据,并提供数据的有意义的一般性质。

预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。

概念描述(泛化):为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)

特征化:提供给定数据集的简洁汇总。例如按专业的成绩分布表

区分:提供两个或多个数据集的比较描述。如男生与女生的对比。

面向属性的归纳:是一种数据泛化方法,可以从大量数据中找出其中的一般性规律

什么是数据泛化?数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中数据集从较低的概念层抽象到较高的概念层的过程。用较高层次的概念来代替较低层次的概念。例如:用老、中、青分别代替(20-35,36-50,51-70)的年龄区间值。用省代替地市级的概念等

面向属性的归纳的基本步骤

1、数据聚焦,获得初始数据关系

2、进行面向属性的归纳

基本操作是数据概化,对有大量不同值的属性,进行以下操作:属性删除、属性概化

属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性

属性概化临界值控制:如果一个属性的不同值个数大于属性概化临界值,则应当进一步删除或者概化该属性。

概化(广义)关系临界值控制:如果概化关系中不同元组的个数超过概化(广义)关系临界值,则应当进一步概化。

属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除:在此属性上没有概化操作符(比如该属性没有定义相关的概念分层)、该属性的较高层概念用其他属性表示

如:name:要被删除的属性phone#:要被删除的属性

属性概化控制的两种常用方法:

属性概化临界值控制:对所有属性设置一个概化临界值或者是对每个属性都分别设置一个临界值(一般为2到8)

概化关系临界值控制:为概化关系设置一个临界值,确定概化后的关系中,不同元组个数的最大值。(通常为10到30,应该允许在实际应用中进行调整)

第4章关联规则

关联规则挖掘:从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、项与项之间的关联

应用:购物篮分析、分类设计、捆绑销售和亏本销售分析、病理分析、文本挖掘、网络故障分析等

经典的关联规则挖掘算法:Apriori算法和FP-growth算法

设Ⅰ={i1,i2,…,i m}是m个不同项目的集合,每个i k(k=1,2,……,m)称为一个项目(item)。

项目的集合Ⅰ称为项目集合(itemset),简称为项集。其元素个数称为项集的长度,长度为k 的项集称为k-项集(k-itemset)。

Ⅰ={bread, cream, milk, tea, cake, beer } 该超市出售6种商品,项集Ⅰ包含6个项目,Ⅰ的长度为6. 对于项集{cake, beer }包含2个项目,成为2-项集。

每笔交易T(Transaction)是项集Ⅰ上的一个子集,即T⊆Ⅰ,但通常T⊂Ⅰ。对应每一个交易有一个唯一的标识——交易号,记作TID交易的全体构成了交易数据库D,或称交易记录集D,

简称交易集D 。交易集D 中包含交易的个数记为|D|。表4.1所示的交易记录集D 中包含10笔交易T1—T10,则|D|=10。每笔交易中,顾客购买的商品集合(即项集),是所有商品的项集Ⅰ的一个子集。

对于项集X ,X ⊂Ⅰ,设定count(X ⊆T)为交易集D 中包含X 的交易的数量,则项集X 的支持度support(X)就是项集X 出现的概率,从而描述了X 的重要性。

项集X 的支持度为:

项集的最小支持度与频繁项集 要发现有意义的关联规则,要求项集必须满足的用户给定的最小支持阈值,称为项集的最小支持度(Minimum Support),记为sup min 。 从统计意义上讲,它表示用户关心的关联规则必须满足的最低重要性。只有满足最小支持度的项集才能产生关联规则。

大于或等于sup min 的项集称为频繁项集,反之则称为非频繁项集。通常k-项集如果满足sup min ,称为k-频繁项集,记作Lk 。 关联规则

关联规则(Association Rule)可以表示为一个蕴含式: R :X ⇒Y (读作:X 与Y 关联,或者Y 关联于X ) 其中:X ⊂Ⅰ,Y ⊂Ⅰ,并且X ∩Y=Ø

如果R :X ⇒Y 是一个关联规则,那么{X,Y}是一个项集。反之,如果{X,Y}是一个项集,则X ⇒Y 可以构成一个关联规则。 例如{bread ,milk}是一个项集,则R1:{bread} ⇒ {milk}是一个关联规则 。关联规则不一定有意义。 关联规则的支持度

对于关联规则R :X ⇒Y ,其中X ⊂Ⅰ,Y ⊂Ⅰ,并且X ⋂Y=Φ,规则R 的的支持度(Support)是交易集中同时包含X 和Y 的交易数与所有交易数之比。 关联规则的可信度

对于关联规则R :X ⇒Y ,其中X ⊂Ⅰ,Y ⊂Ⅰ,并且X ⋂Y=Φ,规则R 的可信度(Confidence)是指包含X 和Y 的交易数与包含X 的交易数之比

关联规则的最小支持度和最小可信度

关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support),记为sup min ,它用于衡量规则需要满足的最低重要性。

规则的最小可信度(Minimum Confidence)记为conf min ,它表示关联规则需要满足的最低可靠性。

强关联规则

如果规则X ⇒Y 满足:support(X ⇒Y)≥sup min 且confidence(X ⇒Y)≥conf min ,称关联规则X ⇒Y 为强关联规则,否则称关联规则X ⇒Y 为弱关联规则。

在挖掘关联规则时,产生的关联规则要经过sup min 和conf min 的衡量,筛选出来的强关联规则才能用于指导商家的决策。

Apriori 性质:频繁项集的所有非空子集也必须是频繁的。

(即如果某个K-项集A 是频繁的,则A 的所有非空子集也是频繁的) Apriori 算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相

|D |T )

count(X support(X)⊆=|D |Y)count(X Y)support(X ⋃=⇒support(X)Y)support(X Y)(X confidence ⋃=

相关主题