图书馆数据挖掘方法

  • 格式:pptx
  • 大小:4.05 MB
  • 文档页数:78

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(信息经过加工和改造成为知识),能够回答“how”的问题
理解(Understanding): “why”的正确评价
先知(Wisdom): 理解的进一步提升
数据、信息、知识和先知的关系
什么是数据挖掘?

从大量数据中提取或发现(挖掘)知识的过程。 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平 凡过程。 数据集:一组事实F,如关系数据库中的记录 模式:一个用语言L表示的一个表达式E,它可以用来描述数据集F的一个子 集FE ,E作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信 息量要少)。如:y=f(x) 过程:需要多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的 修改求精。
概念/类描述:特征化和区分(定性与对比)

一个概念:对一个包含大量数据的数据集合总体情况的概述。

概念描述(concept
description):对含有大量数据的数据集合进行概述
性的总结并获得简明、准确的描述。

概念描述的主要方法: 对目标数据进行概述性的总结,数据泛化。 对两个数据集合概化后,进行对比并将对比结果进行概化。(以 表格或对比规则形式给出)

数据离散化与概念分层
数据归约的一部分,通过数据的离散化和概念分层来规 约数据。
Forms of data preprocessing
关联规则挖掘——购物篮数据的二元形式表示
购物篮数据的二元形式表示。其中,每行对应一个事务,每列对应一个 项。项用二元变量表示,如果项在事务中出现,则它的主值为1,否则为 0。忽略了数据的某些重要方面,如所购商品的价格和数量等。 注:目前主要针对离散数据。
数据预处理的主要方法

数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解 决不一致性来清理数据

数据集成
集成多个数据库、数据立方体或文件
数据变换
将数据转换或统一成适合于挖掘的形式。如数据规范化
数据归约
可以用来得到数据集的归约(压缩)表示,它小得多, 但仍保持数据的完整性。对归约后的数据集挖掘将更有 效,并产生相同(或几乎相同)的分析结果。
用于描述确定性,即“值得信赖的程度”、 “用于推理的可靠性”
聚类分析

聚类是对数据对象进行划分的一种过程,与分类 不同的是,它所划分的类是未知的,故此,这是 一个“无指导的学习”(unsupervised learning) 过程,即聚类算法不需要“教师”的指导,不需 要提供训练数据,它倾向于数据的自然划分。 聚类分析( clustering analysis ): 是一个“无指导 的学习” 过程,它将数据对象分组成多个类或簇, 使得在同一个簇中个体的具有较高的相似度,而 不同簇中的个体差别较大。
实上,多数数据被闲置。

数据量太大,无法用传统的统计方法进行处理(包括实现算法),
如同大型搜索引擎进行数据组织时使用倒排索引,而不是使用
数据库一样。

解决方法:数据挖掘技术,将传统的数据分析方法与处理海量数据
的复杂算法相结合。(面向实际应用,强调高性能算法的实现。而
统计更多的强调其理论特性如大数定理,假设检验等) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,或模 式)。
图书馆数据挖掘方法、 工具与案例分析
大纲

数据挖掘概述 数据挖掘的过程 数据挖掘方法与工具 图书馆数据挖掘案例分析
图书馆数据挖掘实践
数据挖掘的发展动力 ---需要是发明之母

信息技术的发展使得数据的收集和存储简单,且价格低廉。导致了:
数据极大丰富(data rich) ,知识极其匮乏(knowledge poor),事
TID 面包 牛奶 尿布 啤酒 鸡蛋 可乐 1 1 1 0 0 0 0 2 3 4 5 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 0 1 0 1
支持度 (support)
支持度计数: 项集的出现频率,是指包含项集 的事务个数,如{A,C}的支持度计数为2
Transaction-id 10

通常,用户并不知道在数据中能挖掘出什么东西,对 此我们会在数据挖掘中应用一些常用的数据挖掘功能, 挖掘出一些常用的模式,包括:
概念/类描述: 特性化和区分(定性与对比) 关联分析 分类和预测 聚类分析 异常检测(孤立点分析) 趋势和演变分析
数据挖掘的任务(大致可以归为四类)
聚类分析

聚类是对数据对象进行划分的一种过程,与分类不同的是,它 所划分的类是未知的,故此,这是一个“无指导的学习” (unsupervised learning)过程,即聚类算法不需要“教师”的 指导,不需要提供训练数据,它倾向于数据的自然划分。

文本聚类(Text clustering): 将文本集合分组成多个类或簇, 使得在同一个簇中的文本内容具有较高的相似度,而不同簇中 的文本内容差别较大。它是聚类分析技术在文本处理领域的一
数据挖掘的步骤

结果的解释评估(interpretation and evaluation)
对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关 的模式。 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择 数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖 掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户 易于理解的形式表示。
Items bought A, B, C
20
A, C
A, D B, E, F
支持度 (support), s, probability that a transaction contains XY
support(X⇒Y)=同时包含项目集X和Y的交 易数/总交易数 用于描述有用性。由于,低支持度的规则可 能只是偶尔出现,从商务角度去看,顾客很 少同时购买的商品可能对促销无益。但也有 例外,如贵重商品等。

聚类分析

在IR中的应用:早期主要是为了提高系统的查准率与查全率, 并被用于寻找给定文本的相近文本。 目前主要用于浏览文本、显示文本集合、组织搜索引擎的返 回结果,如 Vivisimo 的结果聚类,这有利于用户快速定位自 己需要的信息。 其他应用:如帮助市场分析人员从客户信息中发现不同的用 户群,并且用购买模式来刻画不同的用户群的特征。

有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。
数据挖掘: 多个学科的融合
数据库系统 统计学
机器学习
数据挖掘
可视化
算法
其他学科
数据挖掘的步骤

观点:数据挖掘是数据库中的知识发现 (KDD)的一个步骤。 --指挖掘的算法 粗略理解三部曲:
数据准备(data preparation)、 数据挖掘(data mining) --指挖掘的算法 结果的解释评估(interpretation and evaluation)
模式评估
数据挖掘
任务相关数据 数据仓库 选择
数据清理
数据集成 数据库
数据挖掘的主要功能 ——可以挖掘哪些模式?

一般功能
预测性的数据挖掘: 在当前数据上进行推断和预测,建模和 预测,主要包括分类(预测离散型的目标变量)、回归分析 (预测连续型的目标变量) 描述性的数据挖掘: 概括数据中潜在的联系模式(简单汇总、 关联、聚类、异常等)。
种应用。
孤立点分析

与数据的一般行为或模式不一致。多数为噪声或异 常数据,常被剔除。 在某些应用中,孤立点数据更有趣,如:银行诈骗, 洗黑钱、恐怖行为。

有专门进行孤立点研究的方法与技术。统计方法是 占主流,考察数据的分布,用距离来度量。
演化分析
对随时间变化的数据对象的变化规律和演化 趋势进行建模分析。(时序数据库) 如对主要股票的交易数据进行建模分析。 方法

趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析
数据挖掘的工具

SPSS ( +Clementine ) SAS Enterprise Miner Matlab Intelligent Miner (IBM) MSMiner (Intelligence Science Lab, CAS) DBMiner (DBMiner Technology Inc.) …..
在商场中拥有大量的商品(项目),如:牛奶、面包等,客户 将所购买的商品放入到自己的购物篮中。 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客 的购买习惯: 哪些物品经常被顾客购买? 同一次购买中,哪些商品经常会被一起购买? 一般用户的购买过程中是否存在一定的购买时间序列?

数据挖掘的步骤

数据准备
数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取

数据挖掘算法的选择.
首先要明确任务,如数据总结、分类、聚类、关联规则发现、序 列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知识)。 根据具体的数据集合,选取有效的挖掘算法。
分类与预测


本课程不讨论如何建立分类体系 自动文档分类(Automatic Text Categorization,ATC), 在给定的分 类体系下,根据文本的内容用计算机程序确定文本所属类别的过程. 分类过程 构建分类器的方法 决策树 Rocchio方法 朴素Bayes (Naive Bayes) k-近邻法(k-Nearest Neighbor,kNN): 支持向量机(support vector machine,SVM) 。。。。 分类结果评估 特征选取的方法 预测: 多用于连续的数值数据
30 40
置信度 (confidence)
confidence, c, conditional probability that a transaction having X also contains Y.
confidence(X⇒Y)=同时购买商品X和Y的交易 数/购买商品X的交易数
Customer buys beer Customer buys both Customer buys diaper
什么是数据挖掘?

从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解 的模式的非平凡过程。 非平凡(的过程):有一定的智能性、自动性(仅仅给出所有 数据之和不能算做一个发现过程)。
有效性:所发现的模式对新的数据仍保持一定的可信度。
新颖性:所发现的模式应该是新的。 潜在有用性:所发现的模式将来有实际的效用。 最终可理解性:能被用户理解,如:简洁性
数据挖掘的案例:“啤酒”和“尿布”

一则广为流传的案例:啤酒和尿布的故事 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性, 他们往往也同时购买啤酒。 处理:重新布置了货架,啤酒类商品、婴儿尿布、 土豆片之类的佐酒小食品、男士们日常生活用品就 近布置。 结果:上述几种商品的销量几乎马上成倍增长。
������
Fra Baidu bibliotek
������

数据、信息、知识、理解和先知

系统学专家Russell Ackoff博士认为人类大脑包涵的内容,分为五类: 数据(Data): 符号(Symbols )的集合,未加工、较为原始的形态 信息(Information): 数据经过处理后,有意义的,具有利用价值的,能够 回答4W为(“who”, “what”, “where”, and “when”)等问题 知识(Knowledge): 实践中产生、经过实践检验的一种客观规律。

评注
影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量 数据挖掘的过程是一个不断反馈的过程 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图 或直方图等统计可视化技术来显示有关数据,以期对数据有一个初 步的了解。
数据挖掘: 数据库中的知识挖掘(KDD)
数据挖掘——知识挖掘的核心

如一个大学中讲师、副教授的情况 讲师:75% (papers<3) and (teaching courses<2)
副教授:66% (papers>=3) and (teaching courses>=2)
关联规则

关联规则挖掘就是发现大量数据中项集之间有趣的关联 关联规则挖掘的典型案例:购物篮问题