- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘的具体任务
– 关联分析 – 序列模式 – 分类(预测) – 聚集 – 异常检测
5
数据挖掘任务
描述性分析
– – – – 聚类分析 关联分析 异常点分析、可视化 ……
预测性分析
– – – – 分类(离散) 回归分析(连续) 时间序列分析 ……
6
数据挖掘概况
数据挖掘技术基本内容框架
数据预处理
3
数据挖掘概况
数据挖掘是20世纪80年代后期发展起来的一种新兴 技术。它是商业、企业竞争和技术发展的需求的结 果,数据挖掘技术是多种学科的交叉的产物。
数据挖掘
4
数据挖掘任务
数据挖掘任务技术分类
– 预测(Predication):用历史预测未来 – 描述(Description):了解数据中潜在的规 律
Socialization Combination
3
Linking explicit knowledge
Prof. Nonaka
1
Individual Internalization Individual tacit explicit knowledge knowledge I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. 21 Oxford University Press, 1995.
19
Information, Knowledge, and Intelligence
(A) Knowledge
INFORMATION
(A) Knowledge transmitted by character, sign, voice, etc. (B) Data arranged to be useful for decision making (Transmit)
数据管理与数据挖掘概论源自文库
1
数据挖掘概况
从20世纪80年代中后期,知识发现的方法、技 术和系统,从不同角度、不同领域和不同学科 进行了研究和实践,主要的学科有数据库、统 计学和机器学习。 1989年 在底特律第11届IJCAI会议上的KDD研 讨会。 1991年MIT 出版社出版了一本书 “Knowledge Discovery in Databases”。 1994年召开了一个国际会议(KDD94), 并于 1996年由 MIT出版社又出版了一本书 “Advances in Knowledge Discovery and Data Mining”。
(1)数据清理 (2) 数据变换 (3)数据集成 (4)数据归约 (5)数据离散化 数据挖掘基本方法 (1)关联规则(2)分类与预测(3)聚类 数据挖掘的深入内容 (1)时间序列和序列(2)空间数据挖掘 (3)文本挖掘 (4)Web挖掘 (5)多媒体挖掘 (6)可视化
7
数据挖掘概况
由于任务不同,要求不同,数据不同,没 有单一的数据挖掘软件可适用所有的情形。 造成了各种方法都在快速发展,各种数据 挖掘软件不断增多。但商家近年来有逐渐 减少的趋势,大公司的介入,一些大的有 实力的公司开始更多占领市场。 基本方法如上所述。软件功能和性能有很 大差异。选软件应考虑的因素很多。
–虚拟数据库技术
» 数据表面上或者在逻辑上是集成在一起,然 而它们的物理存贮则是分散在Internet不同 的数据服务器上
14
数据挖掘概况
从两种数据库集成技术来看:
–数据仓库技术实用于数据库变动不太频 繁、数据库中数据类型和使用方法比较接 近的情况。 –虚拟数据库技术实用于数据更新速度快、 数据类型和使用方法完全不一样的情况。
22
应
用
宏观经济(指标之间关联,经济指标的预测,预警) 电信(客户细分,客户流失,客户挽留) 金融(信用评估,洗钱,欺诈…) 情报(文本挖掘,新闻组, 电子邮件, 文档) Web 挖掘(信息过滤,个性化服务,异常行为,…) DNA 数据分析(一些引起疾病的DNA序列,…) 人力资源配置(如何有效进行人力分配) 医疗诊断 中药配伍规律 零售业 科学(天气预报,灾难预测…
8
数据挖掘概况
从问题回答的角度:
有些问题可明确和准确回答(要求这样) 2. 有些问题是给出可能的回答 3. 有些问题可能给出不太明确的回答 4. 有些问题可能给出可能错误的回答。 这些回答从数据的角度: 有些是查询,有些是统计,有些是归纳,有些是推 断,有些预测,有些是分析。 数据挖掘要回答那些不是简单查询和统计回答问 题。
1.
9
数据挖掘概况
无法准确回答的问题
信贷中信用评估,信用卡评级,信用卡欺诈 销售一个产品 广告 材料 邮寄给谁 保留客户, 争取客户 交叉销售 违规操作,欺诈行为发现,异常发现 货架货物的摆放 国民经济各指标间的关系 疾病, 症状, 药物, 疗效之间的关系 DNA序列的相似分析 导致各种疾病的特定基因序列模式
10
凭理论,经验,群体分析,凭数据分析,挖掘
数据挖掘概况
各种部门都面临不同的挑战 一些面临竞争的部门与企业: 银行,电信,保险,证券,商场,各种 企业。这些企业关心的问题:争取客户, 增大销售,提高利润。 一些垄断部门与企业: 电力,税务,社保。面对抱怨,面对抗 争,面对欺诈。 政府和企业面临科学决策
2
数据挖掘概况
1995年在加拿大的蒙特利尔召开KDD95,作为第 一届国际KDD会议,以后每年一次,原为AAAI组 织,1999年由ACM组织,改为SIGKDD。2006年、 第12届在美国费城(Philadelphia)。2007年在 美国加州圣何塞(SIGKDD07) 2008年在美国LAS VEGAS(SIGKDD08)。 “Data Mining and Knowledge Discovery ” 1997年创刊。(Springer,1997,2006)。 国外相应的研究小组的建立,接着数据挖掘公司 风起云涌。一些大公司建立数据挖掘小组和开发 各种产品。 国内研究小组的建立,一些公司也开始了数据挖 掘项目。
OLAP定义
OLAP( 联机分析处理 ) 是使分析人员、管理人 员或执行人员能够从多种角度对从原始数据中 转化出来的、能够真正为用户所理解的、并真 实反映企业维特性的信息进行快速、一致、交 互地存取,从而获得对数据的更深入了解的一 类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的 查询和报表需求,它的技术核心是“维”这个 概念,因此OLAP也可以说是多维数据分析工具 的集合。
25
应 用 领 域 情 况 2 0 0 6
26
应用领域情况(2008)[170 voters]
27
数据挖掘软件 (May 2008)
17
数据仓库与数据挖掘所处地位
决策支 持系统
信息发布 信息检索 OLAP 数据挖掘
ACRM
万维网
搜索、抽取 过滤
数 据 仓 库
数
各种管理系统
据
库
CRM
各种信息系统
18
数据挖掘发现知识类型
广义型知识:反映同类事物共同性质的知识 特征型知识:反映事物各方面特征的的知识 差异型知识:反映不同事物之间属性差别的知识 关联型知识:反映事物之间依赖和关联的知识 偏差型知识:揭示事物偏离常规的异常现象的知识 预测型知识:根据历史与当前数据推测未来数据
11
数据挖掘概况
数据仓库和数据挖掘项目提到日程
数据分析、决策支持系统、商业智能 (BI)、 知识管理、客户关系管理(CRM)、 物流与供应链管理(SCM)、企业资源计划 (ERP)、各种预测。
政府、科技部门、大型企业(工厂,公司, 商场),经济部门、金融机构(银行、证 券、保险)、电子商务、电子政务、各种 “金” 工程。
20
(D) Knowledge
(D) Knowledge
Information Science + Management Science
Knowledge Science
Key Factor in Establishing the School
A theory of organizational knowledge creation, which suggests that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization.
4
Learning by doing
应
用
市场分析、预测和管理 • 行销策略, 客户关系管理(CRM), 购货篮分析,
市场分割 风险分析、预测和管理 • 风险预警, 客户挽留, 改进的保险业, 质量 控制, 竞争分析 欺诈检测和管理 • 证券违规操作,税务偷漏,瞒报,信用卡欺 诈行为判断 信用评估 • 银行信贷评估,信用卡评估
KNOWLEDGE
(C) Recognition memorized personally or socially (D) Judgment or a system of judgment which has objective validity (Recognition)
(B) Data
(Arrangement)
23
KDnuggets 对数据挖掘各种情况进行了调查
从应用领域 使用工具 使用方法 数据挖掘组的地位 数据库的大小(10G以上,100-1000G) 数据格式(文本和工具特定格式居多)
24
应用领域情况(2001)
银行 生物/基因 E商务/Web 欺诈检测 保险 投资/股票 药品 零售业 科学数据 电信 其他 17% 8% 15% 8% 6% 4% 5% 6% 8% 11% 11%
12
数据挖掘概况
数据仓库 将不同数据源、多年的数据经“整合” 成 一个有组织的便于分析的结构化的数据环境。 组织数据方法。 数据挖掘: 从数据中找出(推出,归纳出,预测、挖 掘)有用的信息,规律,知识。 分析数据方法。
13
数据挖掘概况
数据库集成:
–数据仓库技术
» 所有的数据在物理上集中在一起
Information
(C) Knowledge
(Judgment)
What is the energy to bring such transformation?
(Judgment)
INTELLIGENCE
(E) Computers’ ability to judge things automatically (F) People’s ability to understand and learn things
15
联机分析处理
60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机 事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。 1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用 户对数据库查询分析的需要,SQL对大型数据库进行的简单查询 也不能满足终端用户分析的要求。用户的决策分析需要对关系数 据库进行大量计算才能得到结果,而查询的结果并不能满足决策 者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的 概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大 面向应用,事务驱动 面向分析,分析驱动 面向操作人员,支持日常操作 面向决策人员,支持管理需要 16
Metaphors, analogies, concepts, hypotheses, or models
2
Group Group tacit explicit knowledge Externalization knowledge
Shared mental models or technical skills