数据挖掘中数据探索方法及应用
- 格式:docx
- 大小:180.37 KB
- 文档页数:19
数据挖掘中数据探索方法及应用
摘要:随着科技的快速发展,大数据时代已经来临。
面对大量的数据,为了从中提取到有用的信息,数据挖掘技术就应运而生。
本文所要研究的数据探索,是数据挖掘过程中的重要组成部分,它既是数据预处理的前提,更是结论有效性的基础。
本文借助spss软件,主要从数据质量分析和数据特征分析两个方面论述了数据探索的方法,并且通过实例演示了数据探索在解决实际数据问题中的作用。
关键词:数据挖掘;数据质量分析;数据特征分析;数据探索的应用
Abstract: With the rapid development of science and technology, the explosion of time data is ushered in. In order to extract useful information from a large number of data, data mining technology emerges. The data exploration we researched in this paper is an important part of data mining, which is the premise of data preprocessing and the basis of conclusion validity. With the help of SPSS software, we mainly from the two aspects of data quality analysis and data analysis discuss the data exploration methods. And we also demonstrate the role of data exploration in solving actual data problems.
Key words:Data mining;Data quality analysis;Data analysis;Data exploration application
目录
摘要 (Ⅰ)
Abstract (Ⅰ)
目录 (Ⅱ)
1数据挖掘理论 (1)
1.1 数据挖掘的背景 (1)
1.2数据挖掘的定义及其基本任务 (1)
1.3 数据探索的意义 (3)
2数据探索的方法 (3)
2.1数据质量分析 (3)
2.1.1缺失值分析 (3)
2.1.2异常值分析 (5)
2.1.3一致性分析 (6)
2.2数据特征分析 (7)
2.2.1分布分析 (7)
2.2.2对比分析 (7)
2.2.3统计量分析 (8)
2.2.4周期性分析 (8)
2.2.5贡献度分析 (10)
2.2.6相关性分析 (10)
3数据探索的应用 (10)
4结语 (15)
参考文献 (15)
附录 (17)
附录A:饭店营业额表 (17)
附录B:1978年到2005年生产值表.................... 错误!未定义书签。
1数据挖掘理论
1.1数据挖掘的背景
自从20世纪80年代以来,以科学技术为核心的改革,轰轰烈烈的拉开了序幕。
现在人们的交流不需要面对面的进行,只需要一个电话或者一封电子邮件就可以完成;人们的出行也不再依靠马车,而是被汽车、高铁等取而代之。
大数据就是这个时代的产物。
大数据与以往的海量数据不同,它具有:数据量大、数据类型广、价值密度低、处理速度快四个特点。
特别是随着大型商业数据库的普及应用,各个单位、各个行业都积累了一定规模或超大规模的数据信息。
因此,人们最迫切的需求,就是从这些数据中获取到有价值的内容。
面对以上对数据分析的需求,数据挖掘技术就应运而生了。
数据挖掘的发展历史大致经过了四个阶段,第一个阶段的通讯量快速增长,因此被称作电子邮件阶段;第二个阶段是以web技术为核心的信息发布体系,被宣告正式形成,即信息公布阶段;第三个阶段网上银行交易开始出现,因此被称为电子商务阶段;第四阶段,则是全程电子商务阶段,形成了当下的“全程电子商务观念”模式[1]。
昊昱在《大数据精准挖掘》一书中,明确指出大数据时代最鲜明的时代特色就是数据挖掘技术[2]。
当前,应用到数据挖掘技术的领域正在快速扩张。
甚至在许多领域,数据挖掘都是一项很受欢迎的业务,尤其在政府以及银行、电信、保险、电子商务、医疗、教育、交通、酒店、零售等商业领域。
简而言之,数据挖掘是一门各行各业都渴望掌握的新技术和事业发展的新领域。
1.2数据挖掘的定义及其基本任务
数据挖掘,又译为数据采矿、数据探勘。
就是在大量的、不完全的、有噪声的、模糊的、缺失的、随机的实际应用数据中,挖掘出其暗藏的、人们事先不知道的、有潜在价值的信息和知识的系统化过程[3]。
由对数据挖掘概念的理解,不难发现,数据挖掘是有其条件的:首先,被我们所挖掘的内容,必须拥有海量的数
第 1 页 (共 19页)
图1-1数据挖掘建模过程流程图第 2 页 (共 19 页)。