数据挖掘技术及其应用

  • 格式:docx
  • 大小:57.10 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

论文题目数据挖掘技术及其应用

姓名

学科、专业

指导教师

学号

数据挖掘技术及其应用

摘要: 数据挖掘技术作为一个新兴的技术在许多领域都取得了成功的应用,它是一个很有应用价值的课题,它融合了数据库、人工智能、机器学习等多个领域的理论和技术。据挖掘技术是一门综合多个学科的从数据中寻找规律的技术,该技术已经成功地应用于金融分析、市场分析、客户关系管理等多个行业。本文介绍了数据挖掘技术的基本情况及其应用,最后展望了数据挖掘技术的发展和今后的研究工作。

关键词: 数据挖掘 ;数据分类;关联规则;机器学习

随着现代信息技术、通讯技术和计算机技术的高速发展,数据库应用的范围、深度和规模不断扩大。传统的信息系统大部分是查询驱动的,数据库作为历史知识库对于一般的查询过程是有效的,但当数据和数据库的规模急剧增长时,传统的数据库管理系统的查询检索机制和统计分析方法已远远不能满足现实的需求,它迫切要求能够自动、智能和快速地从数据库中挖掘出有用的信息和知识。数据挖掘技术就是为迎合这种要求而产生并迅速发展起来的,它为研究现代信息处理提供了一种新的方法和研究领域。

1数据挖掘技术概述

1.1数据挖掘的定义

数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

1.2数据挖掘系统的体系结构

数据挖掘系统由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。

数据挖掘系统的体系结构图

2 数据挖掘技术

从功能上分,数据挖掘技术主要有验证型、发现型以及综合型3种:验证型用来验证某一种想法,发现型用来发现一些未知的规律,而综合型则是前两者的结合。数据挖掘的目的是为了发现数据之间的某种对应关系,如根据历史资料预报某个顾客的信用;或者是数据的分布情况,如发现某些商品的摆放可能影响到商家的营业额等等[2]。公认的数据挖掘技术主要有如下类型:

(1) 人工神经网络和遗传算法。数据挖掘技术中使用的人工神经网络主要有MLP(MultiLayer Perception,多层感知器)和Koho-noen聚类网络等网络模型,主要用来完成非线性映射以及聚类分析。在使用MLP时,由于可能存在网络结构和网络的初始参数难以确定等问题,因此,有些使用者把神经网络与遗传算法相结合,对网络的结构和网络的初始参数进行优化,从而使网络更为适用于所需解决的问题。在实际中,使用神经网络和遗传算法的困难是这两种方法都比较耗费时间。

(2)决策树。用树型结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。典型的决策树方法有分类树和回归树,目前比较流行的决策树有CART树、CHARD树、ID树等。

(3)规则归纳。相对来讲,它是数据挖掘特有的技术。这种技术在大型数据库或数据仓中搜索和挖掘以往不知道的规则和规律,它大致包括以下的形式。关联规则:例如,“在购买了啤酒的顾客中,有15%也购买了尿布”;顺序规则:例如,“出现过故障A的某些设备中,有65%在一个月内也出现了故障B”;相似时间序列:例如,“事件A与事件B 在某一季节内有类似的波动规律”;IF-THEN规则:例如,“如果A、B和C同时发生,则D发生的概率为75%”;转移规则:在特定的情况下,如购买力有限,候选人数固定并且数据是时序数据情况下,它可以弥补关联规则的不足[2]。

(4)统计学方法。统计学中的多元分析、回归分析等方法可以广泛地应用于数据挖掘技术中,尤其是多维图形在数据挖掘技术中的应用,可使人们对数据的分布特性有一个直观的认识。

(5)聚类、分类以及模式识别。聚类分析是由统计学发展起来的,是数据挖掘中的一个重要技术。数据挖掘中的聚类分析主要是根据数据之间的相似程度,把不同相似程度的数据聚集成不同的类的方法。在统计学中,主要的聚类方法有系统聚类法和动态聚类法,另外,模糊聚类和神经网络聚类方法也是在实际中应用较多的聚类方法。分类与聚类的主要不同在于聚类是一个没有导师的学习过程,而分类则是一个有导师的过程。

(6)基于事例的推理(CBR,Case-Based Rea-soning)。这是一种人工智能学习方法,在数据挖掘中可以用来进行基于数据的推理。

(7)可视化。采用直观的图形方式将信息显示给人们,以便更为直观地使用通过种种挖掘方法得到的规律。

(8)粗集方法。这种技术是利用粗集理论对数据进行客观而有效的处理,从而更迅速地获得知识。具体地说它有4方面的优点:首先是提供一套数学方法,从数学上严格处理数据分类问题,尤其是当数据具有噪声、不完全性或不精确性时。其次,粗集合仅仅分析隐藏在数据中的事实,并没有校正数据中所表现的不一致性,而是一般将所生成的的规则分为确定与可能的规则。第三,粗集理论包括了知识的一种形式模型,这种模型将知识定义为不可区分关系的一个族集,这就使得知识具有一种清晰定义的数学意义,并且可使用数学方法来分析处理。最后,粗集不需要关于数据的任何附加信息[3]。

(9)进化计算。使用进化计算的目的是为了优化,该算法由于其仿效自然界的达尔文进化论而得名。

以上是数据挖掘常用的技术,实际上对一个具体的数据挖掘过程,往往不是用其中的一种技术,而是同时用二种或多种技术。

3 数据挖掘技术在国外的应用现状

在北美,数据挖掘技术已经成功地应用于社会生活的方方面面,如政府管理决策、商业经营、科学研究和企业决策支持等领域,都可以采用数据挖掘技术解决一些问题。

(1)比较活跃的应用方向

市场营销预测顾客的购买行为,划分顾客群体,使用交互式询问技术、分类技术和预报技术,更精确地挑选潜在的顾客;技术上使用神经网络、规则归纳和鲁棒的专家系统进行一些目标量预报以及辨识影响目标变量的重要因素等等;寻找描述性的模式,以便更好地进行市场分析;进行关联分析,以便更好地进行货架摆设。银行业侦测信用卡的欺诈行为;客户信誉分析;使用预报模型(如统计回归模型和神经网络模型)技术对一些感兴趣的量进行预报,主要关心预报精度和过拟合问题;生产、销售和零售业预测销售额;决定库存量;批发点分布的规划和调度;物流管理。制造业工业制造和生产领域是一个十分有潜力的使用数据挖掘技术的市场,如质量控制、预测机器故障、挖掘影响生产力的关键因素等[3]。

(2)应用实例

美国钢铁公司和神户钢铁公司利用数据挖掘技术开发的ISPA系统,能分析产品性能规律和进行质量控制,取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司(SNECMA),用数据挖掘技术研制了CAS-SIOPEE质量控制系统,被3家欧洲航空公司用于诊断和预测波音737的故障,带来了可观的经济效益。市场研究公司,如美国的

elson和In-formation Resources,欧洲的GFK和InfractsBurke等纷纷开始使用数据挖掘技术来处理迅速增长的销售和市场信息数据。商家的激烈竟争导致了市场的快