数据挖掘研究及发展现状
- 格式:docx
- 大小:116.30 KB
- 文档页数:7
数据挖掘技术的研究现状及发展方向
摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。
关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向
The present situation and future direction of
the data mining technology research
Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining.
Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction
0 引言
随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。
数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。
1 数据挖掘算法
数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。
数据选择:确定发现任务的操作对象,即目标对象;
预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等;
转换:消减数据维数或降维;
数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法;
解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2:
目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
图1 数据挖掘过程
图2 十大经典算法
1.1 神经网络法
神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有/黑箱0性,输出结果也难以解释;其
次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。
1.2 决策树法
决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5],之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描不需要长时间构造过程、描述简单,易于理解,
分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。1.3 遗传算法
遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基
于进化理论的机器学习方法。它的基本观点是/适者生存0原理,具有隐含并行性、易于和其它模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。
1.4 粗糙集法
粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,不需要关于数据的任何预备的或额外的信息;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点[7]。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。
1.5 模糊集法
模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性[7]。系统的复杂性越高,模糊性就越强。
1.6 关联规则法
关联规则反应了事物之间的相互依赖性或关联性。其最著名的算法是R.AGRAWAL等人提出的Apriori算法。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。
2 数据挖掘研究现状
2.1 国外研究现状
知识发现[8]( Knowledge Discovery in Databases,KDD)与DM是数据库领域中最重要的课题之一。KDD一词是在1989年8月于美国底特律市召开的第十一届国际人工智能会议上正式形成的。1995年在加拿大蒙特利尔召开的首届KDD & Data Mining国际学术会议上,把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘[9]。之后每年召开一次这样的会议,经过十几年的努力,数据挖掘技术的研究已经取得了丰硕的成果。目前,对KDD 的研究主要围绕理论、技术和应用这三个方面展开。多种理论与方法的合理整合是大多数研究者采用的有效技术。目前,国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高;KDD与数据库的紧密结合;传统的统计学回归方法在KDD 中的应用。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM和微软都相继成立了相应的研究中心[10]。美国是全球数据挖掘研究最繁荣的地区,并占据着研究的核心地位。
由于数据挖掘软件市场需求量的增大,包括国际知名公司在内的很多软件公司都纷纷加入到了数据挖掘工具研发的行列中来,到目前已开发了一系列技术成熟、应用价值较高的数据挖掘软件。以下为目前最主要的数据挖掘软件:
(1) Knowledge Studio:由Angoss软件公司开发的能够灵活地导入外部模型和产生规则的数据挖掘工具。最大的优点:响应速度快,且模型、文档易于理解,SDK中容易加入新的算法。
(2) IBM Intelligent Miner:该软件能自动实现数据选择、转换、发掘和结果呈现一整套数据挖掘操作;支持分类、预测、关联规则、聚类等算法,并且具有强大的API函数库,可以创建定制的模型。
(3) SPSS Clementine:SPSS是世界上最早的统计分析软件之一。Clementine是SPSS的数据挖掘应用工具,它可以把直观的用户图形界面与多种分析技术如神经网络、关联规则和规则归纳技术结合在一起。该软件首次引入了数据挖掘流概念,用户可以在同一个工作流环境中清理数据、转换数据和构建模型。
(4) Cognos Scenario:该软件是基于树的高度视图化的数据挖掘工具,可以用最短的响应时间得出最精确的结果。
此外,还有由美国Insightful公司开发的I