空间数据挖掘与普通数据挖掘的不同特征

  • 格式:pdf
  • 大小:127.87 KB
  • 文档页数:2

下载文档原格式

  / 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大的标准进行目标的空间划分,它们之间的区别是 断发展,空间数据挖掘技术在广度和深度上必将会
聚类方法事先不清楚类别数和种类的典型特征,而 更加不断深入。
分类方法事先知道类别数和种类的典型特征。 3.5 探测性的数据分析方法
探测性的数据分析(简称 EDA)是由李德仁、邸
参考文献:
[1] 邬伦,等.地理信息系统--原理、方法和应用[J].科学出版社.2001. [2] 邸凯昌.空间数据挖掘和知识发现的理论与方法[M].武汉:武汉
空间数据挖掘(SDM,即 Spatial Data Mining), 个属性的规律性变化趋势。
是指从空间数据库中提取用户感兴趣的隐含的、空
(6)空间对象的结构型知识,即关于复杂对象的
间或非空间的模式和普遍特征的过程。空间数据挖 普遍特征和构成关系的知识。
掘的对象主要是空间数据库,其包含的数据类型有
(7)空间偏差型知识,即关于空间对象偏离常规
2 空间数据挖掘系统的组件
性分析、属性的重要性、属性表简化、属性依赖、最小 决策和分类算法生成等,为空间数据的属性分析和
通用的数据挖掘包括 5 个主要元素[5]: (1)提取,转换和加载交易数据到数据仓库系统。 (2)存储和管理多维数据库系统中的数据。 (3)为商业分析师和信息技术专业人才提供数据 获取方式。 (4)用软件分析数据。 (5)使用有用的格式来表示数据,比如图表。
型关系型数据库中发现相关性或模式的过程。
等)和演变规则(空间目标的几何、属性特征随时间
空间数据的爆炸性增长以及空间数据库的广泛 变化的规律)等。
应用使自动发现空间知识的需要更加迫切,空间数
(3)空间聚类与分类知识,对空间对象进行综合
据挖掘注重于从空间数据库中挖掘有趣的和以前未 概括,将特征相近的空间对象分类或聚类。
可视化数据分析技术拓宽了传统的图表功能,
计经验的相关领域专家完成。统计方法的一个缺点是 使用户可以更清楚地剖析数据,可以展现数据的状
在处理字符型数据方面表现较差。 3.3 归纳学习方法
况、内在本质及规律性等,例如把数据库中的多维数 据变成图形,在显示空间数据挖掘的结果时将地图
归纳学习方法中大部分的算法来自于机器学习
测绘科技大学,1999.
凯昌提出的,采用动态统计图形和动态链接窗口技术 [3] 蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社.1999.
显示数据以及统计特征,可以发现数据中非直观的 [4] Sheikholeslami G, Chatterjee S, Zhang A. Wave -Cluster: A
粗集理论是一种智能数据决策分析工具,由波
般的数据挖掘方法,其本质区别在于空间数据挖掘是 兰华沙大学的 Z.Pawlak 教授于 1982 年提出。被广泛
在没有明确假设的前提下去挖掘信息、发现知识,挖掘 应用于不确定、不完全、不精确的信息分类分析和知
出的知识应具有事先未知、有效和实用性 3 个特征。
识获取。粗集理论可用于 GIS 数据库属性表的一致
以下几种[4]:
的异常情况的知识。
收稿日期:2010-11-29;修订日期:2011-03-10 作者简介:李强(1973-),男,河南周口人,电子科技大学软件工程硕士研究生,周口职业技术学院,讲师,研究方向:计算机应用科学。
第6期
李 强,等:空间数据挖掘与普通数据挖掘的不同特征
·183·
因此,对空间数据库的空间数据挖掘方法不同于一
3.1 空间分析方法
值的相对出现频率和不同空间对象的相对出现频率 (目标对象集相对于整个数据库) 作为感兴趣的性
使用 GIS 的各种空间分析模型和空间操作进行 质,从空间目标集合经过它的相邻扩展后的一个开
GIS 数据库中数据的深加工,从而发现新的知识信 息,常用空间分析方法有拓扑分析、距离分析、趋势 面分析、叠置分析、综合属性数据分析、缓冲区分析、 地形分析、预测分析等,可以发现目标在空间上的相 邻、相连、共生等各种关联规则,或发现目标之间的
用的信息,可用于增加收入或降低成本,或两者兼而 或多类目标间几何或属性的不同特征,对个性进行
有之[1]。数据挖掘软件是众多用来分析数据的分析软 描述)、特征规则(对某类或某几类空间目标的共性
件之一,允许用户从不同的层面或角度分析数据,进行 的描述,几何与属性的普遍特征)、关联规则(包括空
归类和总结发现的关系。从技术上讲,数据挖掘是在大 间目标的相邻关联、相连关联、共生关联、包含关联
第 30卷第 6 期 2011 年6 期
煤炭技术
Coal Technology
Vol.30,No.06 June,2011
空间数据挖掘与பைடு நூலகம்通数据挖掘的不同特征
李 强 1,郑 光 2
(1. 周口职业技术学院,河南 周口 466000;2. 河南周口师范学院,河南 周口 466001)
摘 要:数据挖掘通常被定义为搜索、分析和筛选大量的数据的过程,发现它们之间的关系、模式或者任何的显著
知的,但是却可能有用的模式信息。空间数据的复杂
(4)空间分布规律,即关于空间对象在地理空间
性和内在的空间关系限制了传统数据挖掘技术在提 分布规律方面的知识,包括水平分布、垂直分布、联
取空间模式方面的应用。
合分布等各种维度的分布规律,也可包括属性空间
1 空间数据挖掘的特别之处
内任何一个维度的分布规律。 (5)空间对象的发展趋势,即空间对象一个或多
3 空间数据挖掘的常用方法
知识发现开辟了一条新途径,将粗集理论与其他知
识发现算法相结合,即使在 GIS 数据库中的数据不 确定的情况下,仍可以获取多种知识。 3.7 空间特征和趋势探测方法
这是一种基于领域图 (neighborhood graphs)和 邻域路径 (neighborhood path) 概念的挖掘算法,由 Ester 等人在第 4 届 KDD 国际研讨会 (1998) 上提 出,Ester 等将一个空间特征定义为 GIS 数据库中具 有空间/非空间性质的目标对象集,并将非空间属性
3.2 统计分析方法 在对空间数据进行分析处理时,常使用统计分析
与其他挖掘方法结合。用于模式识别和图像分析的
方法,着重于对空间物体进行非空间特性分析,统计 方法主要有:决策树方法、神经元网络方法、数学形
方法有大量成熟的算法,具有较强理论基础作为支 撑,且需要具有领域知识和统计知识,一般由具有统
态学方法以及图论方法等。 3.9 可视化方法
法包括洪家荣等的 AE1,AE9,Michaski 等的 AQ15,Hunt 的 CLS,Quinlan 的 ID3 等。
AQ11,
分析过程。
3.4 聚类与分类方法
4 结语
聚类与分类方法是指将数据按照一定的距离或
相似性将数据分成相互区分的组的过程,常用的经
空间数据库系统是管理空间数据的数据库系
典聚类方法有 K-mean、K-medoids、ISODATA 等,聚 统,用于找到隐藏在大的空间数据库中的规则或模 类与分类方法都是依据类内差别最小,类间差别最 式,随着 GIS 与数据挖掘及相关领域科学研究的不
数据特征,以及异常数据。EDA 结合空间分析组成 ESA(exploratory spatial analysis,探测性空间分析),
multi -resolution clustering approach for very large spatiall databases. In:Proceedings of the 24th International Conference on Very Large Databases. New York, 1998. 428-439.
始点出发,发现非空间性质的变化规律。这种算法处 理相邻关系的能力在很大程度上决定了它的效率。 3.8 数字地图图像分析和模式识别方法
GIS 数据库(数据仓库)中含有大量的图形图像 数据,一些相关的模式识别方法和图像分析技术可
最短路径、最优路径等辅助决策知识。
直接用于挖掘数据和发现知识,或作为预处理方法
中图分类号:TP31
文献标识码:A
文章编号:1008-8725(2011)06-0182-02
Spatial Data Mining and Different Characteristics of Common Data Mining
LI Qiang1, ZHENG Guang2
(1. Zholkou Volational amd Technical Colleg, Zhoukou 166001, China; 2. Zhoukou Teachers College, Zhoukou 166001, China)
领域,它是从大量的数据和经验中归纳、提取一般的 模式和规则的方法,其包含的算法很多,最著名的是
同时作为背景显示。一方面可以显示出知识特征分 布的规律,另一方面也可以可视化地解释挖掘得到
的结果,从而得到最佳的分析结果,用户使用可视化
由 Quinlan 提出的 C5.0 决策树算法,其余的一些算 技术,可以看到数据处理的全过程并监测和数据的
在数据挖掘中,EDA 技术和 ESA 技术用于选取与问 [5] 葛继科.空间数据挖掘技术理论及方法.http://dev.csdn.net/article/
题领域相关的数据子集,并可以发现隐含在数据中
26/26412.shtm.2007.
的某些规律特征。 3.6 粗集方法
[6] 张新长,马林兵.地理信息系统数据库[M].北京:科学出版社, 2005. (责任编辑 吕瑶)
(1)普遍的几何知识,即目标的各种普遍性的几
0 引言
何特征,如大小、数量、形态等。如点状目标的大小、 位置线状目标的方向、长度、大小等,面状目标的几
一般来说,数据挖掘(也称为数据或知识发现) 何中心、周长,面积等。
是从不同的角度分析数据的过程,并将其总结为有
(2)规则性知识,包括空间的区分规则(指 2 类
统计相关性。空间数据挖掘(SDM)是从大型空间数据集中发现有趣的、有用的信息和知识模式的过程。由于空间数
据类型、空间关系,和空间自相关的复杂性,从空间数据集中提取有趣和有用的模式,比从传统意义上的数字型数
据提取相应的模式要困难得多,该文对比空间数据挖掘与传统数据挖掘的不同特点。
关键词:空间数据;数据挖掘;空间数据挖掘
Abstract:Data mining is generally defined as search, analyze and process of screening large amounts of data and found that the relationship between them, patterns or any significant statistical correlation. Spatial Data Mining (SDM) is found from the large spatial data sets of interesting, useful information and knowledge model process. Since spatial data types, spatial relations, and the complexity of spatial autocorrelation, spatial data sets extracted from the interesting and useful patterns, than from traditional numeric data extraction much more difficult the corresponding model, this comparison of spatial data mining and the different characteristics of traditional data mining. Key words:spatial data; data mining; spatial data mining