粗糙集理论介绍(20140507200200)
- 格式:pdf
- 大小:4.91 MB
- 文档页数:41
粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的学问?我们如何将所学到的学问去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论Pl答了上面的这些问题。
要想了解粗糙集合论的思想,我们先要了解一下什么叫做学问?假设有8个积木构成了一个集合A,我们记:A={xl,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,根据颜色的不同,我们能够把这积累木分成Rl={红,黄,兰} 三个大类,那么全部红颜色的积木构成集合Xl = {xl,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}o根据颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必定属于且仅属于一个分类),那么我们就说颜色属性就是一种学问。
在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个学问,假如还有其他的属性,比如还有外形R2={三角,方块,圆形},大小R3={大,中,小},这样加上Rl 属性对A 构成的划分分别为:A/R1={X1 ,X2,X3}={(X1 ,x2,x6},{x3,x4)4x5,x7,x8},(颜色分类) A∕R2={Yl,Y2,Y3}={{xl,x2},{x5,x8},{x3,x4,x6,x7}}(外形分类)A∕R3={Z1,Z2,Z3)={{x1,x2,x5},{x6,x8},{x3,x4,x7}}(大小分类) 上面这些全部的分类合在•起就形成了•个基本的学问库。
那么这个基本学问库能表示什么概念呢?除了红的{xl,x2,x6}、大的{xl,x2,x5}、三角形的{xl,x2)这样的概念以外还可以表达例如大的且是三角形的{xl,x2,x5}∩{xl,x2)={xl,x2}, 大三角{xl,x2,x5}∩{xl,x2}={xl,x2},兰色的小的圆形({x5,x7,x8)∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8} U {x6,x8)={×5,x6,x7,x8}β而类似这样的概念可以通过求交运算得到,比如Xl与Yl的交就表示红色的三角。
粗糙集理论与模糊集理论的异同及结合应用引言:在现实生活和学术研究中,我们经常面临着信息不完备、模糊和不确定的情况。
为了更好地处理这些问题,粗糙集理论和模糊集理论应运而生。
本文将探讨粗糙集理论和模糊集理论的异同,并探讨它们如何结合应用于实际问题中。
一、粗糙集理论粗糙集理论是由波兰学者Pawlak于1982年提出的一种数学工具,用于处理信息不完备和不确定的问题。
粗糙集理论的核心思想是通过分析决策属性和条件属性之间的关系,进行信息的粗糙度度量和信息的约简。
粗糙集理论的主要特点是能够处理不完备和不确定的信息,具有较强的可解释性和可操作性。
二、模糊集理论模糊集理论是由日本学者石原和田原于1973年提出的,用于处理模糊和不确定的问题。
模糊集理论的核心思想是引入隶属度函数来描述事物的模糊性,通过模糊集的运算和推理,对模糊信息进行处理和分析。
模糊集理论的主要特点是能够处理模糊和不确定的信息,具有较强的灵活性和适应性。
三、粗糙集理论与模糊集理论的异同1. 异同之处:(1)描述方式:粗糙集理论通过信息的分区和约简来描述信息的粗糙度,而模糊集理论通过隶属度函数来描述事物的模糊性。
(2)处理方式:粗糙集理论通过分析属性之间的关系来进行信息的约简,而模糊集理论通过模糊集的运算和推理来进行信息的处理和分析。
(3)可解释性:粗糙集理论具有较强的可解释性,能够直观地描述信息的粗糙度,而模糊集理论具有较强的灵活性,能够处理更加复杂的模糊信息。
2. 结合应用:粗糙集理论和模糊集理论在实际问题中可以相互结合,以充分发挥各自的优势。
例如,在医学诊断中,可以使用模糊集理论来描述病情的模糊性,同时使用粗糙集理论来进行信息的约简,从而提高诊断的准确性和可解释性。
在金融风险评估中,可以使用粗糙集理论来处理不完备的信息,同时使用模糊集理论来描述风险的模糊性,从而更好地评估风险的大小和影响。
结论:粗糙集理论和模糊集理论是两种有效的数学工具,用于处理信息不完备、模糊和不确定的问题。
什么是粗糙集合粗糙集理论及其应用摘要在很多实际系统中均不同程度地存在着不确定性因素, 采集到的数据常常包含着噪声,不精确甚至不完整. 粗糙集理论是继概率论,模糊集,证据理论之后的又一个处理不确定性的数学工具. 作为一种较新的软计算方法, 粗糙集近年来越来越受到重视, 其有效性已在许多科学与工程领域的成功应用中得到证实, 是当前国际上人工智能理论及其应用领域中的研究热点之一. 本文介绍了粗糙集理论的基本概念,特点及有关应用.关键词粗糙集, 不确定性, 数据分析, 软计算1 引言在自然科学,社会科学和工程技术的很多领域中, 都不同程度地涉及到对不确定因素和对不完备( imperfect) 信息的处理. 从实际系统中采集到的数据常常包含着噪声, 不够精确甚至不完整. 采用纯数学上的假设来消除或回避这种不确定性, 效果往往不理想, 反之, 如果正视它,对这些信息进行合适地处理, 常常有助于相关实际系统问题的解决. 多年来, 研究人员一直在努力寻找科学地处理不完整性和不确定性的有效途径. 模糊集和基于概率方法的证据理论是处理不确定信息的两种方法, 已应用于一些实际领域. 但这些方法有时需要一些数据的附加信息或先验知识, 如模糊隶属函数,基本概率指派函数和有关统计概率分布等, 而这些信息有时并不容易得到. 1982 年, 波兰学者Z. Paw lak 提出了粗糙集理论, 它是一种刻划不完整性和不确定性的数学工具, 能有效地分析不精确,不一致( incon sisten t),不完整( incomp lete) 等各种不完备的信息, 还可以对数据进行分析和推理, 从中发现隐含的知识, 揭示潜在的规律. 粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分.粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念.粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画.该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性.本文简要介绍了粗糙集理论的基本概念和实际应用.2 粗糙集的理论2. 1 粗糙集理论的产生和发展在本世纪70 年代, 波兰学者Z. Paw lak 和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究. 粗糙集理论就是在这些研究的基础上产生的. 1982年, Z. Paw lak 发表了经典论文Rough Set s , 宣告了粗糙集理论的诞生. 此后, 粗糙集理论引起了许多数学家,逻辑学家和计算机研究人员的兴趣, 他们在粗糙集的理论和应用方面作了大量的研究工作.1991 年Z. Paw lak 的专著和1992 年应用专集的出版, 对这一段时期理论和实践工作的成果作了较好的总结, 同时促进了粗糙集在各个领域的应用. 此后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展. 越来越多的科技人员开始了解并准备从事该领域的研究. 目前, 粗糙集已成为人工智能领域中一个较新的学术热点, 在机器学习,知识获取,决策分析,过程控制等许多领域得到了广泛的应用.2. 2 粗糙集理论所处理的问题粗糙集能有效地处理下列问题:·不确定或不精确知识的表达;·经验学习并从经验中获取知识;·不一致信息的分析;·根据不确定,不完整的知识进行推理;·在保留信息的前提下进行数据化简;·近似模式分类;·识别并评估数据之间的依赖关系2. 3 粗糙集理论的一些基本概念2. 3. 1 知识的含义"知识"这个概念在不同的范畴内有多种不同的含义. 在粗糙集理论中,"知识"被认为是一种分类能力. 人们的行为是基于分辨现实的或抽象的对象的能力, 如在远古时代, 人们为了生存必须能分辨出什么可以食用, 什么不可以食用; 医生给病人诊断, 必须辨别出患者得的是哪一种病. 这些根据事物的特征差别将其分门别类的能力均可以看作是某种"知识".2. 3. 2 不可分辨关系与基本集分类过程中, 相差不大的个体被归于同一类, 它们的关系就是不可分辨关系( indiscernability relation). 假定只用两种黑白颜色把空间中的物体分割两类, {黑色物体},{白色物体},那么同为黑色的两个物体就是不可分辨的, 因为描述它们特征属性的信息相同, 都是黑色. 如果再引入方,圆的属性, 又可以将物体进一步分割为四类: {黑色方物体},{黑色圆物体},{白色方物体},{白色圆物体}. 这时, 如果两个同为黑色方物体, 则它们还是不可分辨的. 不可分辨关系也称为一个等效关系(equivalence relationship ) , 两个白色圆物体间的不可分辨关系可以理解为它们在白,圆两种属性下存在等效关系.基本集(elementary set) 定义为由论域中相互间不可分辨的对象组成的集合, 是组成论域知识的颗粒. 不可分辨关系这一概念在粗糙集理论中十分重要, 它深刻地揭示出知识的颗粒状结构, 是定义其它概念的基础. 知识可认为是一族等效关系, 它将论域分割成一系列的等效类.2. 3. 3 集合的下逼近,上逼近及边界区粗糙集理论延拓了经典的集合论, 把用于分类的知识嵌入集合内, 作为集合组成的一部分. 一个对象a 是否属于集合X 需根据现有的知识来判断, 可分为三种情况: (1) 对象a 肯定属于集合X ; (2) 对象a 肯定不属于集X ; (3) 对象a 可能属于也可能不属于集合X . 集合的划分密切依赖于我们所掌握的关于论域的知识, 是相对的而不是绝对的.给定一个有限的非空集合U 称为论域, I 为U 中的一族等效关系, 即关于U 的知识, 则二元对K = (U , I ) 称为一个近似空间(approximation space). 设x 为U 中的一个对象, X为U 的一个子集, I (x ) 表示所有与x 不可分辨的对象所组成的集合, 换句话说, 是由x 决定的等效类, 即I (x ) 中的每个对象都与x 有相同的特征属性(attribute).集合X 关于I 的下逼近(Lower approximation) 定义为:I* (X ) = {x ∈U : I (x ) I *(X ) 实际上由那些根据现有知识判断肯定属于X 的对象所组成的最大的集合, 有时也称为X 的正区(po sit ive region) , 记作PO S (X ). 类似地, 由根据现有知识判断肯定不属于X 的对象组成的集合称为X 的负区(negat ive region) , 记作N EG (X ).集合X 关于I 的上逼近(U pper app rox im at ion) 定义为I3 (X ) = {x ∈U : I (x ) ∩ X ≠ 5 } (2)I3 (X ) 是由所有与X 相交非空的等效类I (x ) 的并集, 是那些可能属于X 的对象组成的最小集合. 显然, I3 (X ) + N EG (X ) = 论域U.集合X 的边界区(Boundary region) 定义为BND (X ) = I3 (X ) - I 3 (X ) (3)BND (X ) 为集合X 的上逼近与下逼近之差. 如果BND (X ) 是空集, 则称X 关于I 是清晰的(crisp ) ; 反之如果BND (X ) 不是空集, 则称集合X 为关于I 的粗糙集( rough set). 下逼近,上逼近及边界区等概念称为可分辨区(discern ib ility region s) , 刻划了一个边界含糊(vague) 集合的逼近特性. 粗糙程度可按按下式的计算A1= I 3 (X ) I3 (X ) , (4)式中# 表示集合# 的基数或势(cardinality) , 对有限集合表示集合中所包含的元素的个数.显然0≤A1 (X ) ≤1, 如果A1 (X ) = 1, 则称集合X 相对于I 是清晰(crisp ) 的, 如果A1 (X ) 0} (7)BND (X ) = {x ∈U : 0 < LIX(x ) < 1} (8)从上面的定义中, 可以看出粗糙集理论中"含糊"(vague) 和"不确定"(uncertain ty) 这两个概念之间的关系:"含糊"用来描述集合, 指集合的边界不清楚; 而"不确定"描述的是集合中的元素, 指某个元素是否属于某集合是不确定的.2. 4 实例下面用一个具体的实例说明粗糙集的概念. 在粗糙集中使用信息表( info rm at ion tab le) 描述论域中的数据集合. 根据学科领域的不同, 它们可能代表医疗,金融,军事,过程控制等方面的数据. 信息表的形式和大家所熟悉的关系数据库中的关系数据模型很相似, 是一张二维表1 期韩祯祥等: 粗糙集理论及其应用391995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.格, 如表一所示. 表格的数据描述了一些人的教育程度以及是否找到了较好工作, 旨在说明两者之间的关系. 其中王治,马丽, 赵凯等称为对象(objects) , 一行描述一个对象. 表中的列描述对象的属性. 粗糙集理论中有两种属性: 条件属性(condition attribute) 和决策属性(decision attribute). 本例中"教育程度"为条件属性;"是否找到了好工作"为决策属性.表1 教育程度与是否找到好工作的关系姓名教育程度是否找到了好工作王治高中否马丽高中是李得小学否刘保大学是赵凯博士是设O 表示找到了好工作的人的集合, 则O = {马丽, 刘保, 赵凯}, 设I 表示属性"教育程度"所构成的一个等效关系, 根据教育程度的不同, 该论域被分割为四个等效类: {王治, 马丽},{李得},{刘保},{赵凯}. 王治和马丽在同一个等效类中, 他们都为高中文化程度, 是不可分辨的. 则:集合O 的下逼近(即正区) 为I 3 (O ) = PO S (O ) = {刘保,赵凯}集合O 的负区为N EG (O ) = {李得}集合O 的边界区为BND (O ) = {王治, 马丽}集合O 的上逼近为I 3 (O ) = PO S (O ) + BND (O ) = {刘保,赵凯,王治,马丽}根据表1, 可以归纳出下面几条规则, 揭示了教育程度与是否能找到好工作之间的关系.RUL E 1: IF (教育程度= 大学) OR (教育程度= 博士) THEN (可以找到好工作)RUL E 2: IF (教育程度= 小学) THEN (找不到好工作)RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作)从这个简单的例子中, 我们还可以体会到粗糙集理论在数据分析,寻找规律方面的作用.3 粗糙集理论的特点3. 1 粗糙集是一种软计算方法软计算(soft computing) 的概念是由模糊集创始人Zadeh[ 9 ]提出的. 软计算中的主要工具包括粗糙集,模糊逻辑(FL ),神经网络(NN ),_________概率推理(PR ),信度网络(Belief N etwo rk s), 遗传算法(GA ) 与其它进化优化算法,混沌(Chao s) 理论等. 传统的计算方法即所谓的硬计算(hard computing) , 使用精确, 固定和不变的算法来表达和解决问题. 而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案, 以便更好地与现实系统相协调.3. 2 粗糙集理论的特点粗糙集方法的简单实用性是令人惊奇的, 它能在创立后的不长时间内得到迅速应用是因为具有以下特点[ 6~8 ]:(1) 它能处理各种数据, 包括不完整( incomplete) 的数据以及拥有众多变量的数据;(3) 它能处理数据的不精确性和模棱两可(ambiguity) , 包括确定性和非确定性的情况;(4) 它能求得知识的最小表达( reduct) 和知识的各种不同颗粒(granularity) 层次;(5) 它能从数据中揭示出概念简单, 易于操作的模式(pattern) ;(6) 它能产生精确而又易于检查和证实的规则, 特别适于智能控制中规则的自动生成.40 信息与控制27 卷1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.4 粗糙集理论的应用粗糙集理论是一门实用性很强的学科, 从诞生到现在虽然只有十几年的时间, 但已经在不少领域取得了丰硕的成果, 如近似推理,数字逻辑分析和化简,建立预测模型,决策支持,控制算法获取,机器学习算法和模式识别等等. 下面介绍一下粗糙集应用的几个主要领域.4. 1 人工神经网络训练样本集化简人工神经网络具有并行处理,高度容错和泛化能力强的特点, 适合应用在预测,复杂对象建模和控制等场合. 但是当神经网络规模较大,样本较多时, 训练时间过于漫长, 这个固有缺点是制约神经网络进一步实用化的一个主要因素. 虽然各种提高训练速度的算法不断出现, 问题远未彻底解决. 化简训练样本集, 消除冗余数据是另一条提高训练速度的途径. [ 10 ]正是沿着这条思路, 应用粗糙集化简神经网络训练样本数据集, 在保留重要信息的前提下消除了多余(superfluous) 的数据. 仿真实验表明训练速度提高了4. 77 倍, 获得了较好的效果.4. 2 控制算法获取中有很多复杂对象难于建立严格的数学模型, 这样传统的基于数学模型的控制方法就难以奏效. 模糊控制模拟人的模糊推理和决策过程, 将操作人员的控制经验总结为一系列语言控制规则, 具有鲁棒性和简单性的特点, 在工业控制等领域发展较快. 但是有些复杂对象的控制规则难以人工提取, 这样就在一定程度上限制了模糊控制的应用.粗糙集能够自动抽取控制规则的特点为解决这一难题提供了新的手段. 一种新的控制策略—模糊- 粗糙控制(fuzzy2rough control) 正悄然兴起, 成为一个有吸引力的发展方向. 应用这种控制方法, 文[11 ]研究了"小车—倒立摆系统"这一经典控制问题, 文[12 ]研究了过程控制(水泥窑炉) , 均取得了较好的控制效果. 应用粗糙集进行控制的基本思路是: 把控制过程的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来, 然后利用粗糙集理论处理这些数据, 分析操作人员在何种条件下采取何种控制策略, 总结出一系列控制规则:规则1 IF Condit ion 1 满足THEN 采取decision 1规则2 IF Condit ion 2 满足THEN 采取decision 2规则3 IF Condit ion 3 满足THEN 采取decision 3这种根据观测数据获得控制策略的方法通常被称为从范例中学习( learning from examples). 粗糙控制( rough control) 与模糊控制都是基于知识, 于规则的控制, 但粗糙控制更加简单迅速,实现容易(因为粗糙控制有时可省却模糊化及去模糊化步骤) ; 另一个优点在于控制算法可以完全来自数据本身, 所以从软件工程的角度看, 其决策和推理过程与模糊(或神经网络) 控制相比可以很容易被检验和证实(validate). 文[ 11 ]还指出在特别要求控制器结构与算法简单的场合, 更适合采取粗糙控制. 美国电力科学研究院(EPR I) 对粗糙集的应用研究的潜力对十分重视, 将其作为战略性研究开发(Strategy R&D) 项目, 在1996 年拨款196, 600 资助San Jo se 州立大学进行电力系统模糊- 粗糙控制器的研究.1 期韩祯祥等: 粗糙集理论及其应用411995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.4. 3 决策支持系统面对大量的信息以及各种不确定因素, 要作出科学,合理的决策是非常困难的. 决策支持系统是一组协助制定决策的工具, 其重要特征就是能够执行IF THEN 规则进行判断分析. 粗糙集理论可以在分析以往大量经验数据的基础上找到这些规则, 基于粗糙集的决策支持系统在这方面弥补了常规决策方法的不足, 允许决策对象中存在一些不太明确,不太完整的属性, 并经过推理得出基本上肯定的结论. 下面举一个例子, 说明粗糙集理论可以根据以往的病例归纳出诊断规则, 帮助医生作出判断. 表二描述了八个病人的症状. 从表二中可以归纳出以下几条确定的规则:表2 症状与感冒的关系病人编号病理症状诊断结果是否头痛体温是否感冒病人1 是正常否病人2 是高是病人3 是很高是病人4 否正常否病人5 否高否病人6 否很高是病人7 否高是病人8 否很高否1. IF (体温正常) THEN (没感冒)2. IF (头痛) AND (体温高) THEN (感冒)3. IF (头痛) AND (体温很高) THEN (感冒)还有几条可能的规则:4. IF (头不痛) THEN (可能没感冒)5. IF (体温高) THEN (可能感冒了)6. IF (体温很高) THEN (可能感冒了)病人 5 和病人7, 病人 6 和病人8, 症状相同, 但是一个感冒另一个却没感冒, 这种情况称为不一致( inconsistent). 粗糙集就是靠这种IF THEN 规则的形式表示数据中蕴含的知识. 希腊工业发展银行ETEV A 用粗糙集理论协助制订信贷政策, 从大量实例中抽取出的规则条理清晰, 得到了金融专家的好评[ 13 ].4. 4 从数据库中知识发现现代社会中, 随着信息产业的迅速发展, 大量来自金融,医疗,科研等不同领域的信息被存储在数据库中. 这些浩如烟海的数据间隐含着许多有价值的但鲜为人知的相关性, 例如股票的格和一些经济指数有什么关系; 手术前病人的病理指标可能与手术是否成功存在某种联系; 满足何种条件的夜空会出现彗星等天文现象等等. 由于数据库的庞大, 人工处理这些数据几乎是不可能的, 于是出现了一个新的研究方向—数据库中的知识发现(Knowledge Discovery in Databases, KDD) , 也叫做数据库(信息) 发掘(Mining) , 它是目前国际上人工智能领域中研究较为活跃的分支. 粗糙集是其中的一种重要的研究方法, 它采用的信息表与关系数据库中的关系数据模型很相似, 这样就便于将基于粗糙集的算法嵌入数据库管理系统中. 粗糙集引入核(core),化简( reduct) 等有力的概念与方法, 从数据中导出用IF THEN 规则形式描述的知识, 这些精练的知识更便于存储和使用. 美国医学工作者应用粗糙集理论对大量的病历进行分析, 发现黑人妇女患乳腺癌后的死亡率比白人妇女高. 到目前为止, 早产的预测在医学上还是比较困难的. 现有的人工预测方法准确率只有17% - 58% , 而应用粗糙集理论则可将准确率提高到68% - 90% [ 8 ].42 信息与控制27 卷1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.5 粗糙集与模糊集,证据理论及其它一些情况5. 1 粗糙集与模糊集,证据理论粗糙集与模糊集都能处理不完备( imperfect) 数据, 但方法不同, 模糊集注重描述信息的含糊(vagueness) 程度, 粗糙集则强调数据的不可辩别( indiscernibility) , 不精确( imprecision) 和模棱两可(ambiguity). 使用图像处理中的语言来作比喻, 当论述图像的清晰程度时, 粗糙集强调组成图像象素的大小, 而模糊集则强调象素存在不同的灰度. 粗糙集研究的是不同类中的对象组成的集合之间的关系, 重在分类; 模糊集研究的是属于同一类的不同对象的隶属的关系, 重在隶属的程度. 因此粗糙集和模糊集是两种不同的理论, 但又不是相互对立的, 它们在处理不完善数据方面可以互为补充.粗糙集理论与证据理论虽有一些相互交叠的地方, 但本质不同, 粗糙集使用集合的上,下逼近而证据理论使用信任函数(belief function) 作为主要工具. 粗糙集对给定数据的计算是客观的, 无须知道关于数据的任何先验知识(如概率分布等) , 而证据理论则需要假定的似然值(plausibility).5. 2 近年来召开的与粗糙集有关的国际会议相继召开的以粗糙集理论为主题的国际会议, 促进了粗糙集理论的推广. 这些会议发表了大量的具有一定学术和应用价值的论文, 方便了学术交流, 推动了粗糙集在各个科学领域的拓展和应用. 下面列出了近年召开的一些会议:· 1992 年第一届国际研讨会(Rough Set s: State of the Art and Perspectives) 在波兰Kiekrz 召开;·1993 年第二届国际研讨会(The Second International Work shop on Rough Set s and Know ledge Discovery, RSKD'93) 在加拿大Banff 召开;·1994 年第三届国际研讨会(The Third International Workshop on Rough Set s and Soft Computing, RSSC'94) 在美国San Jo se 召开;·1995 年在美国North Carolina 召开了题为"Rough Set Theo ry, RST'95"的国际会议;·1996 年第四届国际研讨会(The Fou rth In ternat ionalWo rk shop on Rough Set s, Fuzzy Set s, and Machine Discovery, RSFD'96) 在日本东京召开;·1997 年3 月在美国North Carolina 召开了第五届国际研讨会(The Fifth International Workshop on Rough Set s and Soft Computing, RSSC'97)5. 3 国际上一些有关粗糙集的软件目前, 国际上研究粗糙集的机构和个人开发了一些应用粗糙集的实用化软件, 也出现了商业化的软件. 加拿大Reduct System Inc. 公司开发的用于数据库知识发现的软件DataLogic R [ 14 ]是用C 语言开发的, 可安装在个人计算机上, 为科研领域和工业界服务.美国肯萨斯大学开发了一套基于粗糙集的经验学习系统[ 15 ] , 名为L ERS (Learning from Examples based on Rough Sets) , 它能从大量经验数据中抽取出规则. L ERS 已被美国国家航空航天管理局(NA SA) 的约翰逊(John son) 空间中心采用, 作为专家系统开发工具, 为"自由号"(Freedom ) 空间站上的医疗决策服务. 美国环境保护署(U S Environmental Protection Agency) 资助的一个项目中也采用了L ERS.波兰波兹南工业大学(Poznan University of Technology) 开发的软件RoughDA S 和1 期韩祯祥等: 粗糙集理论及其应用431995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.RoughClass, 也在不少实际领域中得到应用[ 5 ].加拿大Regina 大学开发的KDD- R 是用C 编写的, 在UN IX 环境下运行, KDD2R 基于变精度粗糙集模型[ 16 ] (V ariable Precision Rough Set, V PRS) , 通过改变粗糙程度而使数据中隐含的模式更清楚的显示出来.6 结束语粗糙集是一种较有前途的处理不确定性的方法, 相信今后将会在更多的领域中得到应用. 但是, 粗糙集理论还处在继续发展之中, 正如粗糙集理论的创立人Z. Pawlak 所指出的那样[ 8 ] , 尚有一些理论上的问题需要解决, 诸如用于不精确推理的粗糙逻辑(Rough logic) 方法, 粗糙集理论与非标准分析(Non standard analysis) 和非参数化统计(Nonparametric statistics) 等之间的关系等等. 将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等) 相综合, 发挥出各自的优点, 可望设计出具有较高的机器智商(M IQ ) 的混合智能系统(Hybrid Intelligent System ) , 这是一个值得努力的方向.粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。
掌握粗糙集理论在机器学习中的高效应用方法近年来,机器学习技术的快速发展为我们提供了许多强大的工具和方法来解决实际问题。
而粗糙集理论作为一种重要的数据分析方法,已经被广泛应用于机器学习领域。
本文将介绍如何高效地应用粗糙集理论在机器学习中,以提高数据分析和模型构建的效率和准确性。
一、粗糙集理论简介粗糙集理论是由波兰学者Zdzislaw Pawlak于1982年提出的一种数据分析方法。
它基于近似推理和不确定性的概念,通过对数据集进行粗化和细化操作,从而得到数据的粗糙和精确描述。
粗糙集理论主要包括近似集合、属性约简和决策规则等概念和方法。
二、粗糙集理论在特征选择中的应用特征选择是机器学习中非常重要的一步,它能够从原始数据中选择出最具代表性的特征,提高模型的准确性和泛化能力。
而粗糙集理论提供了一种有效的方法来进行特征选择。
通过计算属性的重要性和依赖度等指标,可以得到数据集的属性约简,从而减少特征的数量,提高模型的效率和可解释性。
三、粗糙集理论在分类问题中的应用分类是机器学习中最常见的任务之一。
而粗糙集理论可以帮助我们构建有效的分类模型。
通过计算属性的依赖度和决策规则等指标,可以得到数据集的决策规则集合,从而实现对数据的分类和预测。
此外,粗糙集理论还可以通过属性约简和决策规则的合并等操作,提高分类模型的准确性和泛化能力。
四、粗糙集理论在聚类分析中的应用聚类分析是机器学习中另一个重要的任务,它能够将数据集中的对象划分为若干个相似的组。
而粗糙集理论可以帮助我们进行有效的聚类分析。
通过计算对象之间的相似度和属性的重要性等指标,可以得到数据集的粗糙聚类结果。
此外,粗糙集理论还可以通过属性约简和对象的合并等操作,提高聚类模型的准确性和稳定性。
五、粗糙集理论在异常检测中的应用异常检测是机器学习中重要的一项任务,它能够帮助我们发现数据中的异常行为和异常对象。
而粗糙集理论可以提供一种有效的方法来进行异常检测。
通过计算对象的异常度和属性的重要性等指标,可以得到数据集的异常检测结果。
粗糙集理论粗糙集理论作为一种数据分析处理理论,是在1982年以波兰数学家Z.Pawlak为代表的研究者在研究不精确、不确定性及不完全知识表示和分类的基础上,首次提出了粗糙集理论。
最开始由于语言的问题,该理论创立之初只有东欧国家的一些学者研究和应用它,后来才受到国际上数学界和计算机界的重视。
在1991年,Pawlak出版了《粗糙集—关于数据推理的理论》这本专著,从此粗糙集理论及其应用的研究进入了一个新的阶段,1992年关于粗糙集理论的第一届国际学术会议在波兰召开,这次会议着重讨论了集合近似定义的基本思想及其应用和粗糙集合环境下的机器学习基础研究,从此每年都会召开一次以粗糙集理论为主题的国际研讨会,从而推动了粗糙集理论的拓展和应用。
1995年ACM将粗糙集理论列为新兴的计算机科学的研究课题。
粗集理论作为智能计算的科学研究,无论是在理论方面还是在应用实践方面都取得了很大的进展,已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了较为成功的应用,展示了它光明的前景。
粗集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技术。
目前粗糙集理论已成为国内外人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。
资料个人收集整理,勿做商业用途粗糙集合论回答了,面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识;如何将所学到的知识去粗取精;什么是对事物的粗线条描述什么是细线条描述。
要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?资料个人收集整理,勿做商业用途在粗糙集理论中,“知识”被认为是一种分类能力。
人们的行为是基于分辨现实的或抽象的对象的能力。
所谓知识,就是论域U的子集为U上的概念,并约定空集⌀也是一个概念,则概念的族集称为U上的知识。
;而知识的族集构成关于U的知识库。
其中U味所讨论对象的非空有限集合。
所谓基本知识,就是论域U,等价关系族R,P⊆R且P≠⌀,则不可区分关系的所有等价类的集合,即商集。
粗糙集理论及其应用发展一、粗糙集的产生与发展粗糙集(Roughsets)理论是由波兰数学家Z. Pawlak在1982年提出的,该理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。
1992年至今,每年都召开以RS为主题的国际会议,推动了RS理论的拓展和应用。
国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家。
目前,粗糙集这一新的数学理论已经成为信息科学领域的研究热点之一,它在机器学习、知识获取、决策分析、过程控制等许多领域得到了广泛的应用。
粗糙集首先从新的视角对知识进行了定义。
把知识看作是关于论域的划分,从而认为知识是具有粒度〔granularity〕的。
认为知识的不精确性是由知识粒度太大引起的。
为处理数据〔特别是带噪声、不精确或不完全数据〕分类问题提供了一套严密的数学工具,使得对知识能够进行严密的分析和操作。
又由于数据挖掘的深入研究和一些成功的商业运作,使得粗糙集理论和数据挖掘有了天然的联系,粗糙集在知识上的定义、属性约简、规则提取等理论,使得数据库上的数据挖掘有了深刻理论基础,从而为数据挖掘提供了一种崭新的工具。
粗糙集不仅自己可以独特的挖掘知识,而且可以和其他的数据挖掘算法结合起来,从而产生了学多混合数据挖掘算法,大大开拓了数据挖掘的算法和技术,丰富了数据挖掘的工具。
除了研究,人们也在积极寻找粗糙集在数据挖掘中的应用,如RSES系统,该系统是基于粗糙集理论上研制的数据挖掘系统,里面提供了粗糙集的属性约简算法和规则提取,可以找到最佳约简集和近似约简集,并可以提出规则。
另外,还有,Regina大学开发的KDD-R系统,被广泛用于医疗诊断、电信业等领域。
还有美国Kansas大学开发的LERS(Learningfrom Examples based on RS)系统,在医疗诊断、社区规划、全球气象研究等方面都有应用。
绪论●20世纪80年代,波兰数学家Z.Pawlak提出粗糙集理论概率论(Probabilistic Theory)刻画概念发生的随机性(Stochastic),模糊集理论(Fuzzy Set Theory)刻画概念的模糊性(Vagueness),刻画概念的粗糙性(Coarseness),即分类能力(Classification Ability)。
粗糙集理论简称为粗集理论,粗糙集,或粗集。
●一个概念越粗糙,其分类能力越差,分类得到的对象组的颗粒(granularity)越大(越粗),对象之间的可辨识性(discernibility)越差。
相反地,一个概念越精细(fine),其分类能力越强,分类所得的对象组的颗粒越小,对象之间的可辨识性越好。
●例子图像的分辨率刻画了图像质量的粗糙程度,类似粗糙集刻画了知识或概念的粗糙程度。
图像中的分辨率越高,图像的可辨识性就越好,反之就越差。
像素灰度刻画了图像黑白的不同程度,类似模糊集刻画了概念的模糊性。
而图像上的内容则反映了某个物体出现的随机性。
第一章 知识有关知识的理论已有长远和丰富的历史,Pawlak 提议把粗集理论作为讨论知识的理论框架,特别在关注不精确知识的时候。
本章对“知识”这一术语给出形式化的定义,并讨论了它的一些基本特性。
粗集理论对知识的基本看法:知识是人类关于事物之分类能力的深层次刻画。
论域(universe of discourse ):真实世界或抽象世界被称为论域.定义1.1 设论域U 是非空有限集合,U 中元素是论域中感兴趣的对象。
对∀X ⊆ U ,称其为U 的一个概念或范畴(category )。
称U 的任意概念簇为U 的抽象知识或知识。
为便于形式推理,允许空集 ∅ 作为一个概念。
本书我们的主要兴趣在于形成某论域的一个划分(partition )或分类(classification )的概念。
(在本书中有:划分分类,划分与分类是两个等价的概念)定义1.2 U 为论域,若概念簇C = {X i | X i ⊆U ,X i ≠ ∅,i = 1,2,…,n} 满足:⑴ 对于i ,j = 1,2,…,n ,i≠j ,X i ∩X j = ∅⑵ 1 ni i X U == 则称C 为U 的一个划分或分类。
RS理论一、定义:粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。
它是当前国际上人工智能理论及其应用领域中的研究热点之一。
在自然科学、社会科学和工程技术的很多领域中,都不同程度地涉及到对不确定因素和对不完备(imperfect) 信息的处理。
从实际系统中采集到的数据常常包含着噪声,不够精确甚至不完整,对这些信息进行合适地处理,常常有助于相关实际系统问题的解决。
二、对比的理论:模糊集和基于概率方法的证据理论是处理不确定信息的两种方法,已应用于一些实际领域。
但这些方法有时需要一些数据的附加信息或先验知识,如模糊隶属函数、基本概率指派函数和有关统计概率分布等,而这些信息有时并不容易得到。
概率与统计、证据理论:理论上还难以令人信服,不能处理模糊和不完整的数据。
模糊集合理论:能处理模糊类数据,但要提供隶属函数(先验知识)。
RS理论与其他处理不确定和不精确问题理论的最显著的区别是:它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的。
由于这个理论未能包含处理不精确或不确定原始数据的机制,所以这个理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。
三、不足:粗糙集理论还处在继续发展之中,尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,粗糙集理论与非标准分析(Nonstandard analysis) 和非参数化统计(Nonparametric statistics)等之间的关系等。
四、由来:1982年波兰学者Z. Paw lak 提出了粗糙集理论——它是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。