信息熵-特征选择方案

  • 格式:doc
  • 大小:492.50 KB
  • 文档页数:13

下载文档原格式

  / 13
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于互信息的特征选择

1. 模型

定义D1 病集S 由有关心脏病病种i X (i =1,2,…,n )组成,令患者的疾病信息熵1-2为: )(1log

)()(1i n i i X P X P X H ∑=-= (1)

显然疾病信息熵具有Shannon 信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.

定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式

n m ij x Casebase ⨯=][ (2) 其中,ij x —病例库中第j 个病例的第i 个属性值;

m —病例特征数量;

n —病例库规模;

定义D3:一个信息系统(IS )可以表达为

,,,r r f R I U R V f ∈=<> (3) 其中,U 是对象的非空有限集合, R 是属性的非空有限集合,r r R V V ∈=

是属性值

的集合,V r 表示了属性任意r R ∈时的属性值范围,:r f U R V ⨯→ 是一个信息函数,它指定U 中每一个对象 x 的属性值.

当R 中的属性集可进一步分解为条件属性集合C 和决策属性集合D ,且满足

,R C D C D =⋃ ⋂=∅时,信息系统(IS)称为决策系统(DS)3. a i 为某一条件属性,则决策属性D 对某一条件属性a i 的依赖程度可以利用下式计算4-5:

1

马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报:自然科学版, 2002,25(5):25-28. 2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报:自然科学版,

2004,43(B08):353-356.

3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, 2007: 49.

4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, 2008,24(2):59-63.

(4) 式中,R C 、R D 分别表示条件属性集合C 和策属性集合D 在论域上的等价关系.()D C

R H R 表示R D 相对于R C 的条件熵.(,)i I a D 的值越大,则条件属性a i 对决策属性D 的重要性越大.如果(,)0i I a D ,则说明a i 对于D 不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性.

1.3 基于互信息的特征选择6:

三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法7。

结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T 所能提供的关于随机变量C 的互信息,并计算出每个特征对该互信息的贡献。

苗夺谦8等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文9提出了一种基于互信息增益率的属性约简算法; 颜艳等10提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。

熵的公式:

联合熵:

5

程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法

[J]. 电网技术, 2004,28 (17): 72-75.

6 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation [J]. Expert Systems with Applications, 2009, 36(3, Part 2): 5921-5931.

7唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J]. 计算机工程与应用,2008,44(13):130-133 8苗夺谦,胡桂容.知识约简的一种启发式算法[J].计算机研究与发展, 1999,36(6): 681 - 684.

9贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报(工学版), 2006,40(6):1041 - 1044.

10颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法[J]. 清华大学学报(自然科学版),2007,47(S2):1903-1906.

条件熵:

联合熵和条件熵的关系:

1.3.1 互信息(MI)

互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.

互信息越大,这两个随机变量之间的联系月越紧密.当互信息趋近于零时,这两者之间相互独立.

特征和类之间的互信息:P(w i)是特征w i的概率,表示w i没有发生.P(c i)是类c j的概率,P(c j,w i)是类c j与特征w i的联合概率.

是特征之间的互信息.

互信息和信息熵之间的联系:

互信息和信息熵的关系见图1.

图1 互信息和信息熵的关系图

连续型时,(p(x),p(y) 和p(x,y)都是连续的)

计算连续的基因表达变量的熵或互信息,首先要将其离散化,一般采用直方图方法11,并根据表达向量的值域范围选择合适的bin值,联合熵计算可采用二维直方图法.

连续变量的互信息计算:

第一种,histogram 方法(Moddemeijer,1989),将数据划分成等尺度(直方图)的间隔.该方法在低维度条件下,可以获得满意解;随着数据维度的增多,histogram估算值的精确度呈递减趋势.

第二种,using the continuous kernel based density estimator to approximate I(x;y),as proposed by Kwak and Choi (2002b). 利用基于密度评价者的连续核心近似互信息I(x;y),该方法由Kwak and Choi (2002b)提出.

给出一个变量x的N个样本,近似密度函数为:(基于互信息特征选择标准:最大的依赖,最大关联,最小冗余)12

其中,是Parzen窗口函数(Parzen window function (Parzen,1962));是第i个样本;h是窗口宽度.Parzen已证明了,选择适当的和h,当N趋近于无穷时,近似函数趋近于真实的p(x).

通常,可用高斯窗口(Gaussian window):

其中,,d是样本x的维度,是z的协方差,

以上计算可以利用peng制作的matlab的互信息计算工具包.

11SteuerR, Kurths J, DaubC O, eta.l Themutual information: detecting and evaluating dependencies between variables [J]. Bioinformatics, 2002,18( sup2):231-240.

12Feature Selection Based on Mutual Information Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy