信息熵特征选择方案样本
- 格式:doc
- 大小:494.00 KB
- 文档页数:17
基于互信息的特征选择
1. 模型
定义D1 病集S 由有关心脏病病种i X ( i =1, 2, …, n) 组成, 令患者的疾病信息熵1-2为: )(1log
)()(1i n i i X P X P X H ∑=-= (1)
显然疾病信息熵具有Shannon 信息熵的性质, 反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.
定义D2: 一个诊断病例库能够表示为关于病例特征的矩阵形式
n m ij x Casebase ⨯=][ (2) 其中, ij x —病例库中第j 个病例的第i 个属性值;
m —病例特征数量;
n —病例库规模;
定义D3: 一个信息系统( IS) 能够表示为
,,,r r f R I U R V f ∈=<> (3) 其中, U 是对象的非空有限集合, R 是属性的非空有限集合, r r R V V ∈=
是属性值
的集合, V r 表示了属性任意r R ∈时的属性值范围, :r f U R V ⨯→ 是一个信息函数, 它指定U 中每一个对象 x 的属性值.
1 马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报: 自然科学版, ,25(5):25-28.
2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报: 自然科学版, ,43(B08):353-356.
当R 中的属性集可进一步分解为条件属性集合C 和决策属性集合D, 且满足
,R C D C D =⋃ ⋂=∅时, 信息系统(IS)称为决策系统(DS)3. a i 为某一条件属性, 则决策属性D 对某一条件属性a i 的依赖程度能够利用下式计算4-5:
( 4) 式中, R C 、 R D 分别表示条件属性集合C 和策属性集合D 在论域上的等价关
系.()D C
R H R 表示R D 相对于R C 的条件熵.(,)i I a D 的值越大, 则条件属性a i 对决策属性D 的重要性越大.如果(,)0i I a D =, 则说明a i 对于D 不起作用, 能够删除.在基于属性信息增益的约简方法中, 计算案例库属性集的每个属性的信息增益, 并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集, 否则弃用属性.
1.3 基于互信息的特征选择6:
三种经典的基于互信息的特征选择算法, 分别为信息增益、 互信息和交叉熵, 以及于互信息最大化的特征选择算法7。
3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, : 49.
4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, ,24(2):59-63.
5 程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J]. 电网技术, ,28 (17): 72-75.
6 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation [J]. Expert Systems with Applications, , 36(3, Part 2): 5921-5931.
7唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J]. 计算机工程与应用, ,44(13):130-133
结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。
苗夺谦8等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文9提出了一种基于互信息增益率的属性约简算法; 颜艳等10提出了一种改进的互信息的属性约简算法, 基于改进的互信息的启发式算法, 并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。
熵的公式:
联合熵:
条件熵:
联合熵和条件熵的关系:
8苗夺谦,胡桂容.知识约简的一种启发式算法[J].计算机研究与发展, 1999,36(6): 681 - 684.
9贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报(工学版), ,40(6):1041 - 1044.
10颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法[J]. 清华大学学报(自然科学版), ,47(S2):1903-1906.
1.3.1 互信息( MI)
互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.
互信息越大, 这两个随机变量之间的联系月越紧密.当互信息趋近于零时, 这两者之间相互独立.
特征和类之间的互信息: P( w
i ) 是特征w
i
的概率, 表示w
i
没有发生.P( c
i
) 是
类c
j 的概率, P(c
j
, w
i
)是类c
j
与特征w
i
的联合概率.
是特征之间的互信息.
互信息和信息熵之间的联系:
互信息和信息熵的关系见图1.
图1 互信息和信息熵的关系图