近邻传播的文本聚类集成谱算法_卢志茂
- 格式:pdf
- 大小:709.25 KB
- 文档页数:7
近邻传播的文本聚类集成谱算法
卢志茂;李纯;张琦
【期刊名称】《哈尔滨工程大学学报》
【年(卷),期】2012(033)007
【摘要】针对现有聚类集成谱算法聚类结果不稳定的问题,引入近邻传播聚类思想,设计了基于近邻传播的聚类集成谱算法(APCESA).该算法先由聚类集成和谱分得到空间结构相对简单的文本低维嵌入,然后通过近邻传播算法得到最终的聚类结果.在谱分解过程中,采用矩阵变换方法,避免了谱算法中特征值分解的高昂计算代价.对真实文本数据集的实验结果表明,所提算法比对比算法聚类更稳定,且聚类结果的NMI 值和ANMI值均高于对比算法.
【总页数】7页(P899-905)
【作者】卢志茂;李纯;张琦
【作者单位】哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;中国人民解放军91685部队,海南陵水572400;哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001【正文语种】中文
【中图分类】TP391
【相关文献】
1.使用"分裂-合并"策略改进文本聚类集成算法的研究 [J], 卢志茂;徐森;刘远超;顾国昌
2.使用谱聚类算法解决文本聚类集成问题 [J], 徐森;卢志茂;顾国昌
3.基于近邻传播的文本数据流聚类算法研究 [J], 李一鸣;倪丽萍;方清华;刘慧婷
4.解决文本聚类集成问题的两个谱算法 [J], 徐森;卢志茂;顾国昌
5.半监督近邻传播聚类集成算法研究 [J], 李林阳;李高明;李笑
因版权原因,仅展示原文概要,查看原文内容请购买。
近邻传播聚类算法
近邻传播(Nearest Neighbor Propagation,NNP)聚类算法是一种无监督学习的聚类算法,其核心思想是通过数据点之间的相似度(即距离)来传播信息以实现聚类。
该算法没有预先指定聚类个数,而是通过数据点之间的相似度逐步传播,将具有相似性的数据点划分到同一类别中。
算法步骤如下:
1. 计算样本点之间的相似度,通常使用欧氏距离或者其他距离度量。
2. 初始化每个样本点的传播结果,将其指定为初始标签。
3. 通过计算样本点与其它点之间的相似度,选择相似度最高的几个点进行信息传播。
4. 更新每个样本点的传播结果,将其划分到与之相似度最高的样本点所在的类别中。
5. 重复步骤3和步骤4,直到收敛为止,即不再发生样本点的类别变化。
近邻传播聚类算法的优点是可以自动发现数据中的聚类个数,并且对初始值不敏感。
同时,该算法可以处理非球形的聚类形状,并且能够处理有噪声或者缺失数据的情况。
然而,近邻传播聚类算法也存在一些缺点。
首先,该算法的时间复杂度较高,特别是在处理大规模数据集时会比较慢。
其次,算法的效果高度依赖于相似度的计算方式和参数的选择,不同的选择可能会导致不同的聚类结果。
总体来说,近邻传播聚类算法是一种简单且有效的聚类算法,适用于小型数据集和非球形聚类形状。
在实际应用中,可以根据具体问题的需求和数据特点来选择合适的聚类算法。
谱聚类算法综述一、本文概述谱聚类算法是一种基于图理论的机器学习技术,它在数据分析和模式识别中发挥着重要作用。
本文旨在对谱聚类算法进行全面的综述,从理论基础、算法流程、应用领域以及最新进展等多个方面进行深入的探讨。
我们将简要介绍谱聚类算法的基本概念和原理,包括图论基础、拉普拉斯矩阵、特征值分解等关键知识点。
然后,我们将详细阐述谱聚类算法的基本流程和主要步骤,包括数据预处理、构建相似度矩阵、计算拉普拉斯矩阵、求解特征向量和聚类等。
接下来,我们将重点分析谱聚类算法在不同领域中的应用,如图像处理、社交网络分析、机器学习等,并探讨其在这些领域中取得的成果和优势。
我们还将对谱聚类算法的性能进行评估,包括其时间复杂度、空间复杂度以及聚类效果等方面。
我们将对谱聚类算法的最新研究进展进行综述,包括新的算法模型、优化方法以及应用领域的拓展等方面。
通过对这些最新进展的梳理和总结,我们可以更好地了解谱聚类算法的发展趋势和未来研究方向。
本文旨在对谱聚类算法进行全面的综述和分析,为读者提供一个清晰、系统的认识框架,同时也为该领域的研究者提供有价值的参考和启示。
二、谱聚类算法的基本原理谱聚类算法是一种基于图理论的聚类方法,它通过将数据点视为图中的节点,数据点之间的相似性视为节点之间的边的权重,从而构建出一个加权无向图。
谱聚类的基本原理在于利用图的拉普拉斯矩阵(Laplacian Matrix)的特征向量来进行聚类。
构建相似度矩阵:需要计算数据点之间的相似度,这通常通过核函数(如高斯核函数)来实现,从而构建出一个相似度矩阵。
构建图的拉普拉斯矩阵:根据相似度矩阵,可以构建出图的度矩阵和邻接矩阵,进而得到图的拉普拉斯矩阵。
拉普拉斯矩阵是相似度矩阵和度矩阵之差,它反映了数据点之间的局部结构信息。
求解拉普拉斯矩阵的特征向量:对拉普拉斯矩阵进行特征分解,得到其特征向量。
这些特征向量构成了一个新的低维空间,在这个空间中,相似的数据点更接近,不相似的数据点更远。
谱聚类llr算法谱聚类(Spectral Clustering)是一种广泛应用于数据挖掘和模式识别领域的聚类算法,它基于谱图理论和图论的相关概念,通过将数据样本投影到低维度空间中进行聚类,能够有效地处理非线性和复杂的数据分布。
其中一种常用的谱聚类算法是局部线性嵌入谱聚类(Local Linear Embedding Spectral Clustering,简称LLR谱聚类)算法。
本文将详细介绍LLR谱聚类算法的原理和具体实现过程。
一、算法原理1. 构建相似度矩阵首先,根据给定的样本数据,我们需要计算每个样本之间的相似度。
常用的相似度度量方法有欧式距离、余弦相似度、高斯相似度等。
将相似度矩阵表示为W,其中W(i,j)代表第i个样本与第j个样本之间的相似度。
2. 构建拉普拉斯矩阵接下来,我们根据相似度矩阵W构建拉普拉斯矩阵L。
拉普拉斯矩阵有多种定义方式,比较常用的是归一化拉普拉斯矩阵。
归一化拉普拉斯矩阵L定义为L = D^(-1/2) * (D - W) * D^(-1/2),其中D为度矩阵,定义为D(i,i) = ∑W(i,j)。
3. 特征值分解对拉普拉斯矩阵L进行特征值分解,得到特征值和对应的特征向量。
将特征值按照从小到大的顺序排列,并选择其中的前K个特征值及对应的特征向量。
4. 归一化特征向量将选取的特征向量按列进行归一化,得到归一化特征向量。
5. K-means聚类将归一化特征向量作为输入数据,使用K-means聚类算法对样本数据进行聚类。
二、算法步骤LLR谱聚类算法的具体步骤如下:Step 1: 读取样本数据,计算相似度矩阵W。
Step 2: 构建拉普拉斯矩阵L。
Step 3: 对拉普拉斯矩阵L进行特征值分解,选择前K个特征值及对应的特征向量。
Step 4: 对选取的特征向量进行归一化。
Step 5: 将归一化特征向量作为输入数据,使用K-means聚类算法进行聚类。
三、算法优缺点LLR谱聚类算法具有以下的优点和缺点:优点:1. 能够有效地处理非线性和复杂的数据分布,具有较好的聚类效果。
摘要随着信息技术和数据库技术的迅猛发展,数据呈爆炸式增长,数据挖掘作为一种新兴的大数据分析技术,受到了众多领域的广泛关注。
聚类分析是数据挖掘领域的一个重要分支,通过无监督学习的方式,聚类分析能够从海量数据中挖掘出潜在的价值信息,为科学决策提供有效的依据。
近邻传播聚类算法(Affinity Propogation,AP)作为目前较为流行的聚类算法之一,已经被广泛的应用于众多领域。
但是AP算法也存在一些不足,本文针对AP 算法在具有粘连样本的复杂数据集上难以构造有效的相似度矩阵的问题,提出一种基于加权系数和邻域密度因子的近邻传播算法。
该算法利用加权系数改进领域密度的计算,并将“邻域密度因子“的思想引入近邻传播,将数据集中样本点划分为核心样本点与非核心样本点,并根据样本点的类型采用不同的方式构造连通图,依此计算得到更加能体现数据真实分布关系的相似度矩阵并进行聚类。
在人工数据集与UCI标准数据集上进行实验,结果表明该算法在一定程度上提高了聚类精度,从而验证了该算法的有效性与可行性。
此外,将改进后的近邻传播算法结合领域密度作为欠取样的一种方式,提出一种基于改进近邻传播聚类和领域密度的欠取样SVM算法,旨在解决传统SVM算法在类别不均衡数据集上分类效果差的问题,并通过对比实验验证了算法的有效性。
最后针对雾霾数据不均衡的特点,将基于改进近邻传播算法和领域密度的欠取样SVM算法应用于雾霾预测,构建一个基于此算法的雾霾预测模型,选取北京地区的空气质量数据作为样本,通过与其他雾霾预测算法模型进行对比,证明了本文模型在一定程度上提高了雾霾预测的准确率。
关键词:近邻传播;加权系数;邻域密度因子;不均衡数据;支持向量机;雾霾预测ABSTRACTWith the rapid development of information technology and database technology, data has exploded. Data mining, as a new analysis technology of big data, has been widely concerned in many fields. Clustering analysis is an important branch of data mining,which can extract potential value information from massive data and provide effective basis for scientific decision-making through unsupervised learning.Affinity Propogation (AP) clustering, as one of the most popular clustering algorithms, has been widely used in many fields. But there are also some deficiencies of AP algorithm.As affinity propogation (AP) clustering is difficult to construct effective similarity matrix on complex dataset with adhesion samples, an AP algorithm based on weighed-factor and neighborhood-based density factor(NDF) is proposed . The algorithm uses weighed-factor to improve the calculation of local density of data and introduces NDF into AP clustering to divide the datasets into core point and marginal point, then constructs connected graph in different ways according to the type of point,finally, the similarity matrix which reflects the real distribution of data can be calculated to perform clustering. Simulation experiments on artificial data sets and UCI standard datasets show that the algorithm improves the accuracy of clustering, which verifies the effectiveness and feasibility of this algorithm.In addition, combining the improved affinity propagation algorithm and local density as a way of under sampling, an under-sampling SVM algorithm based on improved affinity propagation clustering and local density is proposed, in order to solve the SVM algorithm for imbalanced data sets classification problems, and the effectiveness of the algorithm is verified by experiment. Finally, according to the unbalanced characteristics of the haze of data, this algorithm is used to construct a prediction model based on the haze.The air quality data in Beijing area are selected as samples, and compared with other haze prediction algorithm models, it is proved that this model improves the accuracy of haze prediction.Key words: Affinity propogation; Weighed-factor; Neighborhood-based density factor; Imbalanced data;SVM;Prediction of haze目录第一章绪论 (1)1.1 研究背景与意义 (1)1.1.1 研究背景 (1)1.1.2 研究意义 (1)1.2 国内外研究现状 (2)1.3算法研究内容与方法 (6)1.3.1 研究内容 (6)1.3.2 研究方法 (6)1.4 论文章节安排 (7)第二章相关理论介绍 (8)2.1 聚类基础理论分析 (8)2.1.1 聚类分析定义 (8)2.1.2 聚类算法的分类 (8)2.2 近邻传播算法基础理论分析 (10)2.2.1算法基本定义 (10)2.2.2 算法流程 (11)2.2.3 算法分析 (11)2.3 支持向量机相关基础理论 (12)2.3.1 支持向量机分类算法原理 (12)2.3.2 核函数 (13)2.4 本章小结 (13)第三章基于加权系数和邻域密度因子的近邻传播算法 (14)3.1 引言 (14)3.2 DAMS-AP算法概述 (14)3.3 基于加权系数和邻域密度因子的近邻传播算法 (15)3.3.1 算法提出背景 (15)3.3.2 局部加权系数 (16)3.3.3 邻域密度因子 (16)3.3.4 算法流程 (18)3.4 实验结果及分析 (19)3.4.1 实验参数设置 (19)3.4.2人工数据集实验 (19)3.4.3 UCI标准数据集实验 (24)3.4.4 邻域密度因子分析 (26)3.4.5 算法时间复杂度 (27)3.5 本章小结 (28)第四章基于近邻传播和领域密度欠取样的SVM算法 (29)4.1 引言 (29)4.2不均衡数据下SVM分类问题与欠取样分析 (30)4.2.1 SVM分类问题 (30)4.2.2欠取样算法分析 (31)4.3 基于WNDFAP-LD欠取样SVM算法 (32)4.3.1 算法基本思想 (32)4.3.2 算法流程 (33)4.4 实验结果及分析 (34)4.4.1 不均衡数据分类性能评估指标 (34)4.4.2 实验数据选取 (35)4.4.3 实验参数设置 (35)4.4.4 不同算法分类性能比较 (36)4.4.5 权重系数γ的选取 (38)4.5 本章小结 (40)第五章基于WNDFAP-LD-SVM的雾霾预测模型 (41)5.1 引言 (41)5.2 实验仿真及分析 (41)5.2.1实验环境及参数设置 (41)5.2.2实验数据集 (42)5.2.3实验对比及分析 (43)5.3 本章小结 (43)第六章总结与展望 (44)6.1 总结 (44)6.2 展望 (45)参考文献 (47)图 3.1粘连数据集示例图 (16)图 3.2本章改进方法构图 (18)图 3.3文献[15]中K近邻构图 (18)图 3.4人工数据集 (20)图 3.5四种算法在数据集(a)上的聚类结果图 (21)图 3.6四种算法在数据集(b)上的聚类结果图 (21)图 3.7四种算法在数据集(c)上的聚类结果图 (22)图 3.8四种算法在数据集(d)上的聚类结果图 (22)图 3.9四种算法在数据集(e)上的聚类结果图 (23)图 3.10参数β分析图 (27)图 4.1不均衡类别比为50:1时SVM分类界面 (30)图 4.2 删除远离边界的样本点后SVM分类界面 (31)图 4.3 WNDFAP-LD欠取样后SVM算法的分类界面 (33)图 4.4 各个算法多数类样本支持向量个数对比图 (38)图 4.5 不同γ值的G-mean指标对比 (39)图 4.6 不同γ值得Fmeasure指标对比 (39)表 3.1人工数据集基本情况 (20)表 3.2误分点数 (23)表 3.3聚类平均时间(单位:s) (24)表 3.4 UCI数据集基本情况 (25)表 3.5 F-measure指标情况对比 (26)表 3.6 Rand指标情况对比 (26)表 4.1不均衡数据集基本情况 (35)表 4.2不均衡数据集实验结果对比 (36)表 5.1 雾霾数据集基本情况 (42)表 5.2北京地区部分雾霾样例数据 (42)表 5.3雾霾数据集实验结果对比 (43)第一章绪论第一章绪论1.1 研究背景与意义1.1.1 研究背景近年来,随着信息产业和互联网的迅猛发展,大数据、云计算与人工智能等新兴名词逐渐火了起来。
语义增强的文本聚类方法研究一、语义增强的文本聚类方法概述随着信息技术的快速发展,文本数据的爆炸式增长使得文本聚类技术在信息检索、知识管理、数据挖掘等领域变得尤为重要。
文本聚类是一种无监督学习方法,旨在将文本数据自动地划分为若干个具有相似特征的类别。
然而,传统的文本聚类方法往往依赖于词频、位置等表面特征,难以深入挖掘文本的语义信息。
语义增强的文本聚类方法通过引入语义分析技术,能够更准确地捕捉文本的内在含义,从而提高聚类的效果和质量。
1.1 语义增强文本聚类的核心特性语义增强的文本聚类方法的核心特性主要体现在以下几个方面:- 语义一致性:通过语义分析技术,能够确保聚类结果在语义层面上具有一致性,提高聚类的准确性。
- 多维度特征:除了传统的词频特征,还能够利用词义、句法、语义角色等多维度特征,丰富聚类的维度。
- 动态适应性:能够根据文本数据的特点和变化,动态调整聚类策略,提高聚类的适应性和灵活性。
1.2 语义增强文本聚类的应用场景语义增强的文本聚类方法在多个领域都有着广泛的应用,包括但不限于以下几个方面:- 信息检索:通过聚类技术,能够将用户查询的关键词与相关文档进行匹配,提高检索的准确性和效率。
- 知识管理:在知识库中,通过聚类技术可以发现知识之间的关联,优化知识结构,促进知识的传播和应用。
- 数据挖掘:在大规模文本数据中,通过聚类技术可以发现数据的内在模式和规律,为决策提供支持。
二、语义增强文本聚类方法的关键技术语义增强的文本聚类方法涉及多种关键技术,这些技术共同作用,提升聚类的效果和质量。
2.1 语义分析技术语义分析技术是语义增强文本聚类方法的核心。
它通过分析文本中的词汇、句法、语义角色等信息,提取文本的深层含义。
常见的语义分析技术包括:- 词义消歧:通过上下文信息,确定多义词的具体含义,提高语义分析的准确性。
- 句法分析:分析句子的结构,提取主语、谓语、宾语等成分,理解句子的语义关系。
- 语义角色标注:标注句子中各个成分的语义角色,理解句子的深层含义。
近邻聚类法近邻聚类法是一种常见的无监督学习方法,用于将数据样本划分为不同的聚类或类别。
它基于数据样本间的距离或相似度度量,将相似的样本聚集在一起形成簇。
近邻聚类法可以用于多个领域,如图像处理、文本分析和生物信息学等。
概述近邻聚类法的基本思想是,将数据样本投射到一个多维的特征空间,通过计算样本之间的距离或相似度来描述它们之间的关系。
这种关系可以用一个近邻图来表示,其中每个样本都与其邻近的样本相连。
通过对这个近邻图进行分析,可以将样本划分为不同的聚类或类别。
K-近邻算法K-近邻算法是近邻聚类法中最简单和最常见的一种方法。
它的基本思想是,将每个样本的k个最近邻作为其邻近样本,并根据这些邻近样本进行聚类。
K-近邻算法的步骤如下:1.计算样本间的距离或相似度。
常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离等。
2.对每个样本找出其k个最近邻。
3.基于邻近样本的关系构建一个近邻图。
4.根据近邻图对样本进行聚类。
K-近邻算法的优点是简单易实现,但它也存在一些限制。
首先,它对于大规模数据和高维数据的处理效果不佳。
其次,K值的选择对聚类结果有较大影响,需要进行调参。
此外,K-近邻算法对于样本分布不均匀的数据集,可能会出现聚类不准确的情况。
K-均值算法K-均值算法是另一种常见的近邻聚类方法,它将数据样本划分为k个簇。
K-均值算法的基本思想是,随机选择k个样本作为初始的聚类中心,然后通过迭代的方式更新聚类中心,直到达到收敛条件。
K-均值算法的步骤如下:1.随机选择k个样本作为初始的聚类中心。
2.计算每个样本与聚类中心之间的距离,将样本分配给最近的聚类中心。
3.更新聚类中心,将每个簇内的样本的均值作为新的聚类中心。
4.重复步骤2和步骤3,直到达到收敛条件。
K-均值算法的优点是简单易懂,且在处理大规模数据集时具有较高的效率。
然而,K-均值算法也有一些缺点。
首先,它对初始聚类中心的选择较为敏感,不同的初始值可能会导致不同的聚类结果。
基于近邻传播聚类的集成特征选择方法
孟军;尉双云
【期刊名称】《计算机科学》
【年(卷),期】2015(042)003
【摘要】针对高维数据中的类标记仅与少部分特征关联紧密的问题,提出了基于排序聚合和聚类分组的特征随机选择集成学习方法.采用排序聚合技术对特征进行过滤,选出与样本分类相关的特征,以bicor关联系数作为关联衡量标准,利用近邻传播聚类算法进行分组,使不同组的特征互不关联,然后从每个分组中随机选择一个特征生成特征子集,便可得到多个既存在差异性又具备区分能力的特征子集,最后分别在对应的特征子空间训练基分类器,采用多数投票进行融合集成.在7个基因表达数据集上的实验结果表明,提出的方法分类误差较低,分类性能稳定,可扩展性好.
【总页数】5页(P241-244,260)
【作者】孟军;尉双云
【作者单位】大连理工大学计算机科学与技术学院大连116024;大连理工大学计算机科学与技术学院大连116024
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于聚类集成的无监督特征选择方法 [J], 凌霄汉;吉根林
2.基于近邻传播聚类方法的慢性胃炎症状群分布特征研究 [J], 郑舞;刘国萍;颜建军;
陆雄;钱鹏
3.一种基于递归分类树的集成特征基因选择方法 [J], 李霞;张田文;郭政
4.基于阿尔茨海默病早期诊断集成特征选择方法的研究 [J], 曹元磊;胡斌;高翔
5.基于特征聚类集成技术的组特征选择方法 [J], 黄莎莎
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于模糊聚类的汉语文本自动分类方法
卢忠良;王家云;荣融;朱劲松;孙即祥
【期刊名称】《计算机应用与软件》
【年(卷),期】2003(020)010
【摘要】如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈.本文提出的中文文本分类方法,较好地解决了信息的实时分类问题,在实践中收到了良好的效果.由于汉语文本的特殊性,在分类器训练前对训练文本进行自动分词和降维预处理.许多文本往往可能归到多个类,因此分类算法采用模糊c-原型算法.实验表明,该方法综合效果较好,可以实现文本的快速分类.
【总页数】3页(P49-50,61)
【作者】卢忠良;王家云;荣融;朱劲松;孙即祥
【作者单位】国防科技大学电子科学与工程学院,长沙,410073;解放军61587部队,上海,200336;解放军61587部队,上海,200336;解放军61587部队,上海,200336;解放军61587部队,上海,200336;国防科技大学电子科学与工程学院,长沙,410073【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种基于粗糙-神经网络的文本自动分类方法 [J], 王效岳;白如江
2.一种基于模糊聚类级进模冲切刃口设计的改进方法 [J], 吴彬;张小萍;王国伟
3.一种基于模糊聚类模型的动量轮健康性排序方法 [J], 季业;崔振;王雪涛;严嵘;刘
一帆
4.一种基于词上下文向量的文本自动分类方法 [J], 郭少友
5.一种基于改进模糊聚类算法的自适应典型日选取方法 [J], 邬浩泽;朱晨烜;张贻山;龙艳花
因版权原因,仅展示原文概要,查看原文内容请购买。
一种改进近邻传播聚类的图像分割算法孙劲光;赵欣【期刊名称】《计算机工程与应用》【年(卷),期】2017(053)006【摘要】Since the computational complexity of AffinityPropagation(AP)algorithm is excessively high, and the impact of density difference of data points made on clustering effect is inevitably, an improved affinity propagation clustering algorithm is proposed in this paper and applied to image segmentation. Firstly, when measuring the similarity between data points, the influence that density difference makes on the possibility that the data point is suited to be the exemplar is con-sidered, and the preference is set according to density clustering thought. At the same time, spatial adjacency information is taken into consideration and image information is made full use of to enhance the rationality of constructing the similarity matrix. Consequently, the cohesiveness of clustering and segmentation accuracy are improved. Secondly, Nystr?m approx-imation strategy is introduced to reduce the computational complexity to solve similarity matrix and the memory consump-tion, which improves the efficiency of the algorithm. The experiments prove that the proposed algorithm can obtain better segmentation results than the affinity propagation clustering algorithm.%针对近邻传播(Affinity Propagation,AP)聚类算法存在运算复杂度高且未考虑数据点密度对聚类效果的影响的问题,提出一种改进的近邻传播聚类算法并应用于图像分割.首先,在度量数据点之间的相似性时,考虑到密度差异对数据点成为类代表点可能性的影响,利用密度聚类的思想设置偏向参数,同时引入数据点的空间邻近位置信息,充分利用图像信息,提高相似度矩阵构造的合理性,增强聚类的内聚性,并提高分割精度;其次,为降低计算相似度矩阵的复杂度,减小计算机内存开销,引入Nystr?m逼近策略求解相似度矩阵,提升了算法的效率.实验表明,改进后的算法与传统的近邻传播聚类算法相比获得了更好的图像分割效果.【总页数】6页(P178-182,199)【作者】孙劲光;赵欣【作者单位】辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛 125105;辽宁工程技术大学研究生学院,辽宁葫芦岛 125105【正文语种】中文【中图分类】TP391【相关文献】1.一种基于自适应标记与区域间近邻传播聚类的分水岭图像分割算法 [J], 蔡强;刘亚奇;曹健;李海生;杜军平2.最大方差比图像分割算法的一种改进——以前磁曲线图像为例 [J], 尚福华;纪延瑶;栾泊3.最大方差比图像分割算法的一种改进——以前磁曲线图像为例 [J], 尚福华;纪延瑶;栾泊4.一种改进的K-means聚类服装图像分割算法 [J], 高樱萍;宋丹;王雅静;张轩宇5.一种结合空间信息的改进模糊聚类图像分割算法 [J], 刘旭东;李云红;屈海涛;苏雪平;谢蓉蓉因版权原因,仅展示原文概要,查看原文内容请购买。
基于近邻传播的时间序列基因表达谱聚类算法
周运;徐久成;徐存拴
【期刊名称】《河南师范大学学报:自然科学版》
【年(卷),期】2015(0)6
【摘要】聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.
【总页数】7页(P134-140)
【关键词】近邻传播;时间序列;反向相关;瞬时相关;基因表达谱
【作者】周运;徐久成;徐存拴
【作者单位】河南师范大学生命科学学院;河南师范大学省部共建细胞分化调控国家重点实验室培育基地;河南师范大学计算机与信息工程学院
【正文语种】中文
【中图分类】TP391.9
【相关文献】
1.基于粒子群算法的基因表达谱聚类分析方法 [J], 李梁;陈佳瑜
2.基于粒子群算法的基因表达谱聚类分析方法 [J], 李梁;陈佳瑜;
3.基因表达数据的分层近邻传播聚类算法 [J], 吴娱;钟诚;尹梦晓
4.基于局部密度估计和近邻关系传播的谱聚类 [J], 葛洪伟;李志伟;杨金龙
5.基于共享最近邻的密度自适应邻域谱聚类算法 [J], 葛君伟;杨广欣
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于均值更新的分类模型冯进玫;卢志茂;陈纯锴【期刊名称】《计算机系统应用》【年(卷),期】2012(021)008【摘要】The minimum distance classification algorithm and the nearest neighbor classification algorithm are the simplest, most rapid and most effective classification methods, and they are more sensitive to the noise. But to the training samples in few or the training samples that are far from the cluster center, the classification results is poor. To solve this problem, this paper proposes a classification model based on the mean update (MU), by expanding the training sample and updating the mean center to improve the classification results of the test data; and on this basis, it proposes the MU-based minimum distance (MU-MD) classification model, and uses the MU's classification results to recalculate the mean of all test samples, then all test samples are re-divided by using the minimum distance method, so as to determine the final category attribution. This can partially correct misclassification in the MU category process and further improve the classification results.%最小距离分类法和最近邻分类法是最简单、快速、有效的分类方法,但对噪声较敏感,对于训练样本很少或训练样本偏离类中心较远时,分类效果较差.针对这一问题,提出了基于均值更新(MU)的分类模型,通过不断扩大训练样本并更新均值中心来改善对测试数据的分类效果;并在此基础上提出了基于均值更新的最小距离(MU-MD)分类模型,利用MU的分类结果重新计算各类的均值,然后采用最小距离法对所有测试样本重新进行划分,以确定最终的类别归属,这样可以部分纠正MU分类过程中的错分,进一步提高分类效果.【总页数】5页(P123-126,135)【作者】冯进玫;卢志茂;陈纯锴【作者单位】哈尔滨工程大学信息与通信工程学院,哈尔滨150000;黑龙江科技学院电气与信息工程学院,哈尔滨150027;哈尔滨工程大学信息与通信工程学院,哈尔滨150000;哈尔滨工程大学信息与通信工程学院,哈尔滨150000;黑龙江科技学院电气与信息工程学院,哈尔滨150027【正文语种】中文【相关文献】1.一类随机截尾Simmons模型及基于一种模糊均值算法识别分类的应用 [J], 余喜生;余炳红2.一种基于K-均值分类稀疏表示的灰度图像颜色重建方法 [J], 张迪;康宝生;张雷;张婧3.一种基于模糊神经网络–模糊C均值聚类的双偏振气象雷达降水粒子分类方法[J], 李海;任嘉伟;尚金雷4.一种基于K均值聚簇的虚拟机分类与部署方法 [J], 李俊雅;牛思先;程星5.一种基于均值的多维样本空间分类器的设计与实现 [J], 张燕红;王卫玲;王凤芹;杜晶因版权原因,仅展示原文概要,查看原文内容请购买。
第33卷第7期哈尔滨工程大学学报Vol.33ɴ.72012年7月Journal of Harbin Engineering UniversityJul.2012近邻传播的文本聚类集成谱算法卢志茂1,李纯1,2,张琦1(1.哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;2.中国人民解放军91685部队,海南陵水572400)摘要:针对现有聚类集成谱算法聚类结果不稳定的问题,引入近邻传播聚类思想,设计了基于近邻传播的聚类集成谱算法(APCESA ).该算法先由聚类集成和谱分得到空间结构相对简单的文本低维嵌入,然后通过近邻传播算法得到最终的聚类结果.在谱分解过程中,采用矩阵变换方法,避免了谱算法中特征值分解的高昂计算代价.对真实文本数据集的实验结果表明,所提算法比对比算法聚类更稳定,且聚类结果的NMI 值和ANMI 值均高于对比算法.关键词:近邻传播;聚类集成;文本聚类;谱聚类;矩阵变换doi :10.3969/j.issn.1006-7043.201109001网络出版地址:http ://www.cnki.net /kcms /detail /23.1390.U.20120617.2134.015.html 中图分类号:TP391文献标志码:A文章编号:1006-7043(2012)07-0899-07A document cluster ensemble spectral algorithmbased on affinity propagationLU Zhimao 1,LI Chun 1,2,ZHANG Qi 1(1.College of Information and Communication Engineering ,Harbin Engineering University ,Harbin 150001,China ;2.The P.L.A 91685Troops ,Lingshui 572400,China )Abstract :The existing cluster ensemble spectral algorithm are mostly unstable.To solve this problem ,an affinitypropagation-based cluster ensemble spectral algorithm was proposed ,which brings in the idea of affinity propagationclustering.The algorithm utilized cluster ensemble and spectral analysis to achieve the low dimensional embedding of documents ,and obtained the final clustering results by using an affinity propagation clustering algorithm.To a-void the high computational cost of eigenvalue decomposition in a spectral algorithm ,matrix transformation was used in this paper.Experiments using real-world document sets show that the proposed algorithm is more stable than thecompared methods ,both NMI and ANMI values of the clustering result are higher than that of the comparison method.Keywords :affinity propagation algorithm ;cluster ensemble ;document clustering ;spectral clustering ;matrix trans-formation收稿日期:2011-09-01.网络出版时间:2012-6-1721:34.基金项目:国家自然科学基金资助项目(60975042).作者简介:卢志茂(1972-),男,教授,博士生导师;李纯(1984-),男,助理工程师,硕士.通信作者:李纯,E-mail :lichun5431@163.com.随着网络的迅速发展,快速有效地获取信息成为人们的迫切需要,因此,如何提高信息获取的效率已成为研究人员广泛关注的课题.文本作为信息的重要表达形式之一,针对文本的处理研究显得尤为必要.文本聚类可以有效地识别无结构文本集中的“潜在概念”,并用这些概念和潜在关联性得到文本集的概要或簇划分等有意义的模式表达,这些模式信息对组织、搜索和管理大规模文本集具有重要意义[1].2002年,Strehl 等[2]将集成学习引入到聚类分析中,提出了聚类集成算法.较之传统的聚类算法,聚类集成算法具有鲁棒性、新颖性、稳定性、并行及可扩展性等诸多优点[3].作为传统聚类算法的重要扩展,聚类集成已经引起众多研究者的关注,成为机器学习领域的研究热点之一.谱聚类算法对数据集的簇形状不做强的假设,且算法不会陷入局部最优[4],是解决非凸数据集聚类问题较有效的算法.谱聚类算法的缺点也不容忽视:1)其计算复杂度为O (n 3);2)谱聚类要求对相似度图的参数精确设置,且在参数设置方面没有相应的理论指导;3)谱聚类虽可有效识别理想分离和接近理想分离的簇,但真实文本数据集的簇分布往往与理想状态相差甚远,多数真实的文本数据集在空间分布上类别边界不明显.文献[5]将聚类集成和谱聚类结合起来提出了2个聚类集成的谱算法,并在多组数据集上获得了较好的实验效果.然而,上述算法在对谱分解得到的文本低维嵌入的聚类的过程中使用了K-means算法,由于K-means算法对初始点的敏感性会导致最终的聚类结果的不稳定.针对该问题,本文研究如何进一步提高聚类集成谱算法的稳定性和聚类质量.考虑到造成聚类结果不稳定的原因在于K-means算法对于初始点的敏感性,所以本文引入近邻传播聚类思想,设计了一种新的聚类集成谱算法,并通过多组实验验证了本文算法的有效性.1近邻传播聚类算法近邻传播(affinity propagation,AP)[6]聚类算法与其他基于中心点聚类方法相比,该方法无需指定初始的聚类中心和类别数,且具有较好的稳定性.同时它对相似矩阵的对称性不作要求,并在处理多类数据集时运算速度更快,所以性能更好.但是,由于AP算法也是基于中心的聚类算法,它和其他的中心聚类算法一样,仅在紧凑的具有球形分布的数据集上具有较好的聚类性能,对于一些簇分布比较复杂的数据集,其空间结构可能非凸,使得AP算法只能收敛于局部最优解[7-8].因此,AP算法并不适合任意空间形状的聚类问题和具有多重尺度的数据[9],所以直接将AP算法用于结构复杂的文本数据是不可行的,本文的实验也证明了这一点.对于AP算法存在的不足,学者分别从半监督[7]、偏置参数控制[8]、指定类别数[9]、相似度矩阵的构造[10]等方面进行了改进.鉴于AP算法的优点和存在的问题,本文结合文献[5]的思想,从改善数据集空间结构角度入手,通过“集成+谱分解”来实现文本的降维和空间结构转化,以得到空间结构更简单的文本低维嵌入,为AP算法提供更好的输入,克服了AP算法在复杂数据集上聚类效果不理想的缺点.同时AP算法无须指定初始点,避免了传统谱聚类算法中由于K-means算法对初始点的敏感性造成聚类结果不稳定的问题.2聚类集成算法聚类集成一般分为2步,首先使用一种或多种聚类算法,对数据集进行聚类,得到多个聚类结果(聚类成员),这一步称为聚类成员的生成阶段;然后把得到的多个聚类成员作为新的输入,通过集成算法对它们进行组合,输出最终的聚类结果,这一步称为成员集成阶段.在聚类成员生成的过程中,常用的方法是使用K-means算法[11-13],随机选择初始点运行m次,以获得m个聚类成员.该方法的优点在于其计算复杂度低,实现起来简单方便,适合于大规模数据集应用.目前聚类集成问题的主要解决方法之一是基于图划分的方法.Strehl等[2]提出了3种基于图划分的聚类集成算法,基于簇的相似度划分算法(cluster-based similarity partitioning algorithm,CSPA)、超图划分算法(hyper graph partitioning algo-rithm,HGPA)以及元聚类算法(meta-clustering algo-rithm,MCLA)算法.CSPA通过聚类成员的共联矩阵构造超图,再由图划分算法METIS[14]给出聚类结果,算法的计算复杂度虽为O(n2),但是它调用了高效的METIS算法,极大地提高了算法的效率;HGPA 算法先构造一个超图,再由超图划分算法HME-TIS[15]进行聚类,得到最终的聚类结果;MCLA算法用二元Jaccard系数来度量超边之间的相似度,随后通过METIS算法对超边进行断裂操作,以获得最终的簇划分.此外,Fern等[16]使用二部图模型建模对点和簇同时建模,提出了混合二部图模型(hybrid bipartite graph formulation,HBGF)算法.上述4种算法在聚类过程中都使用了图划分算法,图划分的算法虽然对簇的形状不做强的假设,但是为避免算法收敛到平凡解,对簇的规模做了潜在的平衡性约束,即假定每个簇内的样本点数大致相等.当数据集的平衡性不理想时,算法的聚类性能难以得到保证.3近邻传播的聚类集成谱算法文献[17]从矩阵扰动理论角度对谱聚类算法进行了解释,并给出了权矩阵(相似度矩阵S、正则化拉普拉斯矩阵L sym和L rw、非正则化拉普拉斯矩阵L以及图上的随机游动对应的转移概率矩阵P)的特征值与簇个数之间的对应关系以及特征向量与簇之间的关系.当数据集的各簇理想分离时,以相似度矩阵的前k个单位正交特征向量为列向量组成矩阵的行向量,可以看作是原待聚数据集的低维嵌入,根据各行向量之间的夹角可以用来对原数据集进行聚类.据此思想,为进一步提高算法性能及稳定性,本文在聚类集成谱算法得到的文本低维嵌入聚类阶段引入近邻传播聚类思想,设计了一种新的聚类集成·009·哈尔滨工程大学学报第33卷算法,本文称之为近邻传播的聚类集成谱算法(af-finity propagation based cluster ensemble spectral algo-rithm,APCESA).3.1AP算法的基本原理AP算法从相似度矩阵S=[s(i,j)]nˑn出发,并引入了2个重要的信息参量矩阵,分别为代表度矩阵R=[r(i,j)]nˑn和适选度矩阵A=[a(i,j)]nˑn.算法的迭代过程就是这2个信息量竞争交替更新的过程,2个信息量代表了不同的竞争目的.r(i,j)从点x i指向点x j,它为类代表点x j搜集证据,表示x j 适合作为x i的类代表点的代表程度.a(i,j)是从点xj指向点x i,它为类代表点x i搜集证据,表示x i选择x j作为类代表点的合适程度.AP算法的核心步骤为2个信息量的交替更新过程,设当前迭代次数为t,则更新公式如下:r'(i,j)←(1-β){s(i,j)-maxj's,t j'≠j(a t-1(i,j')+s(i,j'))}+βr t-1(i,j),(1)d(i,j)←(1-β)ˑmin{0,r t-1(j,j)+Σi's,t i' (i,j)max(0,r t(i',j))}+βd-1(i,j),(2)a t(j,j)←(1-β)ˑ{Σi's,t i'≠jmax(0,r'(i',j)}+βa t-1(j,j).(3)式中:β为阻尼因子,其作用是防止算法在迭代过程中发生震荡.各样本点通过反复迭代竞争,迭代结束后,具有高的r(j,j)+a(j,j)的样本为竞争得到的最终类代表点.对于任意数据点x i,计算所有数据点的代表程度r(i,j)和适选程度a(i,j)之和,其类代表点为x j:arg maxj[r(i,j)+a(i,j)],依此将各非类代表点样本点分配给其所属的类代表点即可得到聚类结果.3.2近邻传播的聚类集成谱算法设B={b1,b2,…,b n}为文本集,F={F(1),…,F(m)}为对其划分得到的m个聚类标签(聚类成员)组成的集合.先把各簇标签F(i)变为超图表示H(i),则超图的nˑt的邻接矩阵H={H(1),…,H(r)},其中n为超图的顶点数,t=mk为超边数.若采用余弦相似度,则相似度矩阵S=[s(i,j)]nˑn=HH T/m.其中s(i,j)表示m个聚类成员中样本点i和样本点j 属于一个簇的次数比例,以此作为2个样本点的相似度,得到超图的相似度矩阵作为谱聚类的权矩阵,避免了传统谱聚类算法中精确参数设计.这里m为常数,对矩阵分解无意义可舍弃不予考虑,则相似度矩阵S可简化为S=HH T.更重要的是,由此方法得到的相似度矩阵S的特征值分解问题可通过小矩阵Q=H T H进行间接求解.APCESA算法的主要步骤概括如下:输入:dˑn的词-文本共现矩阵W,(d为文本集的特征词数,n为文本集的样本数),簇个数k.1)对W中的每个行向量(对应于文本集中的一个文本)根据TF-IDF(term frequency-inverse docu-ment frequency)加权,经标准化后,随机选取初始点,运行K-means算法m次,以得到m个聚类成员.由m个聚类成员构建超图的邻接矩阵H,构造相似度矩阵S=[s(i,j)]nˑn=HH T.2)计算S的前k个最大特征值λ1,…,λk对应的特征向量u1,…,u k.构造矩阵U=[u1,…,u k],设u i∈R k为U的第i个行向量,Y={u i|i=1,…,n}即为文本集B对应的低维嵌入.3)计算低维嵌入的相似度矩阵S'=[s'(i,j)]nˑn,设置初始偏执参数P,初始化代表度矩阵R=[r(i,j)]nˑn和适选度矩阵A=[a(i,j)]nˑn.4)按式(1) (3)进行迭代至收敛,得到对应的类别数k',判断k'是否等于k,是则输出聚类结果,给出对应的簇划分C1,…,C k;不是则调节偏执参数p继续搜索.5)依行向量的簇划分将对应的文本归入到相应的簇中,得到最终的聚类结果B1,…,B k,其中Bi={bj|zj∈C i,b j∈B},1≤i≤k.输出:文本簇B1,…,Bk.本文在求相似度矩阵的特征值分解的过程中使用了近似间接求解的方式.考虑特征值分解方程:Sx=λx,把S=HH T代入方程,得到HH T x=λx.设H的秩为p=rank(H)≤t,矩阵H的SVD定义如下:H=UΣV T.(4)式中:UU T=VV T=I,Σ=diag(σ1,…,σn),σi为H 的奇异值,且有当1≤i≤p时,σi=0,当i≥p+1时,σi=0.由式(4)可得H T=VΣU T,HH T=UΣ2U T,H T H=VΣV T,因此H的左、右奇异向量分别等于HH T和H T H的p个非0特征值对应的特征向量,而奇异值等于HH T和H T H的特征值的非负平方根.为降低计算误差,SVD一般都转化为对称矩阵的特征值分解,将式(4)两边同时右乘VΣ+,其中Σ+为Σ的广义逆,也称伪逆或Moore-Penrose逆:Σ+=diag(σ-11,σ-12,…,σ-1p,0,…,0p+1→t).(5)经过整理可得U=HVΣ+.依此变换,避免了n·109·第7期卢志茂,等:近邻传播的文本聚类集成谱算法阶方阵S的特征值分解问题.APCESA算法的巧妙之处在于:1)该算法先通过聚类集成为谱分解提供有意义的相似度矩阵,避免了谱聚类算法在处理高维数据集时由于对数据集的簇分布缺乏先验知识导致相似度图参数设置困难的问题;2)由谱分解得到的文本低维嵌入在空间结构分布上更简单,以此作为AP算法的输入,有效的克服了AP算法在空间结构复杂的数据集上聚类不理想的缺点;3)在低维嵌入聚类阶段,AP算法由于无需指定初始点,从而避免了传统谱算法中由于K-means算法对于起始点的敏感性造成的聚类结果不稳定问题,保证了算法的稳定性.4算法有效性验证实验为验证APCESA算法的有效性,本文先将APC-ESA算法与凝聚层次聚类(agglomerative hierarchical clustering:AHC)、K-means算法以及本文引入的原始AP算法进行了对比试验.为使对比实验更客观,算法效率更高,实验中相似度均采用余弦相似度.各样本点的向量表示经归一化后其模长为1,样本点xi和x j之间的余弦相似度s(i,j)定义如下式:s(i,j)=cos(θ(xi ,xj))=xi·xj‖x i‖‖x j‖=x i ·xj=xix Tj.(6)此时,2个样本点间相似度可简化为2个对应向量的点积,这样就可以有效提高聚类算法的执行效率.为进一步证明APCESA算法在聚类集成算法中的优越性,本文还将APCESA算法与文献[5]中提到的5种聚类集成算法进行了比较.由于文献[5]中提出的2种谱聚类集成算法性能大致相当,基于相似度矩阵的谱算法(similarity matrix-based spectral algorithm,SMSA)算法性能略优于基于超边相似度矩阵的谱算法(hyperedges'similarity matrix-based spectral algorithm,HSMSA)算法,所以在本文的实验中略去与HSMSA算法的比较.4.1实验数据集及评价指标本文实验使用的6个数据集都为真实的文本数据集,各数据集的样本数、特征、真实的类别数如表1所示.其中,数据集tr31和tr41分别源于文本集TREC-6[18]和TREC-7[18],数据集re0和re1源于Reuters-21578文本分类测试集[19];数据集hitech和reviews是对San Jose Mercury报纸不同领域的收录,它们也是TREC[18]文本集其中的一部分(TIPSTER Vol.3);hitech收录了关于电子、计算机、健康、医疗、科技和研究6个方面的文章;reviews包含了关于电影、美食、音乐、广播和饭店5个方面的文章.6个文本集中所有文本的类别标签唯一.每个数据集,经过停用词表去停用词,并去掉少于在2个文本中出现的稀有词,再经词频统计得到对应的词-文本共现矩阵,以此作为本文实验的输入.表1实验数据集描述Table1Description of experimental datasets数据集文档数特征词数类别数tr31927101287tr41878745410re01504288613re11657375825hitech2301131706reviews4069232205由于各文本集的类别标签已知,且文本集的类别数k作为算法的已知输入,本文采用源自信息论中的标准化互信息量(normalized mutual informa-tion,NMI)[2]来度量聚类结果和已知类别标签的匹配程度.相比于纯度和熵等指标,NMI值对k值的选取无倾向性,可以更客观地衡量聚类效果的优劣,也是近年来使用最多的评价指标之一.当聚类标签与真实的类别标签完全一致时,NMI值达到其最大值1.在APCESA算法与5种聚类集成算法的对比中,本文还使用了平均标准互信息量(average normal-ized mutual information,ANMI)[2]来度量各聚类集成算法的集成性能,ANMI值通过计算最终的聚类结果和m个聚类成员之间的平均标准互信息量得到,ANMI值越大,表明聚类集成算法搜索识别各聚类成员间一致性的能力越强,ANMI值也是近年来聚类集成算法的一个有效度量指标.4.2实验结果及分析4.2.1实验1:与主流聚类算法的对比实验APCESA算法与凝聚层次聚类、K-means算法以及AP算法的对比试验结果如表2所示(4种算法在各数据集上得到的关键值用加粗突出).实验中K-means算法由于对初始点的选择的随机性使得聚类结果不稳定,在实验中取运行10次指标的均值作为实验的参考指标;reviews数据集在使用AHC算法的过程中,由于AHC算法空间复杂度过大发生了内存溢出错误,没能得到聚类结果,在表中用“—”表示.·209·哈尔滨工程大学学报第33卷表24种聚类算法的NMI值对比Table2Comparison of NMI scores among4algorithms 数据集AHC K-means AP APCESAtr310.5310.5890.3990.701tr410.6350.6650.5020.692re00.3270.3930.3010.413re10.4830.5740.4860.597hitech0.2530.3100.1850.332reviews—0.5200.3390.582avg0.4460.5080.3660.553从表2可以看出:1)APCESA算法在6个数据集上都得到了最高的NMI值,且在6个数据集上的平均值也比其用于产生聚类成员的K-means算法的平均指标提高了8.86%,这体现了该聚类集成算法对用于产生聚类成员的基聚类算法的改善效果,也说明将AP算法用于聚类集成谱算法中解决文本聚类集成问题是可行的.2)在AHC、K-means和AP这3种单聚类算法的对比中可以看出,各数据集上AHC和K-means算法得到的结果都要优于AP算法,这反映了AP算法在空间结构复杂的文本数据集上的聚类性能的不足,所以直接将AP算法用于文本聚类是不合理的.3)从各数据集的对比中可以发现,在数据集tr41上各聚类算法都得到了较好的聚类效果,且AHC、K-means算法以及APCESA算法得到的结果比较接近,这说明该数据集的类别边界相对明显.相反,在数据集hitech上各算法的聚类结果都不理想.究其原因,这和该数据集本身的空间结构有很大的关系,hitech收录了包含计算机、电子、健康、医疗、研究和科技6个方面的文章,其中计算机、电子、科技文章的相似性极高,而且健康和医疗2类也相互穿插,这种相似性反映到向量空间模型中则表现为空间结构的复杂性和簇边界的模糊.随着这种复杂性的增加,必然导致聚类难度的增加和聚类质量的下降,这也从侧面说明了聚类分析的困难性.这种空间结构复杂性的增加使得AP算法的性能下降明显,然而在该数据集上,APCESA算法依然取得了相对较好的聚类结果,这反映了APCESA算法的鲁棒性.4)在AP算法和APCESA算法的对比中可以看到,AP算法在6个数据集上的结果都很不理想,然而通过与聚类集成谱算法的结合APCESA算法得到的聚类结果不但稳定,而且聚类质量也明显改善,说明了AP算法和聚类集成谱算法的结合是有效的.4.2.2实验2:与几种聚类集成算法的对比实验为进一步证明APCESA算法的有效性,本文还将APCESA算法与CSPA、HGPA、MCLA、HBGF以及文献[5]中提出的SMSA这5种聚类集成算法进行了对比实验.6种聚类集成算法在6个数据集得到的NMI值和ANMI值如图1、2所示.因为在HGPA 算法中调用了HMETIS算法,而HMETIS只能得到局部最优解,所以HGPA算法获得的聚类结果不稳定,这里取运行10次评价指标的平均值;调用图划分算法METIS的CSPA和MCLA获得的聚类结果比较稳定;SMSA算法由于在低维嵌入聚类过程中使用了K-means算法,得到的聚类结果也存在一定的随机性,同样取运行10次评价指标的平均值.考虑到聚类集成算法的效率,聚类成员的数量不宜太多,实验中取5个聚类成员,即算法中m取5.此外,为使实验更客观,6种聚类集成算法在各数据集上使用相同的聚类成员,以免由于聚类成员的质量不统一对算法的性能对比造成干扰.图16种集成算法的NMI值对比Fig.1Comparison of NMI scores among6algorithms由图1和图2可以看出:1)本文提出的APCESA算法除了在reviews数据集上得到的NMI值和ANMI值与SMSA和HBGF 相当外,在其他所有数据集上都得到了高于其他对比算法的NMI和ANMI值.同时,APCESA算法在6个数据集上得到的NMI和ANMI的平均值也是最高的,证明了APCESA算法的有效性.2)在6种聚类集成算法中,APCESA、SMSA和HBGF在集成过程中都使用了谱聚类算法,上述3个聚类集成算法除了HBGF在hitech上得到的NMI 值略低于CSPA算法外,在其他数据集上都得到了·309·第7期卢志茂,等:近邻传播的文本聚类集成谱算法图26种集成算法的ANMI值对比Fig.2Comparison of ANMI scores among6algorithms 较好的NMI值和ANMI值,这说明了谱聚类算法对聚类集成算法的性能改进效果是明显的.与SMSA 和HBGF2种算法相比,APCESA算法有更好的稳定性,且在tr31、tr41、re0和re1这4个数据集上的优势明显,在reviews和hitech上也得到了不低于上述2种谱算法的NMI值和ANMI值,所以在聚类性能和稳定性上APCESA算法略优于上述2种算法.同时,在CSPA、HGPA、MCLA3种方法的对比中,CSPA 得到的聚类结果最好,而HGPA和MCLA的NMI值互有高低,这一实验结果与文献[2]中的结论吻合.3)6种算法在hitech数据集上的NMI值和AN-MI值都不太理想,究其原因,这和该数据集复杂的空间结构有很大的关系,在上文APCESA算法与3种单聚类算法的对比中也体现了这一点.在该数据集上,APCESA算法得到的NMI值和ANMI值也略高于5种对比集成算法,这说明了通过聚类集成和谱分解在数据空间结构上的转化是有效的,较好地克服了AP算法在结构复杂数据集上的不足,也说明APCESA算法比其他5种算法鲁棒性更好.4)理论上算法的ANMI值和NMI值是一致的,但实验中存在少数例外情况.例如CSPA在数据集tr31上得到的NMI值比MCLA高,但其ANMI值却较MCLA低.这从侧面说明了聚类的复杂性,一个理论上可行的聚类准则未必能得到最优解,而同一个准则函数又很难在所有数据集上都得到好的聚类结果.5)从总体上看,不同算法获得的NMI值和AN-MI值有很大的联系,即高的ANMI值一般能得到较高的NMI值,6种算法在6个文本数据集上得到的平均NMI值和平均ANMI值的也正是这种对应关系.这正说明了聚类集成的有效性,即聚类集成可以通过融合聚类成员达到提高聚类质量的目的,聚类集成算法发现聚类成员的一致性能力越强,得到的聚类效果越好.APCESA得到了最高的平均NMI值和平均ANMI值,且在其中4个数据集上都得到的NMI值和ANMI值优势明显,说明了APCESA算法在聚类性能和集成性能上优于对比算法,证明了算法的有效性.APCESA算法在文本低维嵌入聚类过程中由于无需指定初始的聚类中心,当聚类成员确定后,得到的最终聚类结果唯一,所以相对SMSA和HBGF2种聚类集成算法,APCESA更稳定.同时,由于聚类成员有多个,虽然每个聚类成员由于初始点的不同具有一定的随机性,但是聚类集成的结果正好是反映为这多个聚类成员的统计性.且APCESA 算法的稳定性仅与聚类成员的数量有关,在应用中可根据需求进行调节,不受数据集的限制.5结束语本文引入近邻传播思想,设计了一种APCESA 算法.该算法克服了聚类集成谱算法在数据集簇分布为非理想分离时由于K-means算法的使用造成聚类结果不稳定的问题,同时,在一定程度上提高了算法的聚类质量.该算法通过聚类集成和谱分解得到文本的低维嵌入,间接实现了文本数据集的降维和空间结构转化,为AP算法提供较好的输入,克服了AP算法在复杂数据集上聚类不理想的缺点.在文本低维嵌入的聚类过程中,AP算法由于无需指定初始点,有效的避免了K-means算法由于初始点敏感性造成的算法不稳定问题.在TREC和Reuters文本集上的实验,证明了该算法的有效性.APCESA算法突破了传统谱算法利用K-means算法得到最终结果的限制,是对聚类集成谱算法的一种扩展和改进;从AP算法的角度来看,利用聚类集成和谱分解来优化数据集的空间结构的思想为AP算法在复杂数据集上的扩展应用提供一种的思路.参考文献:[1]TAN P N,STEINBACH M,KUMAR V.Introduction to da-ta mining[M].Toronto:Addison-Wesley Longman,2005:20-23.[2]STREHL A,GHOSH J.Cluster ensemblesdash—a knowl-edge reuse frame-work for combining partitionings[J].Journal of Machine Learning Research,2002,3:583-617.[3]TOPCHY A,JAIN A K,PUNCH W.A mixture model for clustering ensembles[C]//Proceedings of the4th SIAM In-ternational Conference on Data Mining.Florida,2004:379-390.·409·哈尔滨工程大学学报第33卷[4]DING Shifei,ZHANG Liwen,YU Zhang.Research on spectral clustering algorithms and prospects[C]//20102ndInternational Conference on Computer Engineering andTechnology.Chengdu,2010:149-153.[5]徐森,卢志茂,顾国昌.解决文本聚类集成问题的两个谱算法[J].自动化学报,2009,35(7):997-1002.XU Sen,LU Zhimao,GU Guochang.Two spectral algo-rithms for ensembling document clusters[J].Acta Auto-matica Sinica,2009,35(1):997-1002.[6]FREY B J,DUECK D.Clustering by passing messages be-tween data points[J].Science,2007,315(5814):972-976.[7]肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813.XIAO Yu,YU Jian.Semi-supervised clustering based on affinity propagation[J].Journal of Software,2008,19(11):2803-2813.[8]王开军,张军英,李丹,等.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246.WANG Kaijun,ZHANG Junying,LI Dan,et al.Adaptive affinity propagation clustering[J].Acta Automatica Sinica,2007,33(12):1242-1246.[9]ZHANG Xiangliang,WANG Wei,Kjetil N,et al.K-AP:generation specified k cluster by efficient affinity propagation [C]//2010IEEE International Conference on Data Min-ing.Sydney,Australia,2010,107:1187-1192.[10]董俊,王锁萍,熊范纶.可变相似性度量的近邻传播聚类[J].电子与信息学报,2010,32(3):509-514.DONG Jun,WANG Suoping,XIONG Fanlun.Affinitypropagation clustering based on variable-similarity measure[J].Journal of Electronics&Information Technology,2010,32(3):509-514.[11]FRED A L,JAIN A K.Combining multiple clusterings u-sing evidence accumulation[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2005,27(6):835-850.[12]AYAD H,BASIR O A,KAMEL M.A probabilistic model using information theoretic measures for cluster ensembles[C]//Proceedings of the5th International Workshop onMultiple Classifier Systems.Cagliari,Italy,2004:144-153.[13]FERN X Z,LIN W.Cluster ensemble selection[J].Sta-tistical Analysis and Data Mining,2008,1(3):128-141.[14]KARYPIS G,KUMAR V.A fast and high quality multi-level scheme for partitioning irregular graphs[J].SIAMJournal on Scientific Computing,1998,20(1):359-392.[15]KARYPIS G,AGGARWAL R,KUMAR V,et al.Multi-level hypergraph partitioning:applications in VLSI domain[J].IEEE Transactions on Very Large Scale Integration,1999,7(1):69-79.[16]FERN X Z,BRODLEY C E.Solving cluster ensemble problems by bipartite graph partitioning[C]//Proceed-ings of the21st International Conference on MachineLearning.New York:ACM,2004:36.[17]TIAN Z,LI X B,JU Y W.Spectral clustering based on matrix perturbation theory[J].Science in China Series F:Information Sciences,2007,50(1):63-81.[18]National Institute of Stangdards and Technology.Text Re-trieval Conference[EB/OL].[2010-11-20].http://trec.nist.gov.[19]LEWIS D D.Reuters-21578text categorization test collec-tion distribution1.0[EB/OL].[2010-11-20].http://www.research.att.com/ lewis.[责任编辑:王亚秋]·509·第7期卢志茂,等:近邻传播的文本聚类集成谱算法。