多元统计分析课程实验--聚类分析
- 格式:doc
- 大小:200.00 KB
- 文档页数:11
第9章 聚类分析9.1 引言俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。
例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。
研究事物分类问题的基本方法有两种:一是判别分析,二是聚类分析。
若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。
若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。
聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分群图,称之为亲疏关系谱系图。
聚类分析给人们提供了丰富多彩的分类方法,大致可归为:⑴系统聚类法:首先,将n 个样品看成n 类,然后将性质最接近的两类合并成一个新类,得到1 n 类,合并后重新计算新类与其它类的距离与相近性测度。
这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。
⑵动态聚类法(调优法):首先对n 个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。
⑶有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的K类为止。
多元统计分析-聚类分析聚类分析是⼀个迭代的过程对于n个p维数据,我们最开始将他们分为n组每次迭代将距离最近的两组合并成⼀组若给出需要聚成k类,则迭代到k类是,停⽌计算初始情况的距离矩阵⼀般⽤马⽒距离或欧式距离个⼈认为考试只考 1,2⽐较有⽤的⽅法是3,4,5,8最喜欢第8种距离的计算 欧式距离 距离的⼆范数 马⽒距离 对于X1, X2均属于N(u, Σ) X1,X2的距离为 (X1 - X2) / sqrt(Σ)那么不同的聚类⽅法其实也就是不同的计算类间距离的⽅法1.最短距离法 计算两组间距离时,将两组间距离最短的元素作为两组间的距离2.最长距离法 将两组间最长的距离作为两组间的距离3.中间距离法 将G p,G q合并成为G r 计算G r与G k的距离时使⽤如下公式 D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq β是提前给定的超参数-0.25<=β<=04.重⼼法 每⼀组都可以看成⼀组多为空间中点的集合,计算组间距离时,可使⽤这两组点的重⼼之间的距离作为类间距离 若使⽤的是欧⽒距离 那么有如下计算公式 D2kr = n p/n r * D2kp + n q/n r * D2kq - (n p*n q / n r*n r ) * D2pq5.类平均法 两组之间的距离 = 组间每两个样本距离平⽅的平均值开根号 表达式为D2kr = n p/n r * D2kp + n q/n r * D2kq6.可变类平均法 可以反映合并的两类的距离的影响 表达式为D2kr = n p/n r *(1- β) * D2kp + n q/n r *(1- β) * D2kq + β*D2pq 0<=β<17.可变法 D2kr = (1- β)/2 * (D2kp + D2kq) + β*D2pq8.离差平⽅和法 这个⽅法⽐较实⽤ 就是计算两类距离的话,就计算,如果将他们两类合在⼀起之后的离差平⽅和 因为若两类本⾝就是⼀类,和本⾝不是⼀类,他们的离差平⽅和相差较⼤ 离差平⽅和:类中每个元素与这⼀类中的均值距离的平⽅之和 若统⼀成之前的公式就是 D2kr = (n k + n p)/(n r + n k) * D2kp + (n k + n q)/(n r + n k) -(n k)/(n r + n k) * * D2pq⼀些性质 除了中间距离法之外,其他的所有聚类⽅法都具有单调性 单调性就是指每次聚类搞掉的距离递增 空间的浓缩和扩张 D(A)>=D(B) 表⽰A矩阵中的每个元素都不⼩于B D(短) <= D(平) <= D(长) D(短,平) <= 0 D(长,平) >= 0 中间距离法⽆法判断。
《多元统计实验》---聚类分析实验报告
rownames(ex4)=ex4.4[,1]
KM<-kmeans(ex4,4,nstart = 20,algorithm = "Hartigan-Wong")
KM
sort(KM$cluster)
三、实验结果分析:
第一题:
如下图为20种啤酒最小距离法系统聚类树状图,当取合并距离为20时,20种啤酒可以分为3类,第一类为{16,19},第二类为{10,12,9,20},第三类为{2,7,4,3,5,15,13,14,8,17,11,1,6,18}。
如下图为20种啤酒最大距离法系统聚类树状图,如果将啤酒分为4类,则第一类为{16,19},第二类{10,12,9,20},第三类{4,2,7},第四类{13,17,11,8,6,18,5,15,3,14},即蓝色框出。
如下截图为当20种啤酒分为3类是的最大距离法聚类出的结果,即分为{1,3,5,6,8,11,13,14,15,17,18}、{2,4,7}、{9,10,12,16,19,20}。
第二题:
如下截图,31个地区被聚成大小为4、3、16、8的四个类,means表示各类均值,
如下截图得出的结果,按地区原顺序聚类后的分类情况以及类间平方和在总平方和中的占比为79.7%,分类结果为:
第一类:天津、江苏、福建、广东
第二类:北京、上海、浙江
第三类:河北、山西、辽宁、吉林、黑龙江、山东、河南、广西、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆
第四类:内蒙古、安徽、江西、湖北、湖南、海南、重庆、四川。
武汉理工大学实验(实训)报告项目名称实验2―聚类分析所属课程名称多元统计分析项目类型设计性实验实验(实训)日期年月日班级学号姓名指导教师武汉理工大学统计学系制实验报告2聚类分析(设计性实验)实验原理:聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。
在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似。
系统聚类法是聚类分析中用的最多的一种,其基本思想是:开始将n个对象各自作为一类,并规定对象之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离;重复进行两个最近类的合并,每次减少一类,直至所有的对象合并为一类。
实验题目一:为了对11种语言——英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语及芬兰语进行比较研究,研究人员选取每种语言的1至10十个数字相应的单词列表分析。
对于同一数字,某两种语言的第一个字母若相同,则称这两者在该数字上一致,否则非一致。
将这11种语言两两比较后,计算每一对在十个数字上非一致的数目,得到下列距离矩阵:E N Da Du G Fr Sp I P H FiE 0N 2 0Da 2 1 0Du 7 5 6 0G 6 4 5 5 0Fr 6 6 6 9 7 0Sp 6 6 5 9 7 2 0I 6 6 5 9 7 1 1 0P 7 7 6 10 8 5 3 4 0H 9 8 8 8 9 10 10 10 10 0Fi 9 9 9 9 9 9 9 9 9 8 0(1)对这11种语言分别用最小距离法(single linkage)、最大距离法(complete linkage)、平均距离法(average linkage)进行聚类分析;(2)画出以上三种方法聚类分析结果的树状图;(3)结合三种方法的树状图,你认为将11种语言分为哪几类比较合适?(4)用最大距离法将11种语言聚为3类,并将聚类结果存储在一个SPSS数据文件中。
多元统计实验报告设计题目:聚类分析聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。
基本思想:是根据事物本身的特性研究个体分类的方法;聚类原则:是同一类中的个体有较大的相似性,不同类中的个体差异很大系统聚类分析法一、分析数据1990年全国人口普查数据二、基本原理系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品或变量总能聚到合适的类中。
系统聚类的计算步骤:●对数据进行变换处理,消除量纲●构造n个类,每个类只包含一个样本计算●n个样本两两间的距离{dij}●合并距离最近的两类为一新类●计算新类与当前各类的距离,重复上一步●画聚类图●决定类的个数和类三、实验步骤①1、选择Analyze→Classify→Hierarchical Cluster,打开分层聚类分析主对话框;2、选择聚类分析变量点击向右的箭头按钮,将三个变量移到Variable栏中;3、选择标识变量,单击“地区”点击向右的箭头按钮,将其移入Label Case By栏中;4、选择聚类方法,单击Method…按钮,选择数值标准化法,Z-Score;选择聚类法Between-group linkage;距离测度采用Interval的Squared Euclidean distance;单击Continue按钮,返回主对话框;5、选择输出统计量,单击Statistics…按钮,打开Statistics子对话框。
选择输出Agglomeration Schedule、Proximity Matric,范围从3类到5类的聚类解,单击Continue按钮,返回主对话框;6、选择输出聚类图,单击Plots…按钮,打开Plots子对话框。
选择Dendrogram 树形图,单击Continue按钮,返回主对话框;7、点击OK按钮,显示结果清单。
第五章 聚类分析5.1聚类分析的基本问题一、概念是在样品(变量)之间结构不明确情况下建立一个定量尺度,借以度量样品(变量)间的亲疏程度,从而实现对样品(变量)进行分组的目的。
注:描述亲疏程度有两种尺度(1)距离:将样品视为P 维空间的一个“点”,点与点间可定义距离将变量视为n 维空间的一个“点”,点与点间可定义距离(2)相似系数:可将样品视为P 维空间的一个“向量”,向量间可定义相似系数二、聚类分析的思路开始,n 个样品(P 个变量)各自成类→每次,按样品(变量)间的亲疏程度,将最近(最相似)的两个样品(变量)聚成一类→最终将n 个样品(P 个变量)聚成一个大类实际目的是聚成若干类,有利于分析问题三、聚类分析的种类按聚类对象分:样品分类 (Q 型分类) 变量(指标)分类 (R 型分类)5.2距离和相似系数一、样品(Q 型)聚类的距离和相似系数(一)距离1、背景:视一个样品为P 维空间中的一个点2、距离应满足的公认条件设用ij d 表示样品()()i j X X 和间的距离,则应满足 (1)非负性:0ij d ,对一切的i和j (2)对称性:=ij ji d d i j ,对一切的和(3)三角不等式关系:,ij ik kj d d d ≤+对一切i,j,k 3、几种常见的距离定义 (1)明氏距离:11(),:=1,2pqqi j i jd q X X ααααα=⎛⎫=- ⎪⎝⎭∑指标,,,p这里1j 12j 2()(j )i i i i p j pX XX X X XX X⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦特例:11,(1),pi j i jq d X X ααα===-∑即绝对离差2,(2)ij q d ==即欧氏距离1,(),m a xi j i jpq d X X ααα≤≤=∞∞=-即切比雪夫距离 (2)马氏距离设n 个样品,收集到数据阵j n pX X α⨯=,生成协差阵()=ij p pσ⨯∑定义:()()()()()21()()iji j i j d M X X X X T-=-∑-(3)兰氏距离 11()Pi j ij i j X X d L PX Xααααα=-=+∑n 个样品两两计算距离,生成距离阵111212122212Dn n n nn n nn d d dd d d d d d ⨯⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦特点:①0,1,2,,ii d i n == ②,ij ji d d D =是对称阵(二)相似系数1、背景:视一个样品为P 维空间中的一个向量2、相似系数应满足的公认条件记C ij 为样品()()i j X X 和的相似系数,应有(1)()()()()C =1=ij i j i j X X X aX ±→和是平行的,即 0,C 10,C1ijij a a a =⎧⎨=-⎩ 方向相同,指向相同,为常数方向相反,指向相反,(2)C 1,ij i j ≤,对于一切 (3)C =C ,ij ji i j ,对于一切3、常用的相似系数 (1)夹角余弦ij cos (,1,2,,)pij X Xi j n ααθ⋅==∑说明:①当()()()()(//)i j i j X X X X →→→→和平行时记作②()()()0i j X X θ→→⊥=ij正交,cos③一般情况下,cos 1ij θ≤两两计算夹角余弦,生成相似阵:=(cos )ij n n θ⨯Θ特点:1cos 1ii θ=。
聚类分析的实际案例老师要了解学生数学知识的掌握情况,该如何做?考试分析试卷将学生分类,每类给予相应的辅导2§6.1 引言§6.2 距离与相似系数§6.3 系统聚类法§6.4 动态聚类法§6.5 有序样品聚类法§6.6 变量聚类法4利用SAS帮助系统找到聚类分析方法的使用说明和例子的路径:聚类分析方法的帮助路径:帮助(H)→SAS帮助和文档(H)→SAS产品→SAS/stat→SAS/stat User’s Guide→Introduction to Clustering Procedures5§6.1 引言聚类分析要解决的问题:事先不知道所研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法,并按亲近程度对观测对象给出合理的分类.6(系统)聚类分析的关键步骤:1.指标的选取2.样品之间距离的刻画3.类与类之间距离的刻画4.确定最终的分类个数7R型聚类分析的目的:(1)对变量进行分类;(2)可以了解变量间及变量组合间的亲疏关系;(3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析、判别分析或Q型聚类分析.9Q型聚类分析的目的:(1)对观测进行分类;(2)找出每类的特点以指导具体的实际工作.10§6.2 距离与相似系数描述观测(变量)的亲疏关系的常用量有:1.距离2.相似系数.11一、样品间的距离和相似系数n个观测看成m维空间中的n个点,用dij 表示样品X(i)和X(j)之间的距离,要求:.,,,)3(,,)2(,,0)1()()(kjidddjiddXXdjidkjikijjiijjiijij对一切;对一切;当;对一切+≤==⇔=≥样本与样品1325(2) 利用样本协差阵来定义变量间的距离),,2,1,( 2m j i s s s d ij jj ii ij "=−+=(3) 利用前面定义样品的距离公式来定义变量间的距离.0)(>=ij s S 其中样本协差阵4. 特殊定性变量间的距离定义的一个例子案例1欧洲各国的语言有许多相似之处,有的十分相似,为了研究这些语言之间的关系,我们先来计算这十一种语言之间的距离.英语(English E)、挪威语(Norwegian N)、丹麦语(Danish Da)、荷兰语(Dutch Du)、德语(German G)、法语(Franch Fr)、西班牙语(Spanish Sp)、意大利语(Italian I)、波兰语(Polish P)、匈牙利语(Hungarian H)、芬兰语(Finnish Fi).26用两种语言的10个数词中的第一个字母不相同的个数来定义这两种语言之间的距离.28可见,无论是变量之间的距离还是观测之间的距离都有不同的定义,在实际问题中,我们要选择合适的距离.再比如时间序列数据的距离参考文献:基于核密度估计的非线性时间序列聚类,张贝贝,统计教育,2010年第4期.30系统聚类法的基本思想:设有n个观测,每个观测测得m项指标. 首先定义观测间的距离和类和类之间的距离. 一开始将n个观测各自自成一类,这时类间的距离与观测间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离准则并类. 这样每次减少一类,直到所有的观测都并成一类为止. 这个并类过程可以用谱系聚类图形象地表达出来.32系统聚类法的基本步骤:0. 数据变换、选择观测之间的距离和类与类之间的距离;1. 计算n个观测两两间的距离,得观测间的距离矩阵D(0);2. 一开始n个观测各自构成一类,类的个数k=n:Gi ={X(i)} (i=1,…,n) . 此时类间的距离就是观测间的距离(即D(1)=D(0)). 然后对步骤执行并类过程的步骤3和4;333. 每次合并类间距离最小的两类为一新类.此时类的总个数k减少1类;4. 计算新类与其他类的距离,得新的距离矩阵D(i). 若合并后类的总个数k仍大于1,重复3和4步;直到类的总个数为1时止;5.画谱系聚类图(tree过程);6.决定分类的个数及各类的成员.34(2) 一开始n个观测各自构成一类,得5个类:G={Xi} (i=1,…,5),类的个数k=5.i(3) 由D(1)可知,首先合并X1和X2为一新类,记为CL4={X1, X2};此时类的总个数k减少1类,变为k=4,故把此步得到的新类记为CL4.37(5) 由D(2)可知类间距离为1.5时最小,故合并X3和X4为一新类,记为CL3 ={X3, X4};此时类的总个数k减少1类,变为k=3,故把此步得到的新类记为CL3.39(7) 由D(3)可知,类间距离为2时最小,故合并X5和CL3为一新类,记为CL2={X3, X4,X5};此时类的总个数k减少1类,变为k=2,故把此步得到的新类记为CL2.41(9) 由D(4)可知类间距离为2.5时最小,故合并CL4和CL2为一新类,记为CL1 ={X1, X2, X3, X4, X5};此时类的总个数k=1,故把此步得到的新类记为CL1.(10) 此时所有观测合并成一类,并类过程结束.(11) 画谱系聚类图.(12) 确定类的个数及各类的成员.43461.最短距离法(Single linkage)Method=single|sin类和类之间的距离定义为两类中最近观测之间的距离.),( },min{)( min )(,r q p qk pk rk P i p ij G j G i pq pq q p G G G q p k D D D G X G i d D D G G qp 合并为和其中类递推公式表示这里定义为之间的距离与类类≠=∈∈=∈∈最短距离法的特点:不限制类的形状,对拉长的类或不规则的类效果更好,但对紧的球形类的效果不是很好,它通常会删除很多边缘的观测.48492. 最长距离法(Complete method)Method= complete|com类和类之间的距离定义为两类中最远观测之间的距离.),( },max{max ,r q p qk pk rk ijG j G i pq pq q p G G G q p k D D D d D D G G qp 合并为和其中类递推公式定义为之间的距离与类类≠==∈∈。
多元统计分析——聚类分析多元统计分析中的聚类分析(Cluster Analysis)是一种将相似的个体或对象归为一类的数据分析方法。
聚类分析的目的是通过寻找数据中的相似性来识别或发现存在的模式和结构,可以帮助我们理解和解释数据中的复杂性。
聚类分析在许多领域中都得到了广泛的应用,例如市场细分、社会学、生物学、医学等。
聚类分析的基本原理是将数据样本根据其相似性归为不同的组或类。
相似性可以通过计算数据之间的距离或相似度来度量。
常用的距离度量方法有欧氏距离、曼哈顿距离、闵可夫斯基距离等,相似度度量方法有相关系数、夹角余弦等。
在聚类分析中,我们通常将相似的样本放在同一类别中,不相似的样本放在不同类别中。
聚类分析可以分为两种类型:层次聚类和划分聚类。
层次聚类是一种将数据样本分层次地组织成树状结构的聚类方法。
划分聚类则是将数据样本划分为预先确定的K个不重叠的类的聚类方法。
其中最常用的层次聚类算法有聚合法和分裂法,最常用的划分聚类算法是K均值算法。
聚类分析的基本步骤包括数据准备、相似度度量、类别划分和结果解释。
在数据准备阶段,需要选择合适的变量和样本。
相似度度量是聚类分析的核心,不同的距离或相似性度量方法可能会导致不同的聚类结构。
类别划分可以根据层次聚类算法或划分聚类算法来进行。
结果解释则是对聚类结果进行分析和解释,常用的方法包括聚类矩阵、平均距离图、树状图等。
聚类分析的优势在于能够帮助我们理解数据中的结构和模式,发现数据中的共性和差异性。
聚类分析可以为我们提供有关样本之间的关系和特征的重要信息。
此外,聚类分析还可以帮助我们进行市场细分和目标市场选择、发现新的疾病群和药物靶点等。
然而,聚类分析也存在一些局限性。
首先,聚类结果可能会受到初始聚类中心选择的影响。
其次,聚类结果的解释需要结合领域知识和专家判断,可能存在主观性。
此外,聚类分析对数据的样本大小和变量数目也有一定的要求,数据的维度增加会导致计算量的增加。
多元统计分析课程实验--聚类分析我国各地区城镇居民消费性支出的聚类分析一、问题的背景下表列出了1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。
这八个变量是1x :食品5x :交通和通讯 2x :衣着6x :娱乐教育文化服务3x :家庭设备用品及服务 7x :居住 4x :医疗保健8x :杂项商品和服务消费性支出数据单位:元资料来源:2000年《中国统计年鉴》我们希望根据上述八个指标对各地区进行聚类。
聚类分析的方法有很多,其中有系统聚类法和动态聚类法等等,本次试验将用R软件进行系统聚类法和动态聚类法。
一、系统聚类法系统聚类法(hierarchical clustering method)是聚类分析诸方法中用的最多的一种,其基本思想是:开始将n个样本各自作为一类,并确定样本之间的距离和类与类之间的距离,然后将聚类最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类。
系统聚类法距离的确定方法有很多,如:最短距离法(single)、最长距离法(complete)、中间距离法(median)、mcquitty相似法(mcquitty)、类平均法(average)、重心法(centroid)、离差平方和法(Ward方法)(ward),括号后面是R软件中的表示代码。
R软件可以用hclust()函数进行系统聚类。
(1)最短距离法(single)广东西藏上海北京浙江海南福建广西天津江西云南江苏陕西安徽贵州重庆河南湖南湖北四川青海宁夏内蒙古山西甘肃吉林辽宁黑龙江山东河北新疆1234hclust (*, "single")dH e i g h t按照最短距离法得到的5类分别为: 第1类:广东 第2类:西藏 第3类:上海 第4类:北京第5类:浙江、海南、福建、广西、天津、江西、云南、江苏、陕西、安徽、贵州、重庆、河南、湖南、湖北、四川、青海、宁夏、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、山东、河北、新疆(2)最长距离法(complete )西藏江西安徽贵州海南福建广西河南陕西青海宁夏内蒙古山西甘肃吉林辽宁黑龙江重庆江苏云南湖南湖北四川山东河北新疆广东天津浙江北京上海2468hclust (*, "complete")dH e i g h t按照最长距离法得到的5类分别为: 第1类:西藏第2类:江西、安徽、贵州、海南、福建、广西、河南、陕西、青海、宁夏、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、重庆、江苏、云南、湖南、湖北、四川、山东、河北、新疆 第3类:广东 第4类:天津、浙江 第5类:北京、上海(3)中间距离法(median )广东北京上海天津浙江西藏海南江西广西福建青海宁夏陕西河南安徽贵州云南重庆江苏山东湖南内蒙古山西甘肃吉林辽宁黑龙江河北新疆湖北四川1234hclust (*, "median")dH e i g h t第1类:广东 第2类:北京第3类:上海、天津、浙江 第4类:西藏第5类:海南、江西、广西、福建、青海、宁夏、陕西、河南、安徽、贵州、云南、重庆、江苏、山东、湖南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、河北、新疆、湖北、四川(4)mcquitty 相似法(mcquitty )广东浙江天津重庆湖南湖北四川山东河北新疆江苏云南北京上海西藏江西安徽贵州陕西青海宁夏河南内蒙古山西甘肃吉林辽宁黑龙江海南福建广西01234567hclust (*, "mcquitty")dH e i g h t第1类:广东第2类:浙江、天津、重庆、湖南、湖北、四川、山东、河北、新疆、江苏、云南第3类:北京、上海 第4类:西藏第5类:江西、安徽、贵州、陕西、青海、宁夏、河南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、河南、福建、广西(5)类平均法(average )西藏海南江西福建广西陕西湖南湖北四川山东河北新疆安徽贵州青海宁夏河南内蒙古山西甘肃吉林辽宁黑龙江天津重庆江苏云南广东上海北京浙江123456hclust (*, "average")dH e i g h t第1类:西藏第2类:河南、江西、福建、广西、陕西、湖南、湖北、四川、山东、河北、新疆、安徽、贵州、青海、宁夏、海南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、天津、重庆、江苏、云南 第3类:广东 第4类:上海 第5类:北京、浙江(6)重心法(centroid )西藏天津海南福建江西广西重庆云南江苏山东安徽贵州陕西湖南湖北四川河南青海宁夏内蒙古山西甘肃吉林辽宁黑龙江河北新疆广东上海北京浙江0.01.02.03.04.0hclust (*, "centroid")dH e i g h t第1类:西藏第2类:河南、江西、福建、广西、陕西、湖南、湖北、四川、山东、河北、新疆、安徽、贵州、青海、宁夏、海南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、天津、重庆、江苏、云南 第3类:广东 第4类:上海 第5类:北京、浙江(7)离差平方和法(Ward 方法)广东上海北京浙江西藏天津重庆江苏云南湖南湖北四川山东河北新疆内蒙古山西甘肃青海宁夏吉林辽宁黑龙江江西安徽贵州河南陕西海南福建广西510152025hclust (*, "ward")dH e i g h t第1类:广东、上海、北京、浙江 第2类:西藏第3类:天津、重庆、江苏、云南、湖南、湖北、四川、山东、河北、新疆 第4类:内蒙古、山西、甘肃、青海、宁夏、吉林、辽宁、黑龙江 第5类:河南、江西、福建、广西、陕西、、安徽、贵州、海南总结:7种方法得到的类有的相同、有的不同,需要根据具体的数据与背景再进一步确定认同哪种聚类是较为合理的。
二、动态聚类法动态聚类法又称为逐步聚类法,其基本思想是:开始先粗略地分一下类,然后按照某种最优原则修改不合理的分类,直至类分得比较合理为止,这样就形成一个最终的分类结果。
这种方法具有计算量较小,占计算机内存较少和方法简单等有限,适用于大样本的Q 型聚类。
kmeans ()函数采用的是K 均值方法,采用逐个修改方法,最早由MacQueen 于1967年提出来。
接下来进行R 软件聚类。
用R 软件得到如下结果:> km=kmeans(scale(X),5,nstart=20);kmK-means clustering with 5 clusters of sizes 7, 4, 1, 16, 3Cluster means:x1 x2 x3 x4 x5 x61 0.3809105 0.72772805 0.4284646 -0.1235496 0.08595291 0.22151082 0.1884219 -1.53016321 -0.6594861 -1.0978219 0.05751333 -0.42704523 1.8308656 -1.12773604 0.9368961 1.2959544 3.90904835 1.60144194 -0.6858629 -0.05818051 -0.4787096 -0.1598851 -0.57749718 -0.50709075 1.9076266 1.02839359 2.1203833 2.1727806 1.49972764 2.2232050x7 x81 -0.02724055 0.39045492 0.33154520 -0.23368783 3.88031413 2.01876534 -0.49317064 -0.60332385 0.95830640 1.9453274Clustering vector:北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江5 1 4 4 4 4 4 4 5 1 5安徽福建江西山东河南湖北湖南广东广西海南重庆4 2 2 1 4 4 1 3 2 2 1四川贵州云南西藏陕西甘肃青海宁夏新疆4 4 1 1 4 4 4 4 4Within cluster sum of squares by cluster:[1] 23.348448 9.131334 0.000000 19.783881 10.280048(between_SS / total_SS = 73.9 %)Available components:[1] "cluster" "centers" "totss" "withinss"[5] "tot.withinss" "betweenss" "size" "iter"[9] "ifault"第1类:天津、江苏、重庆、山东、湖南、云南、西藏第2类:福建、江西、广西、海南第3类:广东第4类:河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、河南、湖北、四川、贵州、陕西、甘肃、青海、宁夏、新疆第5类:北京、上海、浙江附录(R程序):###总数据读取X=data.frame(read.delim("D:\\an\\clust.txt",header = T),s=c("北京","天津","河北","山西","内蒙古","辽宁","吉林","黑龙江", "上海","江苏","浙江","安徽","福建","江西","山东","河南","湖北","湖南","广东", "广西","海南","重庆","四川","贵州","云南","西藏","陕西","甘肃","青海","宁夏","新疆"))###生成距离结构,做系统聚类d=dist(scale(X))hc1=hclust(d,"single")hc2=hclust(d,"complete")hc3=hclust(d,"median")hc4=hclust(d,"mcquitty")hc5=hclust(d,"average")hc6=hclust(d,"centroid")hc7=hclust(d,"ward")###绘出谱系图和聚类情况(最长距离发和类平均法)plclust(hc1,hang=-1);rel=rect.hclust(hc1,k=5,border="red")plclust(hc2,hang=-1);rel=rect.hclust(hc2,k=5,border="red")plclust(hc3,hang=-1);rel=rect.hclust(hc3,k=5,border="red")plclust(hc4,hang=-1);rel=rect.hclust(hc4,k=5,border="red")plclust(hc5,hang=-1);rel=rect.hclust(hc5,k=5,border="red")plclust(hc6,hang=-1);rel=rect.hclust(hc6,k=5,border="red")plclust(hc7,hang=-1);rel=rect.hclust(hc7,k=5,border="red")###动态聚类法km=kmeans(scale(X),5,nstart=20);km。