SPSS第11章

  • 格式:ppt
  • 大小:181.00 KB
  • 文档页数:55

下载文档原格式

  / 55
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 需要充分强调的是:
– 和其他统计分析方法相比,聚类分析带有非常 强的实用主义特征,在分类方法和最终类别数 的确定上,检验和统计指标并非至关重要,结 果是否适用才是最重要的。 – 很多时候只能具体问题具体分析,对这些问题 本书将不一一详述,有兴趣的读者可参阅统计 学专著。
1 K-means Cluster过程
2 Hierarchical Cluster过程
• Hierarchical Cluster过程使用的就是系统聚类法 来进行分析,该方法的原理是先将所有n个变量/ 观测看成不同的n类,然后将性质最接近(距离最 近)的两类合并为一类;再从这n-1类中找到最接 近的两类加以合并,依此类推,直到所有的变量 /观测被合为一类。得到该结果后,使用者再根 据具体的问题和聚类结果来决定应当分为几类。 • 显然,在系统聚类法中,一旦观测/变量被划定 在了一个类别中,以后它的分类结果就不会再进 行更改,这是它和非系统聚类法的显著区别。
• 5.异常值:异常值对聚类的结果影响较大,现在 还没有比较好的解决办法,只能尽力避免。 • 6.分类数:系统聚类法可以细分到每类只有一例, 但这样做一般没有实际意义,从实用角度出发, 类别数在2~8类比较合适。 • 7.专业意义:统计学结论不是最终结论,一定要 结合专业知识进行分析,聚类分析尤其如此。使 用不同的聚类分析方法可能得的结果相差很大, 单纯从统计学角度是难以判断哪个结果是正确的。
1.2 引例
• 在SPSS自带数据文件plastic.sav中记录了 20种塑料样品的有关特征,根据有关知识, 认为它们可以被分为三类,请根据tear_res、 gloss、opacity三个变量的取值将其分为三 类。
结果分析
• • • • • • Initial Cluster Centers Iteration history Final Cluster Centers Number of Cases in each Cluster Anova Means Report
• 聚类分析所用的方法大致可被分为两类:
– 系统聚类法(Hierarchical Clustering) – 非系统聚类法(Non-hierachical Clustering), SPSS为这两种方法各提供了一个过程,这里 的K-means cluster过程使用的就是非系统聚类 法中最常用的K-均值聚类法(K-means Clustering)。
2.1 界面说明
【主对话框】
• 1. Variables框:用于选入进行聚类分析所需的变 量。选入类别变量后应使用下方的Define Range 钮具体确定变量的取值范围。 • 2. Label Cases by框:选入标签变量,如果选入, 该变量的取值将在分析结果中取代原变量名。该 框只在样品聚类时可用。 • 3. Cluster框:用于选择是进行样品聚类还是变量 聚类,默认为前者。 • 4. Display复选框组:用于选择希望输出的结果, 可选的有统计量和统计图,默认两者都输出。
Counts(分类变量计数资料)
• Chi-square measure:χ2值测距。 • Phi-square measure:V2值测距,即将χ2测 距值除以合计频数的平方根。
Binary(二分类变量 )
• Euclidean distance:计算公式为SQRT(b+c),其 中b、c分别为四格表中对角线上的元素,最小值 为0,最大无限。 • Squared Euclidean distance:即│b+c│,最小为 0,最大无限。 • Size difference:最小距离为0,最大无限。 • Pattern difference:从0至1的无级测距。 • Variance:以方差为测距,虽小为0,最大无限。 • Lance and Williams:Bray-Curtis非等距系数, 界于0至1之间。
优缺点
• 和系统聚类法相比,快速聚类法的计算量非常小, 从而可以有效地处理多变量、大样本数据而不占 用太多的内存空间和计算时间;同时在分析时用 户可以人为指定初始中心位置,或者将曾做过的 聚类分析结果作为初始位置引入分析,这在有前 人工作可借鉴时是非常有用的。 • 应用范围比较有限:要求用户事先知道需要将样 品分为多少类、只能对记录进行聚类而不能对变 量聚类、所使用的变最必须都是连续性变量。并 且对变量的多元正态性、方差齐性等条件要求较 高,如果忽视这些问题就可能会导致错误的结果。
优缺点
• 优点:
– 可以对变量(样品)或记录进行聚类,变量可以 为连续或分类变量,提供的距离测量方法和结 果表示方法也非常丰富。
• 缺点:
– 但是由于它要反复计算距离,当样本量太大或 变量较多时,采用系统聚类运算速度明显较慢。
聚类分析的几个问题
• 1. 距离测量方法:系统聚类法默认的几种距离测 量方法和距离指标是比较常用的,如果不清楚其 具体含义,可以不作更改,使用默认值即可。 • 2. 变量选择:
1.1 界面说明
wenku.baidu.com
【主对话框】
• 1.Variables框:选入用于进行快速聚类的变量。 • 2. Label case框:选入标签变量,该变量的取值将在分析 结果中取代记录号出现。 • 3.Number of Clusters框:希望将样本分为的类别数,系 统默认分为两类。 • 4. Method单选框组:用于选择聚类方法,默认为在初始 类中心的基础上不断迭代和更换中心位置,从而将观察单 位分配到最近的类别中去。也可以更改为只使用初始类中 心对观察单位进行分类,这样可以节省运算时间,不过我 个人认为多数情况下用前者更佳。 • 5.Centers:单击后主对话框下方展开,用于定义类中心 坐标。Read initial from复选框用于指定数据文件中的观察 值为初始类中心坐标,Write final as复选框用于将分析结 果中的类中心坐标数据存储入指定文件。
第十一章 聚类分析和判别分析
• 聚类分析是把没有分类信息的资料按相似 程度归类,有一定探索性的味道; • 判别分析则是从已知的分类情况中总结规 律,为以后判断新观测所属类别提供依据。
Classify菜单
• K-means Cluster过程:对记录进行快速聚类,当明确所 需要分出的类别数时,采用快速聚类可以节省运算时间。 根据经验,如果样本量大于100,则有必要考虑是否使用 快速聚类。 • Hierarchical Cluster过程:习惯上翻译成系统聚类法, 该过程提供了全面而强大的聚类分析能力,可对记录或变 最进行聚类。更为重要的是,参与系统聚类分析的变量不 再象快速聚类一样限于连续性变量,它们可以是两分类或 多分类变量。 • Discrimant过程:提供了全面的判别分析功能,所用变量 可一次进入,也可使用逐步法筛选出最优判别方程。
【Iterate子对话框】
• 1. Maximum Iterations框:设定最大迭代次数, 默认值为10。 • 2. Convergence Criterion框:设定收敛标准,此 处显示为0,实际上系统默认值为0.02,当类中心 距离变化的最大值小于最小的初始类中心坐标值 的2%时。选代即停止。 • 3. Use running means:程序默认只在所有记录 都有了分类结果后才重新计算类中心位置。如果 选中该复选框,则程序在每确定一个样品的分类 后,会立刻重新计算新的类中心。在这种情况下, 记录的排列次序显然会对分类结果有影响。
【Method子对话框】
• 1.Cluster Method下拉列表:用于选择聚类分析 中不同类间距离的测量方法。此处提供了七种不 同方法,分别为组间连结法、组内连结法、最近 距离、最远距离、重心距离、中位数距离和 Ward‘s法,默认为组间连接法,它又被称为类平 均法,大量实践证明这是一种非常优秀和稳健的 方法,因此一般使用该默认值即可。 • 2.Measure组:用于选择所用的距离种类。各种 数据类型可用的测距方法有: Interval(计量资 料 )、 Counts(分类变量计数资料)、 Binary (二分类变量 )。
–在做聚类分析前,应从专业角度考虑尽量删去对分类 不起作用的变量。并非变量越多越好,因为无关变量 的存在可能会影响真实分类的发现,有时会引起严重 的错分。 –原则上应当只引入在不同类间有显著差别的变量,目 前已有一些类似回归分析中逐步分析的算法,可以剔 除这样的变量,但尚未见到相应的统计软件。 –在现阶段,相应的变量筛选可以通过得出分类结果后 进行方差分析,再结合专业知识来判断,就如同我们 在上一节的做法一样。
Interval(计量资料 )
• Euclidean distance:欧几里得距离,以两变量差值平方和 的平方根为距离。 • Squared Euclidean distance:欧氏平方距离,默认值。以 两变量差值平方和为距离,这种测量方法更重视较大的数值 和距离。 • Chebychev:切比夫距离,以两变量绝对差值的最大值为距 离。 • Block:以两变量绝对差值之和为距离。 • Minkowski:闵可夫斯基距离,以两变量绝对差值p次幂之和 的p次根为距离,用户可以在Power框中更改分量值之差的 次方P的大小。当p=2时即为欧几里得距离。 • Customized:自定义距离公式,用户需要在Power框中定义 分量值之差的次方,在Root框中定义开分量值之差的次方。 以两变量绝对差值p次幂之和的r次根为距离。 • 以上这些距离指标中,一般采用默认的欧氏平方距离即可。
【Save子对话框】
• 1. Cluster membership:输出聚类后每一 记录所属类别,默认变量名为qcl_1。 • 2. Distance from cluster center:输出每一 观察单位与所在类中心的距离。
【Options子对话框】
• 1. Statistics复选框组:可选的统计量有初 始类中心位置、以聚类结果为自变量,分 析中所用各变量为应变量的单因素方差分 析、对每一观察对象最终的分类结果以及 离所属类中心的距离。其中单因素方差分 析非常有用,我们可以使用它来判断相应 的变量究竟对聚类有无帮助。 • 2. Missing Values单选框组;选择对缺失值 的处理方法,内容大家都已经很熟悉。
【Plots子对话框】
• 1.Dendrogram:输出分类结果树状图, 当要分类的变量/记录数较多时,该图比 冰柱图要清楚得多,建议大家尽量多用。 • 2.Icicle单选框组:输出分类结果冰柱图, 不过当要分类的变量/记录数较多时该图 会变得一片混乱,简直就成了垃圾输出, 我觉得还是少用为妙。 • 3. Orientation单选框组:确定冰柱图是纵 向还是横向排列,使用默认的纵向即可。
• 3.共线性问题:在进行记录聚类时,如果变量间 存在较强共线性,则可能会对结果有较大的影响, 因为这相当于某个变量的权重远远高于其他变量。 如果候选变量中的确存在共线性,最好先进行预 处理(剔除,或者提取主成分)再进行聚类分析。 • 4. 变量的标准化:如果用于分析的变量其变异程 度相差非常大,则变异大的变量会严重影响距离 计算结果(相当于其权重大大增加),在这种情况 下,我们需要先对变量进行某种标准化,然后才 能进行聚类分析。
K-均值聚类法的步骤
• 1. 按照指定的希望分类的数量,按某种原则选择 (或人为指定)某些观测作为凝聚点,他们将作为 今后各类的初始核心; • 2.按就近原则将其余观测向凝聚点凝集,这样得 到一个初始分类方案,并计算出各个初始分类的 中心位置(均值); • 3.使用计算出的中心位置重新进行聚类,因此在 该方法中,各观测的分类情况会在运算过程中不 断改变,分类完毕后再次计算各类的中心位置。 如此反复循环,直到凝聚点位置改变很小(达到收 敛标准)为止。
【Statistic子对话框】
• 1. Agglomeration schedule:相当于聚类过程的 详细记录,给出每一步中类合并的具体情况及相 应类之间的距离。 • 2.Proximity matrix:列出观察单位或变量间的 距离/相似性矩阵。 • 3. Cluster Membership单选框组:选择是否给出 各样品/变量的聚类结果列表, • 默认不给出,可以指定输出具体为若干类的结果, 或某一个范围内的分类结果。当样品/变量数太 多,而分析者又重点关心聚为若干类的情况时, 该结果非常有用。