SPSS第11章

格式：ppt
大小：181.00 KB
文档页数：55

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 需要充分强调的是：
– 和其他统计分析方法相比，聚类分析带有非常强的实用主义特征，在分类方法和最终类别数的确定上，检验和统计指标并非至关重要，结果是否适用才是最重要的。 – 很多时候只能具体问题具体分析，对这些问题本书将不一一详述，有兴趣的读者可参阅统计学专著。
1 K-means Cluster过程
2 Hierarchical Cluster过程
• Hierarchical Cluster过程使用的就是系统聚类法来进行分析，该方法的原理是先将所有n个变量／观测看成不同的n类，然后将性质最接近(距离最近)的两类合并为一类；再从这n-1类中找到最接近的两类加以合并，依此类推，直到所有的变量／观测被合为一类。得到该结果后，使用者再根据具体的问题和聚类结果来决定应当分为几类。 • 显然，在系统聚类法中，一旦观测／变量被划定在了一个类别中，以后它的分类结果就不会再进行更改，这是它和非系统聚类法的显著区别。
• 5．异常值：异常值对聚类的结果影响较大，现在还没有比较好的解决办法，只能尽力避免。 • 6．分类数：系统聚类法可以细分到每类只有一例，但这样做一般没有实际意义，从实用角度出发，类别数在2～8类比较合适。 • 7．专业意义：统计学结论不是最终结论，一定要结合专业知识进行分析，聚类分析尤其如此。使用不同的聚类分析方法可能得的结果相差很大，单纯从统计学角度是难以判断哪个结果是正确的。
1.2 引例
• 在SPSS自带数据文件plastic.sav中记录了 20种塑料样品的有关特征，根据有关知识，认为它们可以被分为三类，请根据tear_res、 gloss、opacity三个变量的取值将其分为三类。
结果分析
• • • • • • Initial Cluster Centers Iteration history Final Cluster Centers Number of Cases in each Cluster Anova Means Report
• 聚类分析所用的方法大致可被分为两类：
– 系统聚类法(Hierarchical Clustering) – 非系统聚类法(Non-hierachical Clustering)， SPSS为这两种方法各提供了一个过程，这里的K-means cluster过程使用的就是非系统聚类法中最常用的K-均值聚类法(K-means Clustering)。
2.1 界面说明
【主对话框】
• 1. Variables框：用于选入进行聚类分析所需的变量。选入类别变量后应使用下方的Define Range 钮具体确定变量的取值范围。 • 2. Label Cases by框：选入标签变量，如果选入，该变量的取值将在分析结果中取代原变量名。该框只在样品聚类时可用。 • 3. Cluster框：用于选择是进行样品聚类还是变量聚类，默认为前者。 • 4. Display复选框组：用于选择希望输出的结果，可选的有统计量和统计图，默认两者都输出。
Counts（分类变量计数资料）
• Chi-square measure：χ2值测距。 • Phi-square measure：V2值测距，即将χ2测距值除以合计频数的平方根。
Binary（二分类变量）
• Euclidean distance：计算公式为SQRT(b+c)，其中b、c分别为四格表中对角线上的元素，最小值为0，最大无限。 • Squared Euclidean distance：即│b+c│，最小为 0，最大无限。 • Size difference：最小距离为0，最大无限。 • Pattern difference：从0至1的无级测距。 • Variance：以方差为测距，虽小为0，最大无限。 • Lance and Williams：Bray-Curtis非等距系数，界于0至1之间。
优缺点
• 和系统聚类法相比，快速聚类法的计算量非常小，从而可以有效地处理多变量、大样本数据而不占用太多的内存空间和计算时间；同时在分析时用户可以人为指定初始中心位置，或者将曾做过的聚类分析结果作为初始位置引入分析，这在有前人工作可借鉴时是非常有用的。 • 应用范围比较有限：要求用户事先知道需要将样品分为多少类、只能对记录进行聚类而不能对变量聚类、所使用的变最必须都是连续性变量。并且对变量的多元正态性、方差齐性等条件要求较高，如果忽视这些问题就可能会导致错误的结果。
优缺点
• 优点：
– 可以对变量(样品)或记录进行聚类，变量可以为连续或分类变量，提供的距离测量方法和结果表示方法也非常丰富。
• 缺点：
– 但是由于它要反复计算距离，当样本量太大或变量较多时，采用系统聚类运算速度明显较慢。
聚类分析的几个问题
• 1. 距离测量方法：系统聚类法默认的几种距离测量方法和距离指标是比较常用的，如果不清楚其具体含义，可以不作更改，使用默认值即可。 • 2. 变量选择：
1.1 界面说明
wenku.baidu.com
【主对话框】
• 1．Variables框：选入用于进行快速聚类的变量。 • 2. Label case框：选入标签变量，该变量的取值将在分析结果中取代记录号出现。 • 3．Number of Clusters框：希望将样本分为的类别数，系统默认分为两类。 • 4. Method单选框组：用于选择聚类方法，默认为在初始类中心的基础上不断迭代和更换中心位置，从而将观察单位分配到最近的类别中去。也可以更改为只使用初始类中心对观察单位进行分类，这样可以节省运算时间，不过我个人认为多数情况下用前者更佳。 • 5．Centers：单击后主对话框下方展开，用于定义类中心坐标。Read initial from复选框用于指定数据文件中的观察值为初始类中心坐标，Write final as复选框用于将分析结果中的类中心坐标数据存储入指定文件。
第十一章聚类分析和判别分析
• 聚类分析是把没有分类信息的资料按相似程度归类，有一定探索性的味道； • 判别分析则是从已知的分类情况中总结规律，为以后判断新观测所属类别提供依据。
Classify菜单
• K-means Cluster过程：对记录进行快速聚类，当明确所需要分出的类别数时，采用快速聚类可以节省运算时间。根据经验，如果样本量大于100，则有必要考虑是否使用快速聚类。 • Hierarchical Cluster过程：习惯上翻译成系统聚类法，该过程提供了全面而强大的聚类分析能力，可对记录或变最进行聚类。更为重要的是，参与系统聚类分析的变量不再象快速聚类一样限于连续性变量，它们可以是两分类或多分类变量。 • Discrimant过程：提供了全面的判别分析功能，所用变量可一次进入，也可使用逐步法筛选出最优判别方程。
【Iterate子对话框】
• 1. Maximum Iterations框：设定最大迭代次数，默认值为10。 • 2. Convergence Criterion框：设定收敛标准，此处显示为0，实际上系统默认值为0.02，当类中心距离变化的最大值小于最小的初始类中心坐标值的2％时。选代即停止。 • 3. Use running means：程序默认只在所有记录都有了分类结果后才重新计算类中心位置。如果选中该复选框，则程序在每确定一个样品的分类后，会立刻重新计算新的类中心。在这种情况下，记录的排列次序显然会对分类结果有影响。
【Method子对话框】
• 1．Cluster Method下拉列表：用于选择聚类分析中不同类间距离的测量方法。此处提供了七种不同方法，分别为组间连结法、组内连结法、最近距离、最远距离、重心距离、中位数距离和 Ward‘s法，默认为组间连接法，它又被称为类平均法，大量实践证明这是一种非常优秀和稳健的方法，因此一般使用该默认值即可。 • 2．Measure组：用于选择所用的距离种类。各种数据类型可用的测距方法有： Interval（计量资料）、 Counts（分类变量计数资料）、 Binary （二分类变量）。
–在做聚类分析前，应从专业角度考虑尽量删去对分类不起作用的变量。并非变量越多越好，因为无关变量的存在可能会影响真实分类的发现，有时会引起严重的错分。 –原则上应当只引入在不同类间有显著差别的变量，目前已有一些类似回归分析中逐步分析的算法，可以剔除这样的变量，但尚未见到相应的统计软件。 –在现阶段，相应的变量筛选可以通过得出分类结果后进行方差分析，再结合专业知识来判断，就如同我们在上一节的做法一样。
Interval（计量资料）
• Euclidean distance：欧几里得距离，以两变量差值平方和的平方根为距离。 • Squared Euclidean distance：欧氏平方距离，默认值。以两变量差值平方和为距离，这种测量方法更重视较大的数值和距离。 • Chebychev：切比夫距离，以两变量绝对差值的最大值为距离。 • Block：以两变量绝对差值之和为距离。 • Minkowski：闵可夫斯基距离，以两变量绝对差值p次幂之和的p次根为距离，用户可以在Power框中更改分量值之差的次方P的大小。当p=2时即为欧几里得距离。 • Customized：自定义距离公式，用户需要在Power框中定义分量值之差的次方，在Root框中定义开分量值之差的次方。以两变量绝对差值p次幂之和的r次根为距离。 • 以上这些距离指标中，一般采用默认的欧氏平方距离即可。
【Save子对话框】
• 1. Cluster membership：输出聚类后每一记录所属类别，默认变量名为qcl_1。 • 2. Distance from cluster center：输出每一观察单位与所在类中心的距离。
【Options子对话框】
• 1. Statistics复选框组：可选的统计量有初始类中心位置、以聚类结果为自变量，分析中所用各变量为应变量的单因素方差分析、对每一观察对象最终的分类结果以及离所属类中心的距离。其中单因素方差分析非常有用，我们可以使用它来判断相应的变量究竟对聚类有无帮助。 • 2. Missing Values单选框组；选择对缺失值的处理方法，内容大家都已经很熟悉。
【Plots子对话框】
• 1．Dendrogram：输出分类结果树状图，当要分类的变量／记录数较多时，该图比冰柱图要清楚得多，建议大家尽量多用。 • 2．Icicle单选框组：输出分类结果冰柱图，不过当要分类的变量／记录数较多时该图会变得一片混乱，简直就成了垃圾输出，我觉得还是少用为妙。 • 3. Orientation单选框组：确定冰柱图是纵向还是横向排列，使用默认的纵向即可。
• 3．共线性问题：在进行记录聚类时，如果变量间存在较强共线性，则可能会对结果有较大的影响，因为这相当于某个变量的权重远远高于其他变量。如果候选变量中的确存在共线性，最好先进行预处理(剔除，或者提取主成分)再进行聚类分析。 • 4. 变量的标准化：如果用于分析的变量其变异程度相差非常大，则变异大的变量会严重影响距离计算结果(相当于其权重大大增加)，在这种情况下，我们需要先对变量进行某种标准化，然后才能进行聚类分析。
K-均值聚类法的步骤
• 1. 按照指定的希望分类的数量，按某种原则选择 (或人为指定)某些观测作为凝聚点，他们将作为今后各类的初始核心； • 2．按就近原则将其余观测向凝聚点凝集，这样得到一个初始分类方案，并计算出各个初始分类的中心位置(均值)； • 3．使用计算出的中心位置重新进行聚类，因此在该方法中，各观测的分类情况会在运算过程中不断改变，分类完毕后再次计算各类的中心位置。如此反复循环，直到凝聚点位置改变很小(达到收敛标准)为止。
【Statistic子对话框】
• 1. Agglomeration schedule：相当于聚类过程的详细记录，给出每一步中类合并的具体情况及相应类之间的距离。 • 2．Proximity matrix：列出观察单位或变量间的距离／相似性矩阵。 • 3. Cluster Membership单选框组：选择是否给出各样品／变量的聚类结果列表， • 默认不给出，可以指定输出具体为若干类的结果，或某一个范围内的分类结果。当样品／变量数太多，而分析者又重点关心聚为若干类的情况时，该结果非常有用。

SPSS第11章

相关主题

文档推荐

最新文档