第7章 群体间的差异比较——非参数检验

  • 格式:pptx
  • 大小:1.49 MB
  • 文档页数:50

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


(Kendall)协同系数检验时,样本应是定序、定距或定
比数据。

检验方法为克科伦(Cochran)Q检验时,样本应是二分 变量。
例:为比较三种促销形式对商品销售的影响,收集若干种商品在 不同促销形式下的月销售额数据如下。试分析三种促销形式对销 售额的影响有无显著差异。见数据“促销方式.sav”
23
例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个 评委的评判标准是否一致。数据见“评委打分.sav”。


此问题可先进行Friedman检验,考察6个歌手的水平是 否存在显著差异。 如果Friedman检验显著,则进一步进行Kendall协同系数
英语 排序 成绩 编号 70 75 75 80 80 1 2 3 4 5
性别 男 男 男 男 女
成绩求秩 1 2.5 2.5 4.5 4.5

85 85
85 85 90 90 95
6 7
8 9 10 11 12
男 男
女 女 女 女 女
7.5 7.5
7.5 7.5 10.5 10.5 12
分别计算来自两个样本的 案例值的秩的和。 如果两个样本具有相同 分布,它们的秩和的均值 应该相等。否则,则可推 断两总体的分布是有差异 的。

假设从两个未知的总体中分别独立、随机地各抽取一个样 本,把两个样本中的案例合并起来,然后按照案例值的大

小进行排序编号,每个数据的编号就是它的秩。 如果混合样本中有相同的数值,就在其所在的位置将这 几个相同的秩求平均,作为这几个案例值相同数值的秩。
男生英 语成绩 70 75 75 80 85 85 排序 编号 1 2 3 4 5 6 成绩 求秩 1 2.5 2.5 5 5.5 5.5 女生英 语成绩 80 85 85 90 90 95 排序 编号 1 2 3 4 5 6 成绩 求秩 1 2.5 2.5 4.5 4.5 6
利用秩次进行检验,原 假设为K组变量都来自 相同的一个分布,但不 一定要求是正态的,可 以在违反正态性假设的 情况下代替方差分析。
中位数检验
结果说明:
秩次越高,参加社团活 动的时间越多。 各组差异显著

多独立样本的非参数检验(秩和检验),可以对定序变量进 行多组比较,而 t 检验和方差分析的因变量只能是定距!

结果说明
促销形式2的商 品销售额最高。来自百度文库
P值小于5%, 说明三种促销 形式下商品的 销售额有显著 差异。

Kendall协同系数检验主要是一致性检验。
例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个 评委的评判标准是否一致。数据见“评委打分.sav”。
商品 编号 评委1 评委2 评委3 评委4 秩和 1号歌手 (秩) 8.75(1) 2号歌手 (秩) 9.6(4) 3号歌手 (秩) 9.2(2) 4号歌手 (秩) 9.65(5) 5号歌手 (秩) 9.3(3) 6号歌手 (秩) 9.8(6)
9865.00 5220.00 10072.00 737.00 9423.00 771.00 639.00 1793.00 4061.00 542.00

检验思路:如果三种促销形式没有显著差异,那么销售额 排序后的秩和应相等。
促销形式1 促销形式2 促销形式3 形式1的秩 形式2的秩 形式3的秩
商品 编号 1 2 3 4 5
针对数据“住房状况调查.sav”,分析本市户口和外地户 口的现住面积和计划面积有无显著差异。

此例适用于双独立样本的T检验。但通过正态性检验发现, 数据不符合正态分布。 样本量足够大的情况下,即使违反正态性假设,T检验也 适用。 此时可做完T检验后再进一步用双独立样本的非参数检验 加以验证。 分析——非参数检验——旧对话框——2个独立样本

对于任何仅可分成两类的总体,如果已知其中一类事件所 占的比例为P,那么另一类所占的比例必定是1-P,用Q 表示。 对于同一个总体,P值总是固定的。但在抽样过程中,每 次抽样所得的P值都有可能不同。 二项分布就是从二分类的总体中抽得的随机样本中可观察 到的两类比例的抽样分布。考察每个类别中观察值的频数 与特定二项分布下的预期频数间是否存在统计学差异,是 对二分类变量的拟合优度检验。 原假设:总体中第一类事件的比例是P。



本市户口的 现住面积和 计划面积都 更高。
本市户口和外地 户口的现住面积 差异显著,计划 面积差异不显著。
25

我们在做自变量水平为两个以上的均值比较时,一般采用 方差分析。


方差分析是一种非常稳健的统计分析方法,即在违反数据 要求的情况下往往仍然能够得到科学的结果。 当数据的正态性假设不能满足的情况下,可进一步采用多 独立样本的非参数检验来进一步说明问题。

原假设:前后测的差值为0(这种指导没有作用) 备择假设:后测-前测>0 分析——非参数检验——旧对话框——2个相关样本
Wilcoxon检验和Sign 检验都是假设前后测的 数据有相同的形状分布, 即两个分布有同样的均 值和方差。
因此,配对样本的非参
数检验并不关心分布的 具体类型。

例:针对“住房状况调查.sav”,分析现住面积在100平米以 上的是否为20%.
输入检验变量 中第一类事件 的比例。 确定分割点
18

独立样本的t 检验时,要求数据来自正态分布总体的独立 随机样本。或者根据中心极限定理,样本容量足够大,其

均值的抽样分布近似正态分布。 而在样本容量较小的情况下,如果样本呈非正态分布, 这时就要考虑以一种更合理的非参数检验方法来代替独立 样本的t检验。即秩和检验。

故游程检验是对二分变量的随机检验,可用于判断观察值 的顺序是否随机。
例:从性别的角度检验数据“手机购买.sav”是否为随机抽 样。 随机性检验的原假设为:总体变量值出现是随机的。 分析——非参数检验——旧对话框——游程

选入二分变量
规定分界点

结果说明
概值大于0.05,因此可以接 受Runs检验的原假设,即就 性别而言,数据来自一次随 机抽样。
6
7 8 9 10
12866.00 4673.00 10480.00 769.00 6482.00 796.00 843.00 1936.00 4694.00 635.00
17223.00 5894.00 14461.00 1962.00 13203.00 742.00 965.00 1260.00 5222.00 558.00
例:利用财经节目.sav分析不同受教育程度对财经节目的喜
好程度有无差异。
秩次越高,对财经节目 的喜好程度越低。
各组差异显 著
32

在 t 检验中,配对样本的t 检验要求前后测的数据来自正 态总体。当样本不服从正态总体时,利用配对样本的t 检
验便可能对结论产生严重误导。这时可以用配对样本的非 参数检验方法。
8.9(1) 8.75(1) 8.8(1)
4
9.55(4) 9.7(5.5) 9.6(4)
17.5
9.25(2) 9.25(2) 9.25(2)
8
9.75(5.5) 9.6(4) 9.75(5)
19.5
9.45(3) 9.3(3) 9.4(3)
12
9.75(5.5) 9.7(5.5) 9.85(6)
例:针对“社团.sav”,分析参加社团活动的时间是否服从正 态分布。


单样本K-S检验的原假设:样本所属的总体与指定的理论 分布一致。 分析——非参数检验——旧对话框——1-样本 K-S
正态分布 均匀分布
指数分布
泊松分布

结果说明
概值小于0.05,因 此拒绝原假设, 即参与社团活动 的时间不服从正 态分布。
例:对20个人进行了一次心理学上关于自负程度的测试,分数 越高表示自负的程度也越高。对受试者自负程度先进行前测, 经过一定的指导后,再进行后测,试分析这种指导是否减少自 负是否有作用。数据见自负程度.sav。

进行正态性检验知,样本并不服从正态总体。因此不能采 用t 检验,考虑用配对样本的非参数检验。
9865.00 5220.00 10072.00 737.00 9423.00 771.00 639.00 1793.00 4061.00 542.00
2 1 2 2 1 3 2 3 2 3 秩和 21
3 2 3 3 3 1 3 1 3 2 25
1 3 1 1 2 2 1 2 1 1 14

分析——非参数检验——旧对话框——K个相关样本
结果说明
P值小于5%, 说明前后测的 差值是显著的。
36

多配对样本的非参数检验是通过分析多组配对样本数据, 推断样本来自的多个总体的中位数或分布是否存在显著差

异。 数据要求:

各个样本为随机样本

各个样本的数据是配对的,即相关样本,各个样本的容量
相同。 检验方法为弗瑞德曼(Friedman)检验和肯德尔

参数检验:利用样本或总体的一些数值属性构造“统计量” (如 t 统计量、F 统计量),然后利用统计量所服从的某 种已知分布来评价某种情况是不是“小概率事件”,进而 拒绝原假设的方法。 参数检验要求样本是独立的、随机的,并且来自同一个正 态总体,以便得到的统计量确实服从某种已知分布。


如果样本来源的总体并非正态的,但样本规模很大且总体 的偏态不明显,参数检验也有一定的适用性; 如果样本来源的总体并非正态的,同时样本规模很少,这 时利用参数检验就会得到错误的结论。

如投掷硬币出现正反两面的变量值序列为
1011011010011000101010000111。 其中连续的1有9组,连续的0有8组,这一序列总的游程数

量为17。

如果硬币的正反面出现是随机的,那么在该序列中,许多 个1或许多个0连续出现的可能性都不大,且1和0频繁交叉 出现的可能性也非常小,因此,游程数太大或太小都将表 明变量值存在不随机的现象。
例:数据社团.sav中,比较低年级学生、本科高年级学生、 硕士生和博士生参加社团活动的时间是否有差别。 在对参加社团活动的时 间做正态性检验时,发 现“time”变量不能通 过正态性检验。
违反正态性假设的前提下,仍可以做方差分析。
方差分析结果显著。此时可进一步进行非参数检验。

分析——非参数检验——旧对话框——K个独立样本



例:针对“住房状况调查.sav”,分析外地户口的比例是否为 15%。


二项分布检验的原假设:总体中第一类事件的比例是P。 分析——非参数检验——旧对话框——二项式
输入检验变量 中第一类事件 的比例。

结果说明
检验比例
观测比例 单尾 检验的概值小于 5%,则拒绝原假设, 认为外地户口的比例不 是15%。从观测比例来 看,应小于15%。

非参数检验解决了这一问题,它也需要人为地构造一些统计 量,但这些构造出来的统计量并不使用样本的均值或方差等 这类对分布非常敏感的统计量,也不对总体分布的正态性提 出要求,这种方法被称作“非参数检验”。
7

在进行参数检验之前,可以先利用非参数检验看一下数据 来自什么样的总体,即判断样本的分布形状,然后有针对
三种促销形式下的商品销售额 商品编号 促销形式1 促销形式2 促销形式3
1
2 3 4 5 6 7 8 9 10
12866.00 4673.00 10480.00 769.00 6482.00 796.00 843.00 1936.00 4694.00 635.00
17223.00 5894.00 14461.00 1962.00 13203.00 742.00 965.00 1260.00 5222.00 558.00

性地在参数检验和非参数检验之间做出选择。 拟合优度检验:判断分布形状的非参数检验。把实际观 测到的样本与一个理论上的某种分布所对应的理论预测值 进行比较,检验两者是否有显著的差异。包括:

随机性检验 正态性检验

比例检验

用于检验样本是否是随机抽样的结果。 游程:是指样本序列中连续出现相同变量值的次数。
第7章
7.1 非参数检验概述 7.2 单样本的非参数检验 7.4 双独立样本的非参数检验
7.5 多独立样本的非参数检验 7.6 配对样本的非参数检验
7.7 多配对样本的非参数检验
3

统计量:根据样本所计算出来的样本的各种描述性指标。 如均数、方差、标准差等;


参数:关于总体性质的数量化描述。如通过人口普查计算 得全国人口的平均年龄。 参数估计:采用抽样方法时,可以用样本得到的“统计量” 对“参数”进行估计,也叫参数估计。如用样本均数来推 断总体均数。