Mean过程和T检验过程
- 格式:doc
- 大小:640.00 KB
- 文档页数:12
实验五均值比较与T检验⏹均值(Means)过程对准备比较的各组计算描述指标,进行预分析,也可直接比较。
⏹单样本T检验(One-Samples T Test)过程进行样本均值与已知总体均值的比较。
⏹独立样本T检验(Independent-Samples T Test)过程进行两独立样本均值差别的比较,即通常所说的两组资料的t检验。
⏹配对样本(Paired-Samples T Test)过程进行配对资料的显著性检验,即配对t检验。
⏹单因素方差分析(One-Way ANOVA)过程进行两组及多组样本均值的比较,即成组设计的方差分析,还可进行随后的两两比较,详情请参见单因素方差分析。
预备知识:假设检验的步骤:⏹第一步,根据问题要求提出原假设(Null hypothesis)和备选假设(Alternative hypothesis);⏹第二步,确定适当的检验统计量及相应的抽样分布;⏹第三步,计算检验统计量观测值的发生概率;⏹第四步,给定显著性水平并作出统计决策。
第二步和第三步由SPSS自动完成。
假设检验中的P值⏹P值(P-value)是指在原假设为真时,所得到的样本观察结果或更极端结果的概率,即样本统计量落在观察值以外的概率。
⏹根据“小概率原理”,如果P值非常小,就有理由拒绝原假设,且P值越小,拒绝的理由就越充分。
⏹实际应用中,多数统计软件直接给出P值,其检验判断规则如下(双侧检验):⏹若P值<a,则拒绝原假设;⏹若P值≥ a ,则不能拒绝原假设。
均值比较中原假设H0:μ=μ0(即某一特定值)(适用于单样本情形)或 H0:μ1=μ2。
(适用于两独立样本情形)一、Means(均值)过程选择:分析Analyze==>均值比较Compare Means ==>均值means;1、基本功能分组计算、比较指定变量的描述统计量,还可以给出方差分析表和线性检验结果表。
优点各组的描述指标被放在一起便于相互比较,如果需要还可以直接输出比较结果,无须再次调用其他过程。
第五章平均水平的比较第一节 Means过程5.1.1 主要功能5.1.2 实例操作第二节 Independent-Samples T Test过程5.2.1 主要功能5.2.2 实例操作第三节 Paired-Samples T Test过程5.3.1 主要功能5.3.2 实例操作第四节 One-Way ANOVA过程5.4.1 主要功能5.4.2 实例操作在正态或近似正态分布的计量资料中(如临床常见的体温、血压、脉搏、身高、体重等测量值,几乎均为此类资料),经常在使用前一章计量资料描述过程分析后,还要进行组与组之间平均水平的比较。
本章将分四节分别介绍这一统计方法:即常用的t检验和单因素方差分析。
第一节 Means过程5.1.1 主要功能与第四章中Descriptives过程相比,若仅仅计算单一组别的均数和标准差,Means过程并无特别之处;但若用户要求按指定条件分组计算均数和标准差,如分性别同时分年龄计算各组的均数和标准差,则用Means过程更显简单快捷。
5.1.2 实例操作[例5.1]某医师测得如下血红蛋白值(g%),试作基本的描述性统计分析:5.1.2.1 数据准备激活数据管理窗口,定义变量名:性别为sex,年龄为age,血红蛋白值为hb。
按顺序输入数据(sex变量中,男为1,女为2),结果见图5.1。
5.1.2.2 统计分析激活Statistics菜单选Compare Means中的Means...项,弹出Means对话框(如图5.2示)。
今欲分性别同时分年龄求血红蛋白值的均数和标准差,故在对话框左侧的变量列表中选hb,点击 钮使之进入Dependent List框,选sex 点击 钮使之进入Independent List框,点击Next,可选定分组的第二层次(Layer 2 of 2),选age 点击 钮亦使之进入Independent List框。
点击Options...可选统计项目:在Cell Displays项中,Mean为均数、Standard deviation为标准差、V ariance为方差、Count为观察单位数、Sum为观察值总和,在Statistics for First Layer 项中,将为第一层次的分组计算方差分析(ANOV A table and eta)和线性检验(Test of linearity)。
第九章 t 检验和方差分析在科研中,我们往往是根据样本之间的差异,去推断其总体之间是否有差异。
样本差异可能是由抽样误差所致,也可能是由本质的不同所致。
应用统计学方法来处理这类问题,称为“差异的显著性检验”。
若已知总体为正态分布,进行差异的显著性检验,称为“参数性检验”,SAS 中MEANS 、TTEST 、ANOVA 、GLM 等均属此类检验;若未知总体分布,进行差异的显著性检验,称为“非参数性检验”,SAS 中采用NPAR1WAY 过程。
第一节 t 检验9.1.1 简介t 检验是用于两组数据均值间差异的显著性检验。
它常用于以下场合:1.样本均值与总体(理论)均值差别的显著性检验检验所测得的一组连续资料是否抽样于均值已知的总体根据大量调查的结果或以往的经验,可得到某事物的平均数(例如生理生化的正常值),以此作总体均值看待。
SAS 中采用MEANS 过程,计算出观察与总体均值的差值,再对该差值的均值进行t 检验。
2.同一批对象实验前后差异的显著性检验(自身对照比较)或配对资料差异的显著性检验(配对比较检验)比如,在医学研究中,我们常常对同一批病人治疗前后的某些生理生化指标(如血压、体温等)进行测量,以观察疗效;或对同一批人群进行预防接种,以观察预防效果;或把实验对象配成对进行测定,比较其实验结果。
SAS 中采用MEANS 过程,计算出两样本观察的差值(如治疗前、后实验数据的差值),再对该差值的均值进行t 检验。
3.两样本均值差异的显著性检验作两样本均值差异比较的两组原始资料各自独立,没有成对关系。
两组样本所包含的个数可以相等,也可以不相等。
每组观测值都是来自正态总体的样本。
设1X 与2X 为两样本的均值,1n 与2n 为两样本数,21s ,22s 为两样本方差,分两种情形,其数学模型为:(1)方差齐(相等)时:)/1/1(21221n n s x x t +-=)2/(])1()1[(212222112-+-+-=n n s n s n s(2)方差不齐时: 22212121//n s n s x x t +-=SAS 中采用TTEST 过程,先作方差齐性检验(F 检验),然后根据方差齐(EQUAL)和方差不齐(UNEQUAL)输出t 值和P 值以及基本统计量。
Spss16.0与统计数据分析均值比较和T检验20XX6月13日均值比较和T 检验统计分析常常采取抽取样本的方法,即从总体中随机抽取一定数量的样本进行研究来推论总体的特性。
但是,由于抽取的样本不一定具有完全代表性,样本统计量与总体参数间存在差异,所以不能完全的说明总体的特性。
同时,我们也可以知道,均值不等的两个样本不一定来自均值不同的整体。
对于如何避免这些问题,我们自然可以想均值比较和T 检验 1、Means 过程 1.1 Means 过程概述(1)功能:对数据进行进行分组计算,比较制定变量的描述性统计量包括均值、标准差 、总和、观测量数、方差等一系列单列变量描述性统计量,还可以给出方差分析表和线性检验结果。
(2)计算公式为: nxx ni i∑==1111.2问题举例:比较不同性别同学的体重平均值和方差。
数据如下表所示:体重表1.3用SPSS 操作过程截图:1.4 结果和讨论p{color:black;font-family:sans-serif;font-size:10pt;font-weight:normal} Your trial period for SPSS for Windows will expire in 14 days.p{color:0;font -family:Monospaced;font-size:13pt;font-style:normal;font-weight:normal;text-decoration:none}MEANS TABLES=体重 BY 性别/CELLS MEAN COUNT STDDEV VAR.MeansCase Processing SummaryCasesIncluded Excluded TotalN Percent N Percent N Percent体重* 性别24 100.0% 0 .0% 24 100.0%由SPSS 计算计算结果可知男同学体重平均值为:56.5,方差为54.091女同学体重平均值为43.833,方差为29.970。
1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。
通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。
倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。
相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。
F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。
统计显著性(sig)就是出现目前样本这结果的机率。
2,统计学意义(P值或sig值)结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。
专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。
p值是将观察结果认为有效即具有总体代表性的犯错概率。
如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。
即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。
(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。
)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。
3,T检验和F检验至於具体要检定的内容,须看你是在做哪一个统计程序。
举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的t 检验。
两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢?会不会总体中男女生根本没有差别,只不过是你那麼巧抽到这2样本的数值不同?为此,我们进行t检定,算出一个t检定值。
1,T检验和F检验的由来之青柳念文创作一般而言,为了确定从样本(sample)统计成果推论至总体时所犯错的概率,我们会操纵统计学家所开辟的一些统计方法,停止统计检定.通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)停止比较,我们可以知道在多少%的机会下会得到今朝的成果.倘若经比较后发现,出现这成果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们即可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是可以回绝虚无假设null hypothesis,Ho).相反,若比较后发现,出现的机率很高,其实不罕见;那我们便不克不及很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定.F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布.统计显著性(sig)就是出现今朝样本这成果的机率.2,统计学意义(P值或sig值)成果的统计学意义是成果真实程度(可以代表总体)的一种估计方法.专业上,p值为成果可托程度的一个递减指标,p值越大,我们越不克不及认为样本中变量的关联是总体中各变量关联的靠得住指标.p值是将观察成果认为有效即具有总体代表性的犯错概率.如p=0.05提示样本中变量关联有5%的可以是由于偶尔性造成的.即假设总体中任意变量间均无关联,我们重复近似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验成果.(这其实不是说如果变量间存在关联,我们可得到5%或95%次数的相同成果,当总体中的变量存在关联,重复研究和发现关联的可以性与设计的统计学效力有关.)在许多研究范畴,0.05的p值通常被认为是可承受错误的鸿沟水平.3,T检验和F检验至於详细要检定的内容,须看你是在做哪个统计程序.举一个例子,比方,你要检验两独立样本均数差别是否能推论至总体,而行的t检验.两样本(如某班男生和女生)某变量(如身高)的均数其实不相同,但这不同是否能推论至总体,代表总体的情况也是存在著差别呢?会不会总体中男女生根本没有不同,只不过是你那麼巧抽到这2样本的数值分歧?为此,我们停止t检定,算出一个t检定值.与统计学家建立的以「总体中没不同」作基础的随机变量t 分布停止比较,看看在多少%的机会(亦即显著性sig值)下会得到今朝的成果.若显著性sig值很少,比方<0.05(少於5%机率),亦即是说,「如果」总体「真的」没有不同,那麼就只有在机会很少(5%)、很罕有的情况下,才会出现今朝这样本的情况.虽然还是有5%机会出错(10.05=5%),但我们还是可以「比较有信心」的说:今朝样本中这情况(男女生出现差别的情况)不是巧合,是具统计学意义的,「总体中男女生不存差别」的虚无假设应予回绝,简言之,总体应该存在著差别. 每种统计方法的检定的内容都不相同,同样是t检定,可以是上述的检定总体中是否存在差别,也同能是检定总体中的单一值是否等於0或者等於某一个数值.至於F检定,方差分析(或译变异数分析,Analysis of Variance),它的原理大致也是上面说的,但它是透过检视变量的方差而停止的.它主要用于:均数差此外显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况.3,T检验和F检验的关系t检验过程,是对两样本均数(mean)差此外显著性停止检验.惟t检验须知道两个总体的方差(Variances)是否相等;t检验值的计算会因方差是否相等而有所分歧.也就是说,t检验须视乎方差齐性(Equality of Variances)成果.所以,SPSS在停止ttest for Equality of Means的同时,也要做Levene's Test for Equality of Variances .1.在Levene's Test for Equality of Variances一栏中 F值为2.36, Sig.为.128,暗示方差齐性检验「没有显著差别」,即两方差齐(Equal Variances),故下面t检验的成果表中要看第一排的数据,亦即方差齐的情况下的t检验的成果.2.在ttest for Equality of Means中,第一排(Variances=Equal)的情况:t=8.892, df=84, 2TailSig=.000, Mean Difference=22.99既然Sig=.000,亦即,两样本均数不同有显著性意义!3.到底看哪个Levene's Test for Equality of Variances一栏中sig,还是看ttest for Equality of Means中阿谁Sig. (2tailed)啊?答案是:两个都要看.先看Levene's Test for Equality of Variances,如果方差齐性检验「没有显著差别」,即两方差齐(Equal Variances),故接著的t检验的成果表中要看第一排的数据,亦即方差齐的情况下的t检验的成果.反之,如果方差齐性检验「有显著差别」,即两方差不齐(Unequal Variances),故接著的t检验的成果表中要看第二排的数据,亦即方差不齐的情况下的t检验的成果.4.你做的是T检验,为什么会有F值呢?就是因为要评估两个总体的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验方差,故所以就有F值.另外一种诠释:t检验有单样本t检验,配对t检验和两样本t检验.单样本t检验:是用样本均数代表的未知总体均数和已知总体均数停止比较,来观察此组样本与总体的差别性.配对t检验:是采取配对设计方法观察以下几种情形,1,两个同质受试对象分别承受两种分歧的处理;2,同一受试对象承受两种分歧的处理;3,同一受试对象处理前后.F检验又叫方差齐性检验.在两样本t检验中要用到F检验. 从两研究总体中随机抽取样本,要对这两个样本停止比较的时候,首先要断定两总体方差是否相同,即方差齐性.若两总体方差相等,则直接用t检验,若不等,可采取t'检验或变质变换或秩和检验等方法.其中要断定两总体方差是否相等,便可以用F检验.若是单组设计,必须给出一个尺度值或总体均值,同时,提供一组定量的观测成果,应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并知足方差齐性.之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其实际依据的检验方法.简单来讲就是实用T检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证.如何断定成果具有真实的显著性在最后结论中断定什么样的显著性水平具有统计学意义,不成防止地带有武断性.换句话说,认为成果无效而被回绝承受的水平的选择具有武断性.实践中,最后的决议通常依赖于数据集比较和分析过程中成果是先验性还是仅仅为均数之间的两两>比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究范畴的惯例.通常,许多的迷信范畴中发生p值的成果≤0.05被认为是统计学意义的鸿沟线,但是这显著性水平还包含了相当高的犯错可以性.成果0.05≥p>0.01被认为是具有统计学意义,而0.01≥p≥0.001被认为具有高度统计学意义.但要注意这种分类仅仅是研究基础上非正规的断定惯例.所有的检验统计都是正态分布的吗其实不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、f检验或卡方检验.这些检验一般都要求:所分析变量在总体中呈正态分布,即知足所谓的正态假设.许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因.当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就发生了,(参阅非参数和方差分析的正态性检验).这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不矫捷.另外一种方法是:当确定样本量足够大的情况下,通常还是可使用基于正态分布前提下的检验.后一种方法是基于一个相当重要的原则发生的,该原则对正态方程基础上的总体检验有极其重要的作用.即,随着样本量的增加,样天职布形状趋于正态,即使所研究的变量分布其实不呈正态.。
t检验方法步骤
T检验的方法步骤如下:
1.提出原假设和备择假设:原假设H0认为总体均值与检验值之间不存在显著差异,即原假设H0:μ=μ0,备
择假设H1:μ≠μ0。
2.确定检验统计量。
3.计算检验统计量的观测值和p值:可使用SPSS或R语言等软件直接计算。
4.确定显著性水平α,并作出决策:一般情况下使用最多的α值是0.05,也可结合具体情况使用0.001、0.005、
0.0001等。
如果p值小于或等于显著性水平α,就拒绝原假设,即认为总体均值与检验值之间存在显著差
异;如果p值大于显著性水平α,就接受原假设,即认为总体均值与检验值之间无显著差异。
需要注意的是,T检验的数据条件是来自正态分布总体。
此外,T检验有单样本T检验和独立样本T检验等不同类型,不同类型的T检验在步骤上略有不同。
在实际应用中,应根据具体情况选择合适的T检验类型,并遵循上述步骤进行检验。
1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。
通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。
倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。
相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。
F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。
统计显著性(sig)就是出现目前样本这结果的机率。
2,统计学意义(P值或sig值)结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法.专业上,p 值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标.p值是将观察结果认为有效即具有总体代表性的犯错概率。
如p=0。
05提示样本中变量关联有5%的可能是由于偶然性造成的。
即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果.(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。
)在许多研究领域,0。
05的p值通常被认为是可接受错误的边界水平。
3,T检验和F检验至於具体要检定的内容,须看你是在做哪一个统计程序。
举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的t 检验。
两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢?会不会总体中男女生根本没有差别,只不过是你那麼巧抽到这2样本的数值不同?为此,我们进行t检定,算出一个t检定值。
一、Means过程1.简单介绍Means过程计算指定变量的综合描述计量,包括均值、标准差、总和、观测量数、方差等一系列单变量描述统计。
当观测量按一个分类变量分组时,Means过程可以进行分组计算。
例如,要计算某地区高考的数学成绩,Sex变量把考生分为男生和女生两组,Means过程可以分别计算男女生的数学成绩。
Means过程还可以给出方差分析表和线性检验结果。
使用Means过程求若干组的描述统计量的目的在于比较,因此必须求均值。
这是与Descriptive过程不同之处。
2.完全窗口分析Means过程的大部分功能可以完全由窗口实现,这给用户带来了很大的方便。
(1)Means主对话框按Analyze →Compare Means →Means的顺序单击,即可打开“Means”主对话框,如图1所示。
图1 Means主对话框(2)Dependent框该框中的变量作为因变量,通常认为受自变量影响或决定,因此被用来预测或建模。
要从源变量框中选取变量进入该框,只需选中所要选取的变量,然后按向右的箭头即可。
(3)Independent框该框中的变量是自变量,又被称为预测变量或解释变量。
要运行Means过程,该框中必须至少有一个变量。
要从源变量框中选取变量进入该框,同样只需激活所要选取的变量,然后按向右的箭头即可。
选中变量进入该框后,可以看到上方的【Next】按钮有效,单击该按钮进入下一层,在下一层的自变量将再细分样本。
要回到上一层,单击【Previous】按钮即可。
(4)Options 对话框单击Options按钮,即可打开“Options”对话框,如图2所示。
图2 Options 对话框①Cell Statistics框从左边框中选择要输出的统计量进入该框,该框中的统计量是输出时显示的统计量,其排列顺序即是输出时显示的顺序。
可供选择的统计量的意义如下:Sum(总和)、Number of cases(观测量数目)、Mean(均值)、Median (中位数)、Grouped median(分组中位数)、Standard error of the mean (均值标准误差)、Minimum(最小值)、Maximum(最大值)、Range(范围)、Standard deviation(标准差)、Variance(方差)、Kurtosis(峰度)、Standard error of kurtosis(峰度的标准差)、Skewness(偏度)、Standard error of Skewness(偏度的标准差)、First(首值)、Last(尾值)、Percentage of total sum(占总和的百分比)、Percentage of total N(占观测量总数的百分比)、Geometric mean(几何均数)、Harmonic mean(调和均数)。
一、Means过程1.简单介绍Means过程计算指定变量的综合描述计量,包括均值、标准差、总和、观测量数、方差等一系列单变量描述统计。
当观测量按一个分类变量分组时,Means 过程可以进行分组计算。
例如,要计算某地区高考的数学成绩,Sex变量把考生分为男生和女生两组,Means过程可以分别计算男女生的数学成绩。
Means过程还可以给出方差分析表和线性检验结果。
使用Means过程求若干组的描述统计量的目的在于比较,因此必须求均值。
这是与Descriptive过程不同之处。
2.完全窗口分析Means过程的大部分功能可以完全由窗口实现,这给用户带来了很大的方便。
(1)Means主对话框按Analyze →Compare Means →Means的顺序单击,即可打开“Means”主对话框,如图1所示。
图1 Means主对话框(2)Dependent框该框中的变量作为因变量,通常认为受自变量影响或决定,因此被用来预测或建模。
要从源变量框中选取变量进入该框,只需选中所要选取的变量,然后按向右的箭头即可。
(3)Independent框该框中的变量是自变量,又被称为预测变量或解释变量。
要运行Means过程,该框中必须至少有一个变量。
要从源变量框中选取变量进入该框,同样只需激活所要选取的变量,然后按向右的箭头即可。
选中变量进入该框后,可以看到上方的【Next】按钮有效,单击该按钮进入下一层,在下一层的自变量将再细分样本。
要回到上一层,单击【Previous】按钮即可。
(4)Options 对话框单击Options按钮,即可打开“Options”对话框,如图2所示。
图2 Options 对话框①Cell Statistics框从左边框中选择要输出的统计量进入该框,该框中的统计量是输出时显示的统计量,其排列顺序即是输出时显示的顺序。
可供选择的统计量的意义如下:Sum(总和)、Number of cases(观测量数目)、Mean(均值)、Median(中位数)、Grouped median(分组中位数)、Standard error of the mean(均值标准误差)、Minimum(最小值)、Maximum(最大值)、Range(范围)、Standard deviation (标准差)、Variance(方差)、Kurtosis(峰度)、Standard error of kurtosis(峰度的标准差)、Skewness(偏度)、Standard error of Skewness(偏度的标准差)、First (首值)、Last(尾值)、Percentage of total sum(占总和的百分比)、Percentage of total N(占观测量总数的百分比)、Geometric mean(几何均数)、Harmonic mean (调和均数)。
在统计学中,我们往往从样本的特性推知随机变量总体的特性。
但由于总体中个体之间存在差异,样本的统计量和总体的参数之间往往会有误差。
因此,均值不相等的样本未必来自不同分布的总体,而均值相等的样本未必来自有相同分布的总体。
也就是说,如何从样本均值的差异推知总体的差异,这就是均值比较的内容。
SPSS提供了均值比较过程,在主菜单栏单击“Analyze”菜单下的“Compare Means”项,该项下有5个过程,如图4-1。
平均数比较Means过程用于统计分组变量的的基本统计量。
这些基本统计量包括:均值(Mean)、标准差(Standard Deviation)、观察量数目(Number of Cases)、方差(Variance)。
Means过程还可以列出方差表和线性检验结果。
[例子]调查了棉铃虫百株卵量在暴雨前后的数量变化,统计暴雨前和暴雨后的统计量,其数据如下:暴雨前 110 115 133 133 128 108 110 110 140 104 160 120 120暴雨后 90 116 101 131 110 88 92 104 126 86 114 88 112该数据保存在“”文件中。
1)准备分析数据在数据编辑窗口输入分析的数据,如图4-2所示。
或者打开需要分析的数据文件“”。
图4-2 数据窗口2)启动分析过程在SPSS主菜单中依次选择“Analyze→Compare Means→Means”。
出现对话框如图4-3。
图4-3 Means设置窗口3)设置分析变量从左边的变量列表中选中“百株卵量”变量后,点击变量选择右拉按钮,该变量就进入到因子变量列表“Dependent List:”框里,用户可以从左边变量列表里选择一个或多个变量进行统计。
从左边的变量列表中选中“调查时候”变量,点击“Independent List”框左边的右拉按钮,该变量就进入分组变量“Independent List”框里,用户可以从左边变量列表里选择一个或多个分组变量。
t检验的工作原理和在Python中的实现t检验(t-test)是一种常用的统计方法,用于比较两个独立样本或相关样本的均值是否存在显著差异。
它的工作原理基于样本均值的差异和样本方差的比较。
在t-test中,我们假设两组样本的总体方差未知但相等。
然后,我们计算两组样本的均值差异,并对比差异与误差范围的相对大小。
算法如下:1.零假设(H0):两个样本的均值相等,即差异为零。
2. 计算两组样本的平均值(mean1和mean2),以及样本方差(var1和var2)。
3. 计算合并标准误差(standard error):SE = sqrt(var1/n1 + var2/n2),其中,n1和n2分别是两组样本的大小。
4. 计算t值:t = (mean1 - mean2) / SE。
5. 根据自由度(df = n1 + n2 - 2)和所选择的显著性水平(通常为0.05),查找t分布的临界值(t_critical)。
6. 判断t值是否大于t_critical,如果是,则拒绝零假设,接受备择假设(H1);否则,接受零假设。
在Python中,我们可以使用统计库statsmodels或者SciPy来实现t-test。
以下是使用statsmodels库的示例代码:```pythonimport statsmodels.api as smimport pandas as pd#创建两组样本数据group1 = [1, 2, 3, 4, 5]group2 = [6, 7, 8, 9, 10]# 将数据转换为DataFrame格式data = pd.DataFrame({"group1": group1, "group2": group2})# 执行t-testresult = sm.stats.ttest_ind(data["group1"], data["group2"]) #输出t值和p值print("t值:", result[0])print("p值:", result[1])```在上述代码中,我们首先创建了两组样本数据,并将它们转换为DataFrame格式。
一、Means过程1.简单介绍Means过程计算指定变量的综合描述计量,包括均值、标准差、总和、观测量数、方差等一系列单变量描述统计。
当观测量按一个分类变量分组时,Means 过程可以进行分组计算。
例如,要计算某地区高考的数学成绩,Sex变量把考生分为男生和女生两组,Means过程可以分别计算男女生的数学成绩。
Means过程还可以给出方差分析表和线性检验结果。
使用Means过程求若干组的描述统计量的目的在于比较,因此必须求均值。
这是与Descriptive过程不同之处。
2.完全窗口分析Means过程的大部分功能可以完全由窗口实现,这给用户带来了很大的方便。
(1)Means主对话框按Analyze →Compare Means →Means的顺序单击,即可打开“Means”主对话框,如图1所示。
图1 Means主对话框(2)Dependent框该框中的变量作为因变量,通常认为受自变量影响或决定,因此被用来预测或建模。
要从源变量框中选取变量进入该框,只需选中所要选取的变量,然后按向右的箭头即可。
(3)Independent框该框中的变量是自变量,又被称为预测变量或解释变量。
要运行Means过程,该框中必须至少有一个变量。
要从源变量框中选取变量进入该框,同样只需激活所要选取的变量,然后按向右的箭头即可。
选中变量进入该框后,可以看到上方的【Next】按钮有效,单击该按钮进入下一层,在下一层的自变量将再细分样本。
要回到上一层,单击【Previous】按钮即可。
(4)Options 对话框单击Options按钮,即可打开“Options”对话框,如图2所示。
图2 Options 对话框①Cell Statistics框从左边框中选择要输出的统计量进入该框,该框中的统计量是输出时显示的统计量,其排列顺序即是输出时显示的顺序。
可供选择的统计量的意义如下:Sum(总和)、Number of cases(观测量数目)、Mean(均值)、Median(中位数)、Grouped median(分组中位数)、Standard error of the mean(均值标准误差)、Minimum(最小值)、Maximum(最大值)、Range(范围)、Standard deviation (标准差)、Variance(方差)、Kurtosis(峰度)、Standard error of kurtosis(峰度的标准差)、Skewness(偏度)、Standard error of Skewness(偏度的标准差)、First (首值)、Last(尾值)、Percentage of total sum(占总和的百分比)、Percentage of total N(占观测量总数的百分比)、Geometric mean(几何均数)、Harmonic mean (调和均数)。
②Statistics for First Layer该栏中有两个复选框,决定对第一层自变量的有关分析。
●ANOV A table and eta复选框选中该复选项对第一层自变量给出方差分析表和eta统计量η和η2。
方差分析的零假设是,第一层自变量各水平上的因素量均值都相等。
η统计量表明因变量和自变量之间联系的强度。
η2是因变量中不同组中差异所解释的方差比,是组间平方和与总平方和之比。
●Tests for linearity复选框选中该复选框产生R和R2。
只有早控制变量有基本的数量级(例如自变量表示年龄或人种,不能是房子颜色或居住城市等),且自变量有三个水平以上。
其检验的假设是因变量均值是第一层自变量值的线性函数。
R和R2测度线性拟合的良好度。
R是观测值与预测值之间的相关系数。
3.例题分析某医师测得如下血红蛋白值(g%),用Means过程对其做基本的描述性统计分析。
(1)操作步骤①激活数据管理窗口,输入数据文件,定义变量名:性别为sex,年龄为age,血红蛋白值hb。
按顺序输入数据(sex变量中,男为1,女为2)。
②按Analyze →Compare Means →Means 的顺序单击,即可打开“means”主对话框。
③在对话框左侧的变量中选hb,单击向右按钮使之进入Dependent List框,选sex单击向右按钮使之进入Independent List框。
④单击败【Options】按钮打开“Options”对话框,从中选择统计项目:在Cell Displays项中,选中Mean、Standard deviation、Variance、Number of Cases和Sum五个复选框。
⑤在Statistics for First Layer项中,将为第一层的分组选择计算方差分析(ANOV A table and eta)和线性检验(Test of linearity)。
单击【Continue】按钮返回“Means”主对话框。
⑥选age单击向右按钮使之进入Independent List框。
重复④和⑤步骤,返回“Means”主对话框。
⑦在主对话框中单击【OK】钮完成。
(2)输出结果及分析表2是我们造已熟悉的观测量摘要表,说明了观测量总个数为40,其中有效值为40 个,无效值有0。
表2 观测量摘要表表3分为三部分,第一、第二部分先按性别分组(分男性和女性),再按年龄分组(16,17,18岁三组)计算观测值合计、均值、标准差、方差和个数;第三部分是之按年龄分组,最后一行表示40个观测值合计为457.79,均数为11.4448,标准差为2.2690,方差为5.1484,个数为40。
若在Independent List中未分层次,即sex和age一起在Layer 1of 1中,则结果是分别计算男性与女性(不作年龄分组)。
16、17、18岁三组(不作性别分组)的观测值合计、均值、标准差、方差和个数,如表4、5所示。
表3 分组描述统计量Report血红蛋白值表4 按性别分组的描述统计量Report血红蛋白值Report血红蛋白值表6是方差分析表,共有六列,第一列说明方差的来源,Between Groups 是组间的,Within Groups是组内的,Total是总的。
第二列为平方和,其大小说明了各方差来源作用的大小。
第三列为自由度。
第四列为均方,即平方除以自由度。
第五列F值只F统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的显著性,如果不显著说明模型对指标的变化没有解释能力。
第六列是F值统计量的显著值,由于这里显著性小于0.05(我们的检验水平),所以模型是显著的,性别对血红蛋白有显著影响。
由于性别分组只有两个水平,所以没有设计计算线性检验。
表6 方差分析表血红蛋白值*性别表7是eta统计量表,η统计量表明因变量和自变量之间联系的强度,0.567的值处于中等水平,η2是因变量中不同组间差异所解释的方差比,是组内平方和与总平方和之比,即由64.5256除以200.787得到。
表7 eta统计量表8、表9是将年龄作为第一层自变量得到的方差分析表和eta统计量表。
表8中多了两行,Linearity是假设因变量均值是第一层自变量值的线性函数,Deviation from Linearity是不能由线性模型解释的部分。
表9中是R和R2测度线性拟合的良好度,R是观测值与预测值之间的相关系数。
表9 按年龄分组的eta统计量表二、单一样本T检验1.简单介绍单一样本T检验(One-Sample T Test)是检验单个变量的均值是否与假设检验值(给定的常数)之间存在差异。
例如,研究某地区高考数学平均分数与去年分组(定值)的差异。
如果已知总体均数,进行样本均数与总体均数之间差异显著性检验也属于单一样本的T检验。
例如,研究某地区高考数学平均分数与全省高考数学平均分数的差异,这样的问题就是依靠进行样本均数与总体均数之间差异显著性检验,即进行单一样本的T检验来解决的问题。
单一样本T检验过程对每个检验变量给出的统计量包括观测量个数、均值、标准差和均值的标准差,它还给出了每个数据值与假设检验值之间的差的平均值以及进行该差值为0的T检验和该差值的置信区间,并且用户可以指定这个显著性水平。
2.完全窗口分析(1)One-Sample T Test主对话框按Analyze →Compare Means →One Sample T Test的顺序单击,就可以打开主对话框,如图3所示。
图3 单一样本T检验主对话框(2)Test Variable框Test Variable框中的变量是要作检验的变量,要从源变量框中选取变量进入该框,只需选中所要选的变量,然后按向右的箭头即可。
(3)Test Valeu参数框在该框中输入一个定值作为假设检验值。
(4)Options对话框在主对话框中单击【Options】键,即可打开“Options”对话框,如图4所示。
图4 Options对话框①Confidence Interval参数框在该框中输入置信区间,必须在1~99之间,一般取为90、95、99等,过程将给出这个置信区间的上下限。
需要说明的是,计算置信区间的变量不是样本值,而是样本值和假设检验值(Test Value)的差。
②Missing Value框在该框中选择缺失值的处置方式。
●Exclude cases analysis by analysis选中该框,在检验变量中含有缺失值的观测将不被计算。
●Exclude cases listwise选中该框,在任何一个变量中含有缺失值的观测都将不被计算。
3.例题分析仍以上例来说明。
已知另一地区16~18岁少年血红蛋白平均值为11.657g%,检验这一地区16~18岁少年血红蛋白值是否与另一地区的平均值相等。
(1)操作步骤①按Analyze →Compare Means →One Sample T Test的顺序单击,就可以打开主对话框。
②将变量hb选入Test Variable框。
③在Test Value框中输入11.657。
④单击【OK】完成。
(2)输出结果及分析表10是血红蛋白值的一些统计量,包括观测量个数、均值、标准差和均值标准误差。
表10 单个样本统计量从表11中可以看出,t值为-0.592,自由度为39,显著值为0.558,样本均值与检验值的差为-0.2122,该差值95%的置信区间是-0.9379~0.5134。
表11 单个样本检验三、独立样本T检验1.简单介绍独立样本T检验(Independent Samples T Test)用于检验对于两组来自独立总体的样本,其独立总体的均值或中心位置是否一样。
如果两组样本彼此不独立,应该使用陪对T检验(Paired Samples T Test)。