第9章 直线相关与回归
- 格式:pps
- 大小:2.17 MB
- 文档页数:62
第九章直线相关与回归[例9.1] 测得某地15名正常成年男子的身高X/cm、体重Y/kg如表1,试计算X和Y之间的相关系数r。
解:在SPSS中可以计算Pearson相关系数。
操作如下:一、操作:Analysis->Correlate->Bivariate用鼠标选中变量X和Y,然后选入右侧,选择Pearson相关系数,操作完毕如下图:二、结果见下:SPSS给出相关系数交叉表,可以看出X和Y的相关系数为0.599,p=0.000。
可以认为X和Y线性相关,并且有统计意义。
[例9.2] 为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽3名男孩,共抽18名男孩。
资料列于表2。
解:本题需要计算回归方程式,在SPSS中可以直接菜单完成。
操作如下:一、操作:Analysis->Regression->Linear用鼠标选中变量X和Y,分别选入自变量和应变量对话框,操作完毕如下图:二、主要结果见下首先给出方差分析表,由p=0.000,可以认为回归模型有统计意义。
根据回归系数得到回归方程式为:Y=75.363+6.257X。
由p=0.000,可以认为回归系数有统计意义。
[例9.3] 调查了某地区10个乡的钉螺密度与血吸虫感染率/%数据如表3。
试分析该地区螺密度与感染率之间有无相关关系?解:本题选用Spearman秩相关,在SPSS中操作如下:一、操作:Analysis->Correlate->Bivariate用鼠标选中变量X和Y,分别选入右侧对话框,并且选择Spearman相关系数,操作完毕如下图:二、主要结果见下:可见Spearman相关系数为0.817,p=0.004。
可以认为Spearman相关系数有统计意义。
第九章相关与回归一.判断题部分题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。
()答案:×题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。
()答案:√题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。
()答案:×题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。
()答案:×题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。
()答案:×题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。
()答案:√题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。
()答案:×题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。
()答案:×题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。
()答案:√题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。
()答案:×题目11:完全相关即是函数关系,其相关系数为±1。
()答案:√题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。
()答案×二.单项选择题部分题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。
A.相关关系B.函数关系C.回归关系D.随机关系答案:B题目2:现象之间的相互关系可以归纳为两种类型,即()。
A.相关关系和函数关系B.相关关系和因果关系C.相关关系和随机关系D.函数关系和因果关系答案:A题目3:在相关分析中,要求相关的两变量()。
A.都是随机的B.都不是随机变量C.因变量是随机变量D.自变量是随机变量答案:A题目4:测定变量之间相关密切程度的指标是()。
第9章相关与回归分析【教学内容】相关分析与回归分析是两种既有区别又有联系的统计分析方法。
本章阐述了相关关系的概念与特点;相关关系与函数关系的区别与联系;相关关系的种类;相关关系的测定方法(直线相关系数的含义、计算方法与运用);回归分析的概念与特点;回归直线方程的求解及其精确度的评价;估计标准误差的计算。
【教学目标】1、了解相关与回归分析的概念、特点和相关分析与回归分析的区别与联系;2、掌握相关分析的定性和定量分析方法;3、掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。
【教学重、难点】1、相关分析与回归分析的概念、特点、区别与联系;2、相关与回归分析的有关计算公式和应用条件。
第一节相关分析的一般问题一、相关关系的概念与特点(一)相关关系的概念在自然界与人类社会中,许多现象之间是相互联系、相互制约的,表现在数量上也存在着一定的联系。
这种数量上的联系和关系究其实质,可以概括为两种不同类型,即函数关系与相关关系。
相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。
例如,商品销售额与流通费用率之间的关系就是一种相关关系。
(二)相关关系的特点1、相关关系表现为数量相互依存关系。
2、相关关系在数量上表现为非确定性的相互依存关系。
二、相关关系的种类1、相关关系按变量的多少,可分为单相关和复相关2、相关关系从表现形态上划分,可分为直线相关和曲线相关3、相关关系从变动方向上划分,可分为正相关和负相关4、按相关的密切程度分,可分为完全相关、不完全相关和不相关三、相关分析的内容相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计方法。
其目的在于对现象间所存在的依存关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。
相关分析的内容和程序是:(1)判别现象间有无相关关系(2)判定相关关系的表现形态和密切程度第二节相关关系的判断与分析一、相关关系的一般判断(一)定性分析对现象进行定性分析,就是根据现象之间的本质联系和质的规定性,运用理论知识、专业知识、实际经验来进行判断和分析。
统计学中直线相关与回归的区别与联系在统计学中,直线相关和回归是两个相关的概念,但又有一些区别和联系。
区别:
1. 定义:直线相关是指两个变量之间的线性关系,即随着一个变量的增加,另一个变量也以一定的比例增加或减少。
回归分析是一种统计方法,用于建立一个或多个自变量与因变量之间的关系模型。
2. 目的:直线相关主要关注变量之间的关系和相关程度,通过相关系数来衡量。
而回归分析旨在通过建立数学模型来预测或解释因变量的变化,以及评估自变量对因变量的影响。
3. 变量角色:在直线相关中,两个变量没有明确的自变量和因变量的区分,它们之间的关系是对称的。
而在回归分析中,通常有一个或多个自变量作为预测因变量的因素。
联系:
1. 线性关系:直线相关和回归分析都假设变量之间存在线性关系,即可以用直线或线性模型来描述它们之间的关系。
2. 相关系数:直线相关中使用相关系数来度量变量之间的相关程度。
回归分析中也使用相关系数,但更多地关注回归模型的参数估计和显著性检验。
3. 数据分析:直线相关和回归分析都是常用的数据分析方法,在实际应用中经常同时使用。
直线相关可以帮助我们了解变量之间的关系和趋势,而回归分析可以进一步建立模型和进行预测。
总之,直线相关和回归分析是统计学中两个相关但又有区别的概念。
直线相关关注变量之间的线性关系和相关程度,而回归分析则更关注建立模型和预测变量之间的关系。
在实际应用中,它们常常相互补充使用,以帮助我们理解和解释数据。
第九章相关与回归一.判断题部分题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。
()答案:×题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。
()答案:√题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。
()答案:×题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。
()答案:×题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。
()答案:×题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。
()答案:√题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。
()答案:×题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。
()答案:×题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。
()答案:√题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。
()答案:×题目11:完全相关即是函数关系,其相关系数为±1。
()答案:√题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。
()答案×二.单项选择题部分题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。
A.相关关系B.函数关系C.回归关系D.随机关系答案:B题目2:现象之间的相互关系可以归纳为两种类型,即()。
A.相关关系和函数关系B.相关关系和因果关系C.相关关系和随机关系D.函数关系和因果关系答案:A题目3:在相关分析中,要求相关的两变量()。
A.都是随机的B.都不是随机变量C.因变量是随机变量D.自变量是随机变量答案:A题目4:测定变量之间相关密切程度的指标是()。
直线相关与回归分析的区别和联系
1、区别
(1)资料要求不同相关要求两个变量是双变量正态分布;回归要求因变量Y服从正态分
布,而自变量X是能精确测量和严格控制的变量。
(2)统计意义不同相关反映两量变间的伴随关系,这种关系是相互的、对等的,不一定
有因果关系;回归则反映两变量间的依存关系,有自变量和因变量之分,一般将“因”
或较易测定、变异较小者定为自变量。
这种依存关系可能是因果关系,也可能是从属关系。
(3)分析目的不同相关分析的目的是把两变量间直线关系的密切程度及方向用一统计
指标表示出来;回归分析的目的则是把自变量与因变量的关系用函数公式定量表达出来。
2、联系
(1)变量间关系的方向一致对同一资料,其r与b的正负号一致。
(2)假设检验等价对同一样本,而这的概率值相同
(3)r与b值可相互转换。
(4)用回归解释相关相关系数的平方成为决定系数,是回归平方和与总的离均差平均和之比,故回归平方和是引入相关变量后总平方和减少的部分,其大小取决
于r2。
回归平方和越接近总平方和,则r2越接近1,说明引入相关的效果越好;
反之,则说明引入相关的效果不好或意义不大。
第 1 页共1 页。
第九章:直线回归依变量y 的实际观测值总是带有随机误差,因而依变量y 的实际观测值yi 可用自变量x 的实际观测值xi 表示为:i i i x y εβα++= (i=1,2, …, n)x 为可以观测的一般变量(也可以是可以观测的随机变量); y 为可以观测的随机变量;i 为相互独立,且都服从N (0,σ2)的随机变量。
在x 、y 直角坐标平面上可以作出无数 条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x 与y 的直线关系,这条直线称为回归直线。
设回归直线的方程为: bx a y +=ˆ ( 其中,a 是α的估计值,b 是β的估计值。
)xxy SS SPx x y y x x n x x n y x xy b =---=--=∑∑∑∑∑∑∑222)())((/)(/))((x b y a -=式中的分子是自变量x 的离均差与依变量y 的离均差的乘积和))((∑--y y x x ,简称乘积和,记作xySP ,分母是自变量x 的离均差平方和∑-2)(x x ,记作SS X,a 叫做样本回归截距,是回归直线与y 轴交点的纵坐标,当x=0时,y ˆ=a ;b 叫做样本回归系数,表示x 改变一个单位,y 平均改变的数量;b 的符号反映了x 影响y 的性质,b 的绝对值大小反映了x 影响y 的程度; yˆ叫做回归估计值,是当x 在在其研究范围内取某一个值时,y 值平均数x βα+的估计值。
例题:在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g )与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。
表8-1 四川白鹅雏鹅重与70日龄重测定结果 (单位:g )1、作散点图 以雏鹅重(x )为横坐标,70日龄重(y )为纵坐标作散点图,见图8-3。
2、计算回归截距a ,回归系数b ,建立直线回归方程,首先根据实际观测值计算出下列数据:5.9812/1182/===∑n x x 8333.272012/32650/===∑n y y()()00.168512/1182118112/222=-=∑-=∑n x x SS x00.36585123265011823252610))((=⨯-=-=∑∑∑ny x xy SP xy()()67.83149112/3265089666700/222=-=∑-=∑n y y SS y 进而计算出b 、a : 7122.2100.168536585===xxy SS SP b1816.5825.987122.218333.2720=⨯-=-=x b y a得到四川白鹅的70日龄重y 对雏鹅重x 的直线回归方程为:x y7122.211816.582ˆ+= 二、直线回归的偏离度估计偏差平方和2)ˆ(∑-yy 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。
第九章双变量回归与相关环境与公共卫生学院叶晓蕾20名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值病例号血糖胰岛素i Y I X i 病例号血糖胰岛素i Y i X i1 12.21 15.22 14.54 16.73 12.27 11.94 12.04 14.05 7.88 19.86 11.10 16.27 10.43 17.08 13.32 10.39 19.59 5.910 9.05 18.7 11 6.44 25.112 9.49 16.413 10.16 22.014 8.38 23.115 8.49 23.216 7.71 25.017 11.38 16.818 10.82 11.219 12.49 13.720 9.21 24.4资料特点:每个观察对象有两个变量。
概念类似上例的问题:年龄-身高;肺活量-体重;药物剂量-动物死亡率双变量资料统计资料单变量资料:X双变量资料:X,Y多变量资料:X1,X2,…,XK,Y相关与回归是研究两个或多个变量之间相互关系的一种分析方法。
数据结构编号Y X1 (X)K1 2n概念:回归:是研究变量之间在数量上依存关系的一种方法。
相关:是研究随机变量之间相互联系密切程度和方向的方法。
直线相关与回归:只涉及两个变量,而且分析是否呈直线关系,是回归和相关分析中最简单的一种。
又称简单相关和回归。
直线相关与回归的一般步骤:绘制散点图直线相关分析直线回归分析求相关系数相关系数假设检验结论求回归系数和截距列出回归方程回归系数假设检验一、直线回归(linear regression )1. 直线回归方程:应变量Y 的平均估计值a :截距(intercept )b :回归系数(regression coefficient )bXa Y +=ˆY ˆbXa Y +=注意直线回归方程与函数方程的不同应用条件线性(l inear)、独立性(i ndependent)、正态性(n ormal)、等方差(e qual variance)——“LINE”。
线性——自变量与应变量的关系是线性的。
用散点图判断。
独立性——任意两个观察值互相独立。
正态性——在任意的自变量X的取值处,应变量y均服从正态分布。
等方差——在任意的自变量X的取值处,应变量y的20名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值病例号血糖胰岛素i Y I X i 病例号血糖胰岛素i Y i X i1 12.21 15.22 14.54 16.73 12.27 11.94 12.04 14.05 7.88 19.86 11.10 16.27 10.43 17.08 13.32 10.39 19.59 5.910 9.05 18.7 11 6.44 25.112 9.49 16.413 10.16 22.014 8.38 23.115 8.49 23.216 7.71 25.017 11.38 16.818 10.82 11.219 12.49 13.720 9.21 24.4例1SPSS 20名糖尿病人的血糖水平与胰岛素水平的散点图回归直线的求法原理(最小二乘法)()∑为最小即 Y ˆ-Y2各散点距离回归直线的纵向距离(残差)平方和为最小而得到直线。
计算:()()()()()()XXXY l l n X X n Y X XY X X Y Y X X b =--=---=∑∑∑∑∑∑∑222()()()()()()()()∑∑∑∑∑∑∑∑∑∑-=--=-=-=-=-=nY X XY Y Y X X l nY Y Y Y l n X X X X l XYYY XX222222回归直线必通过点()Y, X Xb Y a -=Coefficients a18.796 1.26514.862.000-.459.070-.840-6.562.000(Constant)xModel 1B Std. ErrorUnstandardized CoefficientsBetaStandardized Coefficientst Sig.Dependent Variable: ya. XY 459.0796.18ˆ-=3. 直线回归的假设检验即推断总体回归系数(β)是否为零即:SS =SS +SS 222)ˆ()ˆ()(∑∑∑-+-=-Y Y Y Y Y Y )ˆ()ˆ()(Y Y Y YY Y -+-=-——剩余或残差(residual)YˆY -(1)方差分析查附表3,F 0.01(1,18)=8.28P< 0.01(2)t检验t= (b -0)/ sb ν=n -2211 2-=-===-==n SS SS SS l lSS n l SS xx xyyy 剩余回归总剩余回归回归总总ννν06.43189482.4717032.114====剩回剩剩回回MS MS SS SS F νν0699.0582.5456638.2===XXb l MS S 剩余t=(-0.4585 -0)/0.0699 = - 6.56 = 18,t0.01(18)= 2.878P < 0.01F = t2=(-6.56)2= 43.03ANOVA b114.7031114.70343.060.000a47.94818 2.664162.65119Regression Residual TotalModel 1Sum of SquaresdfMean SquareF Sig.Predictors: (Constant), x a. Dependent Variable: yb. Coefficients a18.796 1.26514.862.000-.459.070-.840-6.562.000(Constant)xModel 1B Std. ErrorUnstandardized CoefficientsBetaStandardized Coefficientst Sig.Dependent Variable: ya.4. 直线回归中的区间估计(1)总体回归系数β的区间估计:bn S t b )2(,-±α例:上例中,b=-0.4585,S b =0.0699,t 0.05,18=2.101∴β的95%可信区间:6054.0~3116.00699.0101.24585.0--=⨯±-Coefficients a18.796 1.26514.862.00016.13921.453-.459.070-.840-6.562.000-.605-.312(Constant)xModel 1B Std.Error Unstandardized CoefficientsBetaStandardized Coefficients t Sig.Lower Bound Upper Bound 95% Confidence Intervalfor B Dependent Variable: ya.(2)的估计:XYμ即总体中当X 为某定值X 0的条件下Y 的均数。
⎪⎪⎭⎫⎝⎛-+=-+=±ναXX XX XY Y Y l X X n MS l X X n S S S t Y 2020.ˆˆ,)(1)(1ˆ剩余Y ˆμ())/(3996.058.54533.17152016638.2101.2)/(9182.11154585.07957.18ˆ2ˆ18,05.0L mmol S t L mmol Y Y =⎪⎪⎭⎫⎝⎛-+===⨯-=Y S t Y ˆ18,05.0ˆ±即:11.918±2.101×0.3396= ( 11.08, 12.76 )例:用例1所求直线回归方程,试计算当X 0= 15 mU/L时,的95%可信区间。
X Y μ的(1-α)可信区间图XYμYS t Y ˆ,ˆνα±(3)个体Y 值的预测区间(容许区间):即总体中当X 为某定值X 0时,个体Y 值的波动范围。
⎪⎪⎭⎫⎝⎛-++=-++=±XX XX xy Y Y l X X n MS l X X n S S S t Y 22.,)(11)(11ˆ剩余να注意:S Y 并非是样本观察值Y 的标准差个体Y值的(1-α)容许区间图例:例1中,当X=15,求个体Y 值的预测区间(α=0.05)。
()15.448), 388.8(6803.1101.2918.116803.158.54533.171520116638.22=⨯±=⎪⎪⎭⎫ ⎝⎛-++=Y S5. 直线回归方程的应用(1)预测:即把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计。
1)点预测:2)区间预测:区间预测:当X 是已知时,按一定概率估计应变量所在范围。
可按求个体Y 值预测区间方法计算。
⎪⎪⎭⎫⎝⎛-++=±ναXX Y Yl X X n MS S S t Y 2,)(11ˆ剩余例:例1资料中,当胰岛素浓度X=15mU/L 时,试估计血糖浓度(α=0.05)。
()15.448), 388.8(6803.1101.2918.116803.158.54533.171520116638.2S 2Y =⨯±=⎪⎪⎭⎫⎝⎛-++=(2)控制:指当要求应变量Y在一定范围内波动时,如何控制自变量X的取值。
例:已知血糖正常范围为(4.44~6.66 mmol/L),在前例资料的基础上,问欲将血糖水平控制在正常范围内时,血中胰岛素应维持在什么范围内( =0.05)?解得:X (33.95,38.79)mU/L6638.2101.2)4585.07961.18(ˆ66.66638.2101.2)4585.07961.18(ˆ44.418,05.018,05.0⨯+-=+>⨯--=-<X S t Y X S t Y Y Y二、直线相关(linear correlation)1. 相关系数(ρ, r)表示两变量直线相关的密切程度和方向。
相关系数波动范围:-1 ≤r ≤1(1)密切程度:|r| →1,相关越密切;|r| →0,相关越弱。
r=1或-1,称完全相关;r=0,称零相关,表示不存在直线相关关系,但不排除存在某种曲线关系的可能性。
(2)方向:2. 相关分析的步骤(1)绘制散点图观察两变量间是否呈直线趋势20名糖尿病人的血糖水平与胰岛素水平的散点(2)计算相关系数计算例1资料的相关系数YYXX XY l l l r ⋅=8398.06514.16258.54516.250-=⨯-=r Pearson 相关系数积差法相关系数3. 相关系数的假设检验例1 资料:H 0:ρ= 0 ;H 1:ρ≠0;α=0.05查表得:P< 0.01 (结果同回归系数检验)2-n 122122=--=---=νρr n r n r r t ()56.68398.012208398.01222-=----=--=r n r t t 检验查表法:P.719 r 界值表。