统计学11 多元线性回归分析课件

  • 格式:pdf
  • 大小:4.55 MB
  • 文档页数:52

下载文档原格式

  / 52
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Yˆ = b0 + b1X1 + b2 X 2 + "+ bk X k
Yhat:为X=(X1,X2,……,Xk)时,反应变量Y的总体平均
值的估计值;
b0: 常数项,是β0的估计,表示当所有自变量为0时反应变量Y的
总体平均值的估计值;
bj:是βj的估计值,自变量Xj的偏回归系数(partial regression
因为k个自变量都具有各自的计量单位以及不
同的变异度,所以不能直接用普通偏回归系 数的数值大小来反映方程中各个自变量对反
应变量Y的贡献大小。
怎么办?
对原始数据进行标准化变换:
X
* i
=
Xi − Xi Si
用标准化的数据进行回归模型的拟合,得到的 回归系数,称为标准化偏回归系数。
意义:通常在有统计学意义的前提下,该系数
假设检验
1. 整体回归效应(即回归方程)的假设 检验(方差分析)
2. 偏回归系数(即各自变量)的假设检
验(t 检验)
1、整体回归效应的假设检验
H0:β0 = β1 = β2 = β4 = 0 H1:回归方程有意义 α =0.05
方法:方差分析
ANOVAb
Model
Sum of Squares df Mean Square F
总变异 23 0.08123
R2=0.06396/0.08123=0.7874
确定系数的取值范围为0≤R2≤1。直接反映了 回归方程中所有自变量解释了反应变量总变异 的百分比。其值越接近于1,表示回归模型的拟 合效果越好。
3、调整的确定系数
调整的R2:记为
Ra2
=
R2

k(1− R2 ) n − k −1
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题: 各自变量对反应变量的影响强度怎么比较?
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题: 各自变量对反应变量的影响强度怎么比较?
//MMSS残残差差
b. Dependent Variable: 血糖
ANOVAb
Model
Sum of Squares
1
Regression 133.711
df Mean Square
4
33.428
F 8.278
Sig. .000a
Residual
88.841
22
4.038
Total
222.552
♦ 特点:考虑了自变量的组合作用,选中的自变量数目一般会比前进 法多;当自变量数目较多或某些自变量高度相关时,可能得不出正 确的结果,前进法可以自动去掉高度相关的自变量。
④ 逐步选择法
♦ 是在前述两种方法基础上进行双向筛选的过程,本质上 前进法。即在逐步选择的过程中,把经F检验有意义的变 量引入方程后,又在对已在方程中的自变量进行一次关 于剔除的F检验,保留有统计学意义的变量,而剔除无统 计学意义的变量。反复进行引入、剔除过程,直到既没 有变量被引入,也没有变量被剔除为止。
♦ 局限性:不一定能保证“最优”(后续变量的引入会使得先进入 方程的自变量变得不重要)。
③ Backward:向后剔除法
♦ 首先建立包含所有p个自变量的全模型,然后逐个计算出剔除某一变 量后仅包含p-1个自变量的p个模型,同时计算剔除变量后所致残差 平方和增量的F值,然后将p个F值的最小值与预先指定的剔除临界 Fout相比较,若最小的F<Fout,则将最小F值所对应的自变量从模型 中剔除;然后在选中的含p-1个自变量的模型基础上,重复以上剔除 自变量的计算、比较、剔除过程。每次循环剔除一个对模型贡献最 可忽略的变量。如此反复,直到再没有任何变量的F值低于Fout为 止。
自变量筛选
为确保回归方程包含所有对反应变量有较大影响的自 变量,而把对反应变量关系不大或可有可无的自变量 排除在方程之外,应该进行自变量的选择。 回归模型的正确选择在根本上依赖于专业知识。
1. 自变量筛选的标准与原则 2. 自变量筛选的常用方法
1、自变量筛选的标准与原则
① 残差平方和SSE缩小与确定系数增大 ② 残差均方缩小与调整确定系数增大 ③ Cp统计量
优优点点::对对回回归归方方程程中中自自变变量量个个数数实实 施施惩惩罚罚,,较较大大的的kk会会使使RR22降降低低。。
4、剩余标准差
♦ 是误差均方MSE的算术平方根,就是残差 的标准差。
♦ 反映了用建立的模型去预测因变量时的精 度。其值越小,说明模型拟合的效果越 好。
♦ 优点:同调整的确定系数
Sig.
1
Regression S13S3R.711
υ回归4
33.428
8.278
.000a
Residual Total
S8S8E.841 S22S2T.552
υ残差22 υ总26
4.038
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
FF==MMSS回回归归
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
衡量模型优劣的标准
1. 复相关系数 2. 确定系数 3. 调整确定系数 4. 剩余标准差
X1
5.68 3.79 6.02 4.85 4.60 6.05 4.90 …… 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L)
X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50
……
7.92 10.89 0.92 1.20
胰岛素 (μU/ml)
X3
4.53 7.32 6.95 5.88 4.05 1.42 12.60
多重线性回归分析
(Multiple Linear Regression)
123
Biblioteka Baidu
多重线性回归模型是直线回归的扩展和延伸,其基本原理 和直线回归相同。
内容提要
§ 1 多重线性回归模型简介 § 2 多重线性回归模型的参数估计 § 3 多重线性回归模型的假设检验 § 4 衡量模型优劣的标准 § 5 自变量的筛选 § 6 多重线性回归模型的应用 § 7 注意事项
复相关系数R:表示模型中所有自变量与反应变量
之间线性相关的密切程度。实际上是实测值与估计值y hat 的 简 单 相 关 系 数 。 取 值 范 围 为 ( 0 , 1 ) , 没 有 负 值。是确定系数的算术平方根,即
R = SSR SST
缺点:增加无统计学意义的自变量,R值仍增大。
当回归方程中包含有很多自变量,即使 其中有一些自变量对解释变量变异的贡 献很小,随着回归方程的自变量的增 加,R表现为只增不减。这是复相关系 数的缺点。
26
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
b. Dependent VariableP:P血<<0糖0.0.00011,,拒拒绝绝HH00,,接接受受HH11,,说说明明从从整整体体上上 而而言言,,用用44个个自自变变量量构构成成的的回回归归方方程程解解释释血血
计算量相当大,一般依靠统计软件包完成。
SPSS
Coefficientas
Standardized Unstandardized Coefficients Coefficients
Model
1
(Constant)
总胆固醇
甘油三酯
胰岛素
糖化血红蛋白
B 5.943 .142 .351 -.271 .638
案例
♦ 血糖的影响因素研究:27名糖尿病患者的血清 总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋 白、空腹血糖的测量值列于下表中,试建立血糖 与其它几项指标关系的多元线性回归方程。
27名糖尿病人的血糖及有关变量的测量结果
序号i
1 2 3 4 5 6 7
24 25 26 27
总胆固醇 (mmol/L)
……
3.37 1.20 8.61 6.45
糖化血 红蛋白(%)
X4
8.2 6.9 10.8 8.3 7.5 13.6 8.5
……
9.8 10.5 6.4 9.6
血糖 (mmol/L)
Y
11.2 8.8 12.3 11.6 13.4 18.3 11.1
13.2 20.0 13.3 10.4
2、多重线性回归模型
Model Summary
Model 1
R .775a
R Square .601
Adjusted R Square .528
Std. Error of the Estimate
2.0095
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
1、复相关系数
coefficient),表示当方程中其他自变量保持不变时,自变量Xj 变化一个单位,反应变量Y平均变化的单位数;
3、多重线性回归的前提条件:
① 线性 ② 独立性 ③ 正态性 ④ 方差齐性
LINE
参数估计
最小二乘法
基本原理是:利用观察或收集到的因变量和自变 量的一组数据建立一个因变量关于自变量的线性 函数模型,使得这个模型的估计值和观察值之间 的离差平方和尽可能地小,即残差平方和最小。
糖糖的的变变化化是是有有统统计计学学意意义义的的。。
2、偏回归系数的 t 检验
在回归方程有意义的前提下,检验某个总体偏 回归系数等于0的假设,以判断是否相应的自 变量对回归方程有贡献。
H0:βi = 0 H1:βi ≠ 0
α=0.05
计算检验统计量:
tbi
=
bi Sbi
Sbi:第i个偏回归系数的标准误
集符合准则的程度,从中选择出一个或几 个最优的回归,称为“最优子集回归”。 ♦ 仅适合于自变量个数不太多的情况。
② Forward:向前选择法
♦ 从仅含常数项的模型开始,首先对每个变量计算反映其进入模 型后该变量对新模型贡献量的F值,然后将最大F统计量与预 先指定的临界值Fin比较,如果F<Fin,程序停止,否则将其最 大F值所对应的自变量引入模型;然后在此基础上,重复以上 过程;如此反复,每次增加一个变量到模型中,直到剩下的变 量中无一个能使其F值大于Fin为止。
Coefficientsa
Unstandardized Coefficients
Standardized Coefficients
Model
1
(Constant)
总胆固醇
甘油三酯
胰岛素
糖化血红蛋白
B 5.943 .142 .351 -.271 .638
a. Dependent Variable: 血糖
2、确定系数
复相关系数的平方称为确定系数或决定系数,记 为R2,用以反映线性回归模型能在多大程度上解 释反应变量Y的变异性。
R2 = SSR SST
检验回归方程整体意义的方差分析表
变异来源 自由度 SS
MS
F
P
回归
4 0.06396 0.01599 17.59 <0.0001
残差
19 0.01727 0.00090903
2、自变量筛选的常用方法
① 所有可能自变量子集选择 ② Forward:前进法(向前选择法) ③ Backward:后退法(向后剔除法) ④ Stepwise:逐步回归法
无论采用何种选择自变量的方法,都需要对不同的自变量 子集进行比较,计算量很大。Æ 借助统计软件
① 所有可能自变量子集选择
♦ p个变量,所有可能的自变量子集有2p个。 ♦ 根据某种变量的选择准则,通过比较各子
♦ 是选择变量的有效方法。
前进法、后退法、逐步回归法的侧重点不
同。
当自变量之间不存在简单线性相关关系时,三种方法计算结果 是一致的。 当自变量之间存在简单线性相关关系时,前进法侧重于向模型 中引入单独作用较强的变量,后退法侧重于引入联合作用较强 的变量,逐步回归法则介于两者之间。
绝对值越大,表示相应的自变量对反应变量Y的
贡献越大。
Coefficientas
Standardized Unstandardized Coefficients Coefficients
Model
1
(Constant)
总胆固醇
甘油三酯
胰岛素
糖化血红蛋白
B 5.943 .142 .351 -.271 .638