SAS学习系列23. 多元线性回归
- 格式:docx
- 大小:430.93 KB
- 文档页数:17
第三十二课 多元线性回归分析一、 多元回归模型表示法通常,回归模型包括k 个变量,即一个因变量和k 个自变量(包括常数项)。
由于具有N 个方程来概括回归模型N t X X X Y t kt k t t t ,,2,1,22110 =+++++=εββββ(32.1)模型的相应矩阵方程表示为:错误!未定义书签。
(32.2)式中⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=N k kN N k k N X XX X X X X Y Y Y Y εεεεββββ2110121211121,,111, (32.3)其中:Y 为因变量观察的N 列向量,X 为自变量观察的N × (k +1) 矩阵,β为末知参数的(k +1) )列向量,ε 为误差观察的N 列向量。
在矩阵X 表达式中,每一个元素X ij 都有两个下标,第一个下标表示相应的列(变量),第二个下标表示相应的行(观察)。
矩阵X 的每一列表示相应的给定变量的N 次观察的向量,与截矩有关的所有观察值都等于1。
经典的线性回归模型的假设可以阐述如下: ● 模型形式由(32.1)给定;● 矩阵X 的元素都是确定的,X 的秩为(k+1),且k 小于观察数N ; ● ε 为正态分布,E (ε )=0 和()I E 2σεε=' ,式中I 为N×N 单位矩阵。
根据X 的秩为(k+1) 的假定,可以保证不会出现共线性。
如果出现完全共线性,矩阵X 的一列将为其余列的线性组合,而X 的秩将小于(k+1) ),关于误差的假设是最有用的假设,因为用它可以保证最小二乘法估计过程的统计性质。
除了正态性外,我们还假定每一个误差项的平均值为0,方差为常数, 以及协方差为 0 。
假若我们按Y 的分布来表示假设(3),则可写成下式:),(~2I X N Y σβ(32.4)二、 最小二乘法估计我们的目的是求出一个参数向量使得残差平方和最小,即εεεˆˆˆ12'==∑=Nt t ESS (32.5)式中,Y Y ˆˆ-=ε (32.6) βˆˆX Y =(32.7)其中εˆ表示回归残差的N 列向量,而Yˆ表示Y 拟合值的N 列向量,βˆ表示为估计参数的(k +1) 列向量,将式(32.6)和式(32.7)代入式(32.5),则得:()()βββββˆˆˆ2 ˆˆX X Y X Y Y X Y X Y ESS ''+''-'=-'-= (32.8)为了确定最小二乘法估计量,我们求ESS 对βˆ进行微分,并使之等于0,即 0ˆ22ˆ='+'-=∂∂ββX X Y X ESS (32.9)所以())(ˆ1Y X X X ''=-β(32.10)被称为“交叉乘积矩阵”的X X ' 矩阵能够保证逆变换,这是因为我们假设X 的秩为(k +1),该假设直接导致了X X ' 的非奇异性。
线性回归分析的SPSS操作本节内容主要介绍如何确定并建立线性回归方程。
包括只有一个自变量的一元线性回归和和含有多个自变量的多元线性回归。
为了确保所建立的回归方程符合线性标准,在进行回归分析之前,我们往往需要对因变量与自变量进行线性检验。
也就是类似于相关分析一章中讲过的借助于散点图对变量间的关系进行粗略的线性检验,这里不再重复。
另外,通过散点图还可以发现数据中的奇异值,对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。
一、一元线性回归分析1.数据以本章第三节例3的数据为例,简单介绍利用SPSS如何进行一元线性回归分析。
数据编辑窗口显示数据输入格式如下图7-8(文件7-6-1.sav):图7-8:回归分析数据输入2.用SPSS进行回归分析,实例操作如下:2.1.回归方程的建立与检验(1)操作①单击主菜单Analyze / Regression / Linear…,进入设置对话框如图7-9所示。
从左边变量表列中把因变量y选入到因变量(Dependent)框中,把自变量x选入到自变量(Independent)框中。
在方法即Method一项上请注意保持系统默认的选项Enter,选择该项表示要求系统在建立回归方程时把所选中的全部自变量都保留在方程中。
所以该方法可命名为强制进入法(在多元回归分析中再具体介绍这一选项的应用)。
具体如下图所示:图7-9 线性回归分析主对话框②请单击Statistics…按钮,可以选择需要输出的一些统计量。
如Regression Coefficients(回归系数)中的Estimates,可以输出回归系数及相关统计量,包括回归系数B、标准误、标准化回归系数BETA、T值及显著性水平等。
Model fit项可输出相关系数R,测定系数R2,调整系数、估计标准误及方差分析表。
上述两项为默认选项,请注意保持选中。
设置如图7-10所示。
设置完成后点击Continue返回主对话框。
图7-10:线性回归分析的Statistics选项图7-11:线性回归分析的Options选项回归方程建立后,除了需要对方程的显著性进行检验外,还需要检验所建立的方程是否违反回归分析的假定,为此需进行多项残差分析。
使用SAS进行变量筛选、模型诊断、多元线性回归分析在其他地方看到的帖子,自己动手做了实验并结合自己的理解做了修订第一节多元线性回归分析的概述回归分析中所涉及的变量常分为自变量与因变量。
当因变量是非时间的连续性变量(自变量可包括连续性的和离散性的)时,欲研究变量之间的依存关系,多元线性回归分析是一个有力的研究工具。
多元回归分析的任务就是用数理统计方法估计出各回归参数的值及其标准误差;对各回归参数和整个回归方程作假设检验;对各回归变量(即自变量)的作用大小作出评价;并利用已求得的回归方程对因变量进行预测、对自变量进行控制等等。
值得注意的是∶一般认为标准化回归系数的绝对值越大,所对应的自变量对因变量的影响也就越大。
但是,当自变量彼此相关时,回归系数受模型中其他自变量的影响,若遇到这种情况,解释标准化回归系数时必须采取谨慎的态度。
当然,更为妥善的办法是通过回归诊断(TheDiagnosis ofRegression),了解哪些自变量之间有严重的多重共线性(Multicoll-inearity),从而,舍去其中作用较小的变量,使保留下来的所有自变量之间尽可能互相独立。
此时,利用标准化回归系数作出解释,就更为合适了。
关于自变量为定性变量的数量化方法设某定性变量有k个水平(如ABO血型系统有4个水平),若分别用1、2、…、k代表k个水平的取值,是不够合理的。
因为这隐含着承认各等级之间的间隔是相等的,其实质是假定该因素的各水平对因变量的影响作用几乎是相同的。
比较妥当的做法是引入k-1个哑变量(Dummy Variables),每个哑变量取值为0或1。
现以ABO血型系统为例,说明产生哑变量的具体方法。
当某人为A型血时,令X1=1、X2=X3=0;当某人为B 型血时,令X2=1、X1=X3=0;当某人为AB型血时,令X3=1、X1=X2=0;当某人为O型血时,令X1=X2=X3=0。
这样,当其他自变量取特定值时,X1的回归系数b1度量了E(Y/A型血)-E(Y/O型血)的效应;X2的回归系数b2度量了E(Y/B型血)-E(Y/O型血)的效应;X3的回归系数b3度量了E(Y/AB型血)-E(Y/O型血)的效应。
第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。
23多元线性回归模型的参数估计多元线性回归是一种机器学习算法,用于预测因变量与多个自变量之间的关系。
其数学模型可表示为:y = β0 + β1*x1 + β2*x2 + ... + βn*xn + ε其中,y是因变量,x1, x2, ..., xn是自变量,β0, β1,β2, ..., βn为待估计的参数,ε为误差项。
参数估计是指通过样本数据,求解出最佳参数值的过程,常用的方法有最小二乘法。
最小二乘法的基本思想是使残差平方和最小化,即求解出使误差平方和最小的参数估计。
具体的参数估计方法有多种,下面介绍常用的两种方法:普通最小二乘法和梯度下降法。
1.普通最小二乘法:普通最小二乘法是最常用的参数估计方法,通过最小化残差平方和来估计参数。
其基本思想是求解出使误差平方和最小的参数估计。
数学上,可以通过最小化误差平方和的一阶导数为0来求解最佳参数估计。
2.梯度下降法:梯度下降法是一种优化算法,通过迭代的方式逐步更新参数值,使损失函数逐渐趋于最小值。
参数的更新是根据误差和参数的梯度进行的,即参数的更新方向是误差下降最快的方向。
模型参数估计的步骤如下:1.收集样本数据:收集包含自变量和因变量的样本数据。
2.设定初值:为模型中的参数设定初值。
3.定义损失函数:根据模型定义损失函数,即误差平方和。
4.选择优化算法:选择合适的优化算法进行参数估计,如最小二乘法或梯度下降法。
5.迭代计算:通过迭代计算的方式更新参数值,使误差逐渐减小。
6.收敛判断:判断模型是否已经收敛,即误差是否足够小。
7.输出参数估计值:当模型收敛后,输出最佳参数估计值。
总结:多元线性回归模型的参数估计是通过最小化误差平方和的方法求解最佳参数估计。
常用的方法有普通最小二乘法和梯度下降法。
参数估计的步骤包括收集样本数据、设定初值、定义损失函数、选择优化算法、迭代计算、收敛判断和输出参数估计值。
23. 多元线性回归一、多元线性回归1. 模型为Y=0+1X1+…+ N X N+ε其中X1, …, X N是自变量,Y是因变量,0, 1…, N是待求的未知参数,ε是随机误差项(残差),若记多元线性回归模型可写为矩阵形式:Y=Xβ+ε通常要求:矩阵X的秩为k+1(保证不出现共线性), 且k<N; ε为正态分布,E(ε)=0和E(εε’)=2I错误!未定义书签。
,其中I为N×N 单位矩阵。
用最小二乘法原理,令残差平方和最小,得到为β的最佳线性无偏估计量(高斯-马尔可夫定理)。
2. 2的估计和T检验选取2的估计量:则假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出:其中tα/2为与α%显著水平有关的t分布临界值。
3. R2和F检验若因变量不具有0平均值,则必须对R2做如下改进:随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R 2进行修正(校正拟合优度对自由度的依赖关系):22/(1)111(1)/(1)1ESS N k N R R TSS N N k ---=-=-----做假设检验:H 0: 1=…= N =0; H 1: 1…, N 至少有一个≠0; 使用F 统计量做检验,若F 值较大,则否定原假设。
二、PROC REG 过程步基本语法:PROC REG data = 数据集;MODEL 因变量 = 自变量列表 </可选项>; < restrict 自变量的等式约束;>说明:MODEL 语句用来指定因变量和自变量;restrict 语句示例:restrict a1+a2=1;常用的输出可选项:STB ——输出标准化偏回归系数矩阵 CORRB ——输出参数估计矩阵COLLINOINT ——对自变量进行共线性分析P ——输出个体观测值、预测值及残差 (R/CLM/CLI 包含P )R——输出每个个体观测值、残差及标准误差CLM——输出因变量均值95%的置信界限的上下限CLI——对各预测值输出95%的置信界限的上下限MSE——要求输出随机扰动项方差2的估计2ˆ与残差分析有关的可选项VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。
回归分析-简单线性回归、多元线性回归比较:方差分析是处理试验数据的一类统计方法。
这类统计方法的特点是所考察的指标(因变量)Y 是测量得到的数值变量(连续变量),而影响指标的因子(自变量)水平是试验者安排的几个不同值(称这种因子为分类变量或离散变量)。
试验的目的是找出影响指标的主要因子及水平。
在实际问题中,还经常遇到这样一些数据,它们不是有意安排的试验得到的数据,而是对生产过程测量记录下来的数据。
对它们进行分析,目的是想找出对我们所关心的指标(因变量)Y 有影响为因素(也称自变量或回归变量)m x x x ,......,,21,并建立用m x x x ,......,,21预报Y 的经验公式。
对于现实世界,不仅要知其然,而且要知其所以然。
顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。
类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,如何影响发病率的。
发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。
一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。
这种关系一般称为模型(model )。
假如用Y 表示感兴趣的变量,用X 表示其他可能与Y 有关的变量(x 也可能是若干变量组成的向量)。
则所需要的是建立一个函数关系Y=f(X)。
这里Y 称为因变量或响应变量(dependent variable, response variable ),而X 称为自变量,也称为解释变量或协变量(independent variable ,explanatory variable, covariate)。
建立这种关系的过程就叫做回归(regression )。
一旦建立了回归模型,除了对各种变量的关系有了进一步的定量理解之外,还可以利用该模型(函数或关系式)通过自变量对因变量做预测(prediction )。
多重线性回归sas课程设计一、课程目标知识目标:1. 学生能理解多重线性回归的基本概念、原理和数学模型;2. 学生掌握使用SAS软件进行多重线性回归分析的操作步骤;3. 学生能解释多重线性回归分析结果中各参数的含义及其在实际问题中的应用。
技能目标:1. 学生能够运用SAS软件进行多重线性回归数据预处理;2. 学生能够运用SAS软件进行多重线性回归模型拟合和参数估计;3. 学生能够运用SAS软件进行多重线性回归模型的假设检验和结果解读。
情感态度价值观目标:1. 学生通过本课程的学习,培养对数据分析的兴趣,提高解决实际问题的能力;2. 学生在学习过程中,培养严谨的科学态度和良好的团队合作精神;3. 学生能够将所学知识应用于实际生活,提高对统计学科在现实世界中重要性的认识。
课程性质:本课程为选修课,适用于具有一定统计学基础的高年级本科生。
学生特点:学生具备基本的统计学知识和一定的软件操作能力,对数据分析有一定兴趣。
教学要求:结合SAS软件,注重理论与实践相结合,强调学生在课堂上的主体地位,鼓励学生积极参与讨论和实际操作。
通过本课程的学习,使学生能够掌握多重线性回归分析方法,并应用于实际问题。
教学过程中,将课程目标分解为具体的学习成果,便于教学设计和评估。
二、教学内容1. 多重线性回归基本概念:变量选择、模型建立、参数估计;2. SAS软件操作:数据预处理、模型拟合、结果解读;3. 多重线性回归诊断:残差分析、共线性检验、异方差性检验;4. 多重线性回归应用实例:实际数据集分析、模型优化。
教学大纲:第一周:回顾统计学基础知识,介绍多重线性回归的基本概念和原理;第二周:学习SAS软件的基本操作,进行数据预处理;第三周:多重线性回归模型拟合,参数估计及解读;第四周:多重线性回归诊断,分析模型可能存在的问题;第五周:实例分析,运用所学知识解决实际问题,进行模型优化。
教学内容与教材关联性:1. 多重线性回归基本概念与教材第二章相关;2. SAS软件操作与教材第三章相关;3. 多重线性回归诊断与教材第四章相关;4. 多重线性回归应用实例与教材第五章相关。
23. 多元线性回归一、多元线性回归1. 模型为Y=β0+β1X1+…+ βN X N+ε其中 X1, …, X N是自变量,Y是因变量,β0, β1…, βN是待求的未知参数,ε是随机误差项(残差),若记多元线性回归模型可写为矩阵形式:Y=Xβ+ε通常要求:矩阵X的秩为k+1(保证不出现共线性), 且k<N; ε为正态分布,E(ε)=0 和E(εε’)= β2I,其中I为N×N单位矩阵。
用最小二乘法原理,令残差平方和最小,得到为β的最佳线性无偏估计量(高斯-马尔可夫定理)。
2. β2的估计和T检验选取β2的估计量:则假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出:其中tα/2为与α%显著水平有关的t分布临界值。
3. R2和F检验若因变量不具有0平均值,则必须对R2做如下改进:随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进行修正(校正拟合优度对自由度的依赖关系):22/(1)111(1)/(1)1ESS N k N R R TSS N N k ---=-=-----做假设检验:H 0: β1=…=βN =0; H 1: β1…, βN 至少有一个≠0; 使用F 统计量做检验,若F 值较大,则否定原假设。
二、PROC REG 过程步基本语法:PROC REG data = 数据集;MODEL 因变量 = 自变量列表 </可选项>; < restrict 自变量的等式约束;> 说明:MODEL 语句用来指定因变量和自变量;restrict 语句示例:restrict a1+a2=1;常用的输出可选项:STB ——输出标准化偏回归系数矩阵 CORRB ——输出参数估计矩阵COLLINOINT ——对自变量进行共线性分析P ——输出个体观测值、预测值及残差 (R/CLM/CLI 包含P ) R ——输出每个个体观测值、残差及标准误差CLM——输出因变量均值95%的置信界限的上下限CLI——对各预测值输出95%的置信界限的上下限MSE——要求输出随机扰动项方差β2的估计2ˆ与残差分析有关的可选项VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;COLLIN——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。
23. 多元线性回归一、多元线性回归1. 模型为Y=β0+β1X1+…+ βN X N+ε其中X1, …, X N是自变量,Y是因变量,β0, β1…, βN是待求的未知参数,ε是随机误差项(残差),若记多元线性回归模型可写为矩阵形式:Y=Xβ+ε通常要求:矩阵X的秩为k+1(保证不出现共线性), 且k<N; ε为正态分布,E(ε)=0和E(εε’)= σ2I错误!未定义书签。
,其中I为N×N单位矩阵。
用最小二乘法原理,令残差平方和最小,得到为β的最佳线性无偏估计量(高斯-马尔可夫定理)。
2. σ2的估计和T检验选取σ2的估计量:则假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出:其中tα/2为与α%显著水平有关的t分布临界值。
3. R2和F检验若因变量不具有0平均值,则必须对R2做如下改进:随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R 2进行修正(校正拟合优度对自由度的依赖关系):22/(1)111(1)/(1)1ESS N k N R R TSS N N k ---=-=-----做假设检验:H 0: β1=…=βN =0; H 1: β1…, βN 至少有一个≠0; 使用F 统计量做检验,若F 值较大,则否定原假设。
二、PROC REG 过程步基本语法:PROC REG data = 数据集;MODEL 因变量 = 自变量列表 </可选项>; < restrict 自变量的等式约束;>说明:MODEL 语句用来指定因变量和自变量;restrict 语句示例:restrict a1+a2=1;常用的输出可选项:STB ——输出标准化偏回归系数矩阵 CORRB ——输出参数估计矩阵COLLINOINT ——对自变量进行共线性分析P ——输出个体观测值、预测值及残差 (R/CLM/CLI 包含P )R——输出每个个体观测值、残差及标准误差CLM——输出因变量均值95%的置信界限的上下限CLI——对各预测值输出95%的置信界限的上下限MSE——要求输出随机扰动项方差σ2的估计2ˆ与残差分析有关的可选项VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;COLLIN——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。
一般情况下,条件数越大越可能存在共线性;TOL——表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系;DW——输出Durbin-Watson统计量;influence——对异常点进行诊断,对每一观测点输出统计量(Cook’s D > 50%, defits/debetas > 2说明该点影响较大)。
交互式语句add——向模型中增加变量;delete——删除原拟合模型中的有关变量;refit——重新拟合模型;print——输出有关模型的相关信息。
绘制回归分析的图形在PROC REG过程步加入绘图选项语句即可。
基本语法:PROC REG data = 数据集PLOTS = (图形类型);可选的绘图类型:FITPLOT——带回归线、置信预测带的散点图;RESIDUALS——自变量的残差图;DIAGNOSTICS——诊断图(包括下面各图);COOKSD——Cook's D统计量图;OBSERVEDBYPREDICTED——根据预测值的因变量图;QQPLOT ——检验残差正态性的QQ图;RESIDUALBYPREDICTED——根据预测值的残差图;RESIDUALHISTOGRAM——残差的直方图;RFPLOT——残差拟合图;RSTUDENTBYLEVERAGE——杠杆比率的学生化残差图;RSTUDENTBYPREDICTED——预测值的学生化残差图;注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:PROC REG data = 数据集 PLOTS(ONLY) = (图形类型); 例1 用多元线性回归模型,来研究耗氧量的是如何依赖其它变量的。
31位成年人心肺功能的调查数据(见下表),由于回归是相关的,所以理论上还应该做共线性诊断。
代码:data fitness ;input age weight oxygen runtime rstpulse runpulse maxpulse;datalines;44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18544 85.84 54.297 8.65 45 156 16842 68.15 59.571 8.17 40 166 17238 89.02 49.874 9.22 55 178 18047 77.45 44.811 11.63 58 176 17640 75.98 45.681 11.95 70 176 18043 81.19 49.091 10.85 64 162 17044 81.42 39.442 13.08 63 174 17638 81.87 60.055 8.63 48 170 18644 73.03 50.541 10.13 45 168 16845 87.66 37.388 14.03 56 186 19245 66.45 44.754 11.12 51 176 17647 79.15 47.273 10.60 47 162 16454 83.12 51.855 10.33 50 166 17049 81.42 49.156 8.95 44 180 18551 69.63 40.836 10.95 57 168 17251 77.91 46.672 10.00 48 162 16848 91.63 46.774 10.25 48 162 16449 73.37 50.388 10.08 76 168 16857 73.37 39.407 12.63 58 174 17654 79.38 46.080 11.17 62 156 16552 76.32 45.441 9.63 48 164 16650 70.87 54.625 8.92 48 146 15551 67.25 45.118 11.08 48 172 17254 91.63 39.203 12.88 44 168 17251 73.71 45.790 10.47 59 186 18857 59.08 50.545 9.93 49 148 15549 76.32 48.673 9.40 56 186 18848 61.24 47.920 11.50 52 170 17652 82.78 47.467 10.50 53 170 172;run;proc corr data = fitness PLOT = MATRIX(HISTOGRAMnvar=all);var oxygen age weight runtime rstpulse runpulse maxpulse;label oxygen = 'Oxygen consumption'age = 'Age in years'weight = 'weight in kg'runtime = 'Min. to run 1.5 miles'rstpulse = 'Heart rate while resting'runpulse = 'Heart rate while running'maxpulse = 'Maximum heart rate';run;proc reg data = fitness PLOTS(ONLY) = (DIAGNOSTICS FITPLOT);model oxygen = age maxpulse rstpulse runpulse runtime weight/ss1ss2; /* ss1为第Ⅰ类型平方和, ss2为第Ⅱ类型平方和 */ run;delete rstpulse;print;run;proc reg data= fitness;model oxygen = age maxpulse runpulse runtime weight;pulse: test maxpulse+runpulse=0;run;proc reg data= fitness;model oxygen = age maxpulse runpulse runtime weight/ss2; /* 带restrict约束条件的回归,ss1不可用 */restrict maxpulse+runpulse=0;run;data fitness2;set fitness;maxrun=maxpulse-runpulse;run;proc reg data= fitness2;model oxygen = age maxrun runtime weight/ss1ss2;run;运行结果及说明:(1)相关性分析散点图矩阵中第一行的6个散点图分别表示oxygen变量作为y 轴,其他六个变量作为x轴的散点图,第一列的6个散点图分别表示oxygen变量作为x轴,其他六个变量作为y轴的散点图;对角线是该变量数值变化的直方图。
绘制散点图矩阵图是为了观察变量间的相关性。
从图中可以看出变量runpulse与maxpulse之间存在有较强的共线性,如果在回归模型中增加方差膨胀系数(vif),共线性水平的容许值(tol),条件数(collin)选项对回归进行共线性诊断,也会得到相同的结论。
另外,我们从图中还发现耗氧量oxygen与变量runtime有较强的负相关,从下面的相关系数也能得到相同的结论。
(2)回归分析得到回归方程:oxygen = 102.238339-0.219916age + 0.304735maxpulse-0.000844rstpuls -0.373164runpulse-2.680516runtime-0.072380weight 多元线性回归模型的一个重要问题是,如何正确地缩减自变量到达最优的简化模型。
判断回归模型是否还能缩减自变量,可以通过这第Ⅰ类平方和(I 型SS)和第Ⅱ类平方和(Ⅱ型SS),构造F检验(等同于这个自变量的参数t检验,因为F=t2)来比较确定。