多元线性相关与回归分析
- 格式:docx
- 大小:770.59 KB
- 文档页数:9
多元线性相关与回归分析 Revised by BLUE on the afternoon of December 12,2020.
第三节 多元线性相关与回归分析
一、标准的多元线性回归模型
上一节介绍的一元线性回归分析所反映的是1个因变量与1个自变量之间的关系。但是,在现实中,某一现象的变动常受多种现象变动的影响。例如,消费除了受本期收入水平的影响外,还会受以往消费和收入水平的影响;一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关。这就是说,影响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定与分析多因素之间相关关系的问题。
研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。限于本书的篇幅和程度,本节对于多元回归分析中与一元回归分析相类似的内容,仅给出必要的结论,不作进一步的论证。只对某些多元回归分析所特有的问题作比较详细的说明。
多元线性回归模型总体回归函数的一般形式如下:
t kt k t t u X X Y ++⋯++=βββ221
上式假定因变量Y 与(k-1)个自变量之间的回归关系可以用线性函数来近似反映.式中,Y t 是变量Y 的第t个观测值;X jt 是第j 个自变量X j 的第t个观测值(j=1,2,……,k);u t 是随机误差项;β1,β2,… ,βk 是总体回归系数。βj 表示在其他自变量保持不变的情况下,自变量X j 变动一个单位所引起的因变量Y 平均变动的数额,因而又叫做偏回归系数。该式中,总体回归系数是未知的,必须利用有关的样本观测值来进行估计。
假设已给出了n个观测值,同时1ˆβ,2ˆβ…,k βˆ为总体回归系数的估计,则多元线性回归模型的样本回归函数如下:
t kt k t t e X X Y ++⋯++=βββˆˆˆ221 (t =1,2,…,n)
式中,e t 是Y t 与其估计t Y ˆ之间的离差,即残差。与一元线性回归分析相类似,为了进行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n >k 。我们称这条假定为标准假定6。
二、多元线性回归模型的估计
(一)回归系数的估计
多元线性回归模型中回归系数的估计同样采用最小二乘法。设 ∑-=∑=2
2)ˆ(t t t Y Y e Q 2221)ˆˆˆ(kt k t t X X Y βββ-⋯--∑=
根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对1ˆβ、2ˆβ…,k βˆ的偏导数必须等于零。将Q对1ˆβ、2ˆβ…,k βˆ
求偏导数,并令其等于零,加以整理后可得到以下k个方程式:
∑=∑+⋯+∑+t kt k t Y X X n βββˆˆˆ221 ∑=∑+⋯+∑+∑t t kt t k t t Y X X X X X 2222221ˆˆˆβββ ………
∑=∑+⋯+∑+∑t kt kt k kt t kt Y X X X X X 2221ˆˆˆβββ 以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到1ˆβ、2ˆβ…,k βˆ。
求解多元回归方程,用矩阵形式来表达较为简便1[1]。记
⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n y y y 21Y ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=kn 2n k 22k 21x x x x x x 11121X
⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n 21u u u U ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=k βββ 21Β ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n y y y ˆˆˆˆ21 Y ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=k βββˆˆˆˆ21 Β ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n e e e 21e 则总体回归函数式可以写为:
Y =XB +U 样本回归函数式可以写为:
Y =X Β
ˆ+e 标准方程组式可以写为: (X' X)Β
ˆ=X' Y 式中X'表示X 的转置矩阵。(X'X)是一个k×k的对称矩阵,根据标准假定6,k个自变量之间不存在高度的线性相关,因此其逆矩阵存在。在式的两边同时左乘(X'X)-1,可以得到:
Β
ˆ=(X'X)-1X'Y 上式是回归系数最小二乘估计的一般形式。
实际求解多元回归方程中的回归系数的估计值,通常需要依靠电子计算机。在电子计算机技术十分发达的今天,多元回归分析的计算已经变得相当简单。利用现成的软件包如EXCEL 等,只要将有关数据输入电子计算机,并指定因变量和相应的自变量,立刻就能得到计算结果。因此,对于从事应用研究的人们来说,更为重要的是要能够理解输入和输出之间相互对应的关系,以及对电子计算机输出的结果做出正确的解释。
限于篇幅,这里不给出具体的数值计算实例。而在下一节中,我们将结合实际的例子,讲解如何利用EXCEL 进行多元线性回归分析。
(二)总体方差的估计
1[1] 这里给出的矩阵形式具有一般性,对于一元线性回归模型也同样适用。对于尚未学过矩阵代数的读者,可以不必掌握这一部分内容。
除了回归系数以外,多元线性回归模型中还包含了另一个未知参数,那就是随机误差项的方差σ2。与一元回归分析相类似,多元线性回归模型中的σ2也是利用残差平方和除以其自由度来估计的。即有:
S2=k n e t
-∑2
上式中,n是样本观测值的个数;k是方程中回归系数的个数;在(k-1)元回归模型中,标准方程组有k个方程式,残差必须满足k个约束条件,因此其自由度为(n -k)。数学上可以证明,S2是σ2的无偏估计。S2的正平方根S 又叫做回归估计的标准误差。S越小表明样本回归方程的代表性越强。
在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算:
∑=2t e e'e =Y'Y - Β
'ˆX'Y 上式是残差平方和的矩阵形式。式中的“′”表示求转置;Y 是因变量样
本观测值向量;X 是自变量样本观测值矩阵;Β
'ˆ是回归系数估计值向量的转置向量。
(三)最小二乘估计量的性质
与一元线性回归模型类似,多元线性回归模型中回归系数的最小二乘估计量也是随机变量。数学上可以证明,在标准假定条件可以得到满足的情况下,多元回归模型中回归系数最小二乘估计量的期望值同样等于总体回归系数的真值,即有:
E(B
ˆ)=B 回归系数最小二乘估计量的方差、协方差矩阵为:
Var(B
ˆ)=E(B ˆ-B )(B ˆ-B )' =σ2(X'X )-1
该矩阵主对角元素是各回归系数估计量的方差E(j βˆ-βj )2,其他元素是各回归系数估计量之间的协方差E(j βˆ-βj ) (i βˆ-βi ) (i ≠j )。在此基础上,还可以进一步证明回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。也就是说,在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。
三、多元线性回归模型的检验和预测
(一)拟合程度的评价
在多元线性回归分析中,总离差平方和的分解公式依然成立。因此也可以用上一节所定义的决定系数作为评价模型拟合程度的一项指标。不过,为了避免混淆,多元回归的决定系数用R2表示。
利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。
R2=1- ∑-∑22)(Y Y e t t
由决定系数的定义可知,R2的大小取决于残差平方和∑2
t e 在总离差平方和∑
-2)Y Y t (中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不