应用回归分析,第4章课后习题参考答案
- 格式:pdf
- 大小:186.74 KB
- 文档页数:10
应⽤回归分析,第4章课后习题参考答案
第4章违背基本假设的情况
思考与练习参考答案
4.1 试举例说明产⽣异⽅差的原因。
答:例4.1:截⾯资料下研究居民家庭的储蓄⾏为
Y i=?0+?1X i+εi
其中:Y i表⽰第i个家庭的储蓄额,X i表⽰第i个家庭的可⽀配收⼊。
由于⾼收⼊家庭储蓄额的差异较⼤,低收⼊家庭的储蓄额则更有规律性,差异较⼩,所以εi的⽅差呈现单调递增型变化。
例4.2:以某⼀⾏业的企业为样本建⽴企业⽣产函数模型
Y i=A i?1K i?2L i?3eεi
被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异⽅差性。
这时,随机误差项ε的⽅差并不随某⼀个解释变量观测值的变化⽽呈规律性变化,呈现复杂型。
4.2 异⽅差带来的后果有哪些?
答:回归模型⼀旦出现异⽅差性,如果仍采⽤OLS估计模型参数,会产⽣下列不良后果:
1、参数估计量⾮有效
2、变量的显着性检验失去意义
3、回归⽅程的应⽤效果极不理想
总的来说,当模型出现异⽅差性时,参数OLS估计值的变异程度增⼤,从⽽造成对Y的预测误差变⼤,降低预测精度,预测功能失效。
4.3 简述⽤加权最⼩⼆乘法消除⼀元线性回归中异⽅差性的思想与⽅法。
答:普通最⼩⼆乘估计就是寻找参数的估计值使离差平⽅和达极⼩。
其中每个平⽅项的权数相同,是普通最⼩⼆乘回归参数估计⽅法。
在误差项等⽅差不相关的条件下,普通最⼩⼆乘估计是回归参数的最⼩⽅差线性⽆偏估计。
然⽽在异⽅差
的条件下,平⽅和中的每⼀项的地位是不相同的,误差项的⽅差⼤的项,在残差平⽅和中的取值就偏⼤,作⽤就⼤,因⽽普通最⼩⼆乘估计的回归线就被拉向⽅差⼤的项,⽅差⼤的项的拟合程度就好,⽽⽅差⼩的项的拟合程度就差。
由OLS 求出的仍然是的⽆偏估计,但不再是最⼩⽅差线性⽆偏估计。
所以就是:对较⼤的残差平⽅赋予较⼩的权数,对较⼩的残差平⽅赋予较⼤的权数。
这样对残差所提供信息的重要程度作⼀番校正,以提⾼参数估计的精度。
加权最⼩⼆乘法的⽅法:
4.4简述⽤加权最⼩⼆乘法消除多元线性回归中异⽅差性的思想与⽅法。
答:运⽤加权最⼩⼆乘法消除多元线性回归中异⽅差性的思想与⼀元线性回归的类似。
多元线性回归加权最⼩⼆乘法是在平⽅和中加⼊⼀个适当的权数i w ,以调整各项在平⽅和中的作⽤,加权最⼩⼆乘的离差平⽅和为:
∑=----=n
i ip p i i i p w x x y w Q 1211010)( ),,,(ββββββΛΛ
(2)
加权最⼩⼆乘估计就是寻找参数p βββ,,,10Λ的估计值pw w w βββ?,,?,?10Λ使式(2)的离差平⽅和w Q 达极⼩。
所得加权最⼩⼆乘经验回归⽅程记做
22011
1
()()N N
w i i i i i i
i i Q w y y w y x ββ===-=--∑∑22
__
1
_
2
_
_
02
222
()()
()1
11
1
,i i N
w i
i
i w i w
i w
w
w w w kx i i
i i
m
i i i m
i
w x
x y y x x y x w kx x kx w x σβββσσ==---=-=
=
===∑∑1N i =1
1表⽰=或
p
pw w w w x x y βββ110+++=Λ(3)多元回归模型加权最⼩⼆乘法的⽅法:⾸先找到权数i w ,理论上最优的权数i w 为误差项⽅差2i σ的倒数,即
2
i
i w σ
=
(4)
误差项⽅差⼤的项接受⼩的权数,以降低其在式(2)平⽅和中的作⽤; 误差项⽅差⼩的项接受⼤的权数,以提⾼其在平⽅和中的作⽤。
由(2)式求出的
加权最⼩⼆乘估计pw w w βββ?,,?,?10Λ就是参数p βββ,,,10Λ的最⼩⽅差线性⽆偏估计。
⼀个需要解决的问题是误差项的⽅差2i σ是未知的,因此⽆法真正按照式(4)选取权数。
在实际问题中误差项⽅差2i σ通常与⾃变量的⽔平有关(如误差项⽅差
2i σ随着⾃变量的增⼤⽽增⼤),可以利⽤这种关系确定权数。
例如2i σ与第j 个⾃
变量取值的平⽅成⽐例时, 即2i σ=k 2
ij x 时,这时取权数为
21
ij
i x w =
(5)
更⼀般的情况是误差项⽅差2i σ与某个⾃变量j x (与|e i |的等级相关系数最⼤
的⾃变量)取值的幂函数m ij x 成⽐例,即2i σ=k m
ij x ,其中m 是待定的未知参数。
此时
权数为
m ij
i x w 1
=
(6)这时确定权数i w 的问题转化为确定幂参数m 的问题,可以借助SPSS 软件解决。
4.5(4.5)式⼀元加权最⼩⼆乘回归系数估计公式。
证明:由得:
2
2011
1
()()N N
w i i i i i i
i i Q w y y w y x ββ===-=--∑∑0
1
00??Q
Q
β
==
w
w w i
n i i
w i w i
n
i i
x y x x
w y y x x
w 102
1
1
1
)()
)((?βββ-=---=∑∑==
4.6验证(4.8)式多元加权最⼩⼆乘回归系数估计公式。
证明:对于多元线性回归模型 ,y =X β+ε(1)
2()0,cov(,)E σ'?==εεεW ,即存在异⽅差。
设
,00'=??= ?
W DD D K
M O
M L
,⽤-1D 左乘(1)式两边,得到⼀个新的的模型:
---111D y =D X β+D ε,即***y =X β+ε。
因为22()()()E E E σσ---''''''====1-11-11-1εεD εεD D εεD D WD I ,故新的模型具有同⽅差性,故可以⽤⼴义最⼩⼆乘法估计该模型,得
111?()()()**-**------''''''''===1111w
βX X X y X D D X X D D y X WX X Wy 原式得证。
4.7 有同学认为当数据存在异⽅差时,加权最⼩⼆乘回归⽅程与普通最⼩⼆乘回归⽅程之间必然有很⼤的差异,异⽅差越严重,两者之间的差异就越⼤。
你是否同意这位同学的观点?说明原因。
答:不同意。
当回归模型存在异⽅差时,加权最⼩⼆乘估计(WLS )只是普通最⼩⼆乘估计(OLS )的改进,这种改进可能是细微的,不能理解为WLS ⼀定会得到与OLS 截然不同的⽅程来,或者⼤幅度的改进。
实际上可以构造这样的数据,回归模型存在很强的异⽅差,但WLS 与OLS 的结果⼀样。
加权最⼩⼆乘法不会消除异⽅差,只是消除异⽅差的不良影响,从⽽对模型进⾏⼀点改进。
4.8 对例4.3的数据,⽤公式iw i iw e w e ='计算出加权变换残差'iw
e
,绘
制加权变换残差图,根据绘制出的图形说明加权最⼩⼆乘估计的效果。
解:⽤公式iw i iw e w e '
计算出加权变换残差'iw
e ,分别绘制加权最⼩⼆乘估计后的残差图和加权变换残差图(见下图)。
根据绘制出的两个图形可以发现加权最⼩⼆乘估计没有消除异⽅差,只是对原OLS 的残差有所改善,⽽经过加权变换后的残差不存在异⽅差。
4.9 参见参考⽂献[2],表4.12(P 138)是⽤电⾼峰每⼩时⽤电量y 与每⽉总⽤电量x 的数据。
(1)⽤普通最⼩⼆乘法建⽴y 与x 的回归⽅程,并画出残差散点图。
解:SPSS 输出结果如下:
Coe fficients
a -.831.442-1.882.065.004.000
.839
11.030.000
(Constant)x
Model
1
B Std. E rror Unstandardized Coefficients Beta
Standardized
Coefficients
t
Sig.Dependent Variable: y
a.
由上表可得回归⽅程为:
0.8310.004y
x =-+ 残差图为:
解:a 由残差散点图可以明显看出存在异⽅差,误差的⽅差随着x 的增加⽽增⼤。
得到等级相关系数0.318s
r ,P 值=0.021,认为残差绝对值i
e 与⾃变量i x 显
着相关,存在异⽅差。
(3)如果存在异⽅差,⽤幂指数型的权函数建⽴加权最⼩⼆乘回归⽅程;解:SPSS 输出结果如图:
由上述表可得,在 1.5m =时对数似然函数达到最⼤,则幂指数的最优取值为
1.5m =。
加权后的回归⽅程为:?0.6830.004w y x =-+。
计算加权后的残差,并对残差绝对值和⾃变量做等级相关系数分析,结果如下表
Coefficients
a,b
-.683 .298
-2.296 .026 .004
.000
.812
9.930
.000
(Constant) x
Model 1
B Std. Error
Unstandardized Coefficients
Beta
Standardized Coefficients t Sig. Dependent Variable: y
a. Weighted Least Squares Regression - Weighted by Weight for y from WLS, MOD_2 x** -1.500
b.
所⽰:
0.321s r =,P 值为0.019<0.05,即加权最⼩⼆乘法没有消除异⽅差,只是消除
异⽅差的不良影响,从⽽对模型进⾏⼀点改进。
(4)⽤⽅差稳定变换y y =
'消除异⽅差。
解:对应变量做⽅差稳定变换(y y =')后,⽤最⼩⼆乘法做回归,SPSS 结果
如下表:
则回归⽅程为:?0.5822+0.0009529y
x '=。
保存预测值?i y
',计算出残差的绝对值后,计算等级相关系数,见下表:
其中0.160s r =,P 值=0.254>0.05,说明异⽅差已经消除。
4.10 试举⼀可能产⽣随机误差项序列相关的经济例⼦。
答:例如,居民总消费函数模型:
C t =?0+?1Y t + ε t t=1,2,…,n
由于居民收⼊对消费影响有滞后性,⽽且今年消费⽔平受上年消费⽔平影响,则可能出现序列相关性。
另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关)。
4.11 序列相关性带来的严重后果是什么?
答:直接⽤普通最⼩⼆乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产⽣下列⼀些问题: 1.
参数估计量仍然是⽆偏的,但不具有有效性,因为有⾃相关性时参数估
计值的⽅差⼤于⽆⾃相关性时的⽅差。
2. 均⽅误差MSE 可能严重低估误差项的⽅差
3.
变量的显着性检验失去意义:在变量的显着性检验中,统计量是建⽴在
参数⽅差正确估计基础之上的,当参数⽅差严重低估时,容易导致t 值和F 值偏⼤,即可能导致得出回归参数统计检验和回归⽅程检验显着,但实际并不显着的严重错误结论。
4. 当存在序列相关时,β)
仍然是β的⽆偏估计,但在任⼀特定的样本中,
β)
可能严重歪曲?的真实情况,即最⼩⼆乘法对抽样波动变得⾮常敏感
5. 模型的预测和结构分析失效。
4.12 总结DW 检验的优缺点。
答:优点:1.应⽤⼴泛,⼀般的计算机软件都可以计算出DW 值; 2.适⽤于⼩样本;
3.可⽤于检验随机扰动项具有⼀阶⾃回归形式的序列相关问题。
缺点:1. DW 检验有两个不能确定的区域,⼀旦DW 值落⼊该区域,就⽆法判断。
此时,只有增⼤样本容量或选取其他⽅法;
2.DW 统计量的上、下界表要求n>15,这是由于样本如果再⼩,利⽤残差就很难对⾃相关性的存在做出⽐较正确的诊断;
3.DW 检验不适应随机项具有⾼阶序列相关性的检验。
4.13 表4.13中是某软件公司⽉销售额数据,其中,x 为总公司的⽉销售额(万元);y 为某分公司的⽉销售额(万元)。
(1)⽤普通最⼩⼆乘法建⽴y 与x 的回归⽅程;
由上表可知:⽤普通⼆乘法建⽴的回归⽅程为x y
176.0435.1?+-= (2)⽤残差图及DW 检验诊断序列的相关性; 1.以⾃变量x 为横轴,普通残差为纵轴画残差图如下:
从图中可以看到,残差有规律的变化,呈现⼤致反W 形状,说明随机误差项存在⾃相关性。
2.以1-i e (残差1)为横坐标,i e (残差)为纵坐标,绘制散点图如下:
由残差图可见⼤部分的点落在第⼀、三象限内,表明随机扰动项i ε存在着正的序列相关; 3.从下表
可知DW 值为0.663,查DW 表,n=20,k=2,显着性⽔平α=0.05,得L d =1.20,U d =1.41,由于0.663<1.20,知DW 值落⼊正相关区域,即残差序列存在正的⾃相关。
(3)⽤迭代法处理序列相关,并建⽴回归⽅程。
⾃相关系数-≈1ρ)
2
16685.0663.0=?
令't y 1--=t t y y ρ,'t x 1--=t t x x ρ,然后⽤'t y 对'
t x 作普通最⼩⼆乘回归可得输出结果如下:
可看到新的回归⽅程的DW=1.360.且1.18<1.360<1.40,因⽽DW 检验落⼊不确定区域此时,⼀步迭代误差项的标准差为
0.07296,⼩于t ε的标准差0.097
't y 对't x 的回归⽅程为't y
=-0.3+0.173't x ,将't y =t y -0.66851-t y ,'t x =t x -0.66851-t x 代⼈,还原为原始变量的⽅程t y
=-0.3+0.66851-t y +0.173t x -0.11571
-t x 由于⼀步迭代的DW 检验落⼊不确定区域,因⽽可以考虑对数据进⾏⼆步迭代,
也就是对't x 和'
t y 重复以上迭代过程。
进⾏回归结果如下:
此时DW 的值为1.696,查DW 表,n=18,k=2,显着性⽔平α=0.05,得L d =1.16,
U d =1.39, DW 值⼤于U d ,⼩于2,落⼊⽆⾃相关区域。
误差标准项0.0849,略⼩
于⼀步迭代的标准差0.7296。
但是在检验都通过的情况下,由于⼀步迭代的2r 值和F 值均⼤于两步迭代后的值,且根据取模型简约的原则,最终选择⼀步迭代的结果,即:
t y
=-0.3+0.66851-t y +0.173t x -0.11571-t x (4)⽤⼀阶差分的⽅法处理数据,建⽴回归⽅程;
先计算差分t y ?=t y -1-t y ,t x ?=t x -1-t x ,然后⽤t y ?对t x ?
做过原点的最⼩⼆乘回归,结果如下:
由上⾯表,可知DW 值为1.462>1.40=U d ,即DW 落⼊不相关区域,可知残差序列'
t e 不存在⾃相关,⼀阶差分法成功地消除了序列⾃相关。
同时得到回归⽅程为
t y
=0.169t x ?,将t y ?=t y -1-t y ,t x ?=t x -1-t x ,代⼈,还原原始变量的⽅程
t y =1-t y +0.169(t x -1-t x )
(5)⽐较普通最⼩⼆乘法所得的回归⽅程和迭代法、⼀阶差分法所建⽴回归⽅程的优良性。
答:本题中⾃相关系数≈ρ
0.6685,不接近于1,不适宜⽤差分法,另外由迭代法的F 值及2r 都⼤于差分法的值,故差分法的效果低于迭代法的效果;⽽普通最⼩⼆乘法的随机误差项标准差为0.09744,⼤于迭代的随机误差项标准差0.07296,所以迭代的效果要优于普通最⼩⼆乘法,所以本题中⼀次迭代法最好。
4.14 某乐队经理研究其乐队CD 盘的销售额(y ),两个有关的影响变量是每周出场次x1和乐队⽹站的周点击率x2,数据见表4.14。
(1)⽤普通最⼩⼆乘法建⽴y 与x1、x2的回归⽅程,⽤残差图及DW 检验诊断序列的⾃相关性;
解:将数据输⼊SPSS ,经过线性回归得到结果如下:
Model Summary(b)
a Predictors: (Constant), x2, x1
b Dependent Variable: y
ANOVA(b)
a Predictors: (Constant), x2, x1
b Dependent Variable: y
由以上3个表可知普通最⼩⼆乘法建⽴y与x1、x2的回归⽅程,通过了r、F、t检验,说明回归⽅程显着。
y与x1、x2的回归⽅程为:
y=-574.062+191.098x1+2.045x2
残差图ei(e t)~ei1(e t-1)为:
从残差图可以看出残差集中在1、3象限,说明随机误差项存在⼀阶正⾃相关。
DW=0.745
查表得dl=1.46 du=1.63, 0
ρ=1-0.5DW=0.6275
做变换:x1t’=x1t-ρx1(t-1), x2t’=x2t-ρx2(t-1)
y t’=y t-ρy t-1
建⽴y t’与x1t’, x2t’的回归⽅程,SPSS输出为:
DW=1.716>du 所以误差项间⽆⾃相关性。
σ?=257.86
回归⽅程为:yt’=-178.775+211.11x1t’+1.436x2t’
还原为:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1))
+1.436*( x2t-0.627x2(t-1))
(3)⽤⼀阶差分法处理序列相关,建⽴回归⽅程。
Model Summary(c,d)
a For regression through the origin (the no-intercept model), R Square measures the proportion of the variability in the dependent variable about the origin explained by regression. This CANNOT be compared to R Square for models which include an intercept.
b Predictors: DIFF(x2,1), DIFF(x1,1)
c Dependent Variable: DIFF(y,1)
d Linear Regression through th
e Origin
DW=2.040>du,所以消除了⾃相关性,σ?=280.99
差分法回归⽅程为: y t-y t-1=210.117(x1t-x1(t-1))+1.397(x2t-x2(t-1)). (4)⽤最⼤似然法处理序列相关,建⽴回归⽅程。
⽤SPSS软件的⾃回归功能,analyze——>time series——>autoregression:
ρ?=0.631, σ?=258.068,
(5)⽤科克伦-奥克特迭代法处理序列相关,建⽴回归⽅程。