- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。
)
[(
R
Rh
)2
S
2 Xh
2(R
Rh )(hSYhSXh
Rh
S
2 Xh
)]
(5.24)
当对一切 h 有 R Rh时,这两种估计方差相同,也就是说当 分层对比值并无多大意义情况下,谈论分别比估计与联合比
估计孰优孰劣已经无多大意义。
现在来求总产量的95%的置信区间,首先
v( yR ) 620.55(吨)
u1
2
u0.975
1.96
置信区间为:(
yR
u1
2
v( yR )
,yR
u1
2
v( yR ) )
(77152,79584)
§2 分层抽样中的比估计
分层抽样中的比估计有两种:一是分层之后,先在各层 获得比估计,然后按层权平均得到总体参数估计;二是先对 Y , X 作分层估计,然后再采用比估计方法。前者称为分别比 估计,后者称为联合比估计。 1、分别比估计
村i 产量yi (吨) 面积xi (亩)
村i 产量yi (吨) 面积xi (亩)
1
112.0
302
2
129.1
361
3
208.2
608
4
158.5
444
5
110.2
298
6
123.3
349
7
157.7
416
8
154.2
428
9
98.7
258
10
112.7
347
11
125.5
351
12
60.3
158
13
第五章 比估计与回归估计
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。
n
( xi x)( yi y)
ˆ
i 1 1
(5.4)
1
n
( xi
2 x)
n
(
yi
2 y)
i1
i1
在讨论比估计之前,先考察总体的两个平均数之比,即
RY X
由于x, y 分别是X ,Y 的无偏估计,R 的估计自然定义为
Rˆ y x
v( Rˆ )
1 f nx 2
( sY2
Rˆ 2
s
2 X
2Rˆ sXY
)
v(
yR
)
1
n
f
( sY2
Rˆ
2
s
2 X
2Rˆ sXY )
v( yR )
N 2 (1 n
f
) (sY2
Rˆ
2
s
2 X
2Rˆ sXY
)
那么, R,Y ,Y 的置信水平为(1 )的置信区间分别为:
Rh2
S
2 Xh
Rh
2RhSYXh )
Yh Xh
(5.18)
(5.17), (5.18)告诉我们,即使每层 nh相当大,但如果层数k
比较大,由于误差的积累,yRS 产生的偏倚与误差可能相当 大。
2、联合比估计
将 X ,Y 分别进行分层估计,然后相比即得总体的两个
指标平均数之比的估计:
Rˆ c
经计算可得: x 364.625 y 130.625
s
2 x
1112.195
s2y 9498.505
sxy 3213.110
X 218756 X 218756 379.7847 576
所以该县平均亩产小麦估计为:
Rˆ y 130.625 0.358245(吨 亩) x 364.625
v( y)
N 2 (1 n
f
)
s
2 y
14734359
显然,yR的方差远远小于 y 的方差。理由很清楚!小麦亩产
量与土地拥有量呈现正相关,且相关程度相当密切,因此,
在抽样调查中对每个村了解有关产量和土地亩数,利用已知
该县土地的固有已知数,能比较精确地推断总产量。事实上
在实际操作中人们正是这样去做的!
MSE( yRc ) Var( yRc )
k h1
Nh2(1 nh
fh ) (SY2h
R2
S
2 Xh
2R
SYXh )
(5.23)
其中R Y X 为总体的比值。
(5.22)表明, yRc 是 Y 的渐近无偏估计,(5.23)与(5.18)非常相 似,唯一不同的是在(5.18)中用的是各层的比值 Rh ,而(5.23) 中用的是总体的比值 R 。
的方差和协方差。
我们可以得到有关总体 Y 和 Y 的分别比估计为:
yRS
k
Wh yRh
h1
k
Wh
h1
yh xh
Xh
1 N
k h1
yh xh
Xh
(5.15)
yRS
N
yRS
k h1
yh xh
Xh
k h1
yRh
(5.16)
由上节可知,各层中的 yRh 是Yh的渐近无偏估计量,因此
yRS 是Y 的渐近无偏估计量:
k
E( yRS ) E( yRh ) Y
(5.17)
h1
各层的抽样又是独立进行的,由(5.10)式,可以近似得到 yRS
的方差或均方误差,当各个 nh都相当大时:
MSE( yRS ) Var( yRS )
k
N
2 h
(1
h1
nh
fh ) (SY2h
§1 比估计及其性质
设有一个二元变量的总体 ( X ,Y ):( X1,Y1 ),( X2 ,Y2 ), ,( X N ,YN ) 有 4 个参数是我们所熟悉的:
X、Y ————指标 X、Y 的平均数
S
2 X
1 N 1
N
(Xi
i 1
X )2
SY2
1 N 1
N
(Yi
i 1
Y )2
(5.12)
2SY 2 SY Y 2 CY
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果
相关程度不那么密切( CX 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙”
假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:
——指标 X、Y 的方差
在研究比估计之前,再引进一个新的参数——变量之间
的协方差:
Cov( X ,Y )
1 N 1
N i 1
(Xi
X )(Yi
Y )
(5.1)
X、Y 之间的相关系数定义为:
Cov( X ,Y )
Var( X ) Var(Y )
N
( Xi X )(Yi Y )
尽管x, y 分别是X ,Y 的无偏估计,由于 Rˆ 的非线性形式,因 此 Rˆ 关于 R 是有偏的,从而 yR , yR 关于Y ,Y 也是有偏的。
一个合理的估计量,应该随着样本容量 n 的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”
比估计是否渐近无偏呢?
将比估计Rˆ y x 表示为:
3、分别比估计与联合比估计的比较
仅就总体总和进行比较。如果各层的 nh相当大,由(5.18)
和(5.23)可得:
Var( yRc ) Var( yRs )
k h1
N
2 h
(1
nh
fh ) [(R2
Rh2
)S
2 Xh
2(R
Rh )SYXh ]
k h1
N
2 h
(1
nh
fh
采用比估计可得 yR和 v( yR )分别为:
yR XRˆ 218756 0.358245 78368.2(吨)
v(
yR
)
N
2 (1 n
f
)
(
s
2 y
Rˆ 2 sx2
2Rˆ sxy ) 385080
仅利用 y 数据估计该县小麦总产量 Y 与估计量方差分别为:
y N y 576130.625 75240(吨)
Rˆ y
y
x X (1 x X )
X
利用Taylor展开式,有
Rˆ
y x
y X
1
x
X X
xX X
2
y X
1
xX X
x
X X
2
(5.7)
当 n 相当大时, x 与 X 相当接近,而 X 是常数,又 y 是Y 的
当 n 充分大时,
Var( yR )
1 f n
( SY2
R2
S
2 X
2RSXY )
而
Var( y) 1 f n
SY2
欲使 Var( yR ) Var( y) ,仅需
R
2
S
2 X
2RSXY
0
或
R2
S
2 X
2R SX SY
0
即
RSX 1 SX X 1 CX
i 1
1
1
(5.2)
N
(Xi
X
)
2
N
(Yi
Y
)
2
i1
i1
如果简单随机样本为( xi , yi ) (i 1, 2, , n) ,则Cov( X ,Y )
及 的估计为:
S xy
1 n1
n i 1
( xi
x)( yi
y)
(5.3)
S
2 X
2RSXY )
(5.8) (5.9) (5.10)
公式(5.8)、(5.9)、(5.10)为我们提供了Var(Rˆ ),Var( yR ),Var( yR )
的估计量的形式。具体计算时,只要将
S
2 X
,
SY2
,
S
XY
,
R分别换为
sX2 , sY2 , sXY , Rˆ 即可。我们将由此得到的估计量分别记为:
105.7
308
14
80.5
217
15
163.0
492
16
98.7
280
17
137.8
378
18
141.2
386
19
152.5
428
20
142.5
390
21
136.7
376
22
153.2
432
23
93.0
261
24
179.8
483
每个村有两个指标:面积 xi和产量 yi ቤተ መጻሕፍቲ ባይዱ即:( xi , yi )
设总体分为 k 层,第 h 层的样本均值记为yh , xh,在该层 中 Yh与Yh的比估计记为 yRh , yRh,又记X h和X h为第 h 层中指标
X的平均数与总和, SY2h , SX2h与 SYXh 分别为该层中Y , X 的方差 和协方差,若 S 换为 s ,Y , X换为 y, x ,则显然表示该层样本
无偏估计,因此,实质上 Rˆ y X ,所以 E( Rˆ ) R 。
(5.7)式的好处不单单告诉我们E(Rˆ ) R 这一事实,而且告
诉了我们,当 n 相当大时,Rˆ y X ,表明 Rˆ 可以表示成 yi X (i 1, 2, , n) 的平均数,因此Rˆ 的分布可近似正态分布
(
Rˆ
u1
2
v(Rˆ )
,
Rˆ
u1
2
v(Rˆ )
)
(5.11)
(
yR
u1
2
v( yR )
,yR
u1
2
v( yR ) )
(
yR
u1
2
v( yR )
,yR
u1
2
v( yR ) )
下面说明比估计的优点。主要针对 yR与 yR来说明,因为
它们仅相差一个常数因子,因此,只需讨论其中一个就可以。
Rˆ R
因此,可利用 Var(Rˆ ) 近似标准正态分布获得 R 的置信区间
而 另外
Var(Rˆ )
1 f nX 2
( SY2
R2
S
2 X
2RSXY )
Var( yR )
1 f n
( SY2
R2
S
2 X
2RSXY
)
Var( yR )
N 2 (1 n
f
) ( SY2
R2
yst xst
yst xst
(5.19)
而 Y ,Y 的相应(联合)比估计可以写成:
yRc
Rˆ c X
yst xst
X
(5.20)
yRc
N yRc
yst xst
X
(5.21)
为与分别比估计进行比较,我们讨论联合比估计的期
望和方差。当 n 相当大时,有
E ( yRc ) Y
(5.22)
yp
x y X
,
当 n 充分大时,且满足:
yp
N
x y X
(5.13)
1 SX X 1 CX
2 SY Y
2 CY
(5.14)
成立
Var( yR ) Var( y)
例5.1 某县小麦种植面积为218756亩,分布在N=576个村,为
估计全县产量,随机无放回地抽取n=24个村,所得数据如下
假如 X 或 X 已知,总体平均数 Y 与总体总和 Y 的比估计
量定义为:
yR
Rˆ
X
y x
X
y x
X
(5.5)
yR
Rˆ
X
y x
X
y x
X
(5.6)
通常的比估计是指 (5.5) 式与 (5.6) 式,而 Rˆ 则称为比值R 的
估计。
由 (5.5) 式与 (5.6) 式可知, yR与 yR 的习性主要依赖于估计量 Rˆ ,因此在不少场合,我们常用 Rˆ 来说明。