统计学教案(第6章抽样推断)
- 格式:doc
- 大小:390.00 KB
- 文档页数:14
统计学
2ˆθ满足
{
1ˆP θ≤ }2
ˆθθ≤ 1α=-
则称随机区间[1ˆθ,2ˆθ]是参数θ的置信水平为1α-的置信区间, 1α-称为[1
ˆθ,2ˆθ]的置信度,1ˆθ,2ˆθ称为置信限。
这里有几点需要说明:
(1)区间[1ˆθ,2ˆθ]的端点1ˆθ,2ˆθ及长度2ˆθ-1
ˆθ都是样本的函数,从而都是随机变量,因此[1ˆθ,2
ˆθ]是一个随机区间。 (2){
1ˆP θ≤ }2
ˆθθ≤ 1α=-是说随机区间
[1ˆθ,2
ˆθ]以1α-的概率包含未知参数真值,区间长度2ˆθ-1
ˆθ描述估计的精度,置信水平1α-描述了估计的可靠度。 (3)因为未知参数θ是非随机变量,所以不能说θ落入区间[1ˆθ,2
ˆθ]的概率是1α-,而应是随机区间[1ˆθ,2ˆθ]包含θ的概率是1α-。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。 (二)总体均值的区间估计
1.正态总体且方差已知;或非正态总体、方差未知、大样本情况下
在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值μ,方差为
2
n
σ。则2
X Z n
ασ
±⋅
称为总体均值在1α-置信水平下的置信区间。
区间估计步骤:
1.计算样本统计量
p
x ,p p )1(,-=
=
μσμ
2.计算抽样平均误差
3.计算极限误差
4.确定置信区间
5.估计总量指标
注意抽样方法的不同
[例]保险公司从投保人中随机抽取36人,计算得36人的平均年龄39.5X =岁,已知投保人平均年龄近似服从正态分布,标准差为岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解:10.99,0.01,αα-==查(0,1)N 表得2
2.575Z α=
2
7.2
39.5 2.57536.4136X Z n
α
σ
-=-⨯
= 2
7.2
39.5 2.57542.5936
X Z n
α
σ
+=+⨯
= 故全体投保人平均年龄的置信水平为99%的置信区间为[,]
若总体方差2σ未知,可用样本方差S 2
代替
p
p x x μμαα2
2
Z =∆Z =∆[][]
p
p
x
x
p p x x ∆+∆
-∆+∆-,,NP
X
N
(三)估计成数时样本大小的确定
在简单随机重复抽样条件下,得到样本容量:
2
22(1)P Z P P n α-=∆(重复抽样条件下)
在简单随机不重复抽样条件下,我们可以得出估计总体比例时样本容量的计算公式为:
2
2222(1)(1)P NZ P P n N Z P P αα-=∆+-(不重复抽样条件下)
[例]根据以往的生产统计,某种产品的合格率为90%,现要求绝对误差为5%,在置信水平为95%的置信区间时,应抽取多少个产品作为样本
已知,90%P = 5%P ∆= 2
1.96Z α=
则222(1)P
Z P P n α-=∆=221.960.9(10.9)1390.05⨯⨯-= 必要样本容量的影响因素
1.总体方差的大小;
2.允许误差范围的大小;
3.概率保证程度;
4.抽样方法;
5.抽样的组织方式。
第三节 抽样的组织形式
抽样的组织形式有纯随机抽样、机械抽样、类型抽样、整群抽样和多阶段抽样。
一、纯随机抽样
1.含义:对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本
2.特点:最符合抽样调查的随机原则,是基本形式。简便易行。
3.范围:仅适用于单位数不多、标志变异较小、分布较均匀的总体
二、类型抽样
1.含义:先将全及总体中的所有单位按某一主要标志分组,然后在各组中采用纯随机抽样或机械抽样方式,抽取一定数目的调查单位构成所需的样本。又叫分层抽样或分类抽样。
2.方法:
A比例分配法 n i/n=N i/N
B 最佳分配法根据各层单位的变异程度的大小来分配
C经济分配法除了考虑单位数目和变异程度外,还有调查费用。
3.特点:能保证分布的均匀性,提高样本的代表性,误差较小;能同时推断总体指标和各子总体的指标
三、机械抽样
1.含义:是先将全及总体所有单位按某一标志顺序编号排列,然后按照固定顺序和相等的空间距离或间隔,从中抽取样本单位的一种抽样组织方式。又叫等距抽样或系统抽样。
2.方法:根据需要计算抽取各个样本单位之间的距离或间隔;然后,按此间隔依次抽取必要的样本单位。
3.特点:能保证样本较均匀地分布。是不重复的抽样。