统计学教案(第6章抽样推断)
- 格式:doc
- 大小:390.00 KB
- 文档页数:14
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
旗开得胜第六章抽样推断习题答案一、名词解释用规范性的语言解释统计学中的名词。
1. 随机原则:是指在抽样时排出主观上有意识地抽取调查单位,每个单位以相同概率被取到,从而增强样本对总体的代表性。
2. 统计量:是反映样本特征的综合指标,随样本不同而取不同的值,具有随机性。
3. 随机变量:是指变量的值无法预先确定仅以一定的可能性取值的量。
4. 样本容量:是指样本中的总体单位数量。
5. 中心极限定理:是概率论中讨论随机变量序列部分和的分布渐近于正态分布的一类定理。
这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。
6. 抽样平均误差:是反应抽样误差一般水平的指标,它的实质含义是指抽样平均数的标准差。
7. 区间估计:通过从总体中抽取的样本,根据一定的可行度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
8. 简单随机抽样:也称为单纯随机抽样、纯随机抽样、SPS抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
1旗开得胜二、填空题根据下面提示的内容,将适宜的名词、词组或短语填入相应的空格之中。
1. 随机原则,样本,数量特征2. 样本,样本单位3. 样本个数4. 平均数,平均数5. 次数6. 平均数,成数,标准差7. 统计量,参数8. 越大,越小9. 点估计,区间估计10. 样本指标11. 重复抽样,不重复抽样12. 无偏性,有效性2313. 随机原则,样本指标,控制14. 总体单位,抽样15. 标志16. 重复抽样,不重复抽样17. 所有单位,全面调查18. 泊松分布,超几何分布19. nσ,Nn n-1σ20. σ*t =∆三、单项选择从各题给出的四个备选答案中,选择一个最佳答案,填入相应的括号中。
1 C2 A3 C4 C5 B6 D7 A8 B9 B 10 A11 A 12 B 13 A 14 B 15 C16 C 17 D 18 A 19 A 20 D四、多项选择从各题给出的四个备选答案中,选择一个或多个正确的答案,填入相应的括号中。
统计学
2ˆθ满足
{
1ˆP θ≤ }2
ˆθθ≤ 1α=-
则称随机区间[1ˆθ,2ˆθ]是参数θ的置信水平为1α-的置信区间, 1α-称为[1
ˆθ,2ˆθ]的置信度,1ˆθ,2ˆθ称为置信限。
这里有几点需要说明:
(1)区间[1ˆθ,2ˆθ]的端点1ˆθ,2ˆθ及长度2ˆθ-1
ˆθ都是样本的函数,从而都是随机变量,因此[1ˆθ,2
ˆθ]是一个随机区间。
(2){
1ˆP θ≤ }2
ˆθθ≤ 1α=-是说随机区间
[1ˆθ,2
ˆθ]以1α-的概率包含未知参数真值,区间长度2ˆθ-1
ˆθ描述估计的精度,置信水平1α-描述了估计的可靠度。
(3)因为未知参数θ是非随机变量,所以不能说θ落入区间[1ˆθ,2
ˆθ]的概率是1α-,而应是随机区间[1ˆθ,2ˆθ]包含θ的概率是1α-。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。
(二)总体均值的区间估计
1.正态总体且方差已知;或非正态总体、方差未知、大样本情况下
在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值μ,方差为
2
n
σ。
则2
X Z n
ασ
±⋅
称为总体均值在1α-置信水平下的置信区间。
区间估计步骤:
1.计算样本统计量
p
x ,p p )1(,-=
=
μσμ
2.计算抽样平均误差
3.计算极限误差
4.确定置信区间
5.估计总量指标
注意抽样方法的不同
[例]保险公司从投保人中随机抽取36人,计算得36人的平均年龄39.5X =岁,已知投保人平均年龄近似服从正态分布,标准差为岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解:10.99,0.01,αα-==查(0,1)N 表得2
2.575Z α=
2
7.2
39.5 2.57536.4136X Z n
α
σ
-=-⨯
= 2
7.2
39.5 2.57542.5936
X Z n
α
σ
+=+⨯
= 故全体投保人平均年龄的置信水平为99%的置信区间为[,]
若总体方差2σ未知,可用样本方差S 2
代替
p
p x x μμαα2
2
Z =∆Z =∆[][]
p
p
x
x
p p x x ∆+∆
-∆+∆-,,NP
X
N
(三)估计成数时样本大小的确定
在简单随机重复抽样条件下,得到样本容量:
2
22(1)P Z P P n α-=∆(重复抽样条件下)
在简单随机不重复抽样条件下,我们可以得出估计总体比例时样本容量的计算公式为:
2
2222(1)(1)P NZ P P n N Z P P αα-=∆+-(不重复抽样条件下)
[例]根据以往的生产统计,某种产品的合格率为90%,现要求绝对误差为5%,在置信水平为95%的置信区间时,应抽取多少个产品作为样本
已知,90%P = 5%P ∆= 2
1.96Z α=
则222(1)P
Z P P n α-=∆=221.960.9(10.9)1390.05⨯⨯-= 必要样本容量的影响因素
1.总体方差的大小;
2.允许误差范围的大小;
3.概率保证程度;
4.抽样方法;
5.抽样的组织方式。
第三节 抽样的组织形式
抽样的组织形式有纯随机抽样、机械抽样、类型抽样、整群抽样和多阶段抽样。
一、纯随机抽样
1.含义:对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本
2.特点:最符合抽样调查的随机原则,是基本形式。
简便易行。
3.范围:仅适用于单位数不多、标志变异较小、分布较均匀的总体
二、类型抽样
1.含义:先将全及总体中的所有单位按某一主要标志分组,然后在各组中采用纯随机抽样或机械抽样方式,抽取一定数目的调查单位构成所需的样本。
又叫分层抽样或分类抽样。
2.方法:
A比例分配法 n i/n=N i/N
B 最佳分配法根据各层单位的变异程度的大小来分配
C经济分配法除了考虑单位数目和变异程度外,还有调查费用。
3.特点:能保证分布的均匀性,提高样本的代表性,误差较小;能同时推断总体指标和各子总体的指标
三、机械抽样
1.含义:是先将全及总体所有单位按某一标志顺序编号排列,然后按照固定顺序和相等的空间距离或间隔,从中抽取样本单位的一种抽样组织方式。
又叫等距抽样或系统抽样。
2.方法:根据需要计算抽取各个样本单位之间的距离或间隔;然后,按此间隔依次抽取必要的样本单位。
3.特点:能保证样本较均匀地分布。
是不重复的抽样。