第六章 抽样分布与抽样推断--

  • 格式:ppt
  • 大小:2.75 MB
  • 文档页数:162

下载文档原格式

  / 162
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正态分布
非正态分布
二、样本成数 p 的抽样分布的性质
从总体中抽取一个容量为 n 的样本,
x1 , x2 ,..., xn
若 数服从正态分布。
x ~ B(n, P)
则认为样本成
np 5, nq 5
样本平均数为p,样本方差为 p134例
pq n
1.3 抽样误差
一.抽样调查 二.抽样误差
抽样方法 一. 抽样调查
2
2
f (x x) f 1
2
或历史资料、 实验数据
用 pq 替代 PQ
影响抽样平均误差的因素

由公式可以看出: 1、抽样方法:采用不重复抽样比重复抽样的抽样 误差小。 2、样本容量:抽样单位数目越多,抽样误差越 小;反之,越大。 3、总体的变异程度:总体的变异程度越大,抽样 误差越大;反之,则越小。 4、抽样的组织方式:不同的抽样组织方式所抽中 的样本对总体的代表性不同,故 抽样误差的大小不同。
标准差与抽样平均误差
• 标准差
–对观察值的离散程度的度量; –显示观察值与平均数的接近程度; –可理解为每个观察值与平均数的离差的平均; –可以用于确定总体中大部分观察值所在的范围。
• 抽样平均误差(标准误:抽样分布的标准差,抽样均值的标准误差)
–测量用样本平均数估计总体平均数时的精确程度; –用于估计抽样误差,反映的是样本平均数抽样分布 的离散程度; –显示各样本平均数与总体平均数的接近程度; –用于确定估计的总体平均数的置信区间。
4.
在大规模的抽样调查中,经常被采用的方法
2.非概率抽样
相对于概率抽样而言 抽取样本时不是依据随机原则,而是根据研 究目的对数据的要求,采用某种方式从总体 中抽出部分单位对其实施调查 有方便抽样、判断抽样、自愿样本、滚雪球 抽样、配额抽样等方式
1. 2.
3.

配额抽样也称“定额抽样”,是指调查人员将调 查总体样本按一定标志分类或分层,确定各类 (层)单位的样本数额,在配额内任意抽选样本 的抽样方式。
(4) 多阶段抽样
1.
先抽取群,但并不是调查群内的所有单位,而是再进行一 步抽样,从选中的群中抽取出若干个单位进行调查

群是初级抽样单位,第二阶段抽取的是最终抽样单位。 将该方法推广,使抽样的段数增多,就称为多阶段抽 样
2. 3.
具有整群抽样的优点,保证样本相对集中,节约调查费用 需要包含所有低阶段抽样单位的抽样框;同时由于实行了 再抽样,使调查单位在更广泛的范围内展开
X ~ N ( , 2 ) , X服从正态 分布 X ~ N (0, 1) , X服从标 准正态 分布
X ~ B(n, P) , X服从二项 分布
第1节
抽样分布
1.1 三种不同性质的分布
1.2 抽样分布的数学性质
1.3 抽样误差
1.1
三种不同性质的分布
一.
二.
总体分布
样本分布
三.
抽样分布
抽样方式
概率抽样 非概率抽样
简单随机抽样 整群抽样
分层抽样 系统抽样
方便抽样 自愿样本
判断抽样 滚雪球抽样
多阶段抽样
配额抽样
1.概率抽样
(1) 简单随机抽样
抽样框是指对总 体单位列出名册 或排序编号,以 确定总体的抽样 范围和结构。
1.从总体N个单位中随机地抽取n个单位作为样本,每个
单位入抽样本的概率是相等的 2.最基本的抽样方法,是其它抽样方法的基础 3.特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 4.局限性 常见的抽样框: 大学学生花名册、 当N很大时,不易构造抽样框 城市黄页里的电 列 商 抽出的单位很分散,给实施调查增加了困难 话 名 表 、 工 道 企 业 录、街 派 出所里居民户籍 没有利用其它辅助信息以提高估计的效率
样 本
抽样分布
(sampling distribution)
抽样分布:同一个总体中抽取的一定样本容量的所 有随机样本计算出来的统计量的可能取值的分布
1. 2. 3.
样本统计量的概率分布 是一种理论概率分布 随机变量是 样本统计量

样本均值, 样本比例,样本方差等
4. 5.
结果来自容量相同的所有可能样本 提供了样本统计量长远稳定的信息,是进行推断 的理论基础,也是抽样推断科学性的重要依据
册、意向购房人 信息。
(2) 分层抽样
1.
2.
将抽样单位按某种特征或某种规则划分为 不同的层,然后从不同的层中独立、随机 地抽取样本 优点


保证样本的结构与总体的结构比较相近,从 而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层 的目标量进行估计
分层(类)抽样
N1
N3
抽取样本
n1
n3
N2
n2
N1 N 2 N3 N
n1 n2 n3 n
(3) 等距抽样
1.
将总体中的所有单位(抽样单位)按一定顺序 排列,在规定的范围内随机地抽取一个单位 作为初始单位,然后按事先规定好的规则确 定其它样本单位

先从数字1到k之间随机抽取一个数字r作为 初始单位,以后依次取r+k,r+2k„等单位
总体分布
(population distribution)
1.
2. 3.
总体中各元素的观察值所形成的分布
分布通常是未知的
可以假定它服从某种分布
总体
样本分布
(sample distribution)
1. 2. 3.
一个样本中各观察值的分布 也称经验分布 当样本容量 n 逐渐增大时,样本分布逐 渐接近总体的分布
标准正态分布表 生 成 概 率 分 布 表 “=NORMSDIST($A2+B$1)” t分布临界值表 “=TINV(B$1,$A2)”
2分布临界值表
“=CHIINV(B$1,$A2)” F分布临界值表 “=FINV($B$1,B$2,$A3)”
Chapter 6
抽样推断
(Statistical inference)
x ~ N ( ,


2
n
),
x Z ~ N (0,1) n
2.正态总体 、总体的方差 未知、小样本:
2
当总体服从正态分布时,样本平均数的分布服从t 分布
t
x
S n1
n
~ t (n 1)
样本平均数的抽样分布
当总体服从正态分布N~(μ,σ2)时,来自该总体的所有 容量为n的样本的均值X也服从正态分布,X 的数 学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
正态分布。
----根据:中心极限定理
中心极限定理P132-133
(central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为n的样本,当n充分大时,样本均值的 抽样分布近似服从均值为μ、方差为σ2/n的正态分布
一个任意分 布的总体
x
n
2. 3.
优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难
等距抽样
步骤:1)把总体按某种(有关、无关)标志排队。 2)计算抽样间距:K N n
3)抽选样本单位, 得到样本n
K
4K-R R 2K-R 2K+R
6K-R 4K+R 6K+R
Leabharlann Baidu
x 的计算公式与纯随机抽样相同。
(4) 整群抽样

立意抽样:又称目的抽样和判断抽样。根据研究
目的的需要和研究者的主观判断,选择研究对象。
二.抽样误差
1、实际抽样误差
样本平均数与所 要估计的总体平 均数之间的差值
由实际样本计算得到的指标与总体指标的差异。
xi , pi P
2、抽样平均误差(标准误)
(standard error of the mean)
1.
2.
将总体中若干个单位合并为组(群),抽样时直接 抽取群,然后对中选群中的所有单位全部实施 调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便 调查的实施 缺点是估计的精度较差
3、整群抽样

整群抽样 总体 样本
样本由抽取的“群”组成,抽样误差由“群”与 “群”之间的差异大小决定。“群”内进行普查。
抽样分布
(sampling distribution)
总体
样 本
计算样本统计 量 例如:样本均 值、比例、方 差
1.2
抽样分布的性质
一、样本平均数的抽样分布的性质128
二、样本成数 p 的抽样分布的性质
一、样本平均数
x
的抽样分布的性质
1.正态总体 、总体的方差
已知:
2
——若总体服从正态分布 X ~ N ( , 2 ) ,样本平均 数服从正态分布。

滚雪球抽样:以若干个具有所需特征的人为最初
的调查对象,然后依靠他们提供认识的合格的调 查对象,再由这些人提供第三批调查对象,…… 依次类推,样本如同滚雪球般由小变大。滚雪球 抽样多用于总体单位的信息不足或观察性研究的 情况。这种抽样中有些分子最后仍无法找到,有 些分子被提供者漏而不提,两者都可能造成误差。

方便抽样是从便利的角度来考虑获取样本。样本 的选取主要是让调查员来决定。调查对象的选取 常常是因为他们恰好在恰当的时间、恰当的地点 出现。例子:
· 没有认定调查对象身份的商场拦截式访问;
· 利用客户的名单(名片、往来信件等方式获得)进行调查; · 访问大街上的人们; · 利用学生、社会组织的成员或工厂机关的职工作为调查对象; · 报纸、杂志上填好、寄回的调查。
抽样推断特点
1.一种从数量上由部分推断整体的研究方法。 2.样本单位按随机原则抽取。
(1)保证样本很好的代表总体 (2)遵循随机原则才可对估计的进度和可靠度进行数理研究
3.抽样推断是采用概率估计的方法。
样本数据和总体参数之间并不存在严格的对应关系。
4.抽样推断的误差可以事先计算并加以控制。
抽样推断的两种方式——
——参数估计(parameter estimation)
用样本统计量估计总体参数
x ,
S
2
2
——假设检验(hypothesis testing)
对总体分布特征作出假设,然后用样 本统计量判断假设是否成立。
总体参数和样本统计量

1.总体:抽样推断中所要研究的客观总体;
按各单位标准性质不同:变量总体、属性总体; 按所拥有的单位数:无限总体、有限总体; 2.样本:随机从母体中抽出的部分单位所组成的小 总体 3.样本容量:一个样本所包含的单位数
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
中心极限定理
(central limit theorem)
x 的分布
趋于正态 分布的过 程
抽样分布与总体分布的关系
总体分布
正态分布
2
非正态分布
大样本 小样本 ?
已知
2
小样本
2未知
t分布
正态分布

4.样本空间:总体单位数N中随机抽取n个单位,
不同的样本可能数。 重复样本:Nn 不重复样本:考虑顺序; 不考虑顺序
有关表达的含义
n : 样本容量
N:总体单位数
x :样 本平均数
p: 样 本成数;
:总 体平均数
P: 总 体成数
S: 样 标 本 准差; : 总 标 体 准差 x : 平均数的抽样 平均误 差 p : 成数的抽样 平均误 差
本容量为n时,抽样平均误差公式为:
抽样平均误差的实际计算公式
重复抽样 不重复抽样 平均数
x p

n PQ n
x p

n (1 ) n N
2
成数
PQ n (1 ) n N
Q=1-P
经常地, 未知,用样本方差替代:
2
S
2
2
(x x)
n 1
2
S
=10
n=4 x 5 n =16 x 2.5
= 50
X
x 50
X
总体分布
抽样分布
若总体方差未知、且小样本情况、无法 用小样本的方差替代总体方差进行计算 检验、所以用t分布进行检验计算
3.总体分布形式未知或非正态分布、大样本:
若样本容量足够大,不论总体的分布形式
如何,样本平均数的抽样分布近似于服从
1.抽样分布
2.参数估计
3.假设检验
抽样推断概述
1.借助样本提供的信息,估计和检验总体的数量 特征。 2.抽样推断建立在概率论和大数法则基础上p124
契比雪夫不等式证明,如果随机变量总体存在着有限的平均 数和方差,则对于充分大的抽样单位,可以以几乎趋近于1的 概率,来期望其平均数与总体平均数的绝对离差为任意的小。
指所有可能样本的平均数与总体平均数之间误差 的平均数,理论上:
x
(x )
i
2
n
,
p
( p P)
i
2
n
n表示可能样本个数

不过在抽样调查实践中不可能按照上例方法计算
全部样本的误差,再计算抽样平均误差。但它可
以根据总体方差,样本容量(抽样单位数目)和抽
样方式,通过一定公式进行计算。当总体为N,样