5-1.PPS抽样步骤

  • 格式:pdf
  • 大小:21.80 KB
  • 文档页数:5

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用概率比例规模抽样(PPS)和计算基本概率

权重方法的步骤(WHO)

徐 伟 翻译

(安徽省疾病预防控制中心中心慢病科)

第一阶段:PPS抽样→规模越大的群被抽中的概率越大

第二阶段:每个群中抽取完全相同数量的个体→规模越大的群中的个体被抽中的概率越小

总体: 第二阶段对第一阶进行了段校正,故人群中的每一个体被抽中的概率是相等的。

1.计算每一层的样本量

2.给每一层分配人口数。步骤如下:

3.列出一级抽样单位(A列)与他们的人口数(B列)。每个群自身

的群人口数(a)。

4.计算累计人口数(C列)。在C列的最后栏列出总人口数(b)。

5.确定从每层中需要抽取群的数量(d)。

6.确定从每个群中抽取个体的数量(c)。为了确保人群中所有个体被

抽中的概率相等不论所在群的大小,从每个群中抽取相同数量的个体。

7.用总人口数除以抽取群的数量得出抽样间隔(SI)。

8.在1和SI之间随机选择任一数字,称之起始随机数(RS)。包含这

个数的累计人口数(C列),其对应的群就是我们抽取的第一个对象。

9.依次计算系列数:RS;RS+SI;RS+2SI;…… RS+(d-1)*SI。

10.累计人口数(C列)包含8中系列数字之一,其对应的群即为被

抽取的群。规模大的群可能被抽到多次,这取决于其人口数量的大小。将被抽中的群另记一列(D列)。

11.分别计算每一个被抽中群的各自被抽中概率(Prob.1)(E列)。

Prob.1=(a*b)/b

a=群人口数

b=总人口数

12.分别计算每一个被抽中群中的每一个个体被抽中的概率(Prob.2)

(G列)。

Prob2=c/a

a=群人口数

c=被抽到群的个体数量

13.计算抽样人群中所有被抽中个体的基本权重。基本权重等于被抽

中概率的倒数。

基本权重(BW)=1/( Prob.1* Prob.2)

实例:

30个群,总人口为20000人,应用PPS抽样选取10个群中3000人

Prob.1=选取每个被抽中群的概率

Prob.2=选取被抽中群中每个个体的概率

总权重=人群中每一个被抽中个体的概率之倒数

A B C D E F G H

群序号 人口数(a)累计数 被抽中群Prob.1 每个群中

抽取数(c)

Prob.2 总权重

1 1028 1028 907 51% 300 29% 6.7

2 555 1583

3 390 1973

4 1309 3282 2907 65% 300 23% 6.7

5 698 3980

6 90

7 4887

7 432 5319 4907 22% 300 69%

6.7

8 897 6216

9 677 6893

10 501 7394 6907 25% 300 60% 6.7

11 867 8261

12 867 9128 8907 43% 300 35% 6.7

13 1002 10130

14 1094 11224 10907 55% 300 27% 6.7

15 668 11892

16 500 12392

17 835 13227 12907 42% 300 36% 6.7

18 396 13623

19 630 14253

20 483 14736 14907 24% 300 62% 6.7

21 319 15055

22 569 15624

23 987 16611

24 598 17209 16907 30% 300 50% 6.7

25 375 17584

26 387 17971

27 465 18436

28 751 19187 18907 38% 300 40% 6.7

29 365 19552

30 448 20000(b)

d=10,抽样间隔(SI)=累计人口数(B)/d=20000/10=2000 起始随机数(RS)=907 (=RAND()*SI)

系列数字

1 RS=907

2 RS+(1*SI)=2907

3 RS+(2*SI)=4907

4 RS+(3*SI)=6907

5 RS+(4*SI)=8907

6 RS+(5*SI)=10907

7 RS+(6*SI)=12907

8 RS+(7*SI)=14907

9 RS+(8*SI)=16907

10 RS+(9*SI)=18907

名词解释

抽样框架指一级抽样单位清单,其可以为人群、家庭户、组织或者其他分析单位。

随机抽样指事先保证总体中每一个体被抽到的机会是相等的。通常为等概率抽样。随机样本总是优先考虑,而在统计推断中也只能是随机样本。

PPS (Probability proportion to size)抽样指抽样概率与一级抽样单位规模成比例的一种抽样方法,即规模越大被抽中的概率越大,规模越小被抽中的概率越小。为保证总体中每一个体被抽中的概率相等,而不考虑他们所在群的规模大小,按照一级抽样单位规模大小,每一个层级水平优先于一级水平被抽中,但是在最终的层级水平中抽取相同数量个体。该抽样方法也便于现场工作规划,因为每一个被抽中单位中需要面访的个体事先已经确定并且可以根据需要作相应地分配。最大的优点是当抽样单位规模发生相当大的变化时,此方法能够使较大规模点中的个体与较小规模点中的个体进入样本的概率一样,反之亦然。

设计效率(D)相比于简单随机抽样,反应抽样设计影响差异水平的系数。设计效率为1.0意味着该抽样设计效率与简单随机抽样相等。设计效率大于1.0,说明相比于简单随机抽,该抽样设计减小了估计的精确度(例如,整群抽样时精确度减小)。设计效率小于1.0,则相比于简单随机抽,该抽样设计提高了估计的精确度(例如,分层抽样时精确度增加)。