社会统计学第六章

  • 格式:ppt
  • 大小:1.52 MB
  • 文档页数:39

下载文档原格式

  / 39
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 n 样本均值X X i 作为总体方差的点估计 值 n i 1
n 1 2 用样本方差S 2 ( X X ) 作为总体方差的点估计 值。 i n 1 i 1
样本方差S 2的平方根,称作样本标 准差S: S S 2,这可作为总体标准差 的点估计值。 当X i
[503.75 6.2022 2.1315 ]即(500.4, 507.1 ) 16 就是说估计袋装糖果重 量的均值在 500.4克与507.1克之间, 这个估计值的可信度为 95%。
• 二、总体频率π的区间估计 • 设π为总体频率,P为样本频率,n为样本容量。 • 总体频率的置信区间为:
• 公式: ˆ • 设总体的未知参数为Q,由样本观察值计算的点估计值为Q • 对于给定的α(0<α<1),满足 ˆ Q Q ˆ ) P(Q 1 ˆ 则称[Q ,Q ]为由 1 的置信区间。
1 称作置信概率、置信度 或置信系数。 表示用置信区间估计的 可靠性。
第六章 参数统计
第一节 统计推论
• 一、定义:统计推论是根据局部资料(样本资料)对总体 的特征进行推断。 • 二、特点 • (一)局部资料的特性某种程度上能反映总体的特性; • (二)一次抽样的结果不能恰好就等于总体的结果 • 三、内容 • (一)通过样本对总体的未知参数进行估计,即参数估计。 • (二)通过样本对总体的某种假设进行检验,即假设检验。
100 100
P(1 P) P(1 P) ,P z 2 ] n n
• 因此,女生人数比例的95%置信区间为[0.247,0.433]
• 三、正态总体方差的区间估计 2 • 公式: (n 1) S 2 ( n 1 ) S 2
P

2
2


2 1 2
第四节 抽样分布
• 抽样分布:从一个已知的总体中,独立随机的抽取含量为n的样 本,研究所得的样本的各种统计量的概率分布。 • 一、样本均值的分布 • 1、总体标准差已知时,样本均值的分布服从μ分布(正态分布) • 从均值为μ,标准差为σ的正态总体中,独立随机地抽取含量为 n的样本, x , x • 则 n • 由此可知,样本均值是一服从正态分布的随机变量,记为
为显著性水平。表示用 置信区间估计不可靠的 概率。
显然,置信度与显著性 水平之和为 1 。
• • • • •
一、正态总体均值的区间估计 2 μ的区间估计,根据 如果总体分布满足ξ~N(μ, )。 是否为已知,分为以下两种统计量进行讨论: 2 (一) 为已知 公式为
2
• 例1:
• 例:包糖机某日开工包了12包糖,称得质量(单位:克)分别 为506,500,495,488,504,486,505,513,521,520, 512,485.假设重量服从正态分布,且标准差为σ=10.试求糖包 的平均质量μ的1-α置信区间(分别取值α=0.10和α=0.05)。 • 解:σ=10,n=12, • 计算得x 506 500 495 488 504 486 505 513 521 520 512 485 502 .92 12 • (1)当α=0.10时,1-α/2=0.95, • 查表得Zα/2=Z0.05=1.645 10 x Z 2 502.92 1.645 498.17 n 12 10 x Z 2 502.92 1.645 507.67, 12
m ˆ P n
• 为总体中A成数p的点估计值。 pq ˆ ˆ ˆ D ( P ) • P 的方差D( P) 为: q=1-p
n

• (二)大样本总体成数p的区间估计 ˆ 可以看做是n个满足二点分布(0,1)ξ 的均值: • 样本成数 P i
ˆ P

i 1
n
i
• 根据中心极限定理,在大样本情况下(np≥5和n(1-p)≥5), ˆ 的分布可近似地看做正态分布,因此大样本总体成数p的区间 • P ˆ Z ˆ p P ˆ Z ˆ ) 1 估计公式有: P( P 2 P 2 P • 或置信度为1-α的区间估计为:
1当观测值为所研究的 A类 0 其他 n
X
i 1
i
m表示在样本n次观测中,A类共出现m次。
我们用样本成数 P: 1 n m P X i 作为总体成数估计值。 n i 1 n
• 例1:从某城市的贫困人口中随机抽取的234人,计算出平 均年龄 x 47.2岁,年龄分布的标准差S=12.3岁。求该城市 贫困人口总体的平均年龄和年龄分布的标准差。 • 解:根据点估计值的定义,可以认为该城市贫困人口的平 均年龄μ=47.2岁,年龄分布的标准差为σ=12.3岁。 • 例2:某省人口数为3813万人,从中随机抽取了70405人, 其中残疾人4028人。求该省残疾人的总数。 4028 P 0.0572 • 解:样本中残疾人的频率 70405 • 可以认为总体残疾人的频率Π=0.0572 • 因此,该省残疾人的总数为: • N=0.0572×3813=218.1(万人) • 即该省残疾人总数为218.1万残疾人。
n • 将均值标准化,则 x - ,其中标准化的分母为均值的标准 误。 n
X服从N( ,
2

• 2、总体标准差未知,样本均值的分布服从t分布 • σ未知时,可用样本标准差s代替,标准化变量并不服从正 态分布,而服从具有n-1自由度的t分布 x - ,其分母 t 为样本标准误差。 s n • 自由度:独立观测值的个数。在这里因为计算s时,所使 用的n个观测值,受到平均数x的约束,这就等于有一个观 测值不能独立取值,因此自由度df=n-1。
第二节 名词解释
• • • • • 一、总体即研究对象的全体。 二、样本与简单随机样本 样本:从总体中按一定的方式抽出的那一部分。 样本大小或样本容量:样本中包含的个体数目n。 简单随机样本:被抽样的数据不但是随机变量,而且相互独立, 遵从同一分布(即同总体所遵从的分布)。
• 三、统计量 • 从总体中抽取容量为n的样本,可以看做n个独立同总体的 分布的随机变量,ξ1,ξ2,...,ξn。那么,随机变量ξ1, ξ2,...,ξn的任何函数f(ξ1,ξ2,...,ξn)也是随机变量。 我们把函数f(ξ1,ξ2,...,ξn)叫做统计量。 • 根据随机变量ξ1,ξ2,...,ξn的观测值x1、x2,...,xn计算 得到的一切统计数字特征(如均值、方差)可以看做是相 应的统计量的观测值。 • 如样本均值
1 n 1 n x xi是统计量 i的观测பைடு நூலகம் n i 1 n i 1
第三节 参数的点估计
• 参数估计,根据抽样结果来合理地、科学地猜一猜总体的 参数大概是什么?或者在什么范围? • 其一,点估计。即用样本计算出来的一个数来估计未知参 数。 • 其二,区间估计。通过样本计算出一个范围来对未知参数 进行估计。
• 即μ的置信度为90%的置信区间为(498.17,507.67)。
• (2)当α=0.05时,1-α/2=0.975 • 查表得 • Zα/2=Z0.025=1.96
x Z 2 x Z 2
10 502.92 1.96 497.26 n 12 10 502.92 1.96 508.58, 12
S 85 X Z 2 810 1.96 810 17.56 n 90 (792.44, 827.56)
• 于是,我们有95%的把握认为,该地区每户居民平均用于服 装消费的支出大约介于792.44元到827.56元之间。
• 二、总体成数(二项总体参数p)的估计 • (一)总体成数p的点估计 • 如果在样本容量为n的简单随机抽样中,对于所要研究的A ˆ 共出现m次,则样本成数 P
n
ˆ 为总体成数p的点估计值 • 其中,P p(1 p) • 1-α为置信度。 p ˆ n ˆ • 当p未知情况下,可用 ˆ 代替:p≈ P P
ˆ Z P
ˆ , P Z 2 P ˆ ˆ 2 p

• 例:某厂对一批产品的质量进行抽样检验,采用重复抽样抽取 样品200只,样本优质率为85%,试计算当把握程度为95%时优 质品率的区间范围。 • 解:由题意可知: ˆ 1 p ˆ 0.15 ˆ 0.85;q • n=200, p • 1-α=0.95,α=0.05,Zα/2=Z0.025=1.96
0.85 0.15 0.85 - 1.96 0.8005 200 0.85 0.15 0.85 1.96 0.8995 200
• 所以,总优质品率p的置信度为95%的置信区间为 • 80.05%≤p≤89.95%
• 三、大样本二总体均值差的区间估计 • 大样本二总体均值差μ1-μ2的区间估计公式为:
• 二、样本方差 s 的分布—— 分布 • 从方差为 2 的正态总体中,随机抽取含量为n的样本,可 2 2 计算出样本方差 s 。在讨论样本方差 s 的分布时,通常 2 并不直接谈 s 的分布,而是将它标准化,得到一个不带 任何单位的纯数。该纯数服从n-1自由度的卡方分布。
2
2

n 1

2
[P z 2
• 例:某工科院校从今年的新生中随机抽取了100人,其中女生34 人。求今年女生人数比例的95%置信区间。 • 解:已知n=100,m=34,1-α=0.95。 • p=34/100=0.34 • 查表得zα/2=z0.025=1.96。 P(1 P) P(1 P) [P z , P z ] 2 2 • 将上述条件代入: n n 0.34 0.66 0.34 0.66 • 可得置信区间: [0.34 1.96 , 0.34 1.96 ]

• 即μ的的置信度为95%的置信区间为(497.26,508.58)。 • 从上例可以看出:当置信度1-α较大时,置信区间也较大; 当置信度1-α较小时,置信区间也较小。
• (二) 2为未知 • 公式:
• 例:有一大批糖果,现从中随机抽取16袋,称得重量(克) 如下: • 506 508 499 502 504 510 497 512 • 514 505 493 496 506 502 509 496 • 设袋装糖果的重量服从正态分布,试求总体均值μ的置信 度为0.95的置信区间。 • 解:α=0.05,k=n-1=15 • 查t(n-1)分布表可知:t0.025(15)=2.1315, • 计算得 x 503.75, s 6.2022 • 得μ的置信度为95%的置信区间

1
第六节 大样本区间估计
• 大样本一般指样本容量n≥30,而在社会科学中可取n≥50. • 一、大样本总体均值μ的区间估计 • 公式:
• 例:为了了解居民用于服装的支出情况,随机抽取90户居民 组成一个简单随机样本,计算得样本均值为810元,样本标 准差为85元,试建立该地区每户居民平均用于服装消费支出 的95%的置信区间。 • 解:设用随机变量X表示居民的服装支出。根据题意, X 810 • 元,S=85元,n=90,与置信度95%相对应的α=0.05,查标 准正态分布表,得Z0.05/2=1.96.
S
2
) ~(n 1
2
第五节 总体特征值的区间估计
• 原因:用样本观察值计算的点估计值与总体特征值的距离 有多大不知道,同时,点估计值与总体特征值完全相同的 概率极小,用点估计值来估计总体特征值几乎必然犯错误。 因此,我们希望估计出一个范围,并且希望知道这个范围 包含总体特征值的可能性有多大。 • 区间估计就是以一定的概率保证估计包含总体参数的一个 值域,即根据样本指标和抽样平均误差推断总体指标的可 能范围。 • 包括两部分内容:一是这一可能范围的大小;二是总体指 标落在这个可能范围内的概率。