第六章统计学

  • 格式:ppt
  • 大小:157.50 KB
  • 文档页数:24

下载文档原格式

  / 24
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



㈡置信区间与置信度之间的关系 P(^Q1<Q<^Q2)=1-α ^Q1,^Q2是统计量,是随着样本而变的随机变量。 对于不同的样本,区间是会变化的。对于一次抽样所 形成的样本,它的区间估计可能包含待估参数,也可 能不包含。1-α正是指出包含待估参数这个随机事件 的概率是多少。对于置信度,一般是根据实际情况预 先给定的。如置信度1-α取0.90,它表示如果独立重 复抽取很多样本,每次样本容量n保持不变,那么平 均而言,每100个样本,其中有90个样本算出的区间 估计是包含待估参数的。 在样本容量一定的情况下,置信区间和置信度是相互 制约的。置信度越大,则相应的置信区间也越宽。



㈡σ2为未知 X-μ ~t(0,1) s/√n P(-Tα/2 <T<Tα/2)=1- α P(-Tα/2 < X-μ <Tα/2 )=1- α S/√n 整理:(X-Tα/2 S,X+Tα/2 S) √n √n
第六节 大样本区间估计



中心极限定理:对于随机变量分布的任何形式, 只要n足够大, n个独立同分布的随机变量之 和或均值的分布都将近似服从正态分布。 由于中心极限定理,使我们在不知道总体分布 的情况下,可通过增加样本容量的办法,对总 体均值进行区间估计。 大样本一般取n≥50




三、统计量 从总体中抽取容量为n的样本,可看作n个独立同总体 分布的随机变量ξ1ξ2……ξn,那么随机变量的任何函 数f(ξ1ξ2……ξn)也是随机变量,我们把f(ξ1ξ2……ξn) 叫统计量。根据随机变量ξ1ξ2……ξn的观测值X1 X2……Xn计算得到的统计数字就是相应统计量的观测 值。统计量的分布又叫抽样分布。 参数值:总体值,是关于总体中某一变量的综合描述。 参数值是确定不变、唯一的,但通常是未知。 统计值:样本值,是关于样本中某一变量的综合描述。 统计值是变化的。 按习惯参数值常以希腊字母表示,统计值常以罗马字 母表示。
第二节 名词解释


一、总体 研究对象的全体。 二、样本与简单随机样本 从总体中按一定方式抽出的一部分称为样本。 如果要求抽样的数据,不但是随机变量,而且相互独 立,遵从同一分布(即同总体所遵从的分布),这样 的样本就叫简单随机样本。一般在无限总体中的随机 抽样或有限总体中的回置抽样所得样本都是简单随机 样本。在社会调查中,有限总体,不回置抽样,严格 来说这样不满足简单随机抽样,但当样本容量比总体 小很多时,可以近似看作简单随机样本。 随机样本的两重性。调查前,各个调查尚未进行,因 此要获得的数据ξ1ξ2ξ3……ξn具有不确定性,随机性, 即他们都是随机变量。但调查后,所得结果是一组具 体、确定的数值X1 X2……Xn ,就不再随机了,它称 为ξ1ξ2……ξn的观测值,即样本观测值。


1、从任意分布的总体中反复不断抽取规模相 同且足够大量的样本,样本分布的 平均值会 ( )(中大,2008) A大于总体均值 B小于总体均值 C等于总体 均值 D因总体分布形态未知,故无法判断 2、参数值用于( ) A描述样本特征 B总体特征 C用于点估计或 区间估计 D描述样本和总体的关系 3、关于抽样分布的说法,哪个是错误的( ) A抽样分布的标准差等于总体标准差 B若样本 相当大,则抽样分布接近正态分布 C抽样分 布的均值等于总体均值 D 抽样分布是建立在 概率基础上的一种理论分布



㈡大样本总体成数p的区间估计 样本成数^ p可看成n个满足二点分布(0,1) ξ i的均值。在大样本情况下np≥5和n(1-p) ≥5, ^ p 的分布可近似看成正态分布。 P(^ p -zα/2σ^ p <μ < ^ p +zα/2σ^ p )=1-α σ ^ p= √p (1-p)/n 当p未知时,可用^ p代替。zα/2是正态分布双侧 区间的分位点。




习题1:在某农村随机抽取300户,发现123户 是亦工亦农家庭。试估计其95%的置信区间, 并提出研究结论。 0.41+0.056,有95%的信心,全村的亦工亦农 家庭是介于35.4%与46.6%之间。 习题2:从某城市随机选取122名老年人,发 现他们平均每天看电视5.2小时,标准差是2.1 小时。如要求99%置信度,估计全市老年人平 均每天看几小时电视。 5.2+0.49,有99%的信心,全市老年人平均每 天看电视介于4.71小时与5.69小时之间。




E( ^ P1-^ P2 )= P1- P2 σ( ^ P1-^ P2 )= √ P1(1-P1 ) +P2(1-P12) n1 n2 大样本总体成数差 P1- P2 的区间估计公式: P〔 (^ P1-^ P2 ) - zα/2σ(^ P1-^ P2 ) ﹤ μ1 -μ2 ﹤ (^ P1-^ P2 ) +zα/2σ(^ P1-^ P2 ) 〕= 1-α 当P1,P2未知时,可用样本成数^ P1,^ P2代 替





二、正态总体均值的区间估计 ㈠ σ2为已知 X-μ ~N(0,1) σ/√n 对于μ的双侧置信区间 P(-Zα/2 <Z <zα/2)=1- α P(-Zα/2 < X-μ <zα/2 )=1- α σ/√n 整理:(X-Zα/2 σ,X+Zα/2 σ) √n √n



在一项社会学研究中,研究者运用随机抽样方 法抽取了1000个样本进行问卷调查,其中回 答“有乱扔垃圾习惯”的人数为560人,请在 95%的置信度下对研究总体中“有乱扔垃圾习 惯”的人数比例进行区间估计。( z0.05/2=1.96) (武大考研2005,17分) 从一所大学随机调查400名学生,得出他们的 平均年龄为20岁,标准差是2岁,求在95%的 置信度下全校学生平均年龄的置信区间。 ( z0.05/2=1.96) (南京大学2003年考研,10 分)
第六章 参数估计 第一节 统计推论


所谓统计推论就是根据局部资料(样本资料) 对总体的特征进行推断。 统计推论有两个方面的特点,一是由于局部来 源于总体,因此局部资料的特性在某种程度上 能反映总体的特性。另一方面由于社会资料的 随机性,即抽样的结果不是唯一的,使得一次 抽样结果不能恰好等于总体的结果,更何况总 体参数不知道。 统计推论的内容大致分两个部分:一是通过样 本对总体的未知参数进行估计,简称参数估计; 二是通过样本对总体的某种假设进行检验,简 称假设检验。





㈡总体分布为正态分布N(μ,σ2),但方差 σ2为未知: 这时我们用样本方差S2作为总体方差σ2的估计 值。根据数学推算,统计量 X-μ ~t(n-1) S/√n t分布图形是对称的,与正态分布图形相同, 但离散程度比标准正态分布要大, σt2=K/K-2。当K很大时(>30),就可用标准 正态分布来近似t分布。



4、样本量既定,可信度越高,可信区间也越 大。 5、一般情况下,用统计量描述总体特征。 6、抽样分布的标准差等于总体标准差。 7、显著度实际是否定域在整个抽样分布中所 占的比例。 8、标准差实际上是标准误差。




三、大样本二总体均值差的区间估计 第一总体的参数为μ1 ,σ12 第二总体的参数为μ2 ,σ22 现从两总体中独立的各抽取一个随机样本: 来自第一总体的样本:X1,S12 来自第二总体的样本:X2,S22 于是样本均值差X1-X2可作为总体均值差μ1 -μ2的点估计 值 若n1 ≥50,n2 ≥50,x1,x2趋向正态分布, X1-X2也趋向正 态分布 E( X1-X2)= μ1 -μ2 σ( X1-X2)= √σ12+ σ22 n1 n2
第五节 正态总体的区间估计


一、有关区间估计的几个概念 ㈠名词解释 对于参数的区间估计,在给出区间估计的同时,还必 须指出所给区间包含未知参数的概率是多少。 如:我们用^ Q作为未知参数Q的估计值,那么区间 (^Q-ε,^Q+ε)包含参数Q的概率为1-α,其中 (^Q-ε,^Q+ε)称为置信区间。区间的大小,反映 估计的准确性或精确性。1-α称为置信概率、置信度 或置信系数。它表示用置信区间估计的可靠性。α称 为显著性水平,表示用置信区间估计不可靠的概率。 显然,置信度与显著性水平之和为1。


wenku.baidu.com

因此大样本二总体均值差μ1 -μ2的区间估计公 式: p〔 (X1-X2) - zα/2σ(X1-X2) ﹤ μ1 -μ2 ﹤ (X1-X2) +zα/2σ(X1-X2) 〕= 1-α 当σ12和σ22未知时,可用样本方差S12和S22代 替






四、大样本二总体成数差的区间估计 如两个总体都属于定类变量, 设第一个总体的成数为P1,第二个总体的成数 为P2,现从两总体中独立各抽取一个随机样本: ∧ 第一总体的样本容量为n1,样本成数P1 ∧ 第二总体的样本容量为n2,样本成数 P2 ∧ ∧ 于是样本成数差P1- P2可作为总体间成数差P1P2的点估计值 当n1 P1 ≥5,n1 (1-P1 )≥ 5, n 2P2≥5,n ∧ ∧ P ∧)≥5, P1, P2趋向正态分布 , 2(1- ∧ 2 P1-P2也趋向正态分布





一、大样本总体均值的区间估计 P(x-zα/2σ<μ <x+zα/2σ)=1-α √n √n σ是总体标准差,当σ未知时,用样本标准差s 代替。zα/2是正态分布双侧区间的分位点。 二、总体成数(二项总体参数p)的估计 二项分布中随机事件A发生的概率就是总体成 数。 ㈠总体成数p的点估计 用样本成数作为总体成数的点估计值: ^ p=m (n次独立实验中,A出现m次) n



随机抽样

抽样方法
简单随机抽样 系统抽样 分层抽样 整群抽样 多段抽样



偶遇抽样 非随机抽样 定额抽样 判断抽样 雪球抽样 只有随机抽样可做统计推论。
第三节 参数的点估计




参数估计分两类:一是点估计,就是用样本计算出来 的一个数来估计未知参数。二是区间估计,是通过样 本计算出一个范围来对未知参数进行估计。 一、总体参数(均值与方差)的点估计公式 用样本均值作为总体均值的点估计值 X= 1∑Xi n 用样本方差作为总体方差的点估计值 S2= 1 ∑(Xi-X) 2= 1 [ ∑Xi2-(∑Xi) 2 ] n-1 n-1 n 其中X1 X2……X n是样本ξ1ξ2……ξn的观测值。 二、评价估计值的标准(无偏性、有效性、一致性)
第四节 抽样分布


样本均值和样本方差都是统计量,是随机变量, 对随机变量要研究它的数字特征(均值和方差) 和分布(抽样分布) F

-3se -2se
-se
m
se
2se 3se xi


一、样本均值的分布 ㈠总体分布为正态分布N(μ,σ2),且方差σ2为已知: X= 1∑ξi ~ N(μ,σ2) n n 两者分布形式和μ都是一样,只是方差不同。随着样本 容量n的增加,可以有效减少抽样分布的分散程度。正 如σ反映了总体随机变量ξ围绕μ的平均分散程度一样。 σx反映了统计量X围绕μ的分散程度,或说反映了抽样 均值与μ的平均误差水平。σx称做抽样均值的平均误差 或标准误差,σx与σ不同之处在于σ是总体的参数,是 唯一不变的数,而σx除了与总体σ有关外,还随着样本 容量而变化。 如果将X标准化 X-μ ~N(0,1) σ/√n




㈢任意总体,大样本情况 根据中心极限定理,只要样本容量足够大,即 在大样本情况下,X的分布将接近正态分布。 若总体均值为μ,方差为σ2,当n ∞时, X-μ ~N(0,1) X-μ ~ N(0,1) S/√n σ/√n

这样,我们在社会现象的研究中,可以不考虑 总体的原分布如何,只要n足够大(n>50)时, X的分布将确定为一个近似的正态分布。 二、样本方差的分布