- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
结论若X不服从正态分布
n大,则X 近似服从正态分布 n小,则X不服从正态分布
样本均数的标准差称为均数标准误(s tan dard error),
用 表示,实际中用S S 估计
X
n
X
n
例5-1
抽取某地健康成年男子27名,得到血红蛋白量的均数为125g/L,标准 差为15g/L。试估计该样本均数的抽样误差。
100
频率% 1.0 4.0 4.0 22.0 25.0 21.0 17.0 3.0 2.0 1.0
100.0
一、样本均数的抽样分布与抽样误差
1.各样本均数未必等于总体均数; 2.各样本均数之间存在差异; 3.样本均数的分布具有近似对称性; 4.样本均数的变异范围较之原变量的变异范围大大缩小。
若X服从正态分布 则X服从正态分布
s n
(双侧), x t ,v
s n
(单侧)
大样本(n>50):
x Z / 2 s (双侧), x Z s (单侧)
n
n
例5-3 在例5-1中某地27名健康成年男子的血红蛋白含量均数为125g/L,标准 差为15g/L。试求该地健康成年男子血红蛋白含量95%和99%的置信区间。
n 27 v 27 1 26
抽样误差估计
p
1
n
或总体率 未知时,近似值 S p
p1 p
n 1
p1 p
n
例5-2 某市随机调查50岁以上中老年妇女776人,其中骨质疏松症者322人, 样本患病率为41.5%,试估计样本率的抽样误差。
n 776 , p 41.5% ,
Sp
0.415 0.585 1.77% 776
t0.05/ 2,26 2.056 t0.01/ 2,26 2.779
n 27 , x 125 , S 15
Sx
S n
15 2.89 g / L 27
二、样本频率的抽样分布与抽样误差
假定一口袋中有黑白两种球,已知黑球比例为20%(总体率π=0.2)。现从口袋 中任摸一球看清颜色后放回,重复摸球35次(n=35),计算摸到黑球的百分比(样 本率p)。重复这样的实验100次,每次得到黑球的比例及频数结果见下表。
标准误 0.91 0.95 1.16 1.03 … 0.80 0.89 … 0.97 … 0.91 … 0.75 0.71 1.16
95%置信区间
154.8
158.6
156.2
160.1*
153.3
158.0
153.1
157.3
…
…
152.1
155.4*
153.0
156.6
…
…
15ቤተ መጻሕፍቲ ባይዱ.2
160.2*
黑球比例% 5.0~ 8.0~ 11.0 ~ 14.0~ 17.0~ 20.0~ 22.0~ 25.0~ 28.0~ 31.0~ 34.0~ 40.0~ 合计
频数 3 7 5 8 16 22 15 7 7 5 3 2
100
% 3.0 7.0 5.0 8.0 16.0 22.0 15.0 7.0 7.0 5.0 3.0 2.0 100.0
第二节 t 分布 (t-distribution)
一、t 分布的概念 1908年英国统计学家W.S.Gosset 以笔名“student ”发表了著名的t分布
设: X ~ N 0 , 1 , Y ~ 2 n , 且X与Y相互独立,称随机变量
t
X
Y /
n
服从自由度为n
的学生氏分布(student
t
…
…
151.5
155.3*
…
…
151.1
154.2*
153.2
156.1
154.2
159.0
表5-2 均数的抽样分布
组段下限值(cm) 152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~ 合计
频数 1 4 4 22 25 21 17 3 2 1
表5-1 从N(155.4 , 5.32) 抽到的100份随机样本的计算结果(n=30)
样本号 1 2 3 4 … 52 53 … 57 … 59 … 96 99
100
均数 156.7 158.1 155.6 155.2
… 153.7 154.8
… 158.2
… 153.4
… 152.7 154.6 156.6
distribution)
简称t分布,记作t ~ t(n) ,其密度函数f (t)为:
f (t)
n
2
1
n n
1
t2 n
n1 2
2
t
其中: n xn1exdx 0
二、 t 分布图和特征
图5-3 不同自由度v下的t分布图
n 1
t界值表
t 分布形成
设x1 ,x2 ,... xn 为正态总体N , 2 的一个样本,则
x ~ N , n 2 对x 作Z标准化
Z x ~ N 0 ,1 ,当用s代替 时,
n
新统计量t : t x ~ tn 1
sn
称统计量 x 服从自由度 n 1 的t分布。
sn
t分布主要用于总体均数的区间估计和t检验。
第三节 总体均数及总体概率的估计
1.点估计(point estimation) 2.置信区间估计(confidence interval)
一、置信区间的概念
区间估计是按预先给定的概率(1–α)所确定的包含未知总体参数的一个 范围。该范围称为参数的可信区间或置信区间(confidence interval, CI), 用 L~U表示,(1–α)称为置信度, (1–α)常取95%或99%。
二、置信区间的计算
(一)单总体均数的置信区间
小样本(n≤50):x t / 2,v
第五章 参数估计基础
( parameter estimation)
要求: 1.掌握抽样分布规律与抽样误差测算 2.掌握t 分布的概念 3.掌握总体均数与总体概率的置信区间估计
第一节 抽样分布与抽样样误差
假定某地13岁女学生身高服从总体均数μ=155.4cm ,标准差σ=5.3cm的 正态分布。现从当地女学生中随机抽取了100次,每次抽取30名为一个样本 Xi。(见表5-1)由于个体之间的差异,每次样本平均数不大可能恰好等于 该地女学生身高的总体均数( μ=155.4cm )。这种由个体变异产生的差异 称为抽样误差(sampling error)。在抽样研究中,抽样误差是不可避免的, 但怎样估计抽样误差的大小,这是进行统计推断 (statistical inference) 必须 考虑的问题。