- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五讲:参数 估计基础
现实中的研究过程
总体
样 本
样本统计量
例如:样本均 值、比例、方 差
统计推断(statistical inference)
采用抽样研究的方法,由某总体中随 机抽取一个有代表性的样本,并根据 样本提供的信息(统计量)推断总体 特征、性质(参数)的过程称为统计 推断
统计推断(statistical inference)
在上个章节中我们讨论了药物的毒理试验, 已知其致死率为1/3;在观察试验动物时, 动物的死亡率并非全都是1/3,有时并没有 观察到死亡,有时所有动物都死亡 显然,由于个体差异和偶然性的影响,样 本率通常也和总体情况不同 由抽样造成样本率与总体率的差异称为率 的抽样误差
样本率的抽样分布 (sampling distribution of rate)
率波动,样本含量n越大,这种波动越小 当n的值充分大时,而且p不是很极端时(np与n(1p)均大于5),p的分布就近似于均数为p,标准差 为 p 的正态分布。 当总体率p=0.5时,则样本率p的分布为对称分布 当样本含量n为定值时,总体率p越接近0.5,样本 率p近似正态分布的程度就越好
样本均数的均数为证明*
x x E ( x ) x ,E x E n n n E ( x1 x2 K xn ) E ( x1 ) E ( x2 ) K E ( xn ) n n K n n n
样本均数的抽样分布 (sampling distribution of mean)
仍以某地高三男生的身高为例,设身高变量为x, 假定x服从正态分布,记为x~N(168.15, 62) 从总体X中反复随机抽样,样本含量分别为n=4, n=16和n=36,分别随机抽10000个样本并计算样 本均数,把同一样本含量的10000个样本均数视为 一个新的样本资料作频数图,并且分别给出同一 样本含量的前20个样本均数
可见如果总体不服从正态分布,在样本含 量较小时,均数的抽样分布不满足正态; 只要样本含量n足够大,样本均数的抽样分 布仍然逼近正态 不论总体是否满足正态以及样本含量是否 足够,样本均数的均数仍与个体值的均数 相同;样本均数的标准差仍然等于个体值 的标准差除于样本含量的平方根
样本率的抽样分布 (sampling distribution of rate)
173.7
171.9
167.5
164.1
171.33
5
164.1
166.6
169.6
169.6
173.8
173.2
164.3
166.6
182.1
165.4
169.53
各个样本均数之间都不相同 各个样本均数都不等于总体均数,
有的比总体均数大,有的比它小
相对于各样本的个体值,样本均数
间的变异程度较小
均数
166.71 167.76 169.46 168.31 167.90 168.43 167.60
8
9 10
166.65
170.71 170.84
18
19 20
164.72
165.83 169.83
8
9 10
168.66
170.01 167.19
18
19 20
167.15
166.19 166.15
均数
167.91 170.19 168.60 165.48 168.95 168.54 167.87 11 12 13 14 15 16 17
均数
168.10 166.45 168.85 169.72 168.74 172.50 168.52 1 2 3 4 5 6 7
均数
168.37 167.47 170.36 167.16 168.68 168.78 169.54 11 12 13 14 15 16 17
x
164.82
1
2
166.8
159.1
159.1
166.1
173.3
173.3
169.1
169.1
165.2
165.2
166.63
3
157.4
174.0
172.3
175.8
166.6
182.1
163.1
159.4
159.4
177.3
168.74
4
174.5
182.1
168.5
171.3
174.1
165.6
2 σ 1. 样本均数 x i 服从正态分布 N μ , n
资料 x 的标准差 2.样本均数 x i 的标准差 x= n
3. 样本均数 xi 的总体均数为 x
样本均数的标准误 (standard error,SE)
为了与个体的标准差相互区别,样本均数的标准差又称 为样本均数的标准误,简称标准误或理论标准误 反映了样本均数间的离散程度,如果标准误很大,则不 同的样本均数间参差不齐,同时样本均数的分布范围较 大,也反映了样本均数与总体均数间的差异可能较大, 因而标准误反映均数抽样误差的大小;它与总体标准差 成正比,与总体中的个体数的平方根成反比 代表样本均数的标准误,其表达式为
1 2 3 4 5 6 7 8 9
(a) n=5 n=10
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
(b)
n=20
(c) n=30
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
从不对称分布总体抽样实验的结果 (a)是原分布,呈钩形;其它为不同样本含量时样本均数的直方图
(d)
(e)
样本均数的抽样分布 (sampling distribution of mean)
非正态总体样本均数的分布
1 2 3 4 5 6 7 8 9
(a) n=5 n=10
1
2
3
4
5
7
8
4
5
6
(b)
(c来自百度文库 n=30
n=20
2
4
6
7
8
9
1
2
3
4
6
8
9
(e) 从正偏态的分布总体分布抽样实验的结果 (a)是原分布,正偏态;其它为不同样本含量时样本均数的直方图 (d)
非对称总体样本均数的分布
n=4
n=16
n=36
均数
1 2 3 4 5 6 7 169.22 169.61 165.73 166.60 169.99 166.43 171.77 11 12 13 14 15 16 17
均数
166.82 162.47 170.02 171.53 168.16 164.25 164.63 1 2 3 4 5 6 7
8
9 10
168.77
167.61 168.95
18
19 20
167.17
168.94 169.29
样本含量n=4
样本含量n=16
样本含量n=36
x 的均数=168.198 x 的标准差=2.9995
x 的均数=168.185 x 的标准差=1.4868
x 的均数=168.135 x 的标准差=0.9997
x
x n
样本均数的标准误 (standard error,SE)
从标准误的计算公式中看出它与原先个体观察值 的总体标准差有关,同时也和样本含量n有关 在固定样本含量的情况下,总体标准差越大,则 样本均数间越参差不齐,抽样误差越大;但是总 体标准差是参数,在抽样之前就已经存在,无法 改变它的大小 故可行的方法是通过扩大样本含量减少标准误; 从而减少抽样误差
x Var x
n
例
2000年某研究者随机调查某地健康成年男性27人, 得到血红蛋白的均数为125g/L,标准差为15g/L, 试估计该样本的抽样误差?
样本均数的抽样误差可以用样本均数的标准差(即标准误)
x来反映;由于总体标准差未知,故用样本标准差代替,因
此得到标准误的估计值s x; sx s n 15 27 2.89 g / L
例 5- 1
某市随机调查了50岁以上的中老年妇女776人,其 中骨质疏松患者有322人,患病率为41.5%,估计 本次抽样的误差?
样本率的抽样误差可以用样本率的标准差(即标准误) p 来反映;由于总体率未知,故用样本率代替,因此得到 标准误的估计值s p; sp p(1 p ) 0.415(1 0.415) 1.77% n 776
既往资料表明某市区新生女婴的平均出生体重 为3.10kg,标准差为0.59kg 。某研究者从该市区 中随机抽取一个由100个女婴组成的样本,测得 样本均数为2.87kg,请问本次抽样研究的结果算 不算是偶然事件?
抽样误差(sampling error)
实测值与真实值的差别称为误差;抽样误差为随机误差中 的随机抽样误差,它是指由随机抽样引起的,样本统计量 与相应总体参数间的差异 抽样误差的根源是个体变异,因此,只要有个体变异,抽 样就必将导致抽样误差,即抽样误差是不可避免的 但是抽样误差却有一定的规律性,可以通过统计学的方法 估计其大小,并通过适当扩大样本含量使之减小 抽样误差有两种表现形式,其一是样本统计量与总体参数 间的差异,其二是样本统计量间的差异
样本率的总体均数等于总体率 p 样本率的标准差(即率的标准误)
p
p
p (1 p )
n
由于总体率通常是未知的,因而用样本率p来估计p,故 率的标准误的估计值常表示为
sp
p(1 p) n 1
p(1 p) n
样本率的抽样分布的正态近似
对于大量重复随机抽样而言,样本率p围绕着总体
从正态分布总体N(168.15,62)中随机抽样10000次的结果 曲线是正态总体N(168.15,62)的概率密度曲线 直方图为正态分布总体N(168.15,62)的样本均数的频率密度图
理论上可以证明:从正态分布的总体 N , 2 中随机抽 取样本含量为n的一批样本,样本均数 xi 有如下性质 :
统计推断包括两个重要的方面: 一是利用样本统计量的信息对相应总体参 数值做出推断,如用样本均数估计总体均 数,用样本标准差估计总体标准差等,称 之为参数估计 另一个是利用样本统计量来推断我们是否 接受一个事先的假设,称之为假设检验
在统计推断过程中的一些问题
不同的研究者对相同的总体作类似的抽样 研究可能会得到不同的样本统计量 各自用样本统计量估计总体的参数,样本 统计量与总体参数间是否完全相等?如何 评价他们的准确性?
中心极限定理(central limit theorem )*
概率论中有关论证随机变量之和的极限分布为正态分布的 一系列定理称为中心极限定理 这个定理的第一版被法国数学家莫阿弗尔发现, 他在1733 年发表的论文中使用正态分布去估计大量抛掷硬币出现正 面次数的分布;拉普拉斯扩展了莫阿弗尔的理论,指出二项 分布可用正态分布逼近:即当n→∞时,参数为n, p的二项 分布以np为均值、np(1-p)为方差的正态分布为极限 ;它 又被称为是de Movire - Laplace定理 这个定理的第二版为Lindberg-Levy定理,是上一个定理 的扩展,它表明,独立分布、且数学期望和方差有限的随 机变量的平均数是以正态分布为极限的 :即当n→∞时, 样本均数满足正态分布
样本均数标准误的估计值
由于在实际研究中,我们往往只抽一次样,得到 一个样本均数,而且大多数情况下 是未知的, 此时常用样本标准差S估计总体标准差 ,这样 我们就得到样本均数标准误的估计值 S x S Sx n 抽样误差越小,表示样本均数与总体均数越接 近,用样本均数估计总体均数的可靠性越高; 反之则越低
样本均数的标准差为 x 证明*
x x 1 ,Var x Var Var ( x1 x2 K xn ) n n n 1 1 2 Var ( x1 x2 K xn ) 2 Var ( x1 ) Var ( x2 ) K Var ( xn ) n n 2 1 1 2 2 2 K 2 2 n 2 ; n n n x
已知某地高中三年级男生的身高满 足正态分布,其平均身高为168.15 厘米,这里,将该地高中三年级男 生的身高视为一个总体。现从该总 体中随机抽样5次,每次抽取一个 样本含量n=10的样本,得到的5个 样本的数据及各样本均数如下:
样本号
168 . 15 样本含量(n=10)
161.1 173.7 173.7 167.3 162.2 162.2 166.6 166.6 157.4 157.4