6参数估计与假设检验

  • 格式:ppt
  • 大小:1.84 MB
  • 文档页数:80

下载文档原格式

  / 80
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.若随机变量x服从均数是μ ,方差是σ 2的 非正态分布; x1,x2,x3 …,是由此总体得 来的随机样本,则当样本n相当大时,则 统计量 x =Σ x/n的概率分布服从正态分 布N(μ ,σ 2/n);
• 这个性质称为中心极限定理
中心极限定理
中心极限定理告诉我们:不论x变量是连 续型还是离散型,也无论x服从何种分布, 一般只要n>30,x 的分布就近似于正态 分布了,这就是为什么正态分布较之其 它分布应用更为广泛的原因。
n(n 1)
2

x ( x )
2
2
/n
n(n 1)
例5-1:对某地36名成年男子进行红细胞 数的抽样调查,s=0.171,求其标准误。。
例5-2:今随机抽取某厂生产的10个产品, 测得其重量得数据如下(单位:克): 1050,1100,1080,1120,1200,1250, 1040,1130,1300,1200 求其标准误是多少?
均数抽样正态分布下尾端概率
正态分布下去掉双侧尾端概率为α%的范围为多少?
正态分布置信区间(1- )%CI估计法*
在均数的抽样分布中,随机变量 x 落在区间:
u (x ) / x u
的概率为1- 。 为标准正态分布的临界值。
u
正态分布置信区间计算
的(1-
)%置信区间是: ( x - u x , x + u
在实际工作中,总体标准差σ 往往是未 知的,因而无法求得。此时,可用样本 标准差S估计σ ,即以 S n 估计 x ,一般 记S n 为 S x ,称作样本标准误或均数标准 误。样本标准误是平均数抽样误差的估 计值。
若样本中各观测值为x1,x2,x3…,xn,则
Sx
S n

(x x)
ຫໍສະໝຸດ Baidu
CHISS软件实现*
1.进入数据模块 点击 数据→文件→建立数据库表 注: 三行数分别为例数,均数,标准差 2.进入统计模块 进行统计计算 点击 统计→统计推断→可信区间→均 数的可信区间 反应变量:→确认
均数的可信区间数据库要求
1每组各一列; 2 三行数据:第一行例数, 第二行均数, 第三行标准差.
一. 概论
医学研究中,总体常常是非常之大甚至是 无限的,无法直接对总体进行研究. 我们 采用抽样的方法通过样本提供的信息来 对总体进行推断. 抽样研究对于无限总体来讲,是唯一可 行的方法;对有限总体抽样也可节省人 力和材料,增加研究工作的可行性。
标准正态分布下尾端概率
出现u 小于-1.96及u大于1.96的可能性多大?
参数估计与假设检验
童新元 中国人民解放军总医院
名人格言
大胆假设,小心求证。
--胡适( 1891—1962 )
引例
如何研究中国人的身体状况如身高,体 重等。
姚明---篮球巨星
1980年生于上海, 身高2.26米,曾 效力于中国国家 篮球队,NBA火 箭队。2011年7月 退役。被美国 《时代周刊》列 入“世界最具影 响力100人”。
研究总体与样本的关系包括两个方面: 一.从总体到样本,这就是研究抽样分布 的问题,亦即抽样与抽样误差问题; 二.从样本到总体,这就是统计推断问题, 它包括两大部分:参数估计和假设检验。
二.抽样与抽样误差
采用从总体中抽取一部分个体组成样本 的方法,即抽样方法。 样本所得的统计量(如样本均数或率) 与总体参数不相同,从同一总体中随机 抽取两个样本,其统计量也有差异,这 些差异是因抽样产生的,在统计学中称 为抽样误差。
CHISS软件实现
进入统计模块 点击 统计→统计描述→正态定量描述 反应变量:→确认
第二节
(二)区间估计
点估计是给出总体参数一个具体估计值, 但样本估计值不一定等于总体参数。即便估 计值正好等于总体参数,因为我们并不知道 总体参数的真值为多少,很难验证这种相等。 如随机抽取2000例健康人测量其血压,计 算得到样本平均收缩压100mmHg, 但健康 人总体平均收缩压不一定为100mmHg。 可能是99,也可能是101,无法确定。
抽样举例
随机变量x服从均数为3,方差为0.25的 正态分布. 在该分布中随机抽取2例组成 一个样本,求得其平均值,共抽取100个 样本,可得100个平均值。其平均数的概 率分布图如下:
图5-1 均数的抽样分布
N=2
例若某大学有学生1万人,其学生的身高服从正态 分布X ~N(175,102)
随机抽取n=20人,求其平均身高,反复进行若干次, 得其均数的平均值和标准差,均数服从分布: x ~N(175,102/20 )
研发一新降糖药,如何评价其疗效?
六、假设检验
一种方法是研究整个总体,即由总体中 的所有个体数据计算出总体参数进行比 较。这种研究整个总体的方法是很准确 的,但常常是不可能进行的,因为总体 往往是无限总体,或者是包含个体很多 的有限总体。 另一种方法研究样本,通过样本研究其 所代表的总体。
(一)假设检验的基本思想
这个范围(1, 2) 称作参数的可信区间或 置信区间(confidence interval,CI), 2、1 是置信区间上、下限。 ( 1- ) 称 为 置 信 度 或 置 信 水 平 (confidence level), 是估计不准的 概率。 通常取 = 0.05。 置信区间的估计常用正态法。
抽样研究的目的是用样本提供的部分信息 来推断总体特征。但是由于样本均数包含有抽 样误差,用包含有抽样误差的样本均数来推断 总体均数,其结论并不是绝对正确的。因而要 对样本均数进行统计假设检验。 假 设 检 验 又 叫 显 著 性 检 验 ( test of significance),是统计学中一个很重要的内 容。假设检验的方法很多,常用的有u检验,t 检验、F检验和2检验等。
临界值的表示方法
将标准正态曲线双侧尾部面积之和等于时对 应的正侧变量值称为正态分布的双侧临界值。 记为,u 或Z。
*有的教材记为 u/2, u1- /2
=0.05时, u0.05 =1.96
正态分布下尾端概率
正态分布下去掉双侧尾端概率为5%的范围为多少?
统计学思想
怎样认识无限总体? 用有限样本,正常参考值范围, 如,舒张压95%正常值范围 60-90 mmHg 收缩压95%正常值范围 90-120 mmHg 怎样认识不确定性事物? 概率P 如,有效率,生存率
由于总体中的个体存在差异,有抽样就 必然有抽样误差,所以抽样误差是不可 避免的。 抽样必须遵循随机化原则,否则产生偏 倚。
三、抽样分布
从总体中随机地抽取若干样本,不同的样本 其统计量(如均数、标准差,率)也不相同, 因而样本的统计量也是随机变量,也有其概 率分布。我们把统计量的概率分布称为抽样 分布。 下面介绍样本均数的抽样分布。
全世界最高和最矮的人
吉尼斯世界纪录 2010年01月,土 耳其27岁的苏坦 科森246.5cm全 世界最高的人。 中国内蒙21岁的 何平平74.6cm的 全世界最矮的人。
第六次全国人口普查
2010年11月1日零时为标准时点进行了第六次 全国人口普查,全国总人口为1370536875人。 其中: 0-14岁人口为222459737人, 占16.60% 15-59岁人口为939616410人, 占70.14% 60岁及以上人口为177648705人,占13.26% ,
四、标准误
由样本平均数构成的总体称为样本均数 的抽样总体,其均数和标准差分别记为 μx 和 x 。 x 是样本均数抽样总体的标准差,称为 标准误差,简称标准误(standard error),记为SE,它表示均数抽样误差 的大小。
标准误与标准差的关系
1. 标准误与原总体的标准差σ 成正比;
(一)样本均数抽样分布
设有一个总体,总体均数为μ ,方差为σ 2 ,总 体中的变量记为x,将此总体称为原始总体。 现从这个总体中随机抽取含量为n的样本,样 本均数记为 x。可以设想,我们可以从原总体 中,抽出很多个含量为n的样本。由这些样本 算得的均数不尽相同,样本均数也是一个随机 变量,其概率分布叫做样本均数的抽样分布。
置信区间的含义
95%置信区间的意思是在相同的条件下, 从同一总体中进行100次随机抽样,抽得的 100样本计算出100个置信区间,有95%个置 信区间包括总体的均数。 亦说明用这样的 范围估计总体均数,平均说来每100次有95 次是正确的。5%是小概率,因此,在实际 应用中,就认为总体均数在算得的区间内, 这种估计方法会冒5%犯错误的风险。
CHISS软件实现
进入统计模块 点击 统计→统计描述→正态定量描述 反应变量: →标准误→确认
标准差与标准误的区别
样本标准差S是反映样本中各观测值变异 程度大小的一个指标,它的大小说明了 对该样本代表性的强弱。 样本标准误是样本均数的标准差,它是 抽样误差的估计值,其大小说明了样本 间变异程度的大小,它的大小说明了抽样 误差的大小。
置信区间与参考值范围的区别
参考值范围(容许区间)
概 念 意 义 总体中个体值
置信区间
总体均数
总体中绝大多数个体 按概率(1-α )估计 可能出现的范围 总体参数所在范围
公 式
μ±1.96SD
(大样本时)
μ±1.96SE
(大样本时)
医学问题
某厂出产一新型药丸机器,如何评价新制 药丸机器是否工作正常?
随机抽取n=50人,求其平均身高,反复进行若干次, 得其均数的平均值和标准差,均数服从分布: x ~N(175,102/50 ) 随机抽取n=100人,求其平均身高,反复进行若干 次,得其均数的平均值和标准差,均数服从分布: x ~N(175,102/100 )
统计学已经证明,变量x与变量 x 的概率 分布之间有下面两条性质: 1. 若随机变量x服从正态分布N(μ ,σ 2), x1,x2,x3 … xn,是由x总体得来的随机样本, 则统计量 x =Σ x/n的概率分布服从正态 分布N(μ ,σ 2/n);
2. 标准误与样本含量n的平方根成反比;
3. 标准误计算方法为:
x / n
标准误与标准差的关系
标准误大,说明各样本均数间差异程度大, 样本均数的精确性低。反之,标准误小, 说明间的差异程度小。 从某特定总体抽样,由于σ 是一个固定 常数,所以只有增大样本含量才能降低 样本平均数的抽样误差。
置信区间的两要素
准确度 是置信区间包含总体均数的概率大小, 其置信度是1- 。 2. 精度 是置信区间的长度,是对总体均数的估计 范围。置信区间的长度越小,精度越高。
1.
在样本例数一定的情况下,准确度越高,精度越低; 准确度越低,精度越高; 在准确度一定的情况下,增大样本含量,可以提高 精度。
五、均数的参数估计
参数估计就是用样本统计量来估计总体 参数. 主要介绍总体均数的参数估计。 参数估计有点估计和区间估计。
(一)点估计
将样本统计量直接作为总体相应参数的 估计值叫点估计(Point estimation)。 如常用样本均数估计总体参数均数 。
例5-2:今随机抽取某药厂生产的10个产 品,测得其重量得数据如下(单位:克): 1050,1100,1080,1120,1200,1250, 1040,1130,1300,1200 问该产品的平均重量是多少?
均数 的可信区间及计算
人们在得到点估计值的同时,自然希望知道样本 统计量值与所估计的总体参数值到底相差多少? 对估计的总体参数取值估计出一个范围,并希望 知道所估计的总体参数落入这个范围的可靠程度。 即:
P(1 2)=1-
(1, 2)给出一个范围,使这个范围能够按足够 大的概率(1- )包含被估计参数。
x)
例如, =0.05时, u =1.96,当均数和标准 误已知时可以计算95%CI。
例 从某个大学6000名学生中随机抽取100名, 测得其身高值,计算得其平均身高为170cm, 标准差为5cm。试估计该校大学生平均身高为 多少,其95%CI 可信区间为多少?
解:该校大学生平均身高估计值为170cm, 其95%CI为(170-1.96*5/10, 170+1.96*5/10) =(170-0.98,170+0.98) =(169.02,170.98)