第一章 绪论(三) 一些重要的概率分布

  • 格式:ppt
  • 大小:187.50 KB
  • 文档页数:49

下载文档原格式

  / 49
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

t分布表举例:
查t分布表,自由度为(n-1)=15-1=14 当自由度为14时,查表得,t值大于等于 2.977的概率为0.005,大于等于4.140的概 率为0.0005,所以,t值大于等于3.873的 概率介于0.0005~0.005之间。 练习1: 上例中其他条件不变,现假定15天 内出售面包的平均数量为72条,求获得 此数量的概率。
为了方便,通常用:
X ~ N (µ ,σ 2 )
表示随机变量X服从正态分布。 符号~表示随机变量服从什么样的分布; N表示正态分布; µ,σ²为正态分布的(总体)均值(或期望)和 方差。 X是一个连续型随机变量,可在区间(-∞,+∞) 内任意取值。
正态曲线下的区域示意图
68%(近似) 95%(近似) 99.7%(近似)
σ
-3σ
-2σ

µ


1.2 正态分布的性质:
⑴ 正态分布曲线以均值µ为中心,对称分布。 ⑵ 正态分布的概率密度函数呈中间高、两边 低,在均值µ处达到最高,向两边逐渐降低, 即随机变量在远离均值处取值的概率逐渐变 小。 ⑶ 正态曲线下的面积约有68%位于µ± σ两 值之间;约有95%面积位于µ±2σ之间;约有 99.7%的面积位于µ± 3σ之间。这些区域可用 作概率的度量。
t分布表的使用: 分布表的使用:
例:自由度为10,P(t>1.812)=P(t<-1.812)=0.05 P(︱t︱>0)=P(t>1.812)+P(t<-1.812)=0.1
0.05 0.05
-1.812
0
1.812
例:变量X表示面包房每日出售的面包量, 在15天内,出售面包的样本方差为16。假 定真实的出售量为70条,求任意15天内出 售面包平均数量为74条的概率。 分析:本例中已知样本方差S²=16,则S=4, 总体均值(真实的出售量)=70,运用t变量 公式得: 74 − 70 t = = 3 . 873 4 15
X − µ
σ
则根据性质5,变量Z的均值为0,方差为1。 在统计学中,我们称之为单位或标准正态 变量,用符号表示为:
Z ~ N ( 0 ,1 )
任一给定均值和方差的正态变量都可转化为标准正 态变量,将其标准化可以大大简化计算。
例:变量X表示面包房每日出售的面包量,假 定它服从均值为70、方差为9的正态分布,即 X~(70,9),求任给一天,出售面包数量大于75 条的概率。 首先,定义变量Z,Z=(75-70)/3≈1.67 求:P(Z>1.67) 查正态分布表得: P(0≦Z≦1.67)=0.4525 则:P(Z>1.67)=0.5-0.4525=0.0475 即每天出售面包的数量超过75条的概率为 0.0475。
现在令Z1,Z2,…,Zk为k个独立的标准正态变 量(即每一个变量都是均值为0,方差为1的正 态变量),现在对所有的变量Zs平方,则它们 的平方和服从自由度为k的X²分布,即
∑ Z = Z + Z + ⋯+ Z ~ x
2 2 2 2 i 1 2 k
2
(k )
公式里的自由度为k,因为在所有变量的平方 和中,有k个独立的观察值。
_
_
2
n ) ,则
X − µ ~ N ( 0 ,1 ) 即: Z = σ n
假定已知µ和σ²的估计量S²,则可以 用样本标准差(S)代替总体标准差 (σ),得到一个新的变量t。
X − µ t = S n
_
根据统计理论得知:变量t服从自由度为 (n-1)的t分布。 注意:在这里,自由度为(n-1),而不是n。 结论:从正态总体中抽取随机样本,若该 正态总体的均值为µ,但方差σ²用其估计 量S²来代替,则其样本均值服从t分布。 通常用符号tk表示,其中k表示自由度。
t分布与正态分布: 当k增大时,t分布的方差接近于标准正态分布方 差值1。 例如:当k=10时,t分布的方差为10/8=1.25; 当k=30时,t分布的方差为30/28=1.07; 当k=100时,t分布的方差为100/98=1.02; 结论:随着自由度的逐渐增大,t分布近似于正 态分布。 注意:对于t分布,不要求其样本容量很大, k=30时,t分布与正态分布已很近似。
理论依据:
若X1,X2,X3,…,Xn是来自于均值为µ, 方差为σ²的正态总体的一随机样本。则样本 均值 也服从正态分布,其均值为µ,方差 为σ²/n,即:
X ~ N (µ ,σ
_
2
n)
也就是说,样本均值 的抽样(或概率) 分布,同样服从正态分布。
2.2 样本均值概率分布的标准正态变量:
X−µ Z = σ n
假定X和Y相互独立,设a、b为常数, 考虑线性组合:W=aX+bY 则有:
W ~ N (µ w ,σ
2 w)
其中,µ w = a µ x + b µ y
2 2 2 2 2 σw = a σx + b σ y
例:令X表示在曼哈顿非商业区一花商每日出售玫瑰花数 量,Y表示在曼哈顿商业区一花商每日出售玫瑰花的数量, 假定X和Y均服从正态分布,且相互独立。已知: X~N(100,64),Y~N(150,81),求两天内两花商出售玫瑰花 数量的期望和方差。 W=2X+2Y 根据上述公式,得: E(W)=2E(X)+2E(Y)=500 Var(W)=4Var(X)+4Var(Y)=580 因此,W服从均值为500,方差为580的正态分布,即 W~N(500,580)
X − 20 X − 20 Z = = ~ N ( 0 ,1) 0 .4 4 25
_源自文库
_
Z服从标准正态分布,求:
21− 20 P( X > 21) = P(Z > ) = P(Z > 2.5) 0.4
_
查标准正态概率密度表得:
P ( Z > 2 . 5 ) = 0 . 0026
即每消耗一加仑汽油所行驶的平均距离 大于21英里的概率为0.0026。
2.3 中心极限定理 引言:从正态总体中抽样,其样本均值 服从正态分布,那么,如果从其他总体 中抽样,情况如何呢? 中心极限定理:如果X1,X2,…,Xn是 来自(均值为µ,方差为σ²)任一总体的 随机样本,随着样本容量的无限增大, 其样本均值趋于正态分布,其均值为µ, 方差为σ²/n。
§3、 χ²分布
⑷ 正态分布可由两个参数µ,σ²来描 述,即一旦知道µ,σ²的值,就可以根 据附录表查到随机变量X落于某一区 间的概率值。 ⑸ 两个(或多个)正态分布随机变量 的线性组合仍服从正态分布。该性质 很重要,解释如下: ⑹ 正态分布的偏度为0,峰度为3。
令:
X ~ N (µ X ,σ
2 X )
2 Y ~ N (µY ,σ Y )
将样本均值的概率密度转化为标准正态 分布后,可以从标准正态分布表中计算 某一给定样本均值大于或小于给定的总 体均值的概率。
_
例:令X代表某一型号汽车每消耗一加仑汽油所 行驶的距离(英里)。已知X~(20,4)。则对于由 一个25辆汽车组成的随机样本,求:每消耗一 加仑汽油所行驶的平均距离大于21英里的概率。 分析:由于X服从均值为20,方差为4的正态分 布,则样本均值也服从正态分布,其均值为20, 方差为4/25。那么,
χ²分布的几何图形:
f(χ²) 概 率 密 度 K=5 K=10 K=2
0 χ² 的
χ²
3.2 χ²分布的性质
⑴与正态分布不同, χ²分布只取正值(它是平 方和的分布),并且取值范围从0到无限大。 ⑵ 与正态分布不同, χ²分布是斜分布,其遍度 取决于自由度的大小,自由度越小,越向右偏, 但是随着自由度的增大,逐渐呈对称,接近于 正态分布。 ⑶ χ²分布的期望值为k,方差为2k。k为χ²分布 的自由度。即χ²分布的方差是其均值的2倍。 ⑷ 若E1、E2分别为自由度为k1,k2的两个相互独 立的 χ²变量,则其和(Z1+Z2)也是一个χ²变量, 其自由度为(k1+k2)。
按照上述步骤,首先运用t变量公式,求出 t变量。
72 − 70 t = = 1 . 936 4 / 15
查t分布表,当自由度为14时,t值大于等于 1.761的概率为0.05,大于等于2.145的概率为 0.025,因此,t值取1.936的概率介于0.025与 0.05之间。
查t分布表的注意事项: ⑴ 自由度为(n-1),而不是n。 ⑵ t分布表具有对称性,t值大于等于 某一特定值的概率与t值小于等于该特 定值相反数的概率相等。
1.3 标准正态分布
由于期望和方差的不同,正态分布之间会存在一定 的区别(见下图),如何将其简单化,从而引入标 准正态分布。
µ1
µ2
不同均值,同方差的两个正态分布图
不同均值,不 同方差
µ1
µ2
相同均值,不 同方差
µ1=µ2
标准正态分布
如果变量X的均值为µ,方差为σ,定义一个 新的变量Z,
Z =
k=120(正态) K=20 K=5
0 不同自由度下的分布
t分布的性质
⑴ t分布与正态分布相类似,具有对称性。 ⑵ t分布的均值与标准正态分布均值相同, 为0,但方差为k/(n-2)。由此,在求t分布的 方差时定义自由度必须大于2。 标准正态分布的方差等于1,因此,t分布方 差总大于标准分布的方差,也就是说,t分布 比正态分布略“胖”些。
2.1 样本均值的概率密度
例:已知正态分布的均值为10,方差为4,即 N(10,4)。现在从这个正态总体中抽取20个随机样 本,每个样本包括20个观察值,对抽取的每一个样 本,得到其样本均值,因此,共有20个样本均值。 来自N(10,4)的20个样本均值 9.641 10.321 9.740 9.765 10.134 10.480 9.739 10.334 10.040 9.504 9.937 10.410 求和=201.05 10.249 11.386 10.184 10.57 9.174 8.621 10.250 10.57
可以证明: 样本方差与总体方差的比值 与自由度(n-1)的积服从自由度为(n-1)的 χ²分布。公式表示为:
S (n −1) ~ χ (n −1) σ
2 2 2
其中,σ²为总体方差,S²为样本方差, 样本容量为n。
§4、 t分布
回忆:若样本均值 X ~ N ( µ , σ 变量Z服从标准正态分布。
f(Z)
0.4525
0.0475
0
1.67
标准正态变量概率密度函数
§2 样本均值的抽样分布或概率分布
引言:样本均值是总体均值的估计量,但是由于 样本均值是依靠某一给定样本而定,因此它的值 会因随机样本的不同而变化。由此,我们将样本 均值看作随机变量,在样本是随机抽取得到的条 件下,求样本均值的概率密度函数。 随机抽样:表示总体中每一个个体有同等机会被 选入样本。 独立同分布随机变量:由X1、X2,…,Xn构成容 量为n的随机样本Xs,如果所有的Xs是从同一个 概率密度(Xi有相同的概率密度函数)中独立抽 取得到的,称Xs为独立同分布随机变量。
3.1 何谓χ²分布?
χ²分布是统计学中常用的一种概率分布,它与正
态分布很相似。 统计理论证明:标准正态变量的平方服从自由度 为1的χ²分布,用符号表示为,
Z =x
2
2
( 1)
其中,Z是标准正态变量,即Z~N(0,1); x²的下 标(1)表示自由度。自由度是指平方和中独立观察 值的个数。因为我们考虑的是一个标准正态变量 的平方,故自由度为1。
20个样本的频率分布 样本均值范围 8.5~9.0 9.0~9.5 9.5~10.0 10.0~10.5 10.5~11.0 11.0~11.5 频数 1 2 5 9 2 1 频率 0.05 0.10 0.25 0.45 0.10 0.05
0.50
0.25
0.05 8.75 9.25 9.75 10.25 10.75 11.25 来自N(10,4)总体的20个样本均值的分布 样本均值
一些重要的概率分布
§1、正态分布 §2、样本均值的抽样分布或概率分布 §3、 x²分布 §4、 t分布 §5、 F分布 §6、 x²分布、 t分布、 F分布与正态分布
的关系
§1、正态分布
1.1 什么是正态分布? 对于连续型随机变量而言,正态分布是最 重要的一种概率分布,其形状似“钟型”。 经验表明:对于其值依赖于众多微小因素 且每一因素均产生微小的或正或负影响的 连续型随机变量来说,正态分布是一个相 当好的描述模型。如身高、体重、考试成 绩等。