- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
63
60
作出直方图.
[解析]按直方图的做法
⑴ 求极差:
本组成绩最大为 99 ,最小为 50 ,故极差为 99-50=49
⑵ 定组距;
如果将组距定位 5 分,则可以分成 10 组
⑶ 作频率分布表;
分组(成绩) [100, 95] (95,90] (90,85] (85,80]
频数(人数)
3
3
10
4
频率 分组(成绩)
20 名, B 部分有 30 名,C 部分有 150 名. 现在,要抽取 40 名的抽样,那么,各部分各 取多少名?
[解析]本例就是采取分层抽样.
分层抽样就是按比例抽取.
A
部分所占比例为:
pA
20
20 30
150
1 10
;
B
部分所占比例为:
pB
20
30 30
150
3 20
;
C
部分所占比例为:
pC
[解析]本例就是采取系统抽样.
将个班的同学随机编号,分别是: 01,02,..., 40 ;
第2页
按规则,假设抽取尾号为 5 的同学,则各班编号为 05,15, 25, 35 的同学就被荣幸抽中.
5 个班共有 20 个同学成为抽取样本,这 20 个同学学习成绩可以反映学校这 200 名学生
的平均水平,这就是系统抽样.
⑶ 作频率分布表;
⑷ 作直方图.
注意:直方图的面积总和为 1
[例 4]这是某班同学的某次考试成绩:
排名 1
2
3
4
5
6
7
8
成绩 99
95
95
94
93
90
88
88
排名 11
12
13
14
15
16
17
18
成绩 86
86
85
85
85
85
84
83
排名 21
22
23
24
25
26
27
28
成绩 77
76
75
70
65
65
当 i ( yi kxi b)2 取极小值时
i
i
0 ② k
0 ③ b
由②:
k k
i
( yi kxi b)2
i
2 xi ( yi kxi b) 0
即: ( xi yi kxi2 bxi ) 0 ,即: ( xi yi ) k xi2 b xi
3、分层抽样
如果总体样本差异明显,可以将总体样本分成互不交叉的几部分,然后按比例各抽取
一定数量的样本,将抽取的样本合在一起作为抽样样本,这样的抽取方法称为分层抽样.
[例 3]某年级统考成绩统计,将 60 分以下(不含 60 分)的分成一部分称 A ,将 90 分以上(不含 90
分)的分成一部分称 B ,将其余的在 60 ~ 90 分的分成一部分称 C ,共 3 部分. A 部分有
由④⑥: ( xi yi ) x yi k xi2 nk( x)2
i
i
i
即: ( xi yi ) nx y k xi2 nk( x)2
i
i
( xi yi ) nx y
故: k i
⑦
xi2 n( x)2
i
同样,由⑥: x y k( x)2 bx
即: b y k x ⑧ 由⑦和⑧就得到了线性回归方程①式.
20
150 30
150
3 4
.
故各部分抽取人数为:
xA
pA
40
1 10
40
4;
xB
pB
40
3 40 20
6
;
xC
pC
40
3 40 4
30 .
二、三种分布图
直方图、茎叶图、散点图.
1、直方图
直方图就是频率分布图,由一组直方条组成,所以叫直方图.
直方图的具体做法:
⑴ 求极差:
第3页
⑵ 定组距;
抽中的总的可能性是 8 ,那么,第三个人抽中的可能性是:前两个人都没抽中时余 10
下 8 个中的 1 个,即: 8 1 = 1 ; 10 8 10
没有抽中 A 的可能性是:
前两个人抽中 A 的可能性 2 ,就是第三个人没抽中 A 的可能性 2 ;
10
10
前两个人没抽中 A 的可能性 8 ,余下 8 个中的7 个是不中奖的,则此时第三个人没 10
有抽中 A 的可能性: 8 7 7 ; 10 8 10
上述两者之和就是总的第三个人没抽中 A 的可能性: 2 8 7 9 . 10 10 8 10
D>由此推下去,可以归纳出:这 10 人抽中 A 的可能性都是 1 ,抽不中 A 的可能性都 10
是 9 ,因此这 10 人中奖的概率相等. 10
定数量的样本,这样的抽取方法称为系统抽样.
[例 2]某校三年级共有 200 名学生,可以将它们均分成 4 个班,每班 50 人. 也可以将它们均分 成 5 个班,每班 40 人. 还可以将它们大致均分成 6 个班,每班 33 ~ 34 人,等等. 假设现在分成了 5 个班,每班 40 人,现在要了解学生的学习成绩,每班抽取 4 人,那 么,按系统抽样该如何呢?
一般在具有一位或两位有效数字时,采用茎叶图表示分布.
将数据的高位数作为茎,将数据的低位数作为叶;
将茎按由小到大次序纵向排成一列,将叶写在对应茎的侧面.
这就是茎叶图.
[例 5]有甲乙两组的竞赛成绩分别是: 甲组: 67,73,75,78,85,86,88,90,91, 92 乙组: 65,68,72,73,88,89,89,92,93,93 用茎叶图表示.
这就是方差.
标准差:方差的平方根就是标准差,或者说,标准差的平方就是方差.
第7页
如上,一组数据为
x1, x2 , ..., xn ,其平均值为:
x
x1
x2 ... n
xn
其方差为: s2 ( x1 x)2 ( x2 x)2 ... ( xn x)2 n
则其标准差为: s ( x1 x)2 ( x2 x)2 ... ( xn x)2 n
16
18
20
22
24
时间
4.0
6.0
这就是散点图.
5、方差与标准差
方差:样本数据与平均值之差平方的均值,称为方差.
例如,一组数据为
x1, x2 , ..., xn ,其平均值为:
x
x1
x2 ... n
xn
则其方差为: s2 ( x1 x)2 ( x2 x)2 ... ( xn x)2 n
这就是标准差.
6、线性回归与最小二乘法
如果一个散点图的点分布在一条直线附近,那么这两个变量就具有某种线性关系,我
们称这两个变量具有线性关系,这条直线叫回归直线,找到这条直线的方法就是 线性回
归. 设这条直线方程为: y k x b ① 散点的数据为 ( xi , yi ) ,其中 i 1, 2, ..., n 对应于散点在回归直线上的点为 ( xi , yi ) 那么散点与直线偏差的平方为:i ( yi yi )2 ( yi kxi b)2 当所有的偏差平方和最小时,求出 k 和 b ,就得到回归直线方程.
3 30
(75,70]
3 30
(70, 65]
10 30
(65, 60]
4 30
(60, 55]
频数(人数)
2
2
2
1
频率
2
2
2
1
30
30
30
30
9
10
88
87
19
20
82
81
29
30
58
50
(80,75]
2 2 30 (55, 50]
1 1 30
第4页
⑷ 作直方图.
频率/组距 0.06
0.04
0.02
10
10
这时余 9 张牌,每张含有 A 的可能性是 9 1 1 . 10 9 10
B>由第二个人来抽,由于这 9 张牌,每张含有 A 的可能性是 9 1 1 ,显然抽中 A 的 10 9 10
可能性是 1 ,没有抽中 A 的可能性是: 10
第一个人抽中 A 的可能性是 1 ,就是第二个人没抽中 A 的可能性就是 1 ;
计数原理与概率统计
一、三种抽样方法
简单随机抽样、系统抽样、分层抽样.
1、简单随机抽样
在有限个总数 N 中,随意抽取一个样本,然后在剩余的总数 N 1中再随意抽取一个
样本,这样连续地进行 n 次随意抽取,共抽取 n ( n N )个样本,这种方法就是简单随
机抽样.
简单随机抽样的特点:
⑴ 总数 N 有限;
0
50 60 70 80 90 100 成绩
这里,每个成绩区出现的人数就是频数,频数所占的比例就是频率.
即:频率=(某成绩区的人数)/(总人数)
组距就是成绩区间的间隔,这里组距为 5 .
横坐标为成绩,纵坐标为对应成绩的频率除以组距.
这样,就保证了直方图的阴影面积总和等于 1 .
2、茎叶图
在样本数据较少的情况下,用茎叶图表示分布,更能直观表达数据的特点.
⑵ 逐个抽取;
⑶ 抽取后不再放回;
⑷ 样本等可能性.
[例 1]在共有 10 人抽奖中,每人限抽一张牌,共有 10 张牌,牌点分别是 A, 2, 3, 4,5,6,7,8,9,10 ,
只有抽中 A 才有奖,那么,是先抽还是后抽,那个中奖的概率大?
[解析]本题满足简单随机抽样的条件.
A>首先因为有 10 张牌,第一个人抽中 A 的可能性是 1 ,没有抽中 A 的可能性是 9 ,
i
i
i
i
即 : ( xi yi ) k xi2 nbx ④
i
i
由③:
b b
i
( yi kxi b)2
i
2( yi kxi b) 0
即: ( yi kxi b) 0 i
第8页
即: yi k xi b nk x nb ⑤
i
i
i
由⑤: x yi nk( x)2 nbx ⑥ i
10
10
第一个人没抽中 A 的可能性是 9 ,余下 9 个中的 8 个是不中奖的,则此时第二个人
10
没有抽中 A 的可能性: 9 8 8 ; 10 9 10
上述两者之和就是总的第二个人没抽中 A 的可能性: 1 9 8 9 . 10 10 9 10
第1页
C>由第三个人来抽,此时余 8 张牌. 由于前两个人抽中的总的可能性是 2 ,两个人没 10
4、散点图 在直角坐标系中将具有相关关系的两个变量的每组数据表示出来的图形就是散点图.
[例 6]下面是某天的 24 小时的气温表,请用散点图表示出来.
第6页
时间
1
2
3
4
5
6
气温(℃)
-3.5
-4.2
-5.0
-5.5
-5.8
-5.8
时间
7
8
9
10
11
12
气温(℃)
-5.6
-5.4
-5.0
-4.0
-2.6
-1.0
wk.baidu.com时间
13
14
15
16
17
18
气温(℃) 1.0
4.0
5.0
4.5
4.0
3.2
时间
19
20
21
22
23
24
气温(℃) 2.8
1.0
-0.2 -1.5 -2.2 -3.0
[解析]建立直角坐标系,横坐标为时间,纵坐标为温度,如图
气温
4.0 2.0
0 2.0
2
4
6
8
10
12
14
这种采用偏差平方和最小的方法叫最小二乘法.
三、三种事件与事件之间的关系
[解析]用茎叶图表示的结果如下:
甲组
乙组
7 6 58
853 7 23
865 8 998
210 9 233
第5页
3、众数、中位数、平均数 众数:频率分布最大值对应的样本数据. 在[例 4]中,成绩为 85 时所对应的人数是 4 ,为最多,则 85 就是本例的众数. 在[例 5]中,成绩为73,88,89,92,93 所对应的人数是 2 ,为最多,所以73,88,89,92,93 这 5 个数都是本例的众数. 中位数:样本数据累积到频率等于 0.5 时所对应的样本数据. 在[例 4]中,先将数据按顺序排列,总人数为 30 ,平分后是 15 ,那么在人数等于 15.5 时,对应的数据是:第 15 个和第 16 个数据的平均值,即: 85 85 85 2 故:本例的中位数是 85 . 在[例 5]中,共有 20 个样本,按顺序排列后为: 序号 1 2 3 4 5 6 7 8 9 10 成绩 65 67 68 72 73 73 75 78 85 86 序号 11 12 13 14 15 16 17 18 19 20 成绩 88 88 89 89 90 91 92 92 93 93 在 20 个样本中,其中间的数为第 10 个和第 11 个数据的平均值 即: 86 88 87 ,故:本例的中位数是 87 . 2 平均数:样本数据的算术平均值就是样本的平均数. 在[例 4]中,成绩的总和除以总人数 30 的结果,就是本例的平均数. 成绩总和为 2418 ,则 2418 80.6 ,故本例的平均数是 80.6 . 30 在[例 4]中,成绩的总和除以总人数 20 的结果,就是本例的平均数. 成绩总和为 1647 ,则 1647 82.35 ,故本例的平均数是 82.35 . 20
2、系统抽样
将总体平均分成几部分,如总体 N 平均分成 n 等分,每部分都有 N 个样品,一般取 n
k N 为整数. 如果 k 不是整数,可以调整 n 或者调整 N . 调整 n 使 k N 成为整数好
n
n
理解,调整 N 就是去掉一些样本使 k N 成为整数. 这时按一定规则从各部分种抽取一 n