统计学原理第三章

  • 格式:pdf
  • 大小:978.46 KB
  • 文档页数:70

下载文档原格式

  / 70
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
男皮鞋号码/厘米 24.0 24.5 25.0 25.5 26.0 26.5 27.0 合计 销售量/双 12 84 118 541 320 104 52 1200
从表中可以看到, 从表中可以看到,25.5厘米的鞋号销售量最多, 厘米的鞋号销售量最多,鞋 号25.5厘米就是众数。 厘米就是众数。
如果我们计算算术平均数 如果我们计算算术平均数, 算术平均数,则平均号码为25.65厘 米,而这个号码显然是没有实际意义的, 而这个号码显然是没有实际意义的,而直接用25.5 厘米作为顾客对男皮鞋所需尺寸的集中趋势 厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符 集中趋势既便捷又符 合实际。 合实际。
例题4:计算 M 0 和 M e
按零件数 分组 105-110 110-115 115-120 120-125 125-130 130-135 135-140 合计 频数 (人) 3 5 8 14 10 6 4 50 频率 (%) 频数 6 10 16 28 20 12 8 100 3 8 16 30 40 46 50 频率 6 16 32 60 80 92 100 频数 50 47 42 34 20 10 4 频率 100 94 84 68 40 20 8 向上累积 向下累积
例题5:某省某年电信职工收入调查资料如表。 某省某年电信职工收入调查资料如表。计算M 0和 M e
按月收入额分组 1000以下 1000-1300 1300-1600 1600-1900 1900-2200 2200-2500 2500以上 合计 调查职工人数 40 90 110 105 70 50 35 500 向上累积次数 40 130 240 345 415 465 500 — 向下累积次数 500 460 370 260 155 85 35 —
M 0 ≈ 123件
3、众数的特点 : 1)众数是以它在所有标志值中所处的位置确定的全体单位 标志值的代表值, 值的代表值,它不受分布数列的极大或极小值的影响,从 而增强了众数对分布数列的代表性。 了众数对分布数列的代表性。 2)当分组数列没有任何一组的次数占多数, 多数,也即分布数列 中没有明显的集中趋势, 中没有明显的集中趋势,而是近似于均匀分布时, 分布时,则该次数分 众数。若将无众数的分布数列重新分组或各组频数依 配数列无众数。 序合并,又会使分配数列再现出明显的集中趋势。 现出明显的集中趋势。 3)如果与众数组相比邻的上下两组的次数相等, 组的次数相等,则众数组 的组中值就是众数值 组中值就是众数值;如果与众数组比邻的上一组的次数较 多,而下一组的次数较少, 而下一组的次数较少,则众数在众数组内会偏向次数较多 的组。 的组。 4)缺乏敏感性。这是由于众数的计算只利用了众数组的数 据信息,不象数值平均数那样利用了全部数据信息。
例2:2、3、4、5、6、7 中位数:( 中位数:(4+5)/2=4.5 如果总数个数是偶数的话, 如果总数个数是偶数的话,按从小到大的顺序,取 中间那两个数的平均数 。
例3:分组状态确定中位数 ;
按定额完成 工人数 %分 (人) 80—90 90—100 100—110 110—120 120—130 130—140 140—150 合计 5 11 14 27 20 14 9 100
解:从表中的数据可以看出, 从表中的数据可以看出,最大的频数值是14,即 众数组为120~125这一组, 这一组,根据公式得50名工人日加 工零件的众数为: 的众数为:
f − f −1 M0 ≈ L + ×i ( f − f −1 ) + ( f − f +1 )
14 − 8 M 0 ≈ 120 + ×5 ( 14 − 8 ) + ( 14 − 10 )
2、计算公式: 未分组数据 分组数据
1)未分组数据的均值计算公式
是简单算术平均 总体:
N

X = i =1 N
样本:
Xi

n
x=
i =1
xi
n
例6: 2、3、4、5、6 求均值。 均值。
N

X = i =1 N
Xi
2 + 3+ 4 + 5+ 6 X= 5
X =4
2)分组数据的均值计算公式
是加权算术平均
3、特点: 特点: 1)不受极值的影响。 中位数是以它在所有标志值中所处的位置确定的 全体单位标志值的代表值, 值的代表值,不受分布数列的极大或极 小值影响,从而在一定程度上提高了中位数对分布数 列的代表性。 列的代表性。 2)各变量值与中位数的离差绝对值之和最小
三、分位数( 分位数(Median)
向上累计次 数 5 16 30 57 77 91 100 --
中位数位次= Σf/2 =100/2 =50 ∵30<50<57 ∴ 中位数在110~120组 代入下限公式
N − S m −1 Me ≈ L + 2 ×i fm
100 − 30 M e ≈ 110 + 2 × 10 27
M e ≈ 117.4
但是必须注意,从分布的角度看, 从分布的角度看,众数是具有明 显集中趋势点的数值, 显集中趋势点的数值,一组数据分布的最高峰点所对 应的数值即为众数。 应的数值即为众数。 当然,如果数据的分布没有明显的集中趋势或最 高峰点, 峰点,众数也可能不存在; 如果有两个最高峰点, 峰点,也可以有两个众数。 个众数。 只有在总体单位 有在总体单位比较多 总体单位比较多, 比较多,而且又明显地集中于某 个变量值时, 个变量值时,计算众数才有意义。 有意义。
•四分位数、 分位数、十分位数等; •上四分位数、 分位数、下四分位数; •计算方法同中位数( 计算方法同中位数(见书26页)。
四、均值( 均值(算术平均数) 算术平均数)
x
是数据集中趋势的最主要测定值。 要测定值。 1、理解:是一组数据中该变量标志值总和(又称为 总体标志总量)除以其总体单位数所得的结果。
xi
频数 3 5 8 14 10 6 4 50
fi
xi f i
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0

K
X = i =1K
X i Fi
i =1
∑ Fi
1055 . ×3+1125 . ×5+1175 . ×8+1225 . ×14+1275 . ×10+1355 . ×6+1375 . ×4 X= 3+5+8+14+10+6+4 3225 . +5625 . +9405 . +1715+1275+790+550 = 50 6160 = 50 =1232 .
将数据按大小顺序排队形成次数分配后, 将数据按大小顺序排队形成次数分配后,在统计 分布中具有明显趋势点的数值, 分布中具有明显趋势点的数值,是数据一般水平 代表性的一种。 代表性的一种。如何找出众数 如何找出众数? 众数?
众数是一种位置平均数 众数是一种位置平均数, 一种位置平均数,是总体中出现次数最多 总体中出现次数最多 的变量值, 的变量值,因而在实际工作中有时有它特殊的用途。 因而在实际工作中有时有它特殊的用途。 诸如, 诸如,要说明一个企业中工人最普遍的技术等 级,说明消费者需要 说明消费者需要的内衣 消费者需要的内衣、 的内衣、鞋袜、 鞋袜、帽子等最普遍的 号码, 号码,说明农贸市场 说明农贸市场上某种农副产品最普遍的 农贸市场上某种农副产品最普遍的成交价 上某种农副产品最普遍的成交价 格等,都需要利用众数。 都需要利用众数。
统计学原理
数信学院信息技术系
编写人:游运
第三章 数据分布特征的描述
3.1 分布集中趋势的侧度 3.2 分布离散程度的侧度 3.3 分布偏态与峰度的侧度 3.4 茎叶图与箱线图 3.5 统计表与统计图
经过第二章的学习, 经过第二章的学习,对数据分布的状况有了一个 初步认识, 初步认识,了解到各组次数及其分布的特点, 了解到各组次数及其分布的特点,但是还 缺少对数据总体分布特征的准确描述, 缺少对数据总体分布特征的准确描述,为了掌握统计 数据总体分布特征和规律, 数据总体分布特征和规律பைடு நூலகம்还要作进一步的分析。 还要作进一步的分析。
3、数据分布偏度与峰度的测定, 数据分布偏度与峰度的测定,描述数据分布的 形状, 形状,与正态分布相比较, 与正态分布相比较,反映其偏离正态分布的程 度。
教学内容
1.数据分布集中趋势的测度即数据的各种平均指 标的概念及计算。 标的概念及计算。 2.数据分布离散趋势的测度即数据的各种变异指 标的概念及计算。 标的概念及计算。 3.数据分布偏态与峰度测度系数的概念与计算。 数据分布偏态与峰度测度系数的概念与计算。 4. 统计表和统计图
本章将从以下三个方面对统计数据总体分布特征 进行测定和描述: 进行测定和描述:
1、数据分布集中趋势的测定, 数据分布集中趋势的测定,描述各数据向其中 心值(均值)集中或靠拢的程度。 集中或靠拢的程度。
2、数据分布离散程度的测定, 数据分布离散程度的测定,描述各数据远离其 中心值(均值)的程度。 的程度。
教学要求
重点掌握数据的各种指标的概念、 重点掌握数据的各种指标的概念、计算及应 用,尤其是均值的各种计算方法, 尤其是均值的各种计算方法,方差和标准差的 定义与计算。 定义与计算。了解偏态与峰度的测度。 了解偏态与峰度的测度。掌握统计表 和统计图的应用。 和统计图的应用。
3.1分布集中趋势的侧度
1、未分组数据、 未分组数据、品质数列和单项式变量数列确定 品质数列和单项式变量数列确定 众数比较容易: 众数比较容易:指出现次数最多的变量值。 指出现次数最多的变量值。 例如: 例如:某制鞋厂要了解消费者 某制鞋厂要了解消费者最需要哪种型号的 消费者最需要哪种型号的 男皮鞋, 男皮鞋,调查了某百货商场 调查了某百货商场某季度男皮鞋的销售情 百货商场某季度男皮鞋的销售情 况,得到资料如下表( 得到资料如下表(某商场某季度男皮鞋销售情 况):
集中趋势是指一组数据向某一中心值靠拢的 程度, 程度,它反映了一组数据中心点的位置所在。 它反映了一组数据中心点的位置所在。 数据分布集中趋势的测定就是寻找数据水平的 代表值或中心值。 代表值或中心值。
从不同的角度测度, 从不同的角度测度,集中趋势的测定值有多个。 集中趋势的测定值有多个。
一、众数( 众数(Mode)
2、分组数据:
N − S m −1 Me ≈ L + 2 ×i fm
Me——中位数; L——中位数所在组下限; fm——为中位数所在组的次数; N——总次数; d——中位数所在组的组距; Sm − 1——中位数所在组以下的累计 次数;
例1:2、3、4、5、6 中位数: 中位数:4 如果总数个数是奇数的话, 如果总数个数是奇数的话,按从小到大的顺序,取 中间的那个数。 中间的那个数。
二、中位数( 中位数(Median)
中位数是指将数据按大小顺序排列起来, 形成一个数列, 形成一个数列,居于数列中间位置的那个数 据。如何确定中位数? 如何确定中位数?
1、未分组数据: 未分组数据: N为奇数
Me = X
(
N +1 ) 2
N为偶数
1 Me = X N + X N ( +1) 2 (2) 2
X 1 …… X k , 各组变量值出现的频数为 F1 …… Fk
设有K组,各组变量值或组中值 总体:
K

X = i =1K
样本:
k
X i Fi
i =1
∑ Fi
Fi X = ∑ Xi K i =1 ∑ Fi
K i =1
x = i =1k
∑ xi ∑
i =1
fi
fi
例题7:计算 x 按零件数分组 组中值 105-110 110-115 115-120 120-125 125-130 130-135 135-140 合计 107.5 112.5 117.5 122.5 127.5 132.5 137.5
2、分组数据: 分组数据: 等距分组的众数计算公式 :
f − f −1 M0 ≈ L + ×i ( f − f −1 ) + ( f − f +1 )
众数 众数 所在 组下 限的 邻组 次数 众数 所在 组次 数 众数 所在 组上 限的 邻组 次数 众数 组组 距
众数 所在 组下 限
例:根据下表的数据, 据下表的数据,计算50名工人日加工零件数的 众数。 众数。