贾俊平 统计学(第六版)思考题答案
- 格式:doc
- 大小:53.00 KB
- 文档页数:9
第一章导论1.什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
2.解释描述统计和推断统计描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计是研究如何利用样本数据来推断总体特征的统计方法。
3.统计数据可以分为哪几种类型?不同类型的数据各有什么特点?分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据:是只能归于某一有序类别的非数字型数据。
虽然也有列别,但这些类别是有序的。
数值型数据:是按数字尺度测量的观察值,其结果表现为具体的数值。
4.解释分类数据、顺序数据和数值型数据的含义分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因此也可统称为定性数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。
5.举例说明总体、样本、参数、统计量、变量这几个概念总体是包含所研究的全部个体(数据)的集合;样本是从总体中抽取的一部分元素的集合;参数是用来描述总体特征的概括性数字度量;统计量是用来描述样本特征的概括性数字度量;变量是说明现象某种特征的概念。
比如我们欲了解某市的中学教育情况,那么该市的所有中学则构成一个总体,其中的每一所中学都是一个个体,我们若从全市中学中按某种抽样规则抽出了10 所中学,则这10 所中学就构成了一个样本。
在这项调查中我们可能会对升学率感兴趣,那么升学率就是一个变量。
我们通常关心的是全市的平均升学率,这里这个平均值就是一个参数,而此时我们只有样本的有关升学率的数据,用此样本计算的平均值就是统计量。
6.变量可以分为哪几类分类变量:一个变量由分类数据来记录就称为分类变量。
顺序变量:一个变量由顺序数据来记录就称为顺序变量。
数值型变量:一个变量由数值型数据来记录就称为数值型变量。
离散变量:可以取有限个值,而且其取值都以整位数断开,可以一一例举。
第10章方差分析一、思考题1.什么是方差分析?它研究的是什么?答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响,例如,变量之间有没有关系、关系的强度如何等。
2.要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?答:方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。
检验多个总体均值是否相等时,如果作两两比较,则需要进行多次的t检验。
随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。
而方差分析方法则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。
3.方差分析包括哪些类型?它们有何区别?答:(1)根据所分析的分类自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。
(2)区别:①单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响;②双因素方差分析研究的是两个分类变量对数值型因变量的影响。
4.方差分析中有哪些基本假定?答:方差分析中有三个基本假定:(1)每个总体都应服从正态分布。
也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差σ2必须相同。
也就是说,对于各组观察数据,是从具有相同方差的正态总体中抽取的。
(3)观测值是独立的。
5.简述方差分析的基本思想。
答:方差分析的基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
6.解释因子和处理的含义。
答:在方差分析中,所要检验的对象称为因素或因子;因素的不同表现称为水平或处理。
例如:要分析行业(零售业、旅游业、航空公司、家电制造业)对投诉次数是否有显著影响,则这里的“行业”是要检验的对象,称其为“因素”或“因子”;零售业、旅游业、航空公司、家电制造业是“行业”这一因素的不同表现,称其为“水平”或“处理”。
第一章导论1.什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
2.解释描述统计和推断统计描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计是研究如何利用样本数据来推断总体特征的统计方法。
3.统计数据可以分为哪几种类型?不同类型的数据各有什么特点?分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据:是只能归于某一有序类别的非数字型数据。
虽然也有列别,但这些类别是有序的。
数值型数据:是按数字尺度测量的观察值,其结果表现为具体的数值。
4.解释分类数据、顺序数据和数值型数据的含义分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因此也可统称为定性数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。
5.举例说明总体、样本、参数、统计量、变量这几个概念总体是包含所研究的全部个体(数据)的集合;样本是从总体中抽取的一部分元素的集合;参数是用来描述总体特征的概括性数字度量;统计量是用来描述样本特征的概括性数字度量;变量是说明现象某种特征的概念。
比如我们欲了解某市的中学教育情况,那么该市的所有中学则构成一个总体,其中的每一所中学都是一个个体,我们若从全市中学中按某种抽样规则抽出了10所中学,则这10所中学就构成了一个样本。
在这项调查中我们可能会对升学率感兴趣,那么升学率就是一个变量。
我们通常关心的是全市的平均升学率,这里这个平均值就是一个参数,而此时我们只有样本的有关升学率的数据,用此样本计算的平均值就是统计量。
6.变量可以分为哪几类分类变量:一个变量由分类数据来记录就称为分类变量。
顺序变量:一个变量由顺序数据来记录就称为顺序变量。
数值型变量:一个变量由数值型数据来记录就称为数值型变量。
离散变量:可以取有限个值,而且其取值都以整位数断开,可以一一例举。
第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。
次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
第6章 统计量及其抽样分布一、思考题1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设是从总体中抽取的容量为的一个样本,如果由此样本构造一个函数,不依赖于任何未知参数,则称函数是一个统计量。
(2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。
为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。
(3)统计量是样本的一个函数。
由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。
2.判断下列样本函数哪些是统计量?哪些不是统计量?12n X X X ,,…,X n 12()n T X X X ,,…,12()n T X X X ,,…,1121021210310410()/10min()T X X X T X X X T X T X μμσ=+++==-=-…,,…,()/答:统计量中不能含有未知参数,故、是统计量,、不是统计量。
3.什么是次序统计量?答:设是从总体中抽取的一个样本,称为第个次序统计量,它是样本满足如下条件的函数:每当样本得到一组观测值…,时,其由小到大的排序中,第个值就作为次序统计量的观测值,而称为次序统计量,其中和分别为最小和最大次序统计量。
4.什么是充分统计量?答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。
统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。
5.什么是自由度?答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。
附录:教材各章习题答案第1章统计与统计数据1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2章数据的图表展示2.1(1)属于顺序数据。
(2)频数分布表如下服务质量等级评价的频数分布(3)条形图(略)(4)帕累托图(略)。
2.2(1)频数分布表如下40个企业按产品销售收入分组表(2)某管理局下属40个企分组表2.3频数分布表如下某百货公司日商品销售额分组表直方图(略)。
2.4茎叶图如下箱线图(略)。
2.5(1)排序略。
(2)频数分布表如下100只灯泡使用寿命非频数分布(3)直方图(略)。
(4)茎叶图如下2.6(1)频数分布表如下(2)直方图(略)。
(3)食品重量的分布基本上是对称的。
2.7(1)频数分布表如下(2)直方图(略)。
2.8(1)属于数值型数据。
(2)分组结果如下(3)直方图(略)。
2.9(1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.10(1)茎叶图如下(2)A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。
2.11(略)。
2.12(略)。
2.13(略)。
2.14(略)。
2.15箱线图如下:(特征请读者自己分析)第3章 数据的概括性度量 3.1(1)100=M ;10=e M ;6.9=x 。
(2)5.5=L Q ;12=U Q 。
(3)2.4=s 。
(4)左偏分布。
3.2(1)190=M ;23=e M 。
附录:教材各章习题答案第1 章统计与统计数据1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000 个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3(1)所有IT 从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2 章数据的图表展示2.1 (1)属于顺序数据。
(2)频数分布表如下服务质量等级评价的频数分布3)条形图(略)4)帕累托图(略)2.2 (1)频数分布表如下402)某管理局下属40 个企分组表2.3 频数分布表如下某百货公司日商品销售额分组表2.4茎叶图如下茎叶数据个数1 8 8 93 2 0 1 1 3 3 6 8 8 8 9 9 912 3 13 5 6 95 4 1 2 36 67 6 50 1 2 74箱线图(略) 2.5 ( 1)排序略(2)频数分布表如下1数分布34)茎叶图如下茎叶65 66 67 68 5 5 6 6 6 7 7 8 8 8 8 9 970 7169720 1 2 2 5 6 7 8 9 973 3 5 674 1 4 72.6(1)频数分布表如下按重量分组频率/包40~42 242~44 344~46 746~48 1648~50 1752~52 1052~54 2054~56 856~58 1058~60 460~62 3合计100 (2)直方图(略)。
(3)食品重量的分布基本上是对称的2.7(1)频数分布表如下按重量误差分组频数/个10~20 020~30 530~40 740~50 850~60 1360~70 970~80 680~90 2合计50 2)直方图(略)2.8 (1)属于数值型数据( 2 )分组结果如下分组天数/天-25~-20 6-20~-15 8-15~-10 10-10~-5 13-5~0 120~5 45~10 7合计60( 3 )直方图(略)。
第5章概率与概率分布一、单项选择题1.一项试验中所有可能结果的集合称为()。
A.事件B.简单事件C.样本空间D.基本事件【答案】C【解析】在同一组条件下,对某事物或现象所进行的观察或实验称作试验,观察或试验的结果称作事件。
如果一个事件不能分解成两个或更多个事件,则这个事件称为基本事件或者简单事件。
一个试验中所有的简单事件的全体称为样本空间或基本空间。
2.每次试验可能出现也可能不出现的事件称为()。
A.必然事件B.样本空间C.随机事件D.不可能事件【答案】C【解析】随机事件是指在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件。
必然事件是指在同一组条件下,每次试验一定出现的事件。
不可能事件是指在同一组条件下,每次试验一定不出现的事件。
3.抛3枚硬币,用0表示反面,l 表示正面,其样本空间为Ω=()。
A.{000,001,010,100,011,101,110,111}B.{l,2,3}C.{0,1}D.{01,10}【答案】A【解析】样本空间为一个试验中所有的简单事件的全体。
抛3枚硬币,每抛一次都是由0和1组成的一个三位数的组合,所有的组合构成了样本空间,即{000,001,010,100,011,101,110,111}。
4.随机抽取一只灯泡,观察其使用寿命t ,其样本空间为Ω=()。
A.{0t =}B.{0t <}C.{0t >}D.{0t ≥}【答案】D【解析】一个试验中所有的简单事件的全体称为样本空间或基本空间。
灯泡的使用寿命样本空间为Ω={0t ≥}。
5.观察一批产品的合格率p ,其样本空间为Ω=()。
A.{01p <<}B.{01p ≤≤}C.{1p ≤}D.{0p ≥}【答案】B【解析】一个试验中所有的简单事件的全体称为样本空间或基本空间。
产品的合格率样本空间为Ω={01p ≤≤}。
6.抛掷一枚硬币,观察其出现的是正面还是反面,并将事件A 定义为:事件A=出现正面,这一事件的概率记作P(A)。
第11章一元线性回归一、思考题1.解释相关关系的含义,说明相关关系的特点。
答:变量之间存在的不确定的数量关系,称为相关关系。
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。
对这种关系不确定的变量是不能用函数关系进行描述的。
2.相关分析主要解决哪些问题?答:相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括:(1)变量之间是否存在关系;(2)如果存在关系,它们之间是什么样的关系;(3)变量之间的关系强度如何;(4)样本所反映的变量之间的关系能否代表总体变量之间的关系。
3.相关分析中有哪些基本假定?答:在进行相关分析时,对总体主要有以下两个假定:(1)两个变量之间是线性关系;(2)两个变量都是随机变量。
4.简述相关系数的性质。
答:相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若是根据样本数据计算的,则称为样本相关系数,记为r 。
相关系数的性质:(1)r 的取值范围在-1~+1之间,即-1≤r ≤1。
若0<r ≤1,表明x 与y 之间存在正线性相关关系;若-1≤r <0,表明x 与y 之间存在负线性相关关系;若r =+1,表明x 与y 之间为完全正线性相关关系;若r =-1,表明x 与y 之间为完全负线性相关关系。
可见当|r |=1时,y 的取值完全依赖于x ,二者之间即为函数关系;当r =0时,说明y 的取值与x 无关,即二者之间不存在线性相关关系。
(2)r 具有对称性。
x 与y 之间的相关系数xy r 和y 与x 之间的相关系数yx r 相等,即xy r =yx r 。
(3)r 数值大小与x 和y 的原点及尺度无关。
改变x 和y 的数据原点及计量尺度,并不改变r 数值大小。
(4)r 仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系。
统计学贾俊平课后习题答案HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】附录:教材各章习题答案第1章统计与统计数据1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2章数据的图表展示2.1(1)属于顺序数据。
(2)频数分布表如下(4)帕累托图(略)。
2.2(1)频数分布表如下2.3频数分布表如下2.5(1)排序略。
(2)频数分布表如下2.6(3)食品重量的分布基本上是对称的。
2.72.8(1)属于数值型数据。
2.9(1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.10A 班分散,且平均成绩较A 班低。
2.11 (略)。
2.12 (略)。
2.13 (略)。
2.14 (略)。
2.15 箱线图如下:(特征请读者自己分析) 第3章 数据的概括性度量3.1(1)100=M ;10=e M ;6.9=x 。
(2)5.5=L Q ;12=U Q 。
(3)2.4=s 。
(4)左偏分布。
3.2(1)190=M ;23=e M 。
(2)5.5=L Q ;12=U Q 。
(3)24=x ;65.6=s 。
(4)08.1=SK ;77.0=K 。
(5)略。
3.3 (1)略。
(2)7=x ;71.0=s 。
(3)102.01=v ;274.02=v 。
(4)选方法一,因为离散程度小。
3.4 (1)x =(万元);M e= 。
贾俊平统计学第六、七章课后习题答案6.1解:设每个瓶子的灌装量为X,X?为样本均值,样本容量为n。
由于总体X服从正态分布,样本均值X?也服从正态分布,且均值相同,标准差为σ√n =1√9=13所以P(|X??μ|≤0.3)=P(|X??μ|13≤0.313)=2Φ(0.9)?1=2?0.8159?1=0.6318 7.1(1)已知σ=500,n=15,x=8900,1-α=95%,Z2α=1.96x+Z2αnσ=8900+1.96×15500=(8647,9153)(2)已知σ=500,n=35,x=8900,1-α=95%,Z2α=1.96x+Z2αnσ=8900+1.96×35500=(8734,9066)(3)已知n=35,x=8900,s=500,由于总体方差未知,但为大样本,所以可用样本方差来代替总体方差。
置信水平1-α=90%,Z2α=1.645x+Z2αns=8900+1.645×35500=(8761,9039)(4)已知n=35,x=8900,s=500,由于总体方差未知,但为大样本,所以可用样本方差来代替总体方差。
置信水平1-α=99%,Z2α=2.58x +Z2αn s =8900+2.58×35500=(8682,9118)7.2已知n=36,x =3.3167,s=1.6093(1)当置信水平为90%时,Z 2α=1.645x +Z 2αn s =3.3167+1.645×366093.1=3.3167+0.4532=(2.88,3.76)(2)当置信水平为95%时,Z 2α=1.96x +Z 2αn s =3.3167+1.96×366093.1=3.3167+0.544=(2.80,3.84)(3)当置信水平为99%时,Z 2α=2.58Z2αn s =3.3167+2.58×366093.1=3.3167+0.7305=(2.63,4.01)7.3(1)已知总体服从正态分布,但σ未知,n=50为大样本,α=0.05,Z 2α=1.96,根据样本计算可知x =101.32,s=1.63x +Z 2αn s =101.32+1.96×5063.1=101.32+0.45=(100.87,101.77)(2)由所给样本数据可知样本合格率:p=5045=0.9p +Z2αnp p )1(-=0.9+1.9650)9.0-19.0(=0.9+0.08=(0.82,0.98)7.4由样本数据得x =16.13,σ=0.8706,置信水平1-α=99%,Z 2α=2.58x +Zαn σ=16.13+2.58×58706.0=16.13+0.45=(15.68,16.58)7.5、(1)n=44,p=0.51,置信水平为99%由题意,已知n=44,置信水平1-α=99%,因此检验统计量为:,代入数值计算,总体比例π的置信区间为(31.6%,70.4%) (2)n=300,p=0.82,置信水平为95%由题意可得知96.12=αZ检验统计量为:,代入数值计算,总体比例π的置信区间为(77.7%,86.3%) (3)n=1150,p=0.48,置信水平为90%由题意可得知检验统计量为:,代入数值计算,58.22=αZ np p Z P )1(2-±α)704.0,316.0(194.051.044)51.01(51.058.251.0=+=-??p p Z P )1(2-±α)863.0,777.0(043.082.0300)82.01(82.096.182.0=+=-?+645.12=αZ np p Z P )1(2-±α总体比例π的置信区间为(45.6%,50.4%)7.6、(1)由题意已知n=200,当置信水平为90%时,,检验统计量为代入数据计算可得:置信区间为(18.10%,27.90%) (2)当置信水平为95%时,96.12=αZ ,检验统计量为代入数据计算可得:置信区间为(17.17%,28.83%)7.7、由题意已知置信水平为99%,即1-α=99%,则,估计误差E=200,=1000504.0,456.0(024.048.01150)48.01(48.0645.148.0=+=-?+645.12=αZ np p Z P )1(2-±α%)90.27%,10.18(%90.4%23200%)231%(23645.1%23=±=-?±np p Z P )1(2-±α%)83.28%,17.17(%83.5%23200%)231%(2396.1%23=+=-?+58.22=αZ σ则,即应该取样本量为1677.8、(1)由题意可知n=50,p=32/50=0.64,α=0.05,96 .12=αZ 总体中赞成该项改革的户数比例的置信区间为,代入数据计算:即置信区间为(51%,77%)(2)如果小区管理者预计赞成的比例能达到80%,即π=0.80,估计误差不超过10%,即E=10%,α=0.05,96.12=αZ ,应抽取的样本量为即应该抽取62户进行调查7.9(1)x?=21,s=2,n=50,α=0.1χ0.12?2(50?1)=66.3387,χ1?0.12?2(50?1)=33.9303∴(n?1)s 2χα22≤σ2≤(n?1)s 2χ1?α22(50?1)×2266.3387≤σ2≤(50?1)×2233.9303即2.95≤σ2≤5.78.标准差的置信区间为1.72≤σ≤2.4 (2)x?=1.3,s=0.02,n=15,α=0.1167200100058.22222222≈?==E Z n σαnp p Z P )1(2-±α)77.0,51.0(13.064.050)64.01(64.096.164.0=±=-±621.0)80.01(80.096.1)1(22222=-?=-?=E Z n ππαχ0.12?2(15?1)=23.6848,χ1?0.12?2(15?1)=6.5706∴(n?1)s 2χα22≤σ2≤(n?1)s 2χ1?α22(15?1)×0.02223.6848≤σ2≤(15?1)×0.0226.5706标准差的置信区间为0.015≤σ≤0.029 (3)x?=167,s=31,n=22,α=0.1χ0.12?2(22?1)=32.6706,χ1?0.12?2(22?1)=11.5913∴(n?1)s 2χα22≤σ2≤(n?1)s 2χ1?α22(22?1)×312≤σ2≤(22?1)×312标准差的置信区间为24.85≤σ≤41.73。
第1章统计与统计数据一、学习指导统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。
本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。
本章各节的主要内容和学习要点如下表所示。
章节主要内容学习要点1.1 统计及其应用领域什么是统计学④概念:统计学,描述统计,推断统计。
统计的应用领域④统计在工商管理中的应用。
④统计的其他应用领域。
1.2 数据的类型分类数据、顺序数据、数值型数据④概念:分类数据,顺序数据,数值型数据。
④不同数据的特点。
观测数据和实验数据④概念:观测数据,实验数据。
截面数据和时间序列数据④概念:截面数据,时间序列数据。
1.3 数据来源数据的间接来源④统计数据的间接来源。
④二手数据的特点。
数据的直接来源④概念:抽样调查,普查。
④数据的间接来源。
④数据的收集方法。
调查方案设计④调查方案的内容。
数据质量④概念。
抽样误差,非抽样误差。
④统计数据的质量。
1.4 统计中的几个基本概念总体和样本④概念:总体,样本。
参数和统计量④概念:参数,统计量。
变量④概念:变量,分类变量,顺序变量,数值型变量,连续型变量,离散型变量。
二、主要术语1. 统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2. 描述统计:研究数据收集、处理和描述的统计学分支。
3. 推断统计:研究如何利用样本数据来推断总体特征的统计学分支。
4. 分类数据:只能归于某一类别的非数字型数据。
5. 顺序数据:只能归于某一有序类别的非数字型数据。
6. 数值型数据:按数字尺度测量的观察值。
7. 观测数据:通过调查或观测而收集到的数据。
8. 实验数据:在实验中控制实验对象而收集到的数据。
9. 截面数据:在相同或近似相同的时间点上收集的数据。
10. 时间序列数据:在不同时间上收集到的数据。
11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
第一章导论.1(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
4. 自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。
第一章:1、什么是统计学?统计学是一门收集、分析、表述、解释数据的科学和艺术。
2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。
推断统计:研究的是如何利用样本数据来推断总体特征。
3、统计学据可以分成哪几种类型,个有什么特点?按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别的,非数字型数据。
顺序数据:只能归于某一有序类别的,非数字型数据。
数值型数据:按数字尺度测量的观察值,结果表现为数值。
按收集方法不同。
分为:观测数据、和实验数据观测数据:通过调查或观测而收集到的数据;不控制条件;社会经济领域实验数据:在试验中收集到的数据;控制条件;自然科学领域。
按时间不同,分为:截面数据、时间序列数据截面数据:在相同或近似相同的时间点上收集的数据。
时间序列数据:在不同时间收集的数据。
4、举例说明总体、样本、参数、统计量、变量这几个概念。
总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合。
参数:用来描述总体特征的概括性数字度量。
(平均数、标准差、比例等)统计量:用来描述样本特征的概括性数字度量。
(平均数、标准差、比例等)变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。
(商品销售额、受教育程度、产品质量等级等)(对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
)5、变量可以分为哪几类?分类变量:说明事物类别;取值是分类数据。
顺序变量:说明事物有序类别;取值是顺序数据数值型变量:说明事物数字特征;取值是数值型数据。
变量也可以分为:随机变量和非随机变量;经验变量和理论变量6、举例说明离散型变量和连续型变量。
附录:教材各章习题答案第1章统计与统计数据1.1(1)数值型数据;(2分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是该城市所有的职工家庭”样本是抽取的2000个职工家庭”(2)城市所有职工家庭的年人均收入,抽取的“ 200个家庭计算出的年人均收入。
1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是所有的网上购物者”(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2章数据的图表展示2.1(1)属于顺序数据。
(2)频数分布表如下服务质量等级评价的频数分布(3)条形图(略)(4)帕累托图(略)。
2.2(1)频数分布表如下40个企业按产品销售收入分组表(2)某管理局下属40个企分组表2.3 频数分布表如下某百货公司日商品销售额分组表直方图(略)。
2.4 茎叶图如下箱线图(略)。
2.5(1)排序略。
(2)频数分布表如下100只灯泡使用寿命非频数分布690~700 700~710 710~720 720~730 730~740 261813103261813103合计100 100(3)直方图(略)(4)茎叶图如下茎叶65 1 866 1 4 5 6 867 1 3 4 6 7 968 1 1 2 3 3 3 4 5 5 5 8 8 9 969 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 970 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 971 0 0 2 2 3 3 5 6 7 7 8 8 972 0 1 2 2 5 6 7 8 9 973 3 5 674 1 4 7(1)频数分布表如下按重量分组频率/包40 〜42 242 〜44 344 〜46 746 〜48 1648 〜50 1752 〜52 1052 〜54 202.62.7 2.854 〜56 856 〜58 1058 〜60 460 〜62 3合计100(2)直方图(略)。
第1章统计与统计数据1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2章数据的图表展示2.1(1)属于顺序数据。
(2)频数分布表如下(4)帕累托图(略)。
2.2(1)频数分布表如下2.32.5(1)排序略。
(2)频数分布表如下2.6(3)食品重量的分布基本上是对称的。
2.72.8(1)属于数值型数据。
2.9 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
布比A 班分散,且平均成绩较A 班低。
2.11 (略)。
2.12 (略)。
2.13 (略)。
2.14 (略)。
2.15 箱线图如下:(特征请读者自己分析)第3章 数据的概括性度量 3.1(1)100=M ;10=e M ;6.9=x 。
(2)5.5=L Q ;12=U Q 。
(3)2.4=s 。
(4)左偏分布。
3.2(1)190=M ;23=e M 。
(2)5.5=L Q ;12=U Q 。
(3)24=x ;65.6=s 。
(4)08.1=SK ;77.0=K 。
(5)略。
3.3 (1)略。
(2)7=x ;71.0=s 。
(3)102.01=v ;274.02=v 。
(4)选方法一,因为离散程度小。
3.4 (1)x =274.1(万元);M e=272.5 。
(2)Q L =260.25;Q U =291.25。
(3)17.21=s (万元)。
3.5 甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
第一章:1、什么是统计学统计学是一门收集、分析、表述、解释数据的科学和艺术。
2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。
推断统计:研究的是如何利用样本数据来推断总体特征。
3、统计学据可以分成哪几种类型,个有什么特点按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别的,非数字型数据。
顺序数据:只能归于某一有序类别的,非数字型数据。
数值型数据:按数字尺度测量的观察值,结果表现为数值。
按收集方法不同。
分为:观测数据、和实验数据观测数据:通过调查或观测而收集到的数据;不控制条件;社会经济领域实验数据:在试验中收集到的数据;控制条件;自然科学领域。
按时间不同,分为:截面数据、时间序列数据截面数据:在相同或近似相同的时间点上收集的数据。
时间序列数据:在不同时间收集的数据。
4、举例说明总体、样本、参数、统计量、变量这几个概念。
总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合。
参数:用来描述总体特征的概括性数字度量。
(平均数、标准差、比例等)统计量:用来描述样本特征的概括性数字度量。
(平均数、标准差、比例等)变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。
(商品销售额、受教育程度、产品质量等级等)(对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
)5、变量可以分为哪几类分类变量:说明事物类别;取值是分类数据。
顺序变量:说明事物有序类别;取值是顺序数据数值型变量:说明事物数字特征;取值是数值型数据。
变量也可以分为:随机变量和非随机变量;经验变量和理论变量6、举例说明离散型变量和连续型变量。
离散型变量:只能取有限个、可数值的变量。
(企业个数、产品数量)连续型变量:可以在一个或多个区间中取任何值的变量。
(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。
市场调查、人口普查等。
8、请举出应用统计学的几个领域。
社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。
第二章:1、什么是二手资料使用二手资料需要注意些什么什么是二手资料:已经存在的;跟研究内容有关的;别人所做的调查或研究;会被我们利用的,资料。
注意:需要进行评估:考虑原始数据收集人、收集目的、收集途径、收集时间及数据来源。
2、比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样:以一定的入样概率,按照一定的随机性原则选取样本(即样本被选中的概率已知或可计算);技术含量高、成本高。
用于描述性、解释性、推断性研究;研究目的在于掌握对象总体的数字特征,得到总体参数的置信区间。
非概率抽样:不按照入样概率和随机性原则,而按照方便、滚雪球或配额等抽样形式选取样本;技术含量低、成本低、时效快、操作简便。
用于探索性研究;研究目的在于发现问题,为更深入的数量分析提供准备。
下面题目(略)除了自填式,面访式和电话式还有什么搜集数据的办法试验式和观察式等自填式,面访式和电话式各自的长处和弱点自填式;优点:1调查组织者管理容易2成本低,可进行大规模调查3对被调查者,可选择方便时间答卷,减少回答敏感问题压力。
缺点:1返回率低2不适合结构复杂的问卷,调查内容有限3调查周期长4在数据搜集过程中遇见问题不能及时调整。
面访式;优点:1回答率高2数据质量高3在调查过程中遇见问题可以及时调整。
缺点:1成本比较高2搜集数据的方式对调查过程的质量控制有一定难度3对于敏感问题,被访者会有压力。
电话式;优点:1速度快2对调查员比较安全3对访问过程的控制比较容易。
缺点:1实施地区有限2调查时间不能过长3使用的问卷要简单4被访者不愿回答时,不易劝服。
如何控制调查中的回答误差对于理解误差,学习一定的心理学知识,记忆误差,缩短所涉及的时间范围,有意识误差,做好被调查者的心理工作,要遵守职业道德,为被调查者保密,尽量在问卷中不涉及敏感问题。
怎么减少无回答对于随机误差,要提高样本容量,对于系统误差,只有做好准备工作并做好补救措施。
比如说要一百份的问卷回复,就要做好一百二十到一百三十的问卷准备,进行面访式的时候要尽量的劝服不愿意回答的被访者,以小物品的馈赠提高回复率。
第三章:1、数据的预处理包括哪些内容数据审核:从完整性和准确性方面调查原始数据(完整性:单位、个体是否遗漏;准确性:检查错误、异常值)数据筛选:根据需要找出符合特定条件的某类数据。
数据排序:按一定顺序将数据排列,体现数据特征或趋势。
2、分类数据和顺序数据的整理和图示方法各有哪些分类数据:整理:制作频数分布表,用比例、百分比、比率进行描述性分析。
图示:条形图、帕累托图、饼图。
顺序数据::整理:制作频数分布表,用比例、百分比、比率进行描述性分析。
图示:累积频数、累计频率分布图、环形图、条形图、帕累托图、饼图。
3、数值型数据的分组方法有哪些简述组距分组的步骤。
分组方法:单变量分组:把每一个变量值做为一组(只适合离散型变量,变量值较少)组距分组:将全部变量值依次划分为若干区间,一个区间变量值做为一组。
(组距分组又分为:等距分组、异距分组)分组步骤:确定组数(5,15);确定各组组距(5倍数;组距>最大变量值-最小变量值);根据分组整理成频数分布表。
4、直方图与条形图有何区别1、条形图用于展示分类数据;直方图用于展示数值型数据。
2、条形图用长度表示个类别频数,宽度固定(无意义);直方图用面积表示各组频数,长度表每组频数(或频率),宽度为组距(有意义)。
3、条形图各矩形分开排列,直方图各矩形连续排列。
(分组数据具有连续性)5、绘制线图应注意哪些问题时间在横轴,观测值在纵轴;横轴纵轴长度比例大概为10:7;纵轴下端一般从0开始,数据与0距离过大的话用折断符。
6、饼图与环形图有什么不同饼图:只能绘制一个样本或总体各部分的比例。
条形图:可以同时绘制多个样本或总体各部分的比例。
中间有一空洞,每个样本或总体数据表现为一个环。
7、茎叶图与直方图相比有什么优点他们的应用场合是什么茎叶图在给出数据分布情况的同时,又能给出每一个原始数据(保留了原始数据的信息);直方图用于大批量数据,茎叶图用于小批量数据。
8、鉴别图标优劣的准则有哪些显示数据、强调数据间的比较、有对图形的统计描述和文字描述、避免歪曲、把读者注意力集中于数据内容上、服务于一个明确的目的。
8、制作统计表应注意哪几个问题合理安排统计表结构;表头一般包括表号,总标题和表中数据的单位等内容;表中的上下两条横线一般用粗线,中间的其他用细线;在使用统计表时,必要时可在下方加注释,注明数据来源。
公式:组中值=(上限+下限)/2第四章:1、 一组数据的分布特征可以从哪进几个方面进行测度可以从以下三方面进行测度:集中趋势:反映个数据向其中心值的靠拢或集中程度;离散程度:反映各数据远离其中心值的趋势;分布形状:数据分布的峰态和偏态;2、 怎样理解平均数在统计学中的地位平均数在统计学中具有重要地位:是集中趋势的最主要测度,是一组数据的重心所在;是数据误差相互抵消的结果,利用了全部数据信息,具有无偏性;只适用于数值型数据,不适用于分类或顺序数据。
3、 简述四分位数的计算方法:四分位数是一组数据排序后处于25%和75%位置上的值。
具体计算方法是:n/4;3n/44、 对于比例数据的平均为什么采用几何平均对于比例数据采用几何平均比采用算数平均更合理。
∏+=+=n1i in G G 11)()( 5、 简述众数、中位数和平均数的特点和应用场合。
众数:主要用于分类数据集中趋势的度量;是一组数据的峰值;优点:不受极值的影响。
缺点:具有不唯一性;只有数据量较大时才有效果中位数:主要用于顺序数据集中趋势的度量;是一组数据中间位置的代表制; 优点:不受极值的影响;数据分布偏斜程度较大时是一个不错的选择。
平均数:主要用于数值型数据集中趋势的度量;是一组数据的重心所在。
优点:利用了所有数据信息;数据误差相互抵消,具有无偏性;缺点:易受极值影响;当数据分布偏斜程度较大时代表性差。
6、 简述异众比率、四分位差、方差或标准差的应用场合。
异众比率:分类数据的离散程度测度;四分位差:顺序数据的离散程度测度;方差:数值型数据的离散程度测度7、 标准分数有哪些用途标准分数:Xi-/s 即:(变量值减去其平均数)/标准差标准分数给出了一组数据中各数据的相对位置(其离平均数的距离用标准差衡量) 用途:在对多个具有不同量纲的变量进行处理时,需要对变量进行标准化处理; 检查一组数据中是否有离群值。
8、 为什么要计算离散系数离散系数=标准差/平均数原因:方差和标准差反映的是数据离散程度的绝对值:一方面,受原变量值自身水平高低的影响(与变量平均数大小有关);另一方面,与原变量值得计量单位有关,计量单位不同,离散程度也不同。
因此,为消除变量值水平高低和变量值单位对离散程度的影响,要计算离散系数。
9、 测度数据分布形状的统计量有哪些峰态系数、偏态系数。
第六章:1、什么是统计量为什么要引进统计量统计量为什么不含任何未知参数定义:设(X1,X2……Xn)是从总体X中抽取的容量为n的样本,如果由此构造一个函数T(X1,X2……Xn),不依赖于任何未知参数,则称函数T(X1,X2……Xn)是一个统计量。
为什么:为了使统计推断成为可能。
2、什么是次序统计量设(X1,X2……Xn)是从总体X中抽取的容量为n的样本,,若样本(X1,X2……Xn)是满足如下条件的函数:每当样本得到一个观测值x1,x1……xn时,其由小到大的排序中,第i个值x(i)就作为次序统计量Xi的观测值,而X(1),X(2)……X(n)就称为次序统计量。
3、什么是充分统计量统计加工过程中一点信息都不损失的统计量称为充分统计量。
4、什么是自由度独立变量的个数。
5、简述三个重要分布及正态分布间的关系。
卡方分布:设X1,X2,……Xn是n个相互独立的随机变量,且Xi~N(0,1),则X=X1^2+……+Xn^2为服从以n为自由度的卡方分布。
F分布:设X~X^2(m),Y^2~X^2(n),且X,Y相互独立,记Z=X/m/Y/n,则Z~F(m,n)Z分布:设X~N(0,1),Y~X^2(n),且X,Y相互独立,记T=X/(Y/n)^(1/2),有T~t(n)6、什么是抽样分布样本统计量(随机变量)的概率分布是一种理论概率分布。