应用统计学第3章 数据整理
- 格式:ppt
- 大小:1.47 MB
- 文档页数:71
一、思考题3.1数据的预处理包括数据审核,数据筛选,数据排序,数据透视表。
3.2分类数据整理:频数分布表(频数,比例,百分比,比率)图示方法:条形图,对比条形图,帕累托图,饼图。
顺序数据的整理:频数分布表(累计频数,累计频率)图示方法:环形图。
3.3数值型数据的分组方法是组距分组,步骤:1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。
在实际分组时,组数一般为5≤K ≤152.确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=( 最大值 - 最小值)÷ 组数3.统计出各组的频数并整理成频数分布表3.4直方图和条形图区别:1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据3.5绘制线图应该注意的问题:一般情况下,纵轴数据下端应从“0”开始,以便于比较。
数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断3.6饼图和环形图的不同:饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。
3.7茎叶图与直方图相比的优点与各自的应用场合:直方图可观察一组数据的分布状况,但没有给出具体的数值;茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。
直方图适用于大批量数据,茎叶图适用于小批量数据3.8鉴别图表优劣的准则有:3.9制作统计表时应注意的问题:二、练习题3.1为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别为:A.好;B.较好;C.一般;D.较差;E.差。
1. 2.掌握3.掌握 4.用Excel5.§3.1数据的预处理3.1.1 数据审核3.1.2 数据筛选3.1.3 数据排序1.错误2.符合条件3.升序和降序4.按需要汇总(raw data)完整性准确性检查数据是否有错误,计算是否正确等数值型数据,计算检查)(second hand data)1.适用性2.时效性3.确认(data filter)1. 2.不符合明显错误剔除符合筛选出来,而不用Excel 进行数据筛选8名学生的考试成绩数据(data filter)(data rank)1.一定顺序2.有助于3.排序本身就是分析的目的4.借助于计算机(方法)1.分类数据 字母型习惯上用升序汉字型首位拼音字母笔画多少2.数值型–递增递增–递减x (2)>…>x (n)数据透视表(pivot table )1.复杂提取有用 2.重要信息汇总和作图3. 4.首行列标题拖至区域,将需要汇总的“变【向导—3步骤之3】对,即可输出数据透视表§3.2 分类和顺序数据的整理与显示3.2.1 分类数据的整理与显示3.2.2 顺序数据的整理与显示(基本问题)1.弄清数据类型2.分类数据和顺序数据分类整理3.数值型数据分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整(基本过程) BAEDC比率百分比比例频数分类(可计算的统计量)1.个数2.一类别全部数据3.4.不同类别制作频数分布表(bar Chart )1.宽度相同高度或长短2.单式复式3.分类数据频数分布4.条形图可以横置或纵置汇源果汁露露品牌(side - 1.不同时间或不同空间2.差异或变化趋势688563328247戴尔电脑品牌1.频数多少排序2.分类数据不同品牌饮料的帕累托图百事可乐露露汇源果汁品牌(pie Chart)1.圆形及圆内扇形的角度2.各组成部分所占的比例结构性问题3.绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占不同品牌饮料的构成旭日升冰茶22%分类数据显示图例(可计算的指标)频数逐级累加频率(百分比)的逐级累加☺☺☺☺☺☺———100.092562510276168753044.075.090.0100.0132225270300乙城市回答类别100.093.060.034.012.7300279180102387.040.066.087.3100.0211201982623007.033.026.021.312.72199786438非常不满意不满意一般满意非常满意百分比(%)户数(户)百分比(%)户数(户)向下累积向上累积百分比(%)户数(户)乙城市家庭对住房状况评价的频数分布(243001322252700100200300400非常不满意不满意一般满意非常满意累积户数(户)(a)向上累积非常不满意不满意一般满意非常满意(b)向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布(annular chart)1. 2.同时绘制多个总体3. 4.环形图主要用于展示分类和顺序数据满意非常满意§3.3 数值型数据的整理与显示3.3.1 数据分组3.3.2 数值型数据的图示等距分组等距分组异距分组异距分组(要点)一个变量值离散变量值较少的情况☺☺☺☺(要点)1.一个区间2.连续变量3.变量值较多4.“不重不漏”5.等距不等距☺~ ☺☺~ ☺☺~ ☺☺~ ☺☺~ ☺(步骤)1.确定组数2.确定组距上限与下限之差,可根据全部数据的最大统计频数并整理成频数分布表(几个概念)(例题分析)【例】某电脑公司2005年前四个月各天的销售量数据(单位:台)。
第三章统计整理二.单项选择题:1.统计分组的关键问题是( A )。
A.确定分组标志和划分各组界限B.确定组距和组数C.确定组距和组中值D.确定全距和组距2.统计分组对总体而言是( B )。
A.将总体区分为性质相同的若干部分B.将总体区分为性质相异的若干部分C.将总体单位区分为性质相同的若干部分D.将不同总体区分为性质相异的若干部分3.按某一标志分组的结果就表现为(C )。
A.组内差异性.组间同质性B.组内同质性.组间同质性C.组内同质性.组间差异性D.组内差异性.组间差异性4.某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组的组中值为(C)。
A.260B.215C.230D.1855.下列分组中,按品质标志分组的是(B )。
A. 人口按年龄分组B.产品按质量优劣分组C. 企业按固定资产原值分组D.乡镇按工业产值分组6.对企业先按经济类型分组,再按企业规模分组,这样的分组属于(C )。
A.简单分组B.平行分组C.复合分组D.再分组7.用组中值代表各组内的一般水平的假定条件是(D )。
A.各组的次数均相等B.各组的组距均相等C.各组的变量值均相等D.各组次数在本组内呈均匀分布8.在频数分布中,频率是指(C )。
A.各组频数之比B.各组频率之比C.各组频数与总频数之比D.各组频数与各组次数之比9.在分组时,若有某单位的变量值正好等于相邻组的下限时,一般应将其归在(B )。
A.上限所在的组B.下限所在的组C.任意一组均可D.另设新组10.在编制组距数列时,当全距不变的情况下,组距与组数的关系是(B )。
A.正比例关系B.反比例关系C.乘积关系D.没有关系11.变量数列中各组的频率总和应(C )。
A.小于100%B.大于100%C.等于100%D.不等于100%12.在编制分配数列时,连续型变量的相邻组的组限必须(C )。
A.交叉B.不等C.重叠D.间断三.多项选择题:1.统计分组的作用在于(ABE)。
第三章统计数据的整理与显示一、单项选择题:1.将统计总体按某一标志进行分组后,其结果是()。
A.组内同质性,组间同质性B.组内差异性,组间差异性C.组内同质性,组间差异性D.组内差异性,组间同质性2.在组距数列中,当全距确定时,组距与组数的关系是()。
A.组距越大,组数越小B.组距越大,组数越大C.组距越小,组数越小D.组距与组数的关系不确定3.连续型量在确定组限时,相邻组的组限必须()。
A.间断B.重叠C.相等D.不等4.变量数列中,各组频率的合计数应该为()。
A.大于1B.等于1C.小于1D.不等于15.在异距数列中,要准确反映其分布状况,必须采用()。
A.向上累计B.向下累计C.频数D.频率密度6.计算向上累计次数或频数时,其计数表达的意义是()。
A.上限以下的累计次数或频数B.上限以上的累计次数或频数C.下限以下的累计次数或频数D.上限以上的累计次数或频数7.在统计表中,说明统计表名称的词语是()。
A.主词B.宾词C.总标题D.横行标题8.次数分布的特征是:两头小,中间大。
即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少。
这种次数分布是()。
A.正态分布B.U形分布C.正J形分布D.反J形分布9.类似于直方图,与直方图比较,其构造更容易,且能显示变量的实际值,从而不会因数据分组将具体的数值信息丢失,这种图是()。
A.折线图B.曲线图C.茎叶图D.帕拉图10.填写统计表时,当某一位置不应该有数字,应用的符号是()。
A.0B.×C.…D.–二、多项选择题:1.在统计数据整理之前,要对统计数据进行审核。
审核的主要内容是()。
A.数据的准确性B.数据的及时性C.数据的系统性D.数据的完整性E.数据的客观性2.统计分组的作用是()。
A.划分社会经济现象的类型B.刻画总体具有的特征C.揭示社会经济现象的内部构成D.反映总体单位的分布情况E.分析社会经济现象之间的依存关系3.在组距数列中,组中值是()。
第三章 一、单项选择题1. 统计整理的中心工作是( )A. 对原始资料进行审核 C.统计汇总问题2. 统计汇总要求资料具有( )A. 及时性 C-全而性3. 某连续变量分为五组:第一组为40—50,70—80,第五组为80以上,依习惯上规定A. 50在第一组,70在第四组B. 编制统计表 D.汇总资料的再审核 B. 正确性 D.系统性第二组为50—60,第三组为60—70,第四组为)B. 60在第二组,80在第五组C. 70在第四组,80在第五组D. 80在第四组,50在第二组4・若数量标志的取值有限.且是为数不多的等差数值,宜编制( ) A.等距式分布数列 C.开口式数列 5・组距式分布数列多适用于( ) A.随机变量 C.连续型变量6.向上累计次数表示截止到某一组为止(A.上限以下的累计次数C.各组分布的次数B.单项式分布数列D.异距式数列 B.确立型变量 D ・离散型变量 ) B.下限以上的累计次数 D.各组分布的频率 7.次数分布有朝数量大的一边偏尾,曲线高峰偏向数量小的方向,该分布曲线属于( ) A.正态分布曲线 C.右偏分布曲线 B. J 型分布曲线 D.左偏分布曲线 &划分连续变量的组限时,相临组的组限一般要( ) A.交叉 C.重叠 二、多项选择题 1.统讣整理的基本内容主要包括( A.统计分组 B.不等 D.间断 B.逻借检查C.数据录入 E.制表打印 2. 影响组距数列分布的要素有( A.组类 C.组距 E.组数据 3. 常见的频率分布类型主要有( A.钟型分布 C. U 型分布 D ・统讣汇总 )B.组限 D.组中值)B. x 型分布 D. J 型分布E. F 型分布 4•根据分组标志不同,分组数列可以分为()C.单项数列D. 变量数列E. 开口数列5. 下列变量一般是钟型分布的有()A. 粮食平均产量的分布B. 零件公差的分布C. 大学生身髙的分布D. 商品市场价格的分布E. 学生成绩的分布6. 下列变量呈J型分布的有()A. 投资额按利润率的分布B. 60岁以上人口按年龄分组的分布C.经济学中的供给曲线D.不同年龄人口的死亡率分布E.经济学中的需求曲线三、填空题1.分布在各组的 ______ 叫次数(频数)。
第三章统计数据整理一、单项选择题1、统计分组的关键在于()。
A、正确选择不同特征的品质标志和数量标志B、确定组距C、选择统计指标和统计指标体系D、选择分组标志和划分各组界限2、按某一标志分组的结果()A、组内差异性,组间同质性B、组内同质性,组间同质性C、组内同质性,组间差异性D、组内差异性,组间差异性3、统计分组的主要问题是()A、划分各组组限B、确定组数C、选择分组标志D、确定分组形式4、划分连续变量的组限时,相邻的组限必须()A、重叠B、相近C、不等D、间断5、统计分组对总体而言()A、将总体区分为性质相同的若干部分B、将总体区分为性质相异的若干部分C、将总体单位区分为性质相同的若干部分D、将总体单位区分为性质相异的若干部分6、次数分布中的次数是指()A、划分各组数量标志B、分组的组数C、分布在各组的总体单位数D、标志变异个数7、在全距一定的情况下,组距的大小与组数的多少()A、成正比B、成反比C、有时成正比,有时成反比D、没有比例关系8、某连续变量数列,其末组为开口组,下限为500,又知其相邻组的组中值为480,则末组的组中值为()。
A、 520B、510C、500D、4909、组距、组限、组中值之间关系是()。
A、组中值=(上限+下限)÷2B、组距=(上限-下限)÷2C、组中值=(上限+下限)×2D、组限=组中值÷210、将统计表分为总标题、横行标题、纵栏标题和指标数值四部分是()。
A、从构成形式上看B、从内容上看C、从作用上看D、从性质上看11、指出下列哪种分组是按品质标志分组()A、企业按职工人数多少分组B、企业按经济类型分组C、企业按资金拥有量分组D、企业按设备拥有量分组12、采用不等距分组编制变量数列是因为()A、现象是均匀变动的B、现象变动是不均匀的C、在标志值中没有极端值D、在标志值中有极端值13、按连续变量分组,第一组45~55,第二组55~65,第三组65~75,第四组75以上。
第三章数据资料的统计描述:统计表和统计图第一节定性资料的统计描述知识点:1、统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干组成部分的一种统计方法。
2、定性数据的频数、频率、百分数、累计频数、累积频率的概念及计算。
3、定性数据频数分布表示方法主要有条形图、扇形图。
第二节定量数据的统计描述知识点:1、定量数据频数分布表的编制:(1)整理原始资料;(2)确定变量数列的形式;(3)编制组距式变量数列。
应注意的问题:确定组距,确定组限。
考查的区间式分组数据按“上组限不在组内”的原则确定。
2、定量数据的频数、频率、百分数、累积频数、累计频率的概念及计算。
3、定量数据频数分布表示方法主要有直方图、折线图和曲线图三种。
第三节探索性数据分析——茎叶图知识点:1、基本茎叶图的理解及编制第四节相关表与相关图知识点:1、相关表,反映定性变量与定量变量之间的相关关系。
2、散点图,反映两个定量变量之间的相关关系。
根据散点图判断两个变量的相关关系。
第四章数据资料的统计描述:数值计算第一节集中趋势知识点:关于单值式分组和区间式分组数据的1、平均数的计算,包括算术平均数,几何平均数,调和平均数2、众数的计算3、中位数、四分位数的计算4、(补充知识点)平均数、众数、中位数三者之间的关系5、百分位数的计算6、截尾均值的计算第二节离散测度知识点:1、极差的计算2、关于单值式分组和区间式分组数据的四分位数差的计算3、关于单值式分组和区间式分组数据的方差、标准差的计算4、变异系数的计算5、(补充知识点)偏度、峰度的含义及计算第三节协方差与相关系数知识点:1、样本协方差的含义及计算2、相关系数的含义及计算第四节相对位置测度与奇异点知识点:1、数据的标准化处理2、奇异点的诊断:利用契比雪夫定理和经验规则第五节探索性分析——5点描述与箱线图知识点:1、5点描述法的理解2、箱线图的理解与运用第三章习题:一、填空题1、在对数据资料进行统计描述时,______反映了各个组中每一项目出现的次数,______反映了各个组中项目发生的比例。
第三章统计资料整理一.判断题部分1:对统计资料进行分组的目的就是为了区分各组单位之间质的不同。
(×)2: 统计分组的关键问题是确定组距和组数.(×)3: 组中值是根据各组上限和下限计算的平均值,所以它代表了每一组的平均分配次数.( ×)3:分配数列的实质是把总体单位总量按照总体所分的组进行分配.(∨)4:次数分配数列中的次数,也称为频数。
频数的大小反映了它所对应的标志值在总体中所起的作用程度。
(∨)5:某企业职工按文化程度分组形成的分配数列是一个单项式分配数列.(×)6: 连续型变量和离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。
(∨)7:对资料进行组距式分组,是假定变量值在各组内部的分布是均匀的,所以这种分组会使资料的真实性受到损害。
( ∨)8:任何一个分布都必须满足:各组的频率大于零,各组的频数总和等于1 或100%。
( ×)9:按数量标志分组形成的分配数列和按品质标志分组形成的分配数列,都可称为次数分布.(∨)10:按数量标志分组的目的,就是要区分各组在数量上的差异。
(×)11:统计分组以后,掩盖了各组内部各单位的差异,而突出了各组之间单位的差异。
(∨)12:分组以后,各组的频数越大,则组的标志值对于全体标志水平所起的作用也越大;而各组的频率越大,则组的标志值对全体标志水平所起的作用越小。
( ×)二.单项选择题部分1:统计整理的关键在( B ).A、对调查资料进行审核B、对调查资料进行统计分组C、对调查资料进行汇总D、编制统计表2:在组距分组时,对于连续型变量,相邻两组的组限( A )。
A、必须是重叠的B、必须是间断的C、可以是重叠的,也可以是间断的D、必须取整数3:下列分组中属于按品质标志分组的是( B )。
A、学生按考试分数分组B、产品按品种分组C、企业按计划完成程度分组D、家庭按年收入分组4: 有一个学生考试成绩为70分,在统计分组中,这个变量值应归入( B ).A、60———70分这一组B、70-——80分这一组C、60—70或70—80两组都可以D、作为上限的那一组5: 某主管局将下属企业先按轻、重工业分类,再按企业规模分组,这样的分组属于( B )。
应用统计学概念整理第一章:导论1.只能归类于某一类别的非数字型数据称为分类数据2.只能归于某一有序类别的非数字型数据称为顺序数据3.按数字尺度测量的观测值称为数值型数据4.包含所研究的全部个体的集合称为总体5.从总体中抽取的一部分的元素的集合称为样本6.用来描述总体特征的的概括性数字度量称为参数7.用来描述样本特征的概括性数字度量称为统计量8.说明事物类别的一个名称称为分类变量9.说明事物有序类别的一个名称称为顺序变量10.说明事物数字特征的一个名称称为数值型变量11.只能取可数值的变量称为离散型变量12.可以在一个或多个区间中取任何值的变量称为连续型变量第二章:数据收集1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,称为抽样调查.2.为特定目的而专门组织的全面调查称为普查3.按照国家有关法律规定,自上而下地统一布置,自下而上地逐级提供基本数据的调查方式称为统计报表第三章:数据的图表展示1.落在某一特定类别或组中的数据个数,称为频数2.把各个类别及其落在其中的相应频数全部列出,并用表格形式表示出来,称为频数分布3.一个样本或总体中各个部分的数据与全部数据之比,称为比例4.将比例乘以100得到的数值,称为百分比或百分数,用%表示5.样本或总体中各不同类别数值之间的比值,称为比率6.分类数据的图示:条形图,pareto图,对比条形图,饼图7.将各有序类别或组的频数逐级累加起来得到的频数称为累计频数8.将各有序类别或组的百分比逐级累加起来称为累计频率9.顺序数据的图示:累计频数分布图,环形图10.根据统计研究的需要,将原始数据按照某种标准划分成不同的组别称为数据分组11.分组后的数据称为分组数据12.把变量值作为一组称为单变量值分组13.将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组,称为组距分组14.在组距分组中,一个组的最小值称为下限,最大值称为上限15.一个组的上限与下限的差称为组距16.各组组距相等的组距分组称为等距分组17.各组组距不相等的组距分组称为不等距分组18.每一组的下限和上限之间的重点值称为组中值19. 用矩形的宽度和高度即面积来表示频数分布的图形称为直方图20. 由茎和叶两部分组成的,反应原始数据分布的图形称为茎叶图21. 由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的,反应原始数据分布的图形,称为箱线图第四章:数据的概括性度量1.一组数据向其中心值靠拢的倾向和程度称为集中趋势 2.测度集中趋势就是寻找数据水平的代表值或中心值 3.不同类型的数据用不同的集中趋势测度值 4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据 5.层次由低到高:分类—顺序-数值型 6.一组数据中出现频数最多的变量值,称为众数 7.一组数据排序后处于中间位置上的变量值称为中位数 8.一组数据排序后处于中间位置上的变量值,称为中位数 9.一组数据排序后处于25%和75%位置上的值称为四分位数 10.一组数据相加后除以数据的个数而得到的结果,称为平均数 11.N 个变量值乘积的n 次平方根,称为几何平均数 12.数据分布的另一个重要特征 13.离中趋势反映各变量值远离其中心值的程度(离散程度) 14.从另一个侧面说明了集中趋势测度值的代表程度 15.不同类型的数据有不同的离散程度测度值 16.非众数组的频数占总频数的比率,称为异众比率 17.上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距 18.一组数据的最大值与最小值只差称为极差,用R 表示 19.各变量值与其平均数离差绝对值的平均数,称为平均差,叶也称为平均绝对离差 20.各变量值与其平均数离差平方的平均数称为方差 21.方差的平方根称为标准差 22. 变量值与其平均数的离差除以标准差后的值,称为标准分数,也成为标准化值或z 分数 数据类型品质数据汇总表条形图饼图环形图数值型数据原始数据茎叶图箱线图分组数据直方图折线图时序数据线图多元数据散点图气泡图雷达图23.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。
统计学第3章数值性的主要统计指标统计学中,数值性的主要统计指标是描述和总结数据集中数值变量的中心趋势和离散程度。
这些指标包括平均数、中位数、众数、四分位数、极差、方差和标准差等。
1. 平均数(Mean)是数据集中所有数值的总和除以观测次数。
它是一种常见的统计指标,用于表示数据的“典型”数值。
平均数对异常值敏感,受数据的分布和范围影响较大。
2. 中位数(Median)是将数据按大小排序后,处于中间位置的数值。
它不受异常值的影响,适用于数据存在明显偏态或异常值的情况。
3. 众数(Mode)是数据集中出现频率最高的数值。
对于离散变量,可能存在多个众数;对于连续变量,众数可能不存在或不唯一4. 四分位数(Quartiles)将数据按大小排序后,将数据集分为四个部分。
第一个四分位数(Q1)是排序后数据集中25%位置处的数值,第二个四分位数(Q2)就是中位数,第三个四分位数(Q3)是75%位置处的数值。
四分位数用于描述数据的分布和离群值。
5. 极差(Range)是数据集中最大值与最小值之间的差值。
它衡量了数据的全局离散度,但忽略了数据集的内部变化。
6. 方差(Variance)是数据值与其平均数之间的差的平方和的平均值。
方差表示了数据的离散程度,反映了数据点离平均值的距离。
7. 标准差(Standard Deviation)是方差的平方根。
标准差是用于衡量数据的离散度的常用指标。
一般来说,标准差越大,数据的离散程度越高。
这些统计指标能够揭示数据的集中趋势和离散程度,帮助我们理解数据的分布情况。
根据数据的类型和分布情况,选择适当的统计指标进行描述和总结,能够更好地理解数据,进行进一步的分析和推断。