数据的计量尺度有哪些 (1)
- 格式:docx
- 大小:126.46 KB
- 文档页数:5
Part I数据的计量与类型一、数据的计量尺度(一定类尺度又称类别尺度,按事物的某种属性对其进行平行的分类或分组。
(只能测度事物之间的类别差,其他差别无法得知例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
(二定序尺度又称顺序尺度, 是对事物之间等级差别和顺序差别的一种测度。
它不仅可以测度类别差,还可以测度次序差。
(不能测量类别之间的准确差值,只能比较大小, 不能进行加、减、乘、除数学运算例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。
满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。
(三定距尺度又称间隔尺度, 是对事物类别或次序之间距离的测度。
该尺度通常使用自然或物理单位作为计量尺度。
例:30°C 和 20℃之间相差 10℃, -30°C 和 -20℃之间也是相差 10℃。
再比如, 1等星比 2等星亮 10倍, 0等星比 1等星亮 10倍, -1等星又比 0等星亮 10倍。
定距数据可以进行加、减运算,不能进行乘、除运算。
其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有。
(四定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限。
因此, 不仅可以进行加减运算, 还可以进行乘除运算。
例如, 绝对温度 300K(27℃时理想气体的体积 273K(0℃时的 1.1倍, 温度比也是 1.1倍, 则绝对温度和体积都是定比尺度。
一般来说, 定比尺度的数据不可能取负值。
一般也不会取零值, 因为要么就是不存在了, 要么就是极限情况。
如, 绝对零度只能无限接近, 不可能完全达到。
如果一个物体的体积为零, 那么它要么不存在, 要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。
而一个人的年龄为 0时呢?作为社会学意义上的人,可以认为它是极限(开始 ;作为生物学上的人,则是定距尺度的。
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽与互斥的要求;数据表现为“类别”;具有=或≠的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但就是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ⨯ 或 ÷ 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系)&以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图就是用条形的长度表示各类别频数的多少,其宽度就是固定的;直方图就是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常就是连续排列,条形图则就是分开排列3、均值、中位数与众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系就是:众数与算术平均数的距离就是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:()X M M X X M e e 2330-=--=320X M M e += 230M M X e -=4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,就是对数据相对离散程度的测度,消除了数据水平高低与计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
数据的计量尺度有哪些集团标准化工作小组 #Q8QGGQT-GX8G08Q8-GNQGJ8-MHHGN#1、数据的计量尺度有哪些各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或—的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有或的数学特性,也可+或—,倍数关系成立(如年龄可以有差值也可以有倍数关系)&以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3根据这一关系,可以得到以下三个关系式:4、为什么要计算离散系数如何运用离散系数判断平均数的代表性(1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V表示。
统计学原理数据的计量与类型一、数据的计量尺度统计研究的任务之一就是要对数据进行处理和分析,而对数据进行处理与分析的前提就是要对数量进行计量,而要对数据进行计量,就要确定数据的计量尺度。
按照对客观事物测度的程度或精确水平来划分,可将计量尺度从低级到高级、由粗略到精确分为定类尺度、定序尺度、定距尺度、定比尺度四种。
1.定类尺度定类尺度又称列名尺度或列名水平,它是按照某种属性对客观事物进行平行分类或分组的一种测度,主要用于非参数的统计推断。
它是对事物的一种最粗略、计量精度最低或最基本的测度,是其他计量尺度的基础,其主要特征体现为:(1)只能区分事物的类别,但无法比较类间的大小。
(2)对事物的区分必须符合穷尽和互斥的要求。
(3)对其进行分析的统计量主要是频数或频率。
2.定序尺度定序尺度又称顺序尺度或有序水平,它是对事物之间等级或顺序差别的一种测度。
其计量精度要优于定类尺度。
它不仅可以测度类别差,而且还可以测度次序差,并可比较大小。
3.定距尺度定距尺度又称间隔尺度或间隔水平,它是对事物类别或次序之间间距进行的一种测度。
它是一种较定类尺度和定序尺度更为高级,更为精确的一种计量尺度。
其主要特征体现为:(1)不仅能区分事物的类别、进行排序、比较大小,而且可以精确地计量大小的差异,即可以进行加减运算,但不能计算乘除。
(2)没有绝对零点,即可以以任意一个零为起点。
这里的“零”表示一个数值,即“0”水平,而不表示“没有”或“不存在”。
4.定比尺度定比尺度又称比率尺度或比较水平,它是对事物之间比值的一种测度,可用于参数与非参数统计推断。
虽然它与定距尺度同属于一个等级的计量尺度,但其功能要比定距尺度强一些,其主要特征体现为:(1)除能区分类别、排序、比较大小、求出大小差异、可采用加减运算以外,还可以进行乘除运算。
(2)具有绝对零点,即“0”表示“没有”或“不存在”。
可见,定比尺度中的“0”是个没有意义的数值。
(3)所有统计量均可对其进行分析。
统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale)、定序型数据(Ordinal)、定类型数据(Nominal)。
定距型数据通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。
如职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A B C表示等。
这里,无论是数值型的1、2 、3 还是字符型的A B C ,都是有大小或高低顺序的,但数据之间却是不等距的。
因为,低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;定类型数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。
如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表示等。
这里,无论是数值型的1、 2 还是字符型的‘汉’‘回’‘满’,都不存在内部固有的大小或高低顺序,而只是一种名义上的指代。
我觉得教育年限应该设置成定距型数据(Scale)吧。
因为,教育年限应该是一个连续的变量,它不存在内在的大小或高低顺序问题。
将可变的数量标志抽象化就称其为变量,其取值称为变量值或标志值。
变量分为确定性变量和随机变量。
确定性变量是指受必然性因素的作用,各变量值呈现出上升或下降惟一方向性变动的变量;随机变量是指受偶然性因素的作用,变量值呈现出随机的混沌状态变动的变量。
根据变量的取值是否连续划分,有连续型变量和离散型变量。
连续型变量是指在一个取值区间内可取无穷多个值。
连续型变量值要用测量或计算的方法取得;离散型变量是指在一个取值区间内变量仅可取有限个可列值。
离散型变量值只能用计数的方法取得。
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量,1)无偏性。
1.数据的计量尺度有哪几种?有定类尺度、定序尺度、定距尺度、定比尺度。
定类尺度也称类别尺度或列名尺度,它是把事物按属性或类别分组。
其计量的结果只是表现为某种类别,而对各类间的其他差别却无法测度。
定序尺度也叫顺序尺度,它是对事物之间等级差别或顺序差别的测度。
具有定类尺度的所有性能。
定距尺度也叫间隔尺度,是对事物间的类别或次序间的间距的测度,其计量结果表现为数值。
定比尺度也叫比率尺度,它与定距尺度属于同一层次,其计量结果也表现为数值。
2.常用的统计调查方式主要有哪些?⑴统计报表。
是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。
⑵普查。
是为特定目的而专门组织的一次性全面调查。
⑶抽样调查。
是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。
3.分类数据,顺序数据的整理及图示方法各有哪些?⑴用频数分布表展示分类数据和顺序数据⑵用图形展示分类数据和顺序数据①条形图②饼图4.数据型数据的整理及图示方法有哪些?试述组距分组的步骤。
⑴用频数分布表(变量数列)展示数值型数据①单变量值分组②组距分组⑵用图示展示数值型数据①直方图②箱线图③线图④茎叶图组距分组的步骤:①确定组数②确定各组的组距③整理成频数分布表5.试描述均值,中位数,众数的特点及应用场合均值的计算是建立在每个观测值之上的,因此均值受极端值的影响很大。
在这种时候,均值歪曲了数据实际传递的信息,因此,当数据集有极端值时,均值并不是集中趋势的最好的描述。
众数、中位数和均值各自具有不同的特点,在实际应用中,应选择合理的测度值来描述数据的集中趋势。
当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,选择用均值比较好,因为均值包含了全部数据的信息,易被大多数人所理解和接受;当数据为偏态分布是,特别是当偏斜的程度较大时,应选择众数或中位数;当数据为定类尺度时,如商品(服装、鞋类)等的规格,用众数是较好的选择。
(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 或 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:()X M M X X M e e 2330-=--=320X M M e += 230M M X e -=4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
统计学思考题(2009级金融学双学位班)(2010至2011年学年第二学期)1、简述数据的度量尺度与数据的作用。
计量尺度;(1)定类尺度:计量层次最低,只能对事物进行平行的分类和分组,各组各类之间的关系是系列的或平行的。
各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求。
仅具有=或不等于的数学特征。
(2)定序尺度:对事物分类的同时给出各类别的顺序;比定尺度精确,未测出类别之间的准确差值;数据表现为“类别”,但有序。
具有大于或小于的数学特征。
(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数据”;没有绝对零点;具有+或—的数学特性。
(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;没有绝对零点;具有乘或除的数学特征。
数据的作用:统计学是一门收集整理显示和分析统计数据的科学,其目的是探索数据内在的数量规律性,可见数据是统计学的灵魂和基础。
没有较好的统计数据,在好的统计方法或高明的统计学家也难有所作为那。
一切的统计工作都是在围着数据进行。
数据不单单是指数字,而且还包括事物的类型,当然这些事物类型也可用一定的数字代码来表示。
为统计学提供了研究对象,通过对数据的收集整理分析,可以探寻导数据反映出来的内在数量规律性,达到对客观事物的科学认识,从而为我们的各种实践领域提供决策依据。
2、从随机试验角度说明什么是不确定性。
随时事件与必然现象确定性相对应。
生活中还存在随机现象,如抛出一枚硬币得到正面还是反面,商场每天的顾客数和销售额。
这种随机现象有一个共同点就是,在一定条件下可能出现这种结果也可能出现另外一种结果,出现哪种结果纯属偶然,完全随机会而定。
人们事先并不确定哪种结果会出现,这种特点就是统计学中的不确定性。
对随机现象虽然很难用一个确定的公式来描述其变化特征,但不确定性中蕴含着规律性,为研究这种规律性就要先获取有关信息,这就需要我们进行有关随机试验,随机试验需满足三个条件:1)试验可现在相同条件下重复进行,2)每次试验的结果不止一个,但试验的所有可能结果在试验之前是明确可知的;3)每次试验只能观察到可能结果之中的一个,但在试验结束之前不能肯定该次试验出现哪个结果。
第二章统计数据搜集习题一、单项选择题1.统计数据的计量尺度有定类尺度、定序尺度、定距尺度和定比尺度。
其中,形成数值型数据的是()。
A、定距尺度和定比尺度B、定类尺度和定序尺度C、定距尺度和定序尺度D、定类尺度和定比尺度2.教育程度是()的测量。
A 、定比尺度B、定类尺度C、定距尺度D、定序尺度3.智商是()的测量。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度4.籍贯是()的测量。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度5.能作加、减、乘、除等数学运算是()。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度6.只能作加减,而不能作乘除运算的测量尺度是()。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度7.对2008年保定百货商店工作人员进行普查,调查对象是( )。
A、各百货商店B、各百货商店的全体工作人员C、一个百货商店D、每位工作人员8.全国人口普查中,调查单位是( )。
A、全国人口B、每一个人C、每一户D、工人工资9.对某城市工业企业的设备进行普查,填报单位是( )A、全部设备B、每台设备C、每个工业企业D、全部工业企业10.通过调查木兰国有林场管理局、赛寒坝机械林场、滦平坑木林场等几个大型林场,了解承德市木材生产量的基本情况。
这种调查方式是( )。
A、典型调查B、普查C、抽样调查D、重点调查11.人口普查规定统一的标准时间是为了( )。
A、避免登记的重复与遗漏B、确定调查的范围C、确定调查的单位D、登记的方便12.对一批商品进行质量检验,最适宜采用的方法是( ) 。
A、全面调查B、抽样调查C、典型调查D、重点调查13.有一批灯泡共1000箱,每箱200个,现随机抽取20箱并检查这些箱中全部灯泡,此种检验属于()。
A、纯随机抽样B、类型抽样C、整群抽样D、等距抽样14.孟滦林场为了掌握本场的造林质量,拟进行一次全场的造林质量大检查,这种检查应选择( )。
A、统计报表B、重点调查C、全面调查D、抽样调查15.某地进行国有商业企业经营情况调查,则调查对象是( )。
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或?的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有+ 或—的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有?或?的数学特性,也可+或—,倍数关系成立(如年龄可以有差值也可以有倍数关系)&以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3根据这一关系,可以得到以下三个关系式:4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性?(1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V表示。
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或?的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ? 或 ? 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性?(1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
公式如下:(2)离散系数大的离散程度大,平均数代表性小;反之,离散系数小的离散程度小,平均数代表性大。
5、什么是参数?什么是统计量?二者有何关系?(1)参数:研究者想要了解的总体的某种特征值。
总体参数通常用希腊字母表示,所关心的参数主要有总体均值(?)、标准差(?)、总体比例(π)等。
(2)统计量:根据样本数据计算出来的一个量。
样本统计量通常用小写英文字母来表示,所关心的样本统计量有样本均值(?x)、样本标准差(s)、样本比例(p)等(3)关系:6、评价估计量优良的标准是什么?(1)无偏性:估计量抽样分布的数学期望等于被估计的总体参数。
若,则称为的无偏估计量。
(2)有效性:作为优良的估计量,除了满足无偏性的要求外,其方差应比较小。
假定、为总体参数的两个无偏估计量,其抽样分布的方差分别用和表示,若,则称为比更有效的估计量。
在无偏估计条件下,估计量方差越小,离散程度越小,估计越有效。
(3)一致性:指随着样本单位数n的增大,样本估计量将在概率意义下越来越接近于总体真实值。
若n越大越小,则称为的一致估计量。
7、什么是假设检验中的两类错误?第一类错误和第二类错误分别指什么?它们发生的概率大小之间存在怎样的关系?(1)第一类错误(弃真错误):原假设正确却拒绝了原假设。
第Ⅰ类错误的概率记为,被称为显着性水平。
(2)第二类错误(存为错误):原假设为假时未拒绝原假设。
第Ⅱ类错误的概率记为。
(3)关系:在样本量不变的情况下,越小,犯第一类错误的可能性越小,但就大,犯第二类错误的可能性越大;反之,越大,犯第一类错误的可能性越大,,但就小,饭第二类错误的可能性越小。
不能同时减少两类错误,要使二者同时减小的唯一办法就是增加样本量。
8、另加:什么是小概率事件原理?(1)在一次试验中,一个几乎不可能发生的事件发生的概率(2)在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设(3)小概率由研究者事先确定9、什么是方差分析,它研究的是什么?(1)方差分析就是从数据差异入手,通过检验多个总体均值是否相等来判断分类型自变量对数值型因变量是否有显着影响的统计方法。
(2)方差分析从形式上看是比较多个总体的均值是否相等,但本质上研究的是变量之间的关系,包括他们之间有没有影响关系,关系的强度如何等。
10、方差分析中有哪些基本假定⑴每个总体均服从正态分布。
即有:x~N(u,σ2)对于每个因素中的每一个水平,其观测值是来自正态分布总体的简单随机样本。
⑵每个总体的方差都相同。
即:σ21=σ22=……=σn2 各组观测数据是从具有相同方差的正态分布总体中抽取的。
⑶各水平下的观测值相互独立。
11、简述方差分析的基本思想⑴比较两类误差,以检验均值是否相等⑵比较的基础是方差比⑶如果系统(处理)误差明显地不同于随机误差,则均值就不相等;反之,均值相等⑷误差是由各部分的误差占总误差的比例来测度的12、简述方差分析的基本步骤(一)提出假设一般提法H0 :m1 = m2 =…= mk 自变量对因变量没有显着影响H1 : m1 ,m2 ,… ,mk不全相等自变量对因变量有显着影响x n x σσ=注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等(二)构造检验的统计量1. 计算各水平的均值(1)假定从第i 个总体中抽取一个容量为ni 的简单随机样本,第i 个总体的样本均值为该样本的全部观察值总和除以观察值的个数(2)计算公式为式中: ni 为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值 2. 计算全部观察值的总均值 (1)全部观察值的总和除以观察值的总个数(2)计算公式为:k k i ii k i n j ij n n n n n x n n xx i +++===∑∑∑===Λ21111式中:3. 计算误差平方和 (1)总误差平方和()∑∑==-=k i n j ij i x x SST 112 (2)水平项误差平方和()()∑∑∑===-=-=k i i i k i n j i x x n x x SSA i 121123)误差平方和()∑∑==-=k i n j i ij i x x SSE 112(4)三个平方和的关系SST=SSA+SSE(5)三个平方和的作用① SST 反映全部数据总的误差程度;SSE 反映随机误差的大小;SSA 反映随机误差和系统误差的大小② 如果原假设成立,则表明没有系统误差,组间平方和SSA 除以自由度后的均方与组内平方和SSE 和除以自由度后的均方差异就不会太大;如果组间均方显着地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差③ 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小4. 计算统计量(1)计算均方差(MS )④组间均方差:SSA 的均方差,记为MSA ,1-=k SSA MSA⑤组内均方差:SSE 的均方差,记为MSE ,k n SSEMSE -= 2)计算检验统计量F ),1(~k n k F MSE MSA F --=(三)统计决策将统计量的值F与给定的显着性水平?的临界值F?进行比较,作出对原假设H0的决策根据给定的显着性水平?,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值 F?若F>F?,则拒绝原假设H0 ,表明均值之间的差异是显着的,所检验的因素对观察值有显着影响若F<F?,则不能拒绝原假设H0 ,表明所检验的因素对观察值没有显着影响13、一元线性回归模型中有哪些假定?14、相关分析与回归分析的联系(1).共同的研究对象:都是对变量间相关关系的分析(2)只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义(3).相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析(4).相关分析中相关系数的确定建立在回归分析的基础上15、时期数列和时点数列的区别有哪些?(1)当绝对数时间序列中的数据反映的是现象在所属时期内发展过程的总量时,就称为时期序列。
其特点:1>序列中不同时间的数据具有可加性。
2>序列中每个数据的大小与其所属时间的长短有直接联系。
3>序列中每个数据需要连续登记取得。
如国内生产总值序列(2)当绝对数时间序列中的总量数据反映的是现象在某一时点上所处的总量时,称该序列为时点序列。
其特点:1>序列中不同时点的数据不具有可加性。
2>序列中各数据的大小与其间隔长短没有直接联系。
3>序列中各数据无需连续登记取得。
如我国2000~2010年全国年末总人口序列16、季节变动分析中的按月(季)平均法和趋势剔除法有什么不同?(1)按月(季)平均法:直接根据原时间序列通过简单平均来计算季节指数,适用于包含水平趋势、季节变动和不规则变动的时间序列,即时间序列中不存在明显的长期趋势和循环波动因素。
·【基本假定】原时间序列包含水平趋势、季节变动和不规则变动,没有明显的上升或下降的长期趋势和循环变动·【计算步骤】第一步:计算时间序列中各年同期(同月或同季)的平均数;第二步:计算时间序列全部数据的总平均数;第三步:计算各年同期(同月或同季)的平均数与总平均数的比值,即为季节指数(S)。
公式:(2)趋势剔除法:该方法的基本思想是,先将时间序列中的长期趋势予以消除,然后再计算季节指数。
·【基本假定】采用移动平均趋势剔除法分析季节变动时,假定时间序列各要素的关系结构为:y=T×S×C×I,同时假定各年度的不规则波动I彼此独立·【计算步骤】第一步:根据各年的月份(或季度)数据,计算12个月(或4个季度)移动平均趋势值T×C;第二步:将各实际观察值y除以相应趋势值T×C,即:第三步:将S×I重新按月(季)排列,求得同月(或同季)平均数,再将其除以总平均数,即得季节指数S。
17、什么是同度量因素?它有何作用?(1)同度量因素就是使不同度量的现象过渡到可以同度量的没接因素。
(2)作用:1)同度量作用,即作为一种媒介,使原来度量单位不同而不能直接相加的现象数量,过渡到可以直接相加的现象数量。