社会研究的统计应用复习笔记
- 格式:pdf
- 大小:236.90 KB
- 文档页数:11
社会研究的统计应⽤复习笔记
第⼆章简化⼀个变项之分布
第⼀节基本技术
⼀、定类层次
次数分布、⽐例、⽐率、图⽰和对⽐值
⼆、定序层次
累加次数累加百分⽐
三、定距层次
组限组中点矩形图多⾓线图
第⼆节集中趋势测量法
定义:指统计分析中⽤以简化⼀个变项的资料的分布情况的⽅法,就是找出⼀个数值来代表变项的资料分布,以反映资料的集结情况,可以根据这个代表值来估计或预测每个研究对象的数值经包括众值、中位值和均值。
⼀、定类变项:众值
⼆、定序变项:中位值
1、根据原资料求出中位值 MD 的位置=(n+1)/2
2、根据分组资料求出中位值 (以中位值去估计定序变项的数值,所犯的错误总数是最⼩的。
MD =L +w f cf n
-2 三、定距变项:均值
以均值估计定距变项的资料,错误最⼩
n
x x ∑=
第四节离散趋势测量法
定义:指⽤以简化⼀个变项的资料的分布的统计⽅法,是要求求出⼀个数值,来表⽰个案与个案之间的差异情况,主要包括离异⽐率、四分位差和标准差等⽅案。
离散趋势测量法与集中趋势测量法有互相补充的作⽤。
集中趋势所求出的是⼀个最能代表变项所有资料的值,但其代表性的⾼低却要视乎各个个案之间的差异情况。
如果个案之间的差异很⼤,则众值、中位值、均值的代表性就会很低。
⼀、离异⽐率:⾮众值的次数与全部个案数⽬的⽐率⼆、四分位差:
将个案由低⾄⾼排列,然后分为四个等分,则第⼀个四分位置的值(Q1)与第三个四分位差(Q3)的差异,就是四分位差。
三、标准差
就是将各数值(X )与其均值(x )之差的平⽅和除以全部个案数⽬,然后取其平⽅根。
公式如下:
()
n
x x s ∑-=
2
公式中X 与的相差,就是表⽰以均值⼈微⾔轻代表值时会引起的偏差或错误。
如果各个实际数值与均值之相差的总和很⼤,就表⽰变项的离势很⼤,即均值的代表性很⼩。
⽅差:就是标准差的平⽅,其意义与标准差相同。
第四节正态分布与标准值
⼀、正态分布
定距资料可以⽤⼀条平滑的曲线表⽰。
正态曲线可以下公式表⽰:
正态分布具有(x )单峰和对称的特质,因此众值、中位值和均值都是相同的;(2)X 与其均值(x )的差异愈⼤,其次数会愈少,但不会等于零;换⾔之,曲线两端逐渐减降,但不会接触底线。
⼆、标准正态分布
为什么要⽤标准正态分布呢?
1、由于不同的变项会⽤不同的度量单位,即使是同⼀变项也可能⽤不同的度量单位,结果形成不同⼤⼩和不同形状的正态分布;
2、它们的均值与标准差数值各不相同,其扁平或⾼耸的程度也各有不同。
如果我们分别计算每⼀种正态分布各部分⾯积,就会很⿇烦;
3、以标准差为单位的好处,是可以使正态分布标准化,不受变项的度量单位所影响。
由此可知,将正态分布的数值改⽤标准差为单位是有重要的意义,可以将不同形态的分布归纳为⼀种分布,简化了统计分析的⼯作。
这个以标准差为单位的正态分布,⼀般称为标准正态分布。
如果正态分布是以标准差(S )为单位,则每个变项就变为:
上述的Z 称为“标准值”,代表每个X 值在标准正态分布上的数值。
标准正态分布的均值是0,标准差是1。
第三章简化两个变项这分布
第⼀节统计相差的性质
1、相关:⼀个变项的值与另⼀个变项的值有连带性。
换⾔之,如果⼀个变项的值发⽣变化,另⼀个变项的值也有变化。
2、正相关负相关
第⼆节简化相关与消减误差
我们选择测量法的标准:1、注意变项的测量层次;2、两个变项之间的关系是对称的还是不对称的;3、最好选择统计值有意义的相关测量法。
在统计学中有⼀组相关测量法,其统计值具有消减误差⽐例的意义,称为PRE 测量法。
所谓PRE 测量法的意义,就是表⽰⽤⼀个现象来解释另⼀个现象时能够消减百分之⼏的错误。
第四章相关测量法与测量层次
第⼀节两个定类变项:Lambda,tau-y
⼀、Lambda 相关测量法:
对称:()()
y x y X y x m m n M M m m +-+--∑
∑2
不对称:
y
Y
y
M n M m --∑
x m =X 变项下的每个值之下Y 变项的众值次数
⼆、tau-y 系数是属于布对称相关测量法
()∑
-=n
F
F n E y
y
1 ()∑
-=
X
X
F f
f F E 2
Tau-y=
1
2
1E E E - y F =Y 变项的某个边缘次数 X F =X 变项的某个边缘次数
第⼆节两个定序变项:Gamma,dy
⼀、G 系数属于对称相关测量法
d
S d
S N N N N G +-=
⼆、dy 相关测量
y
d S d
s y T N N N N d +++=
第三节两个定距变项:简单线性回归和积距相关⼀、简单线性回归分析
1、它是根据⼀个⽅程式,以⼀个⾃变项(X )的数值来预测⼀个依变项(Y )的数值,这个⽅程式为:
Y ’=bX+a
回归法在绘制回归线时所根据的准则是最⼩平⽅。
假定我们根据⼀条直线来以⾃变项的某个值(X i )估计依变项的某个值(Y j ),所估计的值是Y ’j ,⽽实际上该值是Y j ,则误差便是e= Y j -Y ’j 。
原则上,将全部样本个案的各个e 相加起来就是误差总数,但这样做会引起正负相抵消的问题。
所以,我们要改为把e 的平⽅值相加起来。
因此,如果回归直线在坐标图中的位置能够使到Σe 2最⼩,就理应是最佳拟合线。
统计学家推算出b 与a 的数值应是如下:
b= n Σ(XY )-(ΣX )(ΣY ) n(ΣX 2)-(ΣX )2
2、回归⽅程式中的回归系数b 具有很重要的意义。
b 值的⼤⼩,就是表⽰X 对Y 的影响有多⼤,是代表每增加⼀个单位的X 值时,Y 值的变化有多⼤。
即:
b =
X
Y
如果b =0,表⽰X 对Y 没有影响。
b 值越⼤,就表⽰X 变化时所引起的Y 变化愈⼤。
因此,b 值是表⽰⾃变项对依变⾯的影响的⼤⼩和⽅向。
它是⼀个分析不对称关系的统计法。
b 值的⼤⼩不限于-1到1。
⼆、积矩相关系数与简单线性回归⽅程式的关系
1、r (pearson )系数所要表⽰的,就是以线性回归⽅程式作为预测⼯具时所能减少的误差⽐例。
因此,如果r 系数值越⼤,就表⽰线性回归⽅程式的预测能⼒愈强;
2.R 系数与b 系数不同的地⽅,是r 系数假定x 与y 的关系是对称的,⽽r 的统计值
是由-1⾄+1,同时,r 的平⽅值具有消减误差的意义。
3.在社会学研究中,最好是先计算r 系数值,然后才决定是否运⽤简单线性回归分
析法来预测。
4.r 系数所要表⽰的,就是以线性回归⽅程作为预测⼯具时所能减少的误差⽐例。
因
此,如果r 系数值愈⼤,就表⽰线性回归⽅程式的预测能⼒愈强。
第五章抽样与统计推论
第⼀节抽样的意义与问题
⼀、抽样的优点:
1、调查费⽤较低。
当总体包含的研究对象数⽬较⼤时,普查所需费⽤甚巨;
2、速度快。
调查全部研究对象⽐调查它的⼀部分要费时得多;
3、应⽤范围⼴。
上述两个特点决定抽样调查可⼴泛⽤于各个领域,各种课题,⽽不
像普查那样只限于统计部门或政府部门;
4、可获得内容丰富的资料。
为了节约费⽤,普查⼀般了解少量项⽬,⽽且多是⼀些
⾏政上的资料,很少关注态度、意见⽅⾯的内容;
5、准确度⾼。
专业素质⼈员的介⼊
⼆、抽样的术语
1、研究总体与调查总体
研究总体是在理论上明确定义的整体,但在实际中很难做到使符合这⼀定义的⼀切个体都能有机会被选⼊样本;调查总体是研究者从中实际抽取调查样本的个体的集合体,它往往是对研究总体的进⼀步界定,即对时间、范围做进⼀步规定。
2、抽样框
⼜称抽样范畴,是从中抽取样本的抽样单位名单。
3、参数值与统计值
参数值是关于总体中某⼀变量的综合描述,如全国妇⼥平均受教育年限;统计值则是关于调查样本中某⼀变量的综合描述,如从⼀个样本中得到的妇⼥平均受教育年限。
4、抽样误差与⾮抽样误差
由于样本与总体的差异性,在⽤样本的统计值推算总体的参数值时会有偏差,这不是抽样误差;因误抄、计算错误等⼈为过失和其他⼀些因违反随机原则⽽产⽣的误差,称为⾮抽样误差。
第⼆节抽样的基本程序
1、界定总体
2、搜集全部名单
3、决定样本的⼤⼩
4、选取样本个案
5、评估
样本之正误
第三节随机与⾮随机抽样法
⼀、随机(概率)抽样
就是使总体中每⼀个体都有⼀个已知不为零的被选机会进⼊样本。
它分为竺概率抽样和不等概率抽样。
1、简单随机抽样(纯随机抽样)
它是最基本的概率抽样,最直观地体现了抽样的基本原理,是其它抽样⽅法的基础。
它要求每个个案被选取的机会是相同的。
它分为重复抽样(放回)和不重复抽样(不放回)。
常⽤的抛硬币、抽签等⽅法都是简单随机抽样,但社会调查中的简单随机抽样通常是使
⽤随机数表进⾏的。
简单随机抽样是概率抽样的理想类型,没有偏见,简单易⾏,且从随机样本的抽取到对总体进⾏推断时,有⼀套健全的规则。
但当总体数⽬太多时,会费时费钱。
2、系统随机抽样
⼜称为系统抽样、等距抽样、机械抽样。
它⾸先将全部个案排列起来,按抽样⽐例分成间隔,并在第⼀个间隔内选取第⼀个个案,然后每经⼀个间隔就选取⼀个个案。
这样选出的个案,就是我们所需的样本。
3、分层抽样
先将总体按⼀种或⼏种特征分为⼏个⼦总体,每⼀个⼦总体称为⼀层,然后从每⼀层中随机抽取⼀个⼦样本,将它们合在⼀起,即为总体的样本,称为分层样本。
分层抽样的优点
4、整群抽样
⼜称为整体抽样、聚类抽样。
是将总体按照某种标准划分为⼀些⼦群体,每⼀个⼦群为⼀个抽样单位,⽤随机的⽅法从中抽取若⼲⼦群,将抽出来的⼦群中所有个体合起来作为总体的样本。
它与分层抽样的⽐较:
(1)相同:在第⼀步都是根据某种标准将总体分为⼀些⼩群。
(2)不同:第⼀,抽样⽅式不同。
在分层抽样中,所有⼦群均要抽取⼀个⼦样本,作为总体样本的⼀部分;⽽整群抽样则不然,总体样本分布在部分⼦群中,有的⼦群可能抽不到。
第⼆,划分⼦群的原则也不同:分层抽样的划分依据是层之间异质性⾼,层内同质性⾼,⽽整群抽样则是群间异质性低,群内异质性⾼。
因此,分层抽样适⽤于界质分明的总体,整群抽样适⽤于界质不清的总体。
5、多段(级)抽样
在⼤规模的调查研究中,较为常⽤的是多段抽样,即先抽取若⼲集体,然后从所选取的集体中再抽取若⼲较⼩的单位。
6、多期抽样
如果要收集⼤量资料,可⽤这种从样本中抽取分样本,分期惦念和累积资料的⽅法。
⼆、⾮随机(概率)抽样
1、偶遇抽样
⼜称⽅便抽样。
是指研究者将在⼀定时间、⼀定环境晨所能遇见或接触到的⼈均选⼊样本的⽅法。
“街头拦⼈”法即为⼀例。
⽅便省⼒,但样本的代表性差。
2、主观抽样
⼜称为⽴意抽样、判断抽样,是根据研究者的主观见解和判断,选取他认为是典型的个案。
这种样本是否具有代表性,要视乎研究员的主观判断是否正确。
3、配额抽样
⼜称为定额抽样,是根据某些标准将总体分组,然后⽤⽴意或偶遇抽样法由每组中选取样本个案。
它与分层抽样都要进⾏分组,但分层抽样中各层样本是随机抽取的,⽽定额抽样中各层样本是⾮随机抽取的。
4、滚雪球抽样
指先从⼏个适合的调查对象开始,然后通过他们得到更多的调查对象,这样⼀步步地扩⼤样本范围。
当调查总体的个体信息不充分时,常采⽤这种⽅法。
5、空间抽样
指针对⼀个变动的总体,如游⾏队伍集会等进⾏抽样的⽅法,这种总体虽然是变动的,但在空间上是有限的。
空间抽样最重要的是要在同⼀时间对整个总体进⾏抽样,以防⽌它的组成经历太⼤的变化。
第四节⼏率与概率分布
抽样分布:是根据⼏率的原则⽽成⽴的理论性分布,显⽰由同⼀总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。
1、⼆项抽样分布
就是指所研究的变量只有两个值,如是与否、⾼与低、男与⼥。
2、均值抽样分布
指从总体中抽取若⼲个样本,每个样本都有⼀个均值,由这些均值构成的分布称为均值抽样分布,它具有如下特点:
(1)如果样本相当⼤(通常指n 不可少于30,最好⼤于100),则抽样分布接近正态分布,因⽽具有单峰和对称性质,众值、中位值和均值都是相同的;
(2)抽样分布之均值就是总体之均值。
抽样分布的标准差称为标准误差。
(3)抽样分布的均值(M )两旁的⾯积是可以知道的。
如有95%在M +1.96(SE ),有99%在M +2.58(SE )。
第六章参数值的估计
第⼀节点值估计与间距估计
1、参数估计:就是根据⼀个随机样本的统计值来估计总体之参数值是多少。
2、点值估计:以⼀个最适当的样本统计值来代表总体的参数值。
3、间距估计:就是以两个数值之间的间距来估计参数值。
间距的⼤⼩取决于我们在估计时所要求的可信度。
在样本⼤⼩相同的情况下,如果要求的可信度越⼤,则间距就会越⼤,通常称为“可信间距”。
第⼆节间距估计:均值、百分率、积距相关
1、均值的间距估计:
95%的可信度:X +1.96(SE),即X +1.96 99%的可信度:X +2.58(SE),即X +2.58 2、百分率(或⽐例)的间距估计:95%的可信度:p +1.96
99%的可信度: 3、积距相关系数:
95%的可信度:Z ’+1.96(SE),其中,Z ’=1.151r r -+11log
SE =3
1
-n
第三节决定样本的⼤⼩
基本原则是:在能够付出的研究代价的限度内,选取最⼤的样本。
尚有两个原则可供参考:1、我们能容忍多少错误(e )?(2)所研究的个案之间的相互差异有多⼤(S)?
公式:95%的可信区间:
e=x M - 2
96.1??
=e s n
第七章假设检定:均值与百分率
第⼀节基本知识
⼀、重要概念:
1、假设检定:指先成⽴⼀个关于总体情况的假设,继⽽抽取⼀个随机样本,然后以样本的统计值来验证假设。
2、研究假设与虚⽆假设
科学的假设⼀般先成⽴假设,即假定在总体中存在某些情况,如假定绝⼤多数⼈同意某项制度或假定X 与Y 是相关的,这个假设称为研究假设,⼜称备择假设,通常⽤H 1表⽰。
虚⽆假设是指与研究假设相反的假设,通常叙述变项间没有差异没有影响,没有关系,如X 与Y 是不相关的,⽤H 0表⽰,⼜称原假设。
假设检定不是直接检定研究假设,⽽是⾸先检定与这个研究假设相对⽴的虚⽆假设,⽽间接地知道研究假设的正确可能性。
3、否定域:指在假设检验中,在未分析资料以前,我们应该决定在什么情况下否定虚⽆假设。
这样⼀个预定的范围,就称为否定域。
确切地说,否定域,是指抽样分布内⼀端或两端的⼩区域,如果样本的统计值在此区域范围内,则否定虚⽆假设。
否定域是⼀端还是两端,要视研究假设的性质⽽定。
4、显著度:指否定域在整个抽样分布中所占的⽐例,也表⽰样本的统计值落在否定域内的机会。
显著度越⼩,便越难否定虚⽆假设。
5、甲种误差与⼄种误差
甲种误差,是指否定H 0,但实际上H 0是对的错误可能性。
这个可能性,就是显著度。
⼄种误差,是指不否定H 0,但实际上H 0是不对的错误可能性。
两种误差是对⽴的,成反⽐的。
如果要减少甲种误差,势必增加⼄种误差。
要完全消除两种误差的⽭盾是不可能的。
但是,我们可以设法在若⼲程度上同时减少两者的可能性,最简单的办法,就是把样本增⼤。
6、统计法的检定⼒
指该统计法能够准确地判断虚⽆假设的正误之能⼒。
由于在统计推论之前,已经决定显著度的⼤⼩,故检定⼒的⼤⼩其实是指⼄种误差的⼤⼩:如果所犯的⼄种误差越⼩,该统计法的检定⼒就越⼤。
检定⼒=1-⼄种误差机会
参数检定法的检定⼒⼤于⾮参数检定法。
参数检定法的特点,是要求总体具备某些条件:(1)定距变量;(2)随机抽样;(3)总体呈正态分布
⾮参数检定法,其特点是不要求总体数值具备特殊的条件。
7、⾃由度:简称df ,是指有多少个个案的数值可以随意变更。
t 的抽样分布形状取决于⾃由度:df 越⼩,则t 分布越扁平;df 越⼤,则t 分布越⾼耸⽽且接近正态分布。
⼆、假设检定的步骤
1、根据研究假设H 1成⽴与其对⽴的虚⽆假设H 0
2、选择适当的检定统计法,并要列举其假定或要求
3、确定抽样分布
4、决定显著度,并依据H 1的性质选⽤⼀端或⼆端检定,然后从抽样分布中求出否定域的位置和⼤⼩
如果在成⽴H 1 时可以定出⽅向,则选⽤⼀端检定。
5、根据样本的资料计算检定值,从⽽做出决策
第⼆节单均值与均值差异
⼀、单均值:
要求:定距变项、随机抽样、总体呈正态分布 1.Z 检定法(⼤样本)
0H :总体均值是0M
2.T 检定法(⼩样本)
T 的抽样分布形状取决与⾃由度⼆、两个均值的差异
研究两个随机样本,遇有样本的值存在差异,怎么样判断它们的均值的差异是由抽样误差所引起的,还是表⽰两个总体均值的确有所差异。
要求:随机抽样、每个总体是正态分布、两个总体的标准差是相等的 1.Z 检定法(⼤样本) 2.T 检定法(⼩样本)三、多个均值的差异
F 检定(⽅差分析法)
第三节单百分率与百分率差异
⼀、单百分率(或⽐例)例如:某地的⼯⼈有多少是满意⼯作环境的
研究假设:是总体的⼀个百分率 Z 检定
⼆、两个百分率的差异
两个样本的百分率在其总体中是否有差异,例如:⼀个城镇和⼀个农村地区的⼩家庭⽐例
Z 检定
三、多个百分率的差异
例如:⽼、中、青三个随机样本的家庭去想是否有差异 2
检定
第⼋章假设的检定:两个变项之相关
第⼀节2
X检定及其相关测量法
⼀、如果两个变项(X Y)都是定类变项,可⽤2
X来推论在总体中两者是否相关。
(⾮参数检定法)
2 X=
()
∑-
e
e
f2
df=(r-1)(c-1)
2
X愈⼤,就是虚假假设的正确可能性愈⼩,即愈能否定虚⽆假设。
⼆、如果两个变项都是定序变项,可以⽤G系数来测量相关的程度和⽅向,但如果所研究的是⼀个随机样本,就要设法推论总体情况。
可Z检定或t检定。
三、⼀个定类变项和⼀个定距变项的关系,可⽤相关⽐率(eta平⽅系数)
F检定(单因⽅差分析)其⽬的是要推算在各组总体中的均值是否相等。
参数检定法的⼀种。
要求:随机样本、⼀个变项是定距、总体是正态分布和具有相等的⽅差
基本道理:将全部的⽅差分解为两部分:消减⽅差和剩余⽅差,F值越⼤,越可否否定虚⽆假设。
表⽰X与Y在总体中愈可能相关。
四、两个定距变项的关系,可⽤积距相关系数(r)或b系数
虚⽆假设:r=b=0
五、U检定和H检定
U检定适合⽤于分析⼀个⼆分定类变项和⼀个定序变项的关系,也即分析两个随机样本的等级排序是否有显著差别。
例如:虚⽆假设:⼤城市与⼩城镇的空⽓素质等级上⽆差别
超过两个样本,⽤H检定
六、总结
相关测量法:⽬的是要理解两个变项在“样本”中的相关强弱
检定假设⽅法:1.适⽤于随机样本
2.其关⼼的都是总体的情况
3.⽬的都在了解总体中是否相关,⽽不是相关的强弱程度。
第九章详析模式与统计控制
⼀、重要概念
1、详析模式:是指引⼊第三变量对两变量关系进⾏检验,以解释或确定这种关系的过程,被引⼊的变量中⼼任务检验因素或控制变量。
它分为因果分析、阐明分析和条件分析三种。
详析模式的⼀个主要作⽤是使调查研究可分享实验设计的⼀些优点,详析模式是⼀种近似的实验设计。
它可以充分利⽤调查资料,并将研究引向深⼊:它⼀⽅⾯能对变量关系作出描述,另⼀⽅⾯通过引⼊第三变量,还可以澄清事实真相,包括两变量间关系的真伪,从⽽使变量关系更具体、更精确可靠。
2、统计控制:是指在详析模式中,⽤统计⽅法来控制变量。
统计控制的基本逻辑,可⽤分表法来说明,指以第三变量的值将原表拆分⼏个表,然后在第三变量不变的情况下分析X与Y的关系。
统计控制的结果有三种可能性:(1)X与Y的关系消失,(2)维持原状,(3)X与Y的关系虽没消失,但其相关程度减⼩了。
3、详析分析的⼀般步骤:(1)分析X→Y,(2)分析W→X与W→Y;(3)控制W,分析X→Y的变化
4、压抑分析:指在条件分析中,本来没有关系或关系很弱的两个变量X与Y,在标明若⼲条件以后,X与Y显然有关系或关系强⼤起来,这种情况称为压抑分析。
5、曲解分析:指在条件分析中,把原先的负相关变为正相关,或把原先的正相关变为负相关的。
6、因果分析(辨明模式)要检定⾃变项x与因变项y之间是否确实有因果关系
引进W,控制W以后,在W不变的情况下分析X与Y的关系。
W
X Y
研究结果原则上有三种可能:
1、x y 关系消失
2.维持原来的关系
3.仍然有关系,但相关程度减弱
7、阐明分析(因果环节)就是要以事实来验证:X是通过某些因素(如T)对Y产⽣影响的。
X T Y
介⼊变项:
步骤:通过建⽴分表,在每个分表中研究x与y的关系。
每个分表中T变项受到控制,有相同的T. R1=R2=0完全阐明。
R1=R2=R 不能阐明
8、条件分析(标明)和互动效果
条件分析就是以第三类变项(C)作为基础来了解X与Y在不同情况下的关系。
依据条件变项的值,将样本分组,然后在每组中分析X与Y的关系。
如果在各组中X 与Y的关系⼤致相同。
则表⽰,X与Y的关系具有普遍性。
如果不同,说明是C变项产⽣互动效果。
⼆、净相关系数
所谓净相关分析,就是以⼀个系数值来表⽰在控制第三类变量以后X与Y的相关。
它只能⽤于因果分析和阐明分析,不适⽤于条件分析。
要求:变项间是直线关系,并且所有变项必须是定距
净相关系数是由-1⾄+1,表⽰在控制第三类变项以后X与Y这两个变项的相关程度和⽅向,⽽且其平⽅值具有消减误差⽐例的意义。
1、净相关系数的公式
2、净相关系数的F检定
3、部分净相关系数:它只是从⼀个变项(X或Y)中消除第三类变项的效果,然后计算剩余误差与另⼀个变项的关系。
3、其他的净相关测量法
如果X和Y 是定序变项,较为常⽤的是净G系数。
(1)净Gamma系数:其实是各个分组的G系数的加权均值。
(2)净Lambda或净tau-y值
第⼗章多因分析
第⼀节复相关
⼀、重要概念
1、复相关:是⼀种以⼀个统计值来简化多个⾃变量(X1,X2,X3等)与⼀个依变量(Y)的关系的统计⽅法。
它是以积矩相关系数(r)为基础的,要求所有变量都是定距变量。
它的统计值(R)的范围在0到1之间。
R的平⽅值(R2)称为决定系数,具有消减误差⽐例的意义,它的剩余的误差(1-R2),通常称为疏离系数。
2、多因分析:指以两个或以上的⾃变量来预测⼀个依变量的数值,这个值还可以⽐较各个⾃变量的影响⼒的⼤⼩。
3、统计性累赘:指在多因分析中,如研究X1,X2,X3这三个⾃变量的相对效果,每个变量的B权数其实都代表在控制其他⾃变量以后所发⽣的效果。
倘若其中两个⾃变量(如X1与X2)的关系特别强,则在相互控制以后就会使得每者的效果减弱,⽽其他的变量(X3)的效果就会因此⽽增⼤。
4、“钓鱼技术”:在多因分析中,使各个⾃变量依先后次序进⼊回归⽅程式,这就称“钓鱼技术”。
谁先谁后,既可以取决于相对的统计重要性,也可取决于理论的要求。
其⽬的是从众多的⾃变量中找出⼀些最重要的⾃变量,使研究结果得以简化。
5、虚构变量:复相关与多因分析都是要求全部变量是定距变量,如果要⽤来分析定类或定序变量,则要将之变为虚构变量。
⽅法是将定类或定距变量虚构为⼀个⼆分变量,将其中⼀个给予1分,另⼀个给予0分,就会成为定距变量。
6、典型相关:复相关只能分析多个变量与⼀个变量之间的相关,如果两边都有多个变
量,这种分析就称典型相关,⽤来测量两组变量的最⼤相关。
⼆、多因回归分析
以两个以上的⾃变项来预测⼀个依变项的数值,另⼀项⽐较重要的作⽤,是⽐较各个⾃变项的影响⼒。
B 权数,它的数值的⼤⼩与正负号,分别反映了Y 受X 所影响的⼤⼩与⽅向。
标准化多因线性回归⽅程式:
K K X B X B X B Y ........2211++=∧
⽐较各个B 权数(只看绝对值)可见在相互控制后,不同因素影响的效果强弱。
计算公式: 1、复相关:
是以⼀个统计值来简化多个⾃变项与⼀个因变项的关系的统计⽅法。
它是以R 为基础,要求所有的变项是定距变项。
统计值R 愈趋近1,表⽰相关愈强。
R 的平⽅值称为决定系数,具有消减误差⽐例的意义。
2、复相关系数的F 检定:
3、多因线性回归⽅程式的推算
多因线性回归分析,是以两个或者两个以上的⾃变项来预测⼀个因变项的数值。
另⼀项重要的作⽤是,⽐较各个⾃变项的影响⼒。
第⼗三章多项互关分析
1、多项互关分析:指研究多个变量之间的相互关系,⽬的是从多个变量的相互关系中找出⼀个较为简单的结构,使我们容易理解。
2、聚类分析:是依据我们的理论见解或各对变量的实际相关情况,将各个变量分组,然后测量分组的⽅式是否有效,即是否能将性质相近的变量聚于相同的组中。
3、因⼦分析:从众多的相关变量中抽取若⼲共同的因素,⽬的是使复杂的实际情况得以简化。
它所抽取的共同因素,称为因⼦。
分为三个步骤:1、计算各对变项的积距相关值
2、从互关矩阵中抽取若⼲共同因素(基元分析)
3、转动因⼦位置,得出旋转因⼦。