- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析->回归-> 曲线估计
因变量: 阴性率
因变量选项组中变量: 儿童年龄 模型: 线性,对数,立方 选“在等式中包含常量”(包含常数项)和“根据模型绘图”
(输出模型图形) 比较有用的结果:各种模型的 R2,并比较哪个大,结果是三 次曲线模型R2=0.995最好(拟合情况可见图形窗口), 结果 方程为:
常见本质线性模型的分类及表示 模型名称
Linear(线性) Quadratic(二次) Compound(复合) Growth(增长) Logarithmic(对数) Cubic(三次) S Exponential(指数) Inverse(逆) Power(幂) Logistic(逻辑)
回归方程
Y=b0+b1t Y=b0+b1t+b2t2 Y=b0(b1t) Y=eb0+b1t Y=b0+b1ln(t) Y=b0+b1t+b2t2+b3t
简单相关分析
研究两个变量间线性关系的程度。相关系数是描述这种 线性关系程度和方向的统计量,用r表示。 如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y 与X间是统计关系,则-1<r<1, 如果x,y变化的方向一致, 如身高与体重的关系,则称为正相关,r>0,如果x,y变 化的方向相反,如吸烟与肺功能的关系,则称为负相关, r<0; 而r=0表示无线性相关,一般地, |r|>0.95 存在显著性相关; |r|0.8 高度相关; 0.5 |r|<0.8 中度相关; 0.3 |r|<0.5 低度相关; |r|<0.3 关系极弱,认为不相关
2013-8-18
6.3 距离分析(续)
实例P81 例6.3 使用沈阳、大连和鞍山 2006年各月的平均气温数据。 菜单:分析+相关+距离 变量的距离分析(相似性测度,使用 Pearson相关性)
分析变量:沈阳 大连 鞍山 计算距离:变量间 度量标准:相似性 结果P82:沈阳和鞍山的月平均气温的相关系数为 0.998.沈阳和鞍山的月平均气温更为接近。
6.4、6.5 线性回归(Liner)
一元线性回归方程: y=a+bx
a称为截距 b为回归直线的斜率 用修正的可决系数Adjusted R2判定一个线性回归直线的拟合程度: 用来说明用自变量解释因变量变异的程度(所占比例)
b0为常数项 b1、b2、…、bn称为y对应于x1、x2、…、xn的偏回归系数 用修正的可决系数Adjusted R2判定一个多元线性回归方程的拟合程 度:用来说明用自变量解释因变量变异的程度(所占比例)
2、偏相关(Partial) -- 偏相关分析,计算
两个变量间在控制了其他变量的影响下的相关关系, 对相关系数也进行检验,检验的零假设为:相关系 数为0
3、距离(Distance)-- 相似性测度,对变
量或观测量进行相似性或不相似性测度
2013-8-18
6.1 两个变量间的相关分析
两两变量间的相关:包括两个连续变量间的
相关(Pearson相关)和两个等级(分类)变量 间的秩相关(Spearman和Kendall 相关)
菜单:分析+相关+双变量
Pearson。
P76 例6.1:杭州市2006年市区月统计平均气温 和日照时数两个变量间的线性相关分析。比较有用 的结果: Pearson相关系数r=.758和其相应的显 著性概率Sig=.004(显然平均气温和日照时数之间 是高度相关的)
综述:回归分析的概念与模型
寻求有关联(相关)的变量之间的关系 主要内容:
从一组样本数据出发,确定这些变量间的定量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显 著 利用求得的关系式进行预测和控制
按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归 基本的步骤:利用SPSS得到模型关系式,是否是我们所要的,要 看回归方程的显著性检验(F检验)和回归系数b的显著性检验(T 检验),还要看拟合程度R2 (相关系数的平方,一般用修正的可决系 数)
多元线性回归方程: y=b0+b1x1+b2x2+…+bnxn
一元线性回归模型的确定:一般先做散点图(Graphs ->Scatter>Simple),以便进行简单地观测 若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线 性分布,可建立其它方程模型,并比较R2 (-->1)来确定一种最佳 方程式(曲线估计) 多元线性回归一般采用逐步回归方法-逐步(Stepwise)
2013-8-18
6.2 偏相关分析
线性相关分析计算两个变量间的相关关系,分析两个变量间线性关 系的程度。往往因为第三个变量的作用,使相关系数不能真正反映 两个变量间的线性程度。偏相关分析的任务就是在研究两个变量 之间的线性相关关系时控制可能对其产生影响的变量。
菜单:分析+相关+偏相关 分析变量 控制变量 P78实例6.2 使用山东省某学校12名学生的IQ值、语文成绩和数 学成绩数据,因为语文成绩和数学成绩都受IQ的影响,所以试用 偏相关分析研究学生语文成绩和数学成绩的相关关系。
3
相应的线性回归方程
Y=b0+b1t+b2t1(t1=t2) Ln(Y)=ln(b0)+ln(b1)t Ln(Y)=b0+b1t Y=b0+b1t1(t1=ln(t))
Y=b0+b1t+b2t1+b3t2(t1=t2 t2=t3)
Y=eb0+b1/t Y=b0 * eb1*t Y=b0+b1/t Y=b0(tb1 ) Y=1/(1/u+b0b1t)
综述:回归分析的过程
在回归过程中包括:
简单线性回归(Liner) 曲线估计(Curve Estimation) 二项分类逻辑回归(Binary Logistic) 多项分类逻辑回归(Multinomial Logistic) 序回归(Ordinal ) 概率单位回归(Probit) 非线性回归(Nonlinear) 权重估计(Weight Estimation) 二阶段最小二乘回归(2-Stage Least squares) 最优尺度回归(Optimal Scaling)
简单相关分析(续)
相关系数的计算有三种:Pearson、 Spearman和Kendall
Pearson相关系数:对定距变量的数据进行 计算。 Spearman和Kendall相关系数:对分类变 量的数据或变量值的分布明显非正态或分 布不明时,计算时先对离散数据进行排序 或对定距变量值排(求)秩。
6.5 多重线性回归分析实例p86
例6.5:为检验美国电力行业是否存在规模经济,以总成本TC为 应变力,以产量Q、工资率PL、燃料价格PF和资本租赁价格PK 为自变量,用多重回归分析方法研究在其间的关系 建立线性回归模型 分析->回归->线性 因变量: TC 自变量: Q、PL、PF、PK 方法:逐步 比较有用的结果: 拟合程度Adjusted R2: 越接近1拟合程度越好 方差分析中回归方程的显著性检验p值(Sig) 回归系数表中的回归系数B和显著性检验Sig 得模型: TC=-16.544+0.006PL+0.222PF+5.098PK
Ln(Y)=b0+b1 / t Ln(Y)=ln(b0)+b1t Y=b0+b1t1(t1=1/t) Ln(Y)=ln(b0)+b1ln(t) Ln(1/Y-1/u)=ln(b0+ln(b1)t)
6.6 曲线估计分析实例P89
例6.6 :有关锡克氏阴性率数据,看锡克氏阴性 率与儿童年龄的关系
建立若干曲线模型(可试着选用所有模型Models)
将语文成绩和数学成绩作为分析变量, IQ作为控制变量 用Pearson相关系数 结果P80:语文成绩和数学成绩的相关关系为正且相关性很强
2013-8-18
6.3 距离分析
是对观测量之间或变量之间相似或不相似程度的一种 测度,是一种广义的距离。 有关的统计量。 不相似性测度:a、对等间隔(定距)数据的不相似 性(距离)测度可以使用的统计量有Euclid欧氏距 离、欧氏距离平方等。 b、 对计数数据使用卡方。 c、对二值(只有两种取值)数据,使用欧氏距离、 欧氏距离平方、尺寸差异、模式差异、方差等 相似性测度:a、等间隔数据使用统计量Pearson 相关或余弦。 b、测度二元数据的相似性使用的统 计量有20余种。 距离分析分为观测量之间距离分析和变量之间距离分 析。
6.4 简单线性回归分析实例p83
例6.4:试用简单回归分析方法研究在我国失业率和通货膨胀是 否存在替代关系 建立线性回归模型 分析->回归->线性 因变量: 失业率 自变量: 通货膨胀率 比较有用的结果: 拟合程度Adjusted R2: 越接近1拟合程度越好 方差分析中回归方程的显著性检验p值(Sig) 回归系数表中的回归系数B和显著性检验Sig 得模型: R(失业率)=3.601+0.157*I(通货膨胀率)
综述:相关分析的SPSS过程
在 分析/相关 下的三个子菜单:
1、双变量(Bivariate)--简单相关分析,计
算指定的两个变量间的相关关系,可选择Pearson 相关、Spearman和Kendall 相关;同时对相关系 数进行检验,检验的零假设为:相关系数为0(不 相关)。给出相关系数为0的概率
2013-8-18
第六章 相关与回归分析(二)
综述:回归分析的概念、模型和过程 6.4简单线性回归 6.9二阶段最小二乘回归分析 6.5多重线性回归 6.10二项分类Logistic回归分析 6.6曲线回归分析 6.11多项分类Logistic回归分析 6.7非线性回归分析 6.12最优尺度回归分析 6.8加权最小二乘回归 6.13一般对数线性模型分析
பைடு நூலகம்
6.6 曲线估计(Curve Estimation)
变量间的相关 关系并不总是 线性的,非线 性关系也极为 常见。非线性 可分为本质线 性关系和本质 非线性关系。 曲线估计是解 决本质线性关 系问题的,常 见的本质线性 模型如右表。 采用哪种拟合 方式主要取决 于各种拟合模 型对数据的充 分描述(看修正 可决系数R2 ->1)
Y(阴性率)=24.714+37.999*X(儿童年龄)-6.690X^2+0.389X^3
6.7 非线性回归分析及实例(Nonlinear)
上节曲线估计是解决本质线性关系问题的,即模型只有一个自变量 且可以化为线性形式时的情形,并且只有11种固定曲线函数可供选 择,而实际问题往往更为复杂,即本质非线性关系问题,这时候就 需要用到spss的非线性回归分析。 非线性回归能够在因变量和自变量之间构造任意的模型,这个过程 是通过迭代估测运算来完成的,因此如果已经了解带估方程中的参 数取值范围,但是方程式不能写成简单的函数关系时,建议使用非 线性回归分析。 例6.7 :某总裁培训班的讲师利用培训天数X与培训毕业后长期表现 指数Y的回归模型,对参与培训的高管毕业后的长期情况进行预测
第六章 相关与回归分析(一)
综述:相关分析的概念和相关分析过程 6.1 两个变量间的简单相关分析 6.2 偏相关分析 6.3 距离分析
2013-8-18
综述:相关分析的概念
不考虑变量之间的因果关系而只研究变量 间密切程度的一种常用统计方法
1、简单相关分析:研究两个变量间线性关系的
程度。用相关系数r来描述。(详见下面) 2、偏相关分析:它描述的是当控制了一个或几 个另外的变量的影响条件下两个变量间的相关性, 如控制IQ的影响,估计语文成绩和数学成绩之间的 相关关系 3、距离分析:两个或若干个变量、两个或两组观 测量之间的关系有时也可以用差异性或相似程度来 描述。相似度测度用大值表示很相似,而不相似性 用距离或不相似性来描述,大值表示相差甚远
分析->回归-> 非线性 因变量: Y(长期表现指数) 模型表达式: EXP(a+b*x) 参数:设置初始值并添加 比较有用的结果:方差分析表中,决定系数R方=0.983,模型拟合优度很 好。最终模型表达式为: