- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最小二乘法通过最小化误差的平方和(即∑(Yi-Yim)2)寻找数据 的最佳函数匹配,它可以非常简便地求未知数据,并使得这 些求得数据与实际数据间的误差平方和最小。最小二乘法还 可用于曲线拟合,一些优化问题也可通过最小化能量或最大 化熵用最小二乘法来表达。
一、回归分析的来源
德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方 向的误差平方和来估计参数。
n
n
n
Q(aˆ, bˆ) ui2 ( yi yˆi )2 ( yi aˆ bˆxi )2
i 1
i 1
i 1
•由
Q aˆ
0,
Q bˆ
0
• 求得 aˆ , bˆ
参数估计
(Q) 2
aˆ
(yi aˆ bˆxi )
2( yi naˆ bˆ xi ) 0
第五讲
回归分析
复习
R语言的相关分析:
states<-state.x77[,1:6] cov(states) cor(states) cor(states,method = "spearman") cor(mtcars,method = "kendall")
复习
复习
双变量关系的统计类型
定类
定类
列联
编号
1 2345678
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
解:1、选取身高为自变量x,体重为因变量y,作散点图:
2、由散点图知道身高和体重有比较 好的线性相关关系,因此可以用线性 回归方程刻画它们之间的关系。
一、回归分析的来源
此后,统计学家皮尔逊又用观察数据证实了这一现象,从而 产生了回归(Regression)这一名称。回归分析的核心是 “最小二乘法”,这种方法早在18世纪就被高斯应用于行星 轨道的测定。1801年,意大利天文学家朱赛普·皮亚齐发现 了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神 星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后 全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但 是根据大多数人计算的结果来寻找谷神星都没有结果。时年 24岁的高斯也计算了谷神星的轨道,奥地利天文学家海因里 希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。高 斯使用的最小二乘法的方法发表于1809年他的著作《天体运 动论》中。
最小二乘法指的是各观察值到估计直线(估计值)间的铅垂直 线距离之和最小。
设从总体中抽取一个样本,其观测值为: (x1,y1)(x2,y2)(x3,y3)……(xn,yn) 现在围绕这n个观测点画一条直线,直线方程为:
y=a+bx 则有无数条直线,哪条直线是n个样本点的最佳拟合直线?答案
是各点都比较接近的那条直线为最佳直线。 最小二乘法原理便可求出这样一条直线。
二、回归分析的意义
皮尔逊相关 pearson correlation
定距
Cross-tabulate
Multinominal Logistic Regression
Ordinal Regression
皮尔逊相关 pearson correlation
回归 regression
复习
双变量关系强度测量的主要指标
定类
定序
yi naˆ bˆ xi
(Q)
bˆ
2
(yi ˆ1 ˆ2xi )(xi )
2(
(yixi
aˆxi
bˆ x
2 i
)
2( yixi aˆ xi bˆ xi2) 0
yixi aˆ
xi bˆ
x
2 i
正规方程
Karl Gauss的最小化图
y
(xn , yn)
(x2 , y2)
ei = yi-^yi
(x1 , y1)
(xi , yi)
yˆ βˆ 0 βˆ1x
x
一、回归分析的来源
最小二乘法 • 设已知n组数据(x1,y1),( x2,y2)… (xn,yn), • 模型: yˆi aˆ bˆxi • 误差ui= yi yˆi • 误差的平方和
定距
wenku.baidu.com
定类 定序
定距
置信系数
Contingency Coefficient
置信系数
Eta 系数
l Spearman 相关系数
l 同序 - 异序 对测量
??
Spearman 相 关系数
Pearson 相关 系数 ??
一、回归分析的来源
回归分析最早来源于生物学,英国生物统计学家高尔顿 ( Galton ),他根据1078对父、子身高的散布图发现,虽然身 材高的父母比身材矮的父母倾向于有高的孩子。但平均而言,身 材高大的父母,其孩子要矮一些(思考:姚明的孩子会比他高 吗?),而身材矮小的父母,其孩子要高大一些(你比自己的父 或母身材高一些吗?)。无论高个子还是矮个子的后代,他们都 有向均值方向拉回的倾向。高尔顿将这种遗传上退化到平庸的现 象称为回归。
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量.
1. 散点图;
2.回归方程: yˆ 0.849x 85.172
身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg)
cross-tabulate
定序 列联 cross-tabulate
定距 方差分析(分组平均数)
compare means
Cross-tabulate
定序
Cross-tabulate
列联 cross-tabulate
斯皮尔曼相关 spearman correlation
斯皮尔曼相关 spearman correlation
naˆ bˆ xi yi
aˆ
xi bˆ
x
2 i
yi xi
一、回归分析的来源
回归分析现在已应用于多个领域,比如气温与旅游、 产品价格与销量、房地产投资与地方经济等。
思考:你身边有哪些现象可以用回归分析解释?
案例1:女大学生的身高与体重
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。