统计模型-回归分析

  • 格式:pdf
  • 大小:332.67 KB
  • 文档页数:28

下载文档原格式

  / 28
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

引例1的解
1、输入数据: x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; 2、回归分析及检验: [b,bint,r,rint,stats]=regress(Y,X) 得到结果: b= bint = -16.0730 -33.7071 1.5612 0.7194 0.6047 0.8340 stats = 0.9282 180.9531 0.0000 ˆ的 ˆ = −16.073, β ˆ = 0.7194 ; ˆ 的置信区间为[-33.7017,1.5612], β 即β β 0 1 1 0 置 信 区 间 为 [0.6047,0.834]; r2=0.9282, F=180.9531, p=0.0000 。 p<0.05, 可知回归模型 y=-16.073+0.7194x 成立。
令:
⎡1 X =⎢ ⎢ ⎢ ⎣1
x11 x1n
⎡ y1 ⎤ xk1 ⎤ ⎢ ⎥ ⎥ = Y ⎥ ⎢ ⎥ xkn ⎥ ⎢ ⎦ ⎣ yn ⎥ ⎦
有:
ˆ⎤ ⎡b 0 ⎢ ⎥ T −1 T = ( ) X X X Y ⎢ ⎥ ⎢ˆ ⎥ ⎣bk ⎦
3 线性关系的显著性检验
1 记: y = ∑ yi n i =1 y = 94.4231
– (1)置信水平与置信区间是矛盾的。但可增大样本容量
n,使临界值t减小。 – (2)更主要的是提高模型的拟合优度,以减小残差平方 和。设想一种极端情况,如果模型完全拟合样本观测值, 残差平方和为0,则置信区间也为0。 – (3)提高样本观测值的分散度。在一般情况下,样本观测 值越分散,(X’X)-1越小。
身高 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164 腿长 88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102
y = ax + b
Q (a, b) = ∑ (axi + b − yi )
i =1
U /k ∼ F (k , n − k − 1) 若线性关系不显著,则: F = Qe /(n − k − 1)
若 F < F1−α (k , n − k − 1)
2677.9 / 4 F= = 111.48 47.86 /(13 − 4 − 1)
则线性关系不显著,反之显著。 F1−0.1 (4,13 − 4 − 1) = 2.8064
)
若因素xi不重要,则有bi=0,即上述区间包含0。 z -99.1786 223.9893
z z z z
-0.1663 -1.1589 -1.6385 -1.7791
3.2685 2.1792 1.8423 1.4910
6 matlab多元线性回归
y = β 0 + β 1 x1 + ... + β p x p
4、预测及作图: z=b(1)+b(2)*x plot(x,Y,'k+',x,z,'r')
Residuals
4 3 2 1 0 -1 -2 -3 -4 -5 2 4 6 8 10 Case Number 12 14 16
注意,matlab没有线性回 归的区间预测函数,需要 自己根据公式计算。
7 matlab (一元)非线性回归
[b, bint,r,rint,stats]=regress(Y,X,alpha)
置信区间
ˆ ⎤ ⎡β 0 ⎢ ˆ ⎥ β1 ⎥ b=⎢ ⎢ ... ⎥ ⎢ ⎥ ˆ ⎢ ⎣β p ⎥ ⎦
残差
⎡Y1 ⎤ ⎡ 1 x11 ⎢Y ⎥ ⎢1 x 2 21 Y =⎢ ⎥ X =⎢ ⎢ ... ⎥ ⎢... ... ⎢ ⎥ ⎢ ⎣Yn ⎦ ⎢ ⎣ 1 x n1
74.3
3 11 56 8 20
104.3
4 11 31 8 47
87.6
5 7 52 6 33
95.9
6 11 55 9 22
109.2
7 3 71 17 6
102.7
8 1 31 22 44
72.5
9 2 54 18 22
93.1
10 21 47 4 26
115.9
11 1 40 23 34
83.8
bk xki − yi ) 2
ˆ⎤ ⎡b 0 ⎢ ⎥ ⎡62.40 ⎤ ˆ⎥ ⎢ ⎥ ⎢b 1.55 1 ⎥ ⎢ ⎥ ⎢ ˆ ⎥ = ⎢0.51 ⎥ ⎢b 2 ⎢ ˆ ⎥ ⎢0.10 ⎥ ⎥ ⎢b3 ⎥ ⎢ ⎢b ˆ⎥ ⎢ ⎣ −0.14 ⎥ ⎦ 4 ⎢ ⎥ ⎣ ⎦
⎧ ∂Q ⎪ ∂b = 2∑ (b0 + b1 x1i + bk xki − yi ) = 0 i =1 0 ⎪ ⎪ ⎨ ⎪ ∂Q n ⎪ = 2∑ (b0 + b1 x1i + bk xki − yi ) xki = 0 ⎪ i =1 ⎩ ∂bk
回归系数的区间估计
x12 x 22 ... xn2
... x1 p ⎤ ... x 2 p ⎥ ⎥ ... ... ⎥ ⎥ ... x np ⎥ ⎦
相关系数 r2 越接近 1 ,说明回归方程越显著; F > F1-α(k ,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著; 与 F 对应的概率 p < α 时拒绝 H0 ,回归模型成立.
(3)随机误差项与解释变量之间不相关:
cov(ε i , xij ) = 0, i = 1,
, n; j = 1,
,k
2 参数的最小二乘估计
ˆ ,b ˆ, 求 (b 0 1 ˆ ) , 使得如下函数最小: ,b k
n
n
Q (b0 , b1 ,
, bk ) = ∑ (b0 + b1 x1i +
i =1
使用次数 2 3 4 5 6 7 8 9 增大容积 6.42 8.20 9.58 9.50 9.70 10.00 9.93 9.99
11 10.5 10 9.5 9 8.5 8 7.5 7 6.5 6 2 4 6 8 10 12 14 16
12 11 66 9 12
113.3
13 10 68 8 12
109.4
x1 x2 x3 x4
y
y = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4
Q (b0 , b1 , b2 , b3 , b4 ) = ∑ (b0 + b1 x1i + b2 x2i + b3 x3i + b4 x4i − yi ) 2
2、预测和预测误差估计: [Y,DELTA]=nlpredci(’model’, x,beta,r,J) 求nliБайду номын сангаасfit 或nlintool所得的回归函数在x处的预测值Y及预测值的显 著性为1-alpha的置信区间Y ± DELTA.
例: 出钢时所用的盛钢水 的钢包,由于钢水对耐火 材料的侵蚀,容积不断增 大.我们希望知道使用次数 与增大的容积之间的关系. 对一钢包作试验,测得的 数据列于下表:
i =1 n 2
y = 0.7194x − 16.073
1. 2. 线性关系是否显著? 当x=165时,95%的 可能y落在哪个区间?
例2: 水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、 x4 有关,今测得一组数据如下,试确定一个 线性模型.
序号
1 7 26 6 60
78.5
2 1 29 15 52
i =1 n
1. 2. 3. 4.
线性关系是否显著? 当x=(8,30,10,10)时,95%的可能y落在哪个区间? 是否4种化学成分都对释放的热量有显著影响? y还受其他因素影响吗? 如x1*x2, yt-1,xt-1
1 (k元)线性回归模型
⎧ y1 = b0 + b1 x11 + b2 x21 + ⎪ ⎨ ⎪y = b +b x +b x + 0 1 1n 2 2n ⎩ n
回归平方和:
n
ˆ +b ˆ x +b ˆx + ⎧y ˆ1 = b 0 1 11 2 21 ⎪ ⎨ ⎪ ˆ +b ˆ x +b ˆx + ˆ y b = 0 1 1n 2 2n ⎩ n
残差平方和:
n
ˆx +b k k1 ˆx +b k kn
ˆi − y ) U = ∑(y
i =1
n
2
=2677.9
ˆi ) 2 =47.86 Qe = ∑ ( yi − y
U /k F= Qe /(n − k − 1)
n −1 R = 1− n − k − 1 + kF
2
4 区间预测
在未知点 ( x1 , x2 ,
, xk ) 的点预测为:
(7,40,10,30) y=89.70
ˆ +b ˆ x +b ˆx + ˆ =b y 0 1 1 2 2
ˆx +b k k
而y的置信水平1-a的区间预测为: (89.70-18.32, 89.70+18.32)
统计回归模型
主要内容
z0
引例 z 1 (多元)线性回归模型 z 2 参数的最小二乘估计 z 3 线性关系的显著性检验 z 4 区间预测 z 5 参数的区间估计(假设检验) z 6 matlab多元线性回归 z 7 matlab非线性回归 z 8 综合实例:牙膏的销售量
0 引例
例1:测得16名成年女子的身高与腿长如下,求身高与腿长的关系.
1、回归:
是事先用m-文件定 义的非线性函数
确定回归系数的命令: [beta,r,J]=nlinfit(x,y,’model’, beta0) 估计出的 回归系数 残差 Jacobian矩阵 输入数据x、y分别为 n × m 矩阵和n维列向 量,对一元非线性回 归,x为n维列向量。 回归系数 的初值
3、残差分析,作残差图:
rcoplot(r,rint)
从残差图可以看出,除第二个数据外,其余数据的残 差离零点均较近,且残差的置信区间均包含零点,这说明 回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第 二个数据可视为异常点. (可以去掉该点重新回归)
Residual Case Order Plot
(
T −1 T ˆ ˆ y − σ e 1 + X 0 ( X X ) X 0 t1−α / 2 (n − k − 1),
T ˆ +σ ˆ e 1 + X 0 ( X T X ) −1 X 0 y t1−α / 2 (n − k − 1)
)
xk 1 ⎤ ⎥ ⎥ xkn ⎥ ⎦
其中:
X 0 = (1, x1 ,
z
+ bk xk1 + ε1 + bk xkn + ε n
为了可以使用普通最小二乘法进行参数估计,需对 模型提出若干基本假设 : (1)随机误差项服从0均值、同方差的正态分布: ε i ∼ N (0, σ 2 ), i = 1, , n
(2)随机误差项在不同样本点之间是独立的,不存在序列相关:
cov(ε i , ε j ) = 0, i ≠ j
Qe ˆe = σ n − k −1
⎡1 ⎢ X =⎢ n ˆi ) 2 Qe = ∑ ( yi − y ⎢ 1 ⎣ i =1
, xk )
x11 x1n
z 经常听到这样的说法,“如果给定解释变量值,根据 模型就可以得到被解释变量的预测值为……值”。这 种说法是不科学的,也是统计模型无法达到的。如果 一定要给出一个具体的预测值,那么它的置信水平则 为0;如果一定要回答以100%的置信水平处在什么区 间中,那么这个区间是∞。 z 在实际应用中,我们当然也希望置信水平越高越好, 置信区间越小越好。如何才能缩小置信区间?
5 参数的区间估计(假设检验)
记:
⎤ C=A =⎡ c ij ⎣ ⎦ i , j =0,
−1
A= X X
T
2 ˆ ∼ N (b , σ 则有: b ˆ i i e cii )
ˆ −b b T = i i ∼ t (n − k − 1) ˆ e cii σ
,k
故bi的区间估计为:
(
ˆ −t ˆ +t ˆ ˆ b σ c b , i 1−α / 2 e ii i 1−α / 2σ e cii
线性关系的拟合性检验(R检验)
Qe /(n − k − 1) 47.86 /(13 − 4 − 1) 2 R = = 0.9736 R = 1− (2677.9 + 47.86) /(13 − 1) (U + Qe ) /(n − 1)
2
z
R2越接近1,拟合度越高,则解释变量对被 解释变量的解释程度就高,可以推测模型 总体线性关系成立;反之,就不成立。但 这只是一个模糊的推测,不能给出一个在 统计上严格的结论,只作参考。刚才的显 著性检验才是严格的结论。