回归直线方程新
- 格式:pptx
- 大小:167.03 KB
- 文档页数:13
回归分析的基本知识点及习题本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
这种由于模型近似所引起的误差包含在中。
(2)忽略了某些因素的影响。
影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。
(3)观测误差。
由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。
新教材高中数学新人教B版选择性必修第二册:4.3 统计模型4.3.1一元线性回归模型第1课时相关关系与回归直线方程学习任务核心素养1.了解变量间的相关关系.(易混点)2.会根据散点图判断数据是否具有相关关系.(重点)3.了解最小二乘法的思想,会求回归直线方程,掌握回归方程的性质.(重点、难点)1.通过回归直线方程及相关关系的学习,体会数学建模与直观想象的素养.2.借助回归直线方程的求法,培养数学运算的素养.你知道“名师出高徒”的意思吗?——高明的师傅很可能教出技艺高的徒弟,比喻学识丰富的人对于培养人才的重要.也就是说,高水平的老师往往能教出高水平的学生.问题:那么老师的水平与学生的水平之间具有怎样的关系呢?这种关系是确定的吗?该关系与函数关系相同吗?[提示]老师的水平与学生的水平之间具有相关性,一般而言,高水平的老师教出高水平的学生的可能性更大;但两者之间虽然具有相关性,却不具备确定性,这种关系是不确定的.不相同.知识点1相关关系如果两个变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性,像这样两个变量之间的关系,统计学上称为相关关系.1.函数关系是相关关系吗?[提示]不是.函数关系中两个变量之间是一种确定关系.1.下列两个变量中,具有相关关系的是()A.正方体的体积与棱长B.匀速行驶的汽车的行驶路程与时间C .人的身高与体重D .人的身高与视力C [A 选项中,正方体的体积与棱长是函数关系,不是相关关系; B 选项中,匀速行驶的汽车的行驶路程与时间是函数关系,不是相关关系;C 选项中,人的身高会影响体重,但不是唯一因素,所以人的身高与体重是相关关系;D 选项中,人的身高与视力无任何关系.] 知识点2 线性相关 (1)散点图一般地,如果收集到了变量x 和变量y 的n 对数据(简称为成对数据),如下表所示.序号i123 … n变量x x 1 x 2 x 3 … x n 变量y y 1 y 2 y 3 … y n则在平面直角坐标系xOy 中描出点(x i ,y i ),i =1,2,3,…,n ,就可以得到这n 对数据的散点图.(2)线性相关:如果由变量的成对数据、散点图或直观经验可知,变量x 与变量y 之间的关系可以近似地用一次函数来刻画,则称x 与y 线性相关.(3)正相关和负相关若x 与y 线性相关,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.2.下列两个变量具有正相关关系的是( )A .正方形的面积与边长B .吸烟与健康C .数学成绩与物理成绩D .汽车的重量与汽车每消耗1 L 汽油所行驶的平均路程C [正方形的面积与边长是函数关系,A 错误;吸烟与健康具有负相关关系,B 错误;汽车越重,每消耗1 L 汽油所行驶的平均路程越短,所以汽车的重量与汽车每消耗1 L 汽油所行驶的平均路程具有负相关关系,D 错误;数学成绩越好,物理成绩也会越好,所以数学成绩与物理成绩具有正相关关系,C 正确.]知识点3 回归直线方程一般地,已知变量x 与y 的n 对成对数据(x i ,y i ),i =1,2,3,…,n .任意给定一个一次函数y =bx +a ,对每一个已知的x i ,由直线方程可以得到一个估计值y ^i =bx i +a ,如果一次函数y ^=b ^x +a ^能使(y 1-y ^1)2+(y 2-y ^2)2+…+(y n -y ^n )2=∑n i =1(y i -y ^i )2取得最小值,则y ^=b ^x +a ^称为y关于x 的回归直线方程(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.其中,回归系数b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x-2, a ^=y --b ^x -..x -=1n (x 1+x 2+…+x n )=1n ∑ni =1x i ;y -=1n (y 1+y 2+…+y n )=1n ∑ni =1y i .提醒:回归直线方程y ^=b ^x +a ^中x 的系数是b ^,表示直线的斜率,注意与《选择性必修第一册》中的一次函数的关系式或直线方程y =ax +b 进行区分.3.思考辨析(正确的打“√”,错误的打“×”)(1)相关关系是两个变量之间的一种确定的关系. ( ) (2)回归直线方程一定过样本中心点.( )(3)选取一组数据的部分点得到的回归方程与由整组数据得到的回归方程一定相同.( ) (4)根据回归直线方程得到的结论一定是可靠的. ( )[答案] (1)× (2)√ (3)× (4)× 知识点4 回归直线方程:y ^=b ^x +a ^的性质 (1)回归直线一定过点(x -,y -). (2)回归系数b ^的实际意义: ①b ^是回归方程的斜率;②当x 增大一个单位时,y ^增大b ^个单位.2.y 与x 正负相关的充要条件分别是什么?[提示] 当b ^>0时,y 与x 正相关,反之也成立,同理b ^<0是y 与x 负相关的充要条件.4.已知回归直线的斜率的估计值是 1.23,且过定点(4,5),则线性回归方程是________.y ^=1.23x +0.08 [回归直线的斜率的估计值为1.23, 即b ^=1.23,又回归直线过定点(4,5), ∴a ^=5-1.23×4=0.08, ∴y ^=1.23x +0.08.]类型1变量间相关关系的判断【例1】(1)下列关系中,属于相关关系的是________.(填序号)①扇形的半径与面积之间的关系;②农作物的产量与施肥量之间的关系;③出租车费与行驶的里程;④降雪量与交通事故的发生率之间的关系.(2)某种产品的广告费支出x与销售额y之间有如下对应数据(单位:百万元).x 24568y 3040605070①画出散点图;②从散点图中判断销售金额与广告费支出成什么样的关系?(1)②④[在①中,扇形的半径与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.](2)[解]①以x对应的数据为横坐标,以y对应的数据为纵坐标,所作的散点图如图所示.②从图中可以发现广告费支出与销售金额之间具有相关关系,并且当广告费支出由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.两个变量是否相关的两种判断方法1.根据实际经验:借助积累的经验进行分析判断.2.利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.[跟进训练]1. 在下列所示的四个图中,每个图的两个变量具有相关关系的图是( )(1) (2) (3) (4)A .(1)(2)B .(1)(3)C .(2)(4)D .(2)(3)D [图(1)的两个变量具有函数关系;图(2)(3)的两个变量具有相关关系;图(4)的两个变量之间既不是函数关系,也不是相关关系.]类型2 求回归直线方程【例2】 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.x34 56y 2.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) [解] (1)由题设所给数据,可得散点图如图.(2)由对照数据,计算得: ∑4i =1x 2i =86,x -=3+4+5+64=4.5, y -=2.5+3+4+4.54=3.5,已知∑4i =1x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为 b ^=∑4i =1x i y i -4x - y-∑4i =1x 2i -4x-2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y --b ^x -=3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).求回归方程的一般步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n ). (2)作出散点图,确定x ,y 具有线性相关关系. (3)计算x -,y -,∑ni =1x 2i ,∑ni =1x i y i .(4)代入公式计算b ^,a ^,公式为⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x -y-∑n i =1x 2i-n x-2,a ^=y --b ^x -.(5)写出回归方程y ^= b ^x +a ^.[跟进训练]2.某研究机构对某校学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y 2 356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的回归直线方程. [解] (1)散点图如图所示.(2)x -=6+8+10+124=9,y -=2+3+5+64=4,∑n i =1(x i -x -)(y i -y -)=(-3)×(-2)+(-1)×(-1)+1×1+3×2=14,∑ni =1(x i -x -)2=(-3)2+(-1)2+1+32=20,所以b ^=1420=0.7,所以a ^=y --b ^x -=4-0.7×9=-2.3,故回归直线方程为y ^=0.7x -2.3. 类型3 回归直线方程的性质及应用假设y 与x 具有相关关系,而且回归直线方程为y ^=b ^x +a ^. 1.回归直线方程的单调性由哪个参数决定? [提示] b ^.2.该方程必过哪个定点? [提示] (x -,y -).【例3】 (多选题)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg ABC [当x =170时,y ^=0.85×170-85.71=58.79, 体重的估计值为58.79 kg ,故D 错误,ABC 均正确.]1.相关关系的正、负相关类同于函数的增、减性,与其斜率有关,必要时可画散点图以增强直观性.2.由回归方程得出的函数值不一定是准确值,只是个估计值.[跟进训练]3.(1)根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )x345678y 4.0 2.5 -0.5 0.5 -2.0 -3.0A .a ^>0,b ^>0 B .a ^>0,b ^<0 C .a ^<0,b ^>0D .a ^<0,b ^<0(2)某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表.气温(℃)18 13 10 -1用电量(度) 24 34 3864由表中数据得线性回归方程y ^=b ^x +a ^中b ^=-2,预测当气温为-4 ℃时,用电量的度数约为________度.(1)B (2)68 [(1)画出散点图,知a ^>0,b ^<0.(2)x -=10,y -=40,回归方程过点(x -,y -), ∴40=-2×10+a ^. ∴a ^=60.∴y ^=-2x +60. 令x =-4,∴y ^=(-2)×(-4)+60=68.]1.以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )① ② ③ ④A .①②B .①③C .②③D .③④ B [①③中的点分布在一条直线附近,适合线性回归模型.]2.由变量x 与y 相对应的一组数据(1,y 1),(5,y 2),(7,y 3),(13,y 4),(19,y 5)得到的线性回归方程为y ^=2x +45,则y -=( )A .135B .90C .67D .63D [∵x -=15(1+5+7+13+19)=9,y -=2x -+45,∴y -=2×9+45=63,故选D .]3.工人工资y (元)与劳动生产率x (千元)的相关关系的回归方程为y ^=50+80x ,下列判断正确的是( )A .劳动生产率为1 000元时,工人工资为130元B .劳动生产率提高1 000元时,工人工资平均提高80元C .劳动生产率提高1 000元时,工人工资平均提高130元D .当月工资为250元时,劳动生产率为2 000元B [因为回归直线的斜率为80,所以x 每增加1,y 平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.]4.某地区近10年居民的年收入x 与年支出y 之间的关系大致符合y ^=0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元.12.1 [将x =15代入y ^=0.8x +0.1,得y ^=12.1.]5.如图是一组数据(x ,y )的散点图,经最小二乘法计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^=________.0.8 [x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)的坐标代入y ^=b ^x +1,解得b ^=0.8.]回顾本节内容,自我完成以下问题: 1.相关关系与函数关系有何区别与联系? [提示] 分类函数关系相关关系特征变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性区别是确定性关系,还是因果关系.例如,圆的半径由1增大到2,其面积必然由π增大到4π是一种不确定性关系.例如,吸烟不一定患肺癌,但吸烟多的人患肺癌的风险会大幅度增加.相关关系不一定是因果关系,也可能是伴随关系联系函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.二者在一定条件下可以相互转化,对于具有线性相关关系的两个变量来说,当求得其回归直线方程后,可以用一种确定性的关系对这两个变量间的取值进行评估 2.回归直线方程与直线方程有何区别?[提示] 回归直线方程中y 的上方加记号“^”是与实际值y 相区别,因为回归直线方程中的“y ^”的值是通过统计大量数据所得到的一个预测值,它具有随机性,因而对于每一个具体的实际值而言,y ^的值只是比较接近,但存在一定的误差,即y =y ^+e (其中e 为随机变量),预测值y ^与实际值y 的接近程度由随机变量e 的标准差决定.直线方程中y 与x 的关系是确定的,给x 一个值,y 有唯一确定的值与之对应。
两个变量间的线性相关及回归方程的求法专题一、如何认识两个变量间的相关关系相关关系我们可以从以下三个方面加以认识:(1)相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.例如正方形面积S与边长x之间的关系2xS就是函数关系.即对于边长x的每一个确定的值,都有面积S的惟一确定的值与之对应.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如人的身高与年龄;商品的销售额与广告费等等都是相关关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如有人发现,对于在校儿童,身高与阅读技能有很强的相关关系.然而学会新词并不能使儿童马上长高,而是涉及到第三个因素——年龄,当儿童长大一些,他们的阅读能力会提高而且由于长大身高也会高些.(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化.例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性.而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计.相关关系在现实生活中大量存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.因此研究相关关系,不仅可使我们处理更为广泛的数学应用问题,还可使我们对函数关系的认识上升到一个新的高度.二、如何判断两个变量线性相关关系1、利用变量相关关系的概念利用变量相关关系的概念判断时,一般是看当一个变量的值一定时,另一个变量是否带有确定性,两个变量之间的关系具有确定关系--函数关系;两个变量之间的关系具有随机性,不确定性--相关关系。
例1、在下列各个量与量的关系中:①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的收入与支出之间的关系;⑤某户家庭用电量与水费之间的关系。
第22讲 回归直线方程一、必备秘籍 1.两个变量线性相关(1)散点图:将样本中n 个数据点(,)i i x y (i =1,2,…,n )描在平面直角坐标系中得到的图形. (2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. (3)回归方程的推导过程:①假设已经得到两个具有线性相关关系的变量的一组数据11(,)x y ,22(,)x y ,33(,)x y (,)n n x y .②设所求回归方程为y bx a =+,其中,a b 是待定参数. ③由最小二乘法得1122211()(),()nnii i ii i nniii i xx y y x ynx yb a y bx xx xnx ====---===---∑∑∑∑其中,b 是回归方程的斜率,a 是截距. 二、例题讲解1.(2021·哈尔滨市呼兰区第一中学校高三模拟预测(文))十三届全国人大三次会议表决通过了《中华人民共和国民法典》这部法律自2021年1月1日起施行,某市相关部门进行法律宣传,某宣传小分队记录了前5周每周普及宣传的人数与时间的数据,得到下表:(2)利用(1)的回归方程,预测该宣传小分队第7周普及宣传(民法典)的人数.参考公式及数据:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆa y bx=-,()()51430i ii x x y y =--=∑.【答案】(1)4341y x =+;(2)预测该宣传小分队第7周普及宣传《民法典》的人数为342. 【分析】(1)求出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出y 关于x 的线性回归方程;(2)将7x =代入回归直线方程,可得出结果. 【详解】(1)由题意得()11234535x =++++=,()1901201702102601705y =++++=, ()()()()()()52222221132333435310ii x x =-=-+-+-+-+-=∑,所以()()()51521430ˆ4310iii ii x x y y bx x ==--===-∑∑,所以ˆ17043341a y bx=-=-⨯=, 所以线性回归方程为4341y x =+;(2)由(1)知4341y x =+,令7x =,解得43741342y =⨯+=, 故预测该宣传小分队第7周普及宣传《民法典》的人数为342.2.(2021·合肥市第六中学高三模拟预测(文))树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y bx a =+,其中()()()1122211n ni iiii i b nnixii i x y nxy x x y y xnx x ==-==---==--∑∑∑∑,a y bx =-.【答案】(1)ˆ 20.9y x =+;(2)12【分析】(1)由最小二乘法先求样本点中心(),x y ,再代入公式求ˆ2b=,即可得到答案;(2)先计算6棵A 树木中残差为零的有3棵,占比为3162=,即可得到答案; 【详解】(1)由1(0.10.20.30.40.50.6)0.356x =⨯+++++=,1(1.1 1.3 1.6 1.5 2.0 2.1) 1.66y =⨯+++++=,610.1 1.10.2 1.30.3 1.60.4 1.50.5 2.00.6 2.1 3.71i ii x y==⨯+⨯+⨯+⨯+⨯+⨯=∑,6222222210.10.20.30.40.50.60.91ii x==+++++=∑,有62261216 3.7160.35 1.6ˆ20.9160.356i ii ii x yxybxx ==--⨯⨯===-⨯-∑∑,ˆˆ 1.6020.350.9ay bx =-=-⨯=, 故y 关于x 的回归方程为:ˆ 20.9yx =+. (2)当0.1x =时,ˆ20.10.9 1.1y=⨯+=,残差为1.1 1.10-=, 当0.2x =时,ˆ20.20.9 1.3y=⨯+=,残差为1.3 1.30-=, 当0.3x =时,ˆ20.30.9 1.5y=⨯+=,残差为1.6 1.50.1-=, 当0.4x =时,ˆ20.40.9 1.7y=⨯+=,残差为1.5 1.70.2-=-, 当0.5x =时,ˆ20.50.9 1.9y=⨯+=,残差为2.0 1.90.1-=, 当0.6x =时,ˆ20.60.9 2.1y=⨯+=,残差为2.1 2.10-=, 由这6棵A 树木中残差为零的有3棵,占比为3162=,∴这棵树木“长势标准”的概率为12.1.(2021·湖南师大附中高三月考)今年五月,某医院健康管理中心为了调查成年人体内某种自身免疫力指标,从在本院体检的人群中随机抽取了100人,按其免疫力指标分成如下五组:(10,20],(20,30],(30,40],(40,50],(50,60],其频率分布直方图如图1所示.今年六月,某医药研究所研发了一种疫苗,对提高该免疫力有显著效果.经临床检测,将自身免疫力指标比较低的成年人分为五组,各组分别按不同剂量注射疫苗后,其免疫力指标y 与疫苗注射量x 个单位具有相关关系,样本数据的散点图如图2所示.(1)健管中心从自身免疫力指标在(40,60]内的样本中随机抽取3人调查其饮食习惯,记X 表示这3人中免疫力指标在(40,50]内的人数,求X 的分布列和数学期望;(2)由于大剂量注射疫苗会对身体产生一定的副作用,医学部门设定:自身免疫力指标较低的成年人注射疫苗后,其免疫力指标不应超过普通成年人群自身免疫力指标平均值的3倍.以健管中心抽取的100人作为普通人群的样本,据此估计疫苗注射量不应超过多少个单位.附:对于一组样本数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅,其回归直线ˆybx a =+的斜率和截距的最小二乘估计值分别为()()()1122211,nniii ii i nniii i x x yy x ynxyb a y bx x xxnx ====---===---∑∑∑∑. 【答案】(1)分布列见解析,125;(2)疫苗注射量不应超过80个单位. 【分析】(1)根据频率分布直方图分别求出自身免疫力指标在(40,50]内和在(50,60]内的人数,写出X 的可能取值,求出对应概率,即可写出分布列,再根据期望公式即可求得数学期望;(2)根据最小二乘法求得回归方程,然后求出免疫力指标的平均值,根据题意列出不等式,从而可得答案. 【详解】解:(1)由直方图知,自身免疫力指标在(40,50]内的人数为0.008101008⨯⨯=,在(50,60]内的人数为0.002101002⨯⨯=,则X 的可能取值为1,2,3.其中122130828282233101010177(1),(2),(3)151515C C C C C C P X P X P X C C C =========.所以X 的分布列为()7121231515155E X =⨯+⨯+⨯=. (2)由散点图知,5组样本数据(,)x y 分别为(10,30),(30,50),(50,60),(70,70),(90,90),且x 与y 具有线性相关关系. 因为50,60x y ==,则22222210303050506070709090550607103050709055010b ⨯+⨯+⨯+⨯+⨯-⨯⨯==++++-⨯,760502510a =-⨯=,所以回归直线方程为ˆ0.725yx =+. 由直方图知,免疫力指标的平均值为26402482152535455527100100100100100⨯+⨯+⨯+⨯+⨯=. 由27381ˆy≤⨯=,得0.72581x +≤,解得80x ≤. 据此估计,疫苗注射量不应超过80个单位.2.(2021·安徽师范大学附属中学(理))根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)的一个样本,5天内每天新接种疫苗的情况,如下统计表:(2)假设全村共计2000名居民(均未接种过疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天?参考公式:回归方程y bx a =+中斜率和截距的最小二乘估计公式分别为:1221ˆi ii nii x ynxybxnx π==-=-∑∑,ˆˆay bx =-. 【答案】(1)222955y x =+;(2)7. 【分析】(1)根据公式求线性回归方程即可; (2)根据线性回归方程可设222955n a n ,求出67,S S ,与200080%1600⨯=比较即可求解. 【详解】 (1)1234535x ++++==,1015192328195y ++++==,则51522222222110305792140531922ˆ12345535i ii ii x y nxybxnx ==-++++-⨯⨯===++++-⨯-∑∑,222919355ˆa =-⨯=, 故y 关于x 的线性回归方程222955y x =+. (2)设222955na n ,数列{}n a 的前n 项和为n S ,易知数列{}n a 是等差数列, 则()12222922291155558225n n n a a S n n n n⎛⎫+++ ⎪+⎝⎭=⋅=⋅=+, 因为6127.2S ,7163.8S , 所以6101272S =,7101638S =200080%1600⨯=(人),所以预测该村80%居民接种新冠疫苗需要7天.3.(2021·九龙坡·重庆市育才中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增.根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:其中,时间变量i 对应的机动车纯增数据为i ,且通过数据分析得到时间变量与对应的机动车纯增数量y (单位:万辆)具有线性相关关系.(1)求机动车纯增数量y (单位:万辆)关于时间变量x 的回归方程,并预测2025~2030年间该市机动车纯增数量的值;附:回归直线方程y bx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211n ni iiii i nniii i x y nx y x x y y b xnxx x ====-⋅--==--∑∑∑∑;a y bx =-.(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了200名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的22⨯列联表:附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.【答案】(1) 5.7 5.1y x =-,2025~2030年间,机动车纯增数量的值约为34.8万辆;(2)没有95%的把握认为“对限行的意见与是否拥有私家车有关”. 【分析】(1)根据最小二乘法求得线性回归方程,再求估计值即可; (2)根据列联表求得卡方观测值,再对照表即可得解. 【详解】 (1)由 51132639415527237i ii x y=⨯+⨯+⨯+=⨯+⨯=∑.()12222222212375312575.755451234553ni ii ni i x y nx yb x nx==-⋅-⨯⨯====-++++-⨯-∑∑. 因为y bx a =+过点(),x y ,所以 5.7y x a =+,5.1a =-,所以 5.7 5.1y x =-.2025~2030年时,7x =,所以 5.77 5.134.8y =⨯-=, 所以2025~2030年间,机动车纯增数量的值约为34.8万辆.(2)根据列联表,由()()()()()22n ad bc K a b c d a c b d -=++++得观测值为()2220025 3.12510085251575100160084K ⨯⨯-⨯⨯=⨯⨯==,3.125 3.841<,所以没有95%的把握认为“对限行的意见与是否拥有私家车有关”.4.(2021·贵州贵阳·高三月考(理))据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm 之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm ,其余均在50mmm 以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为50%.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x (x ∈N ,且09x ≤≤)表示是否下雨:当[]()0,x k k Z ∈∈时表示该地区下雨,当[]1,9x k ∈+时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下: 332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1)求出k 的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨量(单位:mm )如表:回归直线方程y bt a =+.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:()()()1122211nniii ii i nniii i tty y t y nt yb tttnt====---==--∑∑∑∑,a y bt =-.【答案】(1)4, 25;(2)814955y t =-+,935mm .【分析】(1)由于该地区每一天下雨的概率均为50%,所以150%10k +=,从而可求出k 的值,在所给的20组数据中找出有两天小于等于k 的数,从而利用古典概型的概率公式可求出概率,(2)直接利用所给的数据和公式求出回归直线方程。
回归直线方程的三种推导方法 巴州二中母润萍回归直线方程是新课改新增内容之一,在必修数学3中对两个具有线性相关关系的变量利用回归分析的方法进行了研究,书中直接给出了回归直线方程系数的公式,在选修2-3中给出了回归直线方程的截距和斜率的最小二乘法估计公式的另一种形式的推导方法,根据所学知识,我总结了3种推导回归直线方程的方法:设x 与y 是具有线性相关关系的两个变量,且相应于样本的一组观测值的n 个点的坐标分别是:112233()()()()n n x y x y x y x y ,,,,,,,,,设所求的回归方程为i i y bx a =+,(123)i n =,,,,.显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n 个点与回归直线的整体上的接近程度,因而采用n 个偏差的平方和Q 来表示n 个点与相应直线(回归直线)在整体上的接近程度,即Q =∑(y i −y i ̂)2ni=1=∑(y i −bx i −a )2ni=1求出当Q 取最小值时的a b ,的值,就求出了回归方程. 下面给出回归方程的推导方法一:一、先证明两个在变形中用到的公式公式(一)22211()nni ii i x x x nx ==-=-∑∑,其中12nx x x x n +++=证明:2222121()()()()ni n i x x x x x x x x =-=-+-++-∑∵22221212()2n n x x x x x x nxnxn+++=+++-+222222222212121()2()nnni i x x x nx nx x x x x nx==+++-+=+++=-∑22211()nni i i i x x x nx==-=-∑∑∴.公式(二)11()()nnii i i i i xx y y x y nx y==--=-∑∑证明:11221()()()()()()()()ni i n n i x x y y x x y y x x y y x x y y =--=--+--++--∑∵11221122()()n n n n x y x y x y x y y x x y y x x y y x nx y=+++-+++++++12121[()()]ni i n n i x y x x x y y y y x nx y==-++++++++∑12121()()n n n i i i x x x y y y x y n y x nx y n n=++++++⎡⎤=-++⎢⎥⎣⎦∑112nni i i i i i x y nxy nxy x y nxy===-+=-∑∑,11()()nni i i i i i x x y y x y nx y==--=-∑∑∴.二、推导:将Q 的表达式的各项先展开,再合并、变形 2222112233()()()()n n Q y bx a y bx a y bx a y bx a =--+--+--++--2222121122()[2()2()]n y y y y bx a y bx a =+++-+++展开222211111222n n nnni i i i ii i i i i i y b x y a y bxab x na ======--+++∑∑∑∑∑合并同类项22221111122nnii n n ni i i i i i i i i y x na na b b x b x y y nn =====⎛⎫ ⎪ ⎪=--+-+ ⎪ ⎪⎝⎭∑∑∑∑∑以a b ,的次数为标准整理22221112()2nn nii i i i i i na na y bx bxb x y y ====--+-+∑∑∑转化为平均数x y,22222111[()]()2nnnii i i i i i n a y bx n y bx bxb x y y ====----+-+∑∑∑配方法2222222111[()]22nnnii i i i i i n a y bx ny nbxy nb x bxb x y y ====---+-+-+∑∑∑展开222222111[()]()2()()nnni i i i i i i n a y bx b x nx b x y nxy y ny ====--+---++∑∑∑整理2222111[()]()2()()()nnnii i i i i i n a y bx bxx b x x y y y y ====--+----+-∑∑∑用公式(一)、(二)变形22212111()()[()]()()()ni i n ni i i nii i i x x y y n a y bx x x b y y x x ====⎡⎤--⎢⎥⎢⎥=--+--+-⎢⎥-⎢⎥⎣⎦∑∑∑∑配方22212212211111()()()()()()()()()nni i i i n n i i i i n ni i i i i x x y y x x y y n a y bx x x b y y x x x x ======⎡⎤⎡⎤----⎢⎥⎢⎥⎣⎦⎡⎤⎢⎥=--+---+-⎣⎦⎢⎥--⎢⎥⎣⎦∑∑∑∑∑∑配方法在上式中,共有四项,后两项与a b ,无关,为常数;前两项是两个非负数的和,因此要使得Q 取得最小值,当且仅当前两项的值都为0.所以b =∑(x i −x̅)(y i −y ̅)n i=1∑(x i−x̅)2n i=1 a =y ̅−bx̅ 或1221ni ii n i i x ynxyb x nx==-=-∑∑用公式(一)、(二)变形得上述推导过程是围绕着待定参数a b ,进行的,只含有i i x y ,的部分是常数或系数,用到的方法有: ① 配方法,有两次配方,分别是a 的二次三项式和b 的二次三项式; ② 形时,用到公式(一)、(二)和整体思想; ③ 用平方的非负性求最小值.④ 实际计算时,通常是分步计算:先求出x y,,再分别计算1()()nii i xx y y =--∑,21()nii xx =-∑或1ni ii x ynx y=-∑,221nii xnx=-∑的值,最后就可以计算出a b ,的值.推导方法二:Q =∑(y i −y i ̂)2ni=1=∑(y i −bx i −a )2ni=1=∑[y i −bx i −(y ̅−bx̅)+(y ̅−bx̅)−a ]2ni=1=∑{[y i −bx i −(y ̅−bx̅)]2+2[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]+[(y ̅−bx̅)−a ]2}ni=1=∑[y i −bx i −(y ̅−bx̅)]2+2∑[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]ni=1+n (y ̅−bx̅−a )2ni=1注意到∑[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]=(y ̅−bx̅−a )∑[y i −bx i −(y ̅−bx̅)]ni=1ni=1=(y ̅−bx̅−a )[∑y i −b ∑x i −n (y ̅−bx̅)ni=1n i=1]=(y ̅−bx̅−a )[ny ̅−nbx̅−n (y ̅−bx̅)]=0因此,Q =∑[y i −bx i −(y̅−bx̅)]2+n (y ̅−bx̅−a )2n i=1 =b 2∑(x i −x̅)2ni=1−2b ∑(x i −x̅)(y i −y ̅)+∑(y i −y ̅)2ni=1ni=1+n (y ̅−bx̅−a )2=n (y ̅−bx̅−a )2+∑(x i −x̅)2[b −∑(x i −x̅)(y i −y ̅)n i=1∑(x i −x̅)2n i=1]2ni=1−[∑(x i −x̅)(y i −y ̅)n i=1]2∑(x i −x̅)2n i=1+∑(y i −y ̅)2ni=1在上式中,后面两项和a,b 无关,前两项为非负数,因此,要使Q 达到最小值,当且仅当前两项均为0,即有b =∑(x i −x̅)(y i −y ̅)n i=1∑(x i −x̅)2n i=1a =y ̅−bx̅ 总结:这种方法难想到为什么要这样处理,并且计算量很大。
怎么用WPS表格做直线回归方程
怎么用WPS表格做直线回归方程
如今,很少有人自己拿着计算器根据公式,算着线性回归方程。
在WPS上,只需要输入数据,就能画出近拟的直线,给出方程。
下面店铺为大家介绍怎么用WPS表格做直线回归方程的方法。
WPS表格做直线回归方程的方法:
1.在wps表格中输入数据,选择插入-图表。
2.选择散点图,然后选择好,填入自己需要的横纵坐标,标题之类。
3.完成插入图表,在界面上出现散点图。
4.对着散点右击,选择“添加趋势线”。
5.可以选择线性,此时界面中会出现一天近拟的直线。
6.同时在“选项”一栏中,还可添加方程和R平方值。
会计回归直线法公式全文共四篇示例,供读者参考第一篇示例:在会计学中,回归直线法是一种用于确定两个或多个变量之间关系的方法。
回归直线法可以帮助会计师们分析数据,预测未来趋势,并做出决策。
本文将介绍会计回归直线法的公式以及如何应用这一方法。
回归直线法的基本公式为:Y = a + bX,其中Y表示因变量(被解释变量),X表示自变量(解释变量),a为截距,b为斜率。
该公式描述了变量Y如何随着变量X的变化而变化。
在会计学中,回归直线法常常用于预测未来的销售额、成本、利润等。
通过分析历史数据,会计师可以确定变量Y和X之间的关系,然后利用回归直线法的公式来预测未来的数值。
在实际应用中,会计师可以使用统计软件如Excel或SPSS来进行回归分析。
通过输入相关数据并运行回归分析功能,可以得到最佳拟合直线的截距和斜率,从而进行未来预测。
除了用于预测未来趋势,回归直线法还可以用于检验两个变量之间的关系是否显著。
通过计算回归系数的显著性水平,可以确定两个变量之间的关系是否具有统计学意义。
需要注意的是,在使用回归直线法进行分析时,要确保数据质量高,避免数据的误差和偏差对结果的影响。
此外,还需要考虑变量之间可能存在的多重共线性和异方差性等问题,以确保分析结果的准确性。
总的来说,回归直线法是会计学中一种重要的分析方法,能够帮助会计师们理解数据之间的关系,预测未来趋势,并做出有效的决策。
通过掌握回归直线法的基本原理和公式,会计师可以更好地应用这一方法,提升自己的分析能力和决策水平。
【字数不足,继续增加内容】。
在实际应用中,回归直线法还可以应用于成本控制和风险管理等领域。
通过分析成本和销售量之间的关系,企业可以控制成本,提升盈利能力。
而在风险管理方面,通过回归直线法的分析,企业可以预测未来的市场变化和风险,并采取相应的风险管理措施。
总的来说,回归直线法是会计学中一种重要的分析方法,具有广泛的应用价值。
通过掌握回归直线法的基本原理和公式,会计师可以更好地理解数据,做出准确的决策,并提升企业的竞争力。
回归分析
【知识点的知识】
1、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:=x+.求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②求回归系数;
③写出回归直线方程,并利用回归直线方程进行预测说明.
2、回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法.
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数(最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.
第1页共1页。
回归方程求b公式两种:∑(xi-X)(yi-Y)、∑(xiyi)-nXY,回归方程是根据样本资料通过回归分析所得到的反映一个变量对另一个或一组变量的回归关系的数学表达式。
回归直线方程用得比较多,可以用最小二乘法求回归直线方程中的a、b,从而得到回归直线方程。
若在一组具有相关关系的变量的数据(x与Y)间,通过散点图我们可观察出所有数据点都分布在一条直线附近,这样的直线可以画出许多条,而我们希望其中的一条最好地反映x与Y之间的关系,即我们要找出一条直线,使这条直线“最贴近”已知的数据点。
因为模型中有残差,并且残差无法消除,所以就不能用二点确定一条直线的方法来得到方程,要保证几乎所有的实测值聚集在一条回归直线上,就需要它们的纵向距离的平方和到那个最好的拟合直线距离最小。
一元回归方程公式回归分析只涉及到两个变量的,称一元回归分析。
一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。
回归分析就是要找出一个数学模型Y=f(X),使得从X估计Y可以用一个函数式去计算。
当Y=f(X)的形式是一个直线方程时,称为一元线性回归。
这个方程一般可表示为Y=A+BX。
根据最小平方法或其他方法,可以从样本数据确定常数项A与回归系数B的值。
A、B确定后,有一个X的观测值,就可得到一个Y的估计值。
回归方程是否可靠,估计的误差有多大,都还应经过显著性检验和误差计算。
有无显著的相关关系以及样本的大小等等,是影响回归方程可靠性的因素。
回归方程公式:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)。
1、回归直线方程可以用最小二乘法求回归直线方程中的a,b,从而得到回归直线方程。
线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。
按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。
2、回归方程是对变量之间统计关系进行定量描述的一种数学表达式。
线性回归模型,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
3、最小二乘法又称最小平方法,是一种数学优化技术。
与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在实践中是很困难的。
一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。
直线回归方程典例1.直线回归方程的应用(1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系(2)利用回归方程进行预测;把预报因子(即自变量x )代入回归方程对预报量(即因变量Y )进行估计,即可得到个体Y 值的容许区间.(3)利用回归方程进行统计控制规定Y 值的变化,通过控制x 的范围来实现统计控制的目标.如已经得到了空气中NO 2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO 2的浓度.2.应用直线回归的注意事项(1)做回归分析要有实际意义;(2)回归分析前,最好先作出散点图; (3)回归直线不要外延.3.确定直线回归方程的实例分析:某调查者从调查中获知某公司近年来科研费用支出(i X )与公司所获得利润(i Y )的统计资料如下表:科研费用支出(X )与利润(Y )统计表 单位:万元要求估计利润(i )对科研费用支出(i )的线性回归模型.解:设线性回归模型直线方程为:i i X Y 10ˆˆˆββ+=因为:5630===∑n XX i306180===∑nYY i现利用公式(Ⅰ)、(Ⅱ)、(Ⅲ)求解参数10的估计值:23006009001200540060003020061803010006)(ˆ2221==--=-⨯⨯-⨯=--=∑∑∑∑∑i i i i i i X X n Y X Y X n β 205230ˆˆ10=⨯-=-=X Y ββ∑∑--=-=22110)(ˆˆˆX n X Y X n Y X X Y ii i βββ 205230ˆˆ10=⨯-=-=X Y ββ25010056200305610002==⨯-⨯⨯-=∑∑---=-=2110)())((ˆˆˆX X Y Y X X X Y ii iβββ 205230ˆˆ10=⨯-=-=X Y ββ250100==所以:利润(i Y )对科研费用支出(i X )的线性回归模型直线方程为:i i X Y 220ˆ+=5.求直线回归方程,相关系数和作图,这些EXCEL 可以方便地做到.仍以上题的数据为例.于 EXCEL 表 中的空白区,选用"插入"菜单命令中的"图表",选中 XY 散 点图类型,在弹出的图表向导中按向导的要求一步一步地 操作,如有错误可以返回去重来或在以后修改.适当修饰 图的大小、纵横比例、字体大小、和图符的大小等,使图 美观,最后得到图1,图中有直线称为趋势线,还有直线方程和相关系数.图中的每一个部份如坐标、标题、图例 等都可以分别修饰,这里主要介绍趋势线和直线方程.图1散点图鼠标右键点击图中的数据点,出现一个对话框,选“添加趋势线”,图中自动画上一条直线,再以鼠标右击此线,出现趋势线格式对话框,选择线条的粗细和颜色,在选项中选取显示公式和显示R 平方值,确定后即在图中显示回归方程和相关系数.。