★精选最新★人教版最新全国卷高考数学复习专题——-统计与统计案例及参考答案
- 格式:doc
- 大小:437.52 KB
- 文档页数:4
高考数学最新真题专题解析—统计(新高考卷)【母题来源】2022年新高考I 卷 【母题题文】一支医疗团队研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好 良好 病例组 40 60 对照组1090异⋅(2)从该地的人群中任选一人,A 表示事件“选到的人卫生习惯不够良好”,B 表示事件“选到的人患有该疾病”,P(B|A)与P(B|A)P(B|A)的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R . (i)证明:R =P(A|B).P(A|B)P(A|B)(ii)利用该调查数据,给出P(A|B),P(A|B)的估计值,并利用(i)的结果给出R 的估计值.附:K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828【答案】解:(1)得到2×2联表如下:不够良好 良好 总计 病例组 40 60 100 对照组 10 90 100 总计50150200∵K 2=200×(40×90−60×10)2100×100×50×150=24>10.828∴有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异; (2)(i)证明:∵P(B|A)=P(BA)P(A),P(B|A)=P(BA)P(A),P(B|A)=P(BA)P(A),P(B|A)=P(B A)P(A), ∴R =P(B|A)P(B|A)P(B|A)P(B|A)=P(BA)P(A)P(BA)P(A)÷P(BA)P(A)P(B A)P(A)=P(BA)P(BA)·P(B A)P(BA)又∵P(A|B)=P(AB)P(B),P(A|B)=P(AB)P(B),P(A|B)=P(A B)P(B),P(A|B)=P(AB)P(B),∴P(A|B)·P(A|B)P(A|B)=P(AB)P(B)P(AB)P(B)·P(A B)P(B)P(AB)P(B)=P(AB)·P(A B)P(AB)=P(BA)·P(B A)P(BA),∴R =P(A|B)·P(A|B)P(A|B)(ii)∵P(A|B)=P(AB)P(B)=40100=25,P(A|B)=P(AB)P(B)=60100=35,P(A|B)=P(A B)P(B)=90100=910,P(A|B)=P(AB)P(B)=10100=110∴P(A|B)P(A|B)⋅P(A|B)P(A|B)=2535×910110=6∴R =P(A|B).P(A|B)P(A|B)=6即P(A|B)=25,P(A|B)=110,R 的估计值为6. 【母题来源】2022年新高考II 卷 【母题题文】在某地区进行某种疾病调查,随机调查了100位这种疾病患者的年龄,得到如下样本数据频率分布直方图.(1)估计该地区这种疾病患者的平均年龄; (同一组数据用该区间的中点值作代表)(2)估计该地区以为这种疾病患者年龄位于区间[20,70)的概率;(3)已知该地区这种疾病患者的患病率为0.1%,该地区年龄位于区间[40,50)的人口数占该地区总人口数的16%,从该地区选出1人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(精确到0.0001).【答案】解:(1)平均年龄x=(5×0.001+15×0.002+25×0.012+35×0.017+45×0.023+55×0.020+65×0.017+75×0.006+85×0.002)×10=47.9(岁)(2)设A={一人患这种疾病的年龄在区间[20,70)},则P(A)=1−P(A)=1−(0.001+0.002+0.006+0.002)×10=1−0.11=0.89(3)设B={任选一人年龄位于区间[40,50)},C={任选一人患这种疾病},则由条件概率公式,得P(C|B)=P(BC)P(B)=0.1%×0.023×1016%=0.001×0.230.16=0.0014375≈0.0014.【命题意图】1.考察频率分布直方图。
2025届高考数学一轮复习人教A 版多选题专题练:第九章 统计一、多项选择题1.2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2000头生猪的体重(单位:kg )进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是( )A.这2000头生猪体重的众数为160kgB.这2000头生猪中体重不低于200kg 的有80头C.这2000头生猪体重的中位数落在区间[140,160)内D.这2000头生猪体重的平均数为152.8kg2.某公司为了解用户对其产品的满意度,从甲、乙两地区分别随机调查了100个用户,根据用户对产品的满意度评分,分别得到甲地区和乙地区用户满意度评分的频率分布直方图,如图所示.若甲地区和乙地区用户满意度评分的中位数分别为1m ,2m ,平均数分别为1s ,2s ,则下面正确的是( )A.12m m >B.12m m <C.D.3.在某次高中学科竞赛中,4000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间的中点值作代表,则下列说法中正确的是( )A.成绩在[70,80)内的考生人数最多B.不及格的考生人数为1000C.考生竞赛成绩的平均分约为70.5分D.考生竞赛成绩的中位数为75分4.在我们发布的各类统计数据中,同比和环比都是反映增长速度的核心数据指标.如图是某专业机构统计的2022年1-12月中国校车销量走势图,则下列结论正确的是( )A.8月校车销量的同比增长率与环比增长率都是全年最高B.1-12月校车销量的同比增长率的平均数小于环比增长率的平均数C.1-12月校车销量的环比增长率的极差大于同比增长率的极差D.1-12月校车销量的环比增长率的方差大于同比增长率的方差12s s <12s s >5.某院校教师情况如下表所示.关于2020年、2021年、2022年这三年该院校的教师情况,下面说法正确的是( )A.2021年的男教师最多B.该校教师最多的是2022年C.2021年中年男教师比2020年中年男教师多80人D.2020年到2022年,该校青年年龄段的男教师人数增长率为220%6.某市2023年经过招商引资后,经济收入较前一年增加了一倍,实现翻番,为更好地了解该市的经济收入的变化情况,统计了该市招商引资前后的年经济收入构成比例,得到如下扇形图.则下列结论中正确的是( )A.招商引资后,工资净收入较前一年减少B.招商引资后,转移净收入是前一年的2.5倍D.招商引资后,经营净收入较前一年增加了一倍7.为了调查,两种药物预防某种疾病的效果,某研究所进行了动物试验.已知参与两种药物试验的动物的品种,状态,数量均相同,图1是药物试验结果对应的等高堆积条形图,图2是药物试验结果对应的等高堆积条形图,则( )A.服用药物的动物的患病比例低于未服用药物的动物的患病比例B.服用药物对预防该疾病没有效果C.在对药物的试验中,患病动物的数量约占参与药物试验动物总数量的D.药物比药物预防该种疾病的效果好当月增速100%-=⨯去年同期产量当月产量去年同期产量.C.2021年4月至2021年12月我国规模以上工业天然气产量当月增速的极差为12.6%D.2021年4月至2021年12月我国规模以上工业天然气日均产量的40%分位数为5.3亿立方米9.下列说法正确的是( )A.已知随机变量X 服从二项分布14,2B ⎛⎫ ⎪⎝⎭,则()1D X =B.设随机变量X 服从正态分布()0,1N ,若(1)0.15P X >=,则(10)0.15P X -<<=C.已知一组数据为1,2,3,4,5,6,7,8,9,10,则它的第70百分位数为7D.若事件A ,B 满足()0P A >,()0P B >,(|)()P B A P B =,则事件A ,B 相互独立10.“体育强则中国强,国运兴则体育兴”.为行战2024年巴黎奥运会,运动员们都在积极参加集训,已知某跳水运动员在一次集训中7位裁判给出的分敕分别为:9.1,9.3,9.4,9.6,9.8,10,10,则这组数据的( )A.平均数为9.6B.众数为1011.小明在家独自用下表分析高三前5次月考中数学的班级排名y 与考试次数x 的相关性时,忘记了6=,于是分别用6m =和8m =得到了两条回归直线方程:11y b x a =+,22y b x a =+,对应的相关系数分别为1r 、2r ,排名y 对应的方差分别为21s 、22s ,则下列结论正确的是( )(附:b =y =-A.12r r < B.2212s s < C.12b b < D.12a a <12.第75届联合国大会上,我国向世界郑重承诺力争在2030年前实现碳达峰,努力争取在2060年前实现碳中和.2021年全国两会的政府工作报告明确提出要扎实做好碳达峰、碳中和的各项工作,大力发展新能源.常见的新能源主要有潮汐能、风能、太阳能和地热能等.下图为2015年与2020年我国新增电力装机结构对比,则( )A.2015年我国新增电力装机中,火电装机占比最大B.2020年我国新增电力装机中,风电装机数多于火电装机数C.2020年我国水电新增装机数少于2015年D.2020年我国新增电力装机结构中,新能源装机占比大于2015年13.已知样本11:p ax ,,…,的均值为4,标准差为2,样本,,…,21n x -的方差为4,则样本和样本的( )A.平均数相等B.方差相等C.极差相等D.中位数相等14.某学校开展消防安全知识培训,对甲、乙两班学员进行消防安全知识测试,绘制测试成绩的频率分布直方图,如图所示:( )A.甲班成绩的平均数<甲班成绩的中位数B.乙班成绩的平均数<乙班成绩的中位数C.甲班成绩的平均数<乙班成绩的平均数D.乙班成绩的中位数<甲班成绩的中位数15.某校为了了解学生的身体素质,对2022届初三年级所有学生仰卧起坐一分钟的个数情况进行了数据统计,结果如图1所示.该校2023届初三学生人数较2022届初三学生人数上升了10%,2023届初三学生仰卧起坐一分钟的个数分布条形图如图2所示,则( )A.该校2022届初三年级学生仰卧起坐一分钟的个数在[)30,60内的学生人数占70%B.该校2023届初三学生仰卧起坐一分钟的个数在[]60,80内的学生人数比2022届初三学生仰卧起坐一分钟个数同个数段的学生人数的2.2倍还多C.该校2023届初三学生仰卧起坐一分钟个数和2022届初三学生仰卧起坐一分钟个数的中位数均在[)50,60内2ax n ax 12:21p x -221x -1p 2pD.相比于2022届初三学生仰卧起坐一分钟个数不小于50的人数,2023届初三学生仰卧起坐一分钟个数不小于50的人数占比增加16.有一组样本数据1x ,2x ,…,6x ,其中1x 是最小值,6x 是最大值,则( )A.2x ,3x ,4x ,5x 的平均数等于1x ,2x ,…,6x ,的平均数B.2x ,3x ,4x ,5x 的中位数等于1x ,2x ,…,6x ,的中位数C.2x ,3x ,4x ,5x 的标准差不小于1x ,2x ,…,6x ,的标准差D.2x ,3x ,4x ,5x 的极差不大于1x ,2x ,…,6x ,的极差17.我国居民收入与经济同步增长,人民生活水平显著提高.“三农”工作重心从脱贫攻坚转向全面推进乡村振兴,稳步实施乡村建设行动,为实现农村富强目标而努力.2017年~2021年某市城镇居民、农村居民年人均可支配收入比上年增长率如下图所示.根据下面图表,下列说法一定正确的是( )A.该市农村居民年人均可支配收入高于城镇居民B.对于该市居民年人均可支配收入比上年增长率的极差,城镇比农村的大C.对于该市居民年人均可支配收入比上年增长率的中位数,农村比城镇的大D.2021年该市城镇居民、农村居民年人均可支配收入比2020年有所上升18.某短视频平台以讲故事,赞家乡,聊美食,展才艺等形式展示了丰富多彩的新时代农村生活,吸引了众多粉丝,该平台通过直播带货把家乡的农产品推销到全国各地,从而推进了“新时代乡村振兴”.从平台的所有主播中,随机选取300人进行调查,其中青年人,中年人,其他人群三个年龄段的比例饼状图如图1所示,各年龄段主播的性别百分比等高堆积条形图如图2所示,则下列说法正确的有( )A.该平台女性主播占比的估计值为0.4B.从所调查的主播中,随机抽取一位参加短视频剪辑培训,则被抽到的主播是中年男性的概率为0.7C.按年龄段把所调查的主播分为三层,用分层抽样法抽取20名主播担当平台监管,若样本量按比例分配,则中年主播应抽取6名D.从所调查的主播中,随机选取一位作为幸运主播,已知该幸运主播是青年人的条件下,又是女性的概率为0.619.下列统计量中可用于度量样本1x,2x ,…,n x 离散程度的有( )A.1x ,2x ,…,n x 的标准差B.1x ,,…,的中位数C.1x ,2x ,…,n x 的极差D.1x ,2x ,…,n x 的平均数20.我国新冠肺炎疫情防控进入常态化,各地有序推动复工复产.下面是某地连续11天的复工、复产指数折线图.根据该折线图,( )A.这11天复工指数和复产指数均逐日增加B.在这11天期间,复产指数的增量大于复工指数的增量C.第3天至第11天,复工指数和复产指数都超过80%D.第9天至第11天,复产指数的增量大于复工指数的增量2x n x参考答案1.答案:BCD解析:由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2000头生猪的体重的众数为150kg ,A 错误;这2000头生猪中体重不低于200kg 的有0.00220200080⨯⨯=(头),B 正确;因为生猪的体重在[80,140)内的频率为(0.0010.0040.01)200.3++⨯=,在[140,160)内的频率为0.016200.32⨯=,且0.30.320.620.5+=>,所以这2000头生猪体重的中位数落在区间[140,160)内,C 正确;这2000头生猪体重的平均数为(0.001900.004110⨯+⨯0.011300.0161500.0121700.0051900.002210)20152.8(kg)+⨯+⨯+⨯+⨯+⨯⨯=,D 正确.故选BCD.2.答案:BC解析:由题中频率分布直方图得,甲地区[40,60)的频率为(0.0150.020)100.35+⨯=,[60,70)的频率为0.025100.25⨯=,所以甲地区用户满意度评分的中位数10.50.356010660.25m -=+⨯=,甲地区的平均数1450.01510550.02010650.02510750.02010s =⨯⨯+⨯⨯+⨯⨯+⨯⨯850.01010950.0101067+⨯⨯+⨯⨯=.乙地区[50,70)的频率为(0.0050.020)100.25+⨯=,[70,80)的频率为0.035100.35⨯=,所以乙地区用户满意度评分的中位数20.50.25701077.10.35m -=+⨯≈,乙地区的平均数2550.00510650.02010750.03510850.02510950.01510s =⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯77.5=,所以12m m <,12s s <.故选BC.3.答案:ABC解析:由频率分布直方图可得,成绩在[70,80)内的频率最高,因此考生人数最多,故A 正确;由频率分布直方图可得,成绩在[40,60)内的频率为10(0.010.015)0.25⨯+=,因此不及格的人数为40000.251000⨯=,故B 正确;由频率分布直方图可得,平均分约为450.1550.15650.2750.3850.15950.170.5⨯+⨯+⨯+⨯+⨯+⨯=(分),故C 正确;因为成绩在[40,70)内的频率为10(0.010.0150.02)0.45⨯++=,在[70,80)内的频率为0.3,所以中位数为0.50.45701071.670.3-+⨯≈,故D 错误.故选ABC.4.答案:BCD解析:2022年8月校车销量的同比增长率比9月的低,故A 错误;由校车销量走势图知1-12月校车销量的同比增长率的平均数为负数,环比增长率的平均即招商引资后,转移净收入是前一年的2.5倍,可得B 正确;对于C ,由招商引资后的年经济收入构成比例可知转移净收入与财产净收入的总和占比为33%,小对于D ,招商引资后的经营净收入为230%0.6a a ⨯=,招商引资前的经营净收入为30%0.3a a ⨯=,可得招商引资后,经营净收入较前一年增加了一倍,即D 正确.故选:BD7.答案:AD解析:根据题中两组等高堆积条形图,可知服用药物的动物的患病比例低于未服用药物的动物的患病比例,所以正确;服用药物未患病的动物的频率明显大于未服用药物的,所以可以认为服用药物对预防该疾病有一定效果,所以B 不正确;在对药物的试验中,患病动物的数量占参与药物试验动物总数量的比例为100%204302000%60%⨯=+<,所以C 不正确;药物试验结果对应的等高堆积条形图显示未服用药与服用药动物的患病数量的差异较药物试验的大,所以药物比药物预防该种疾病的效果好,所以D 正确.故选:AD.8.答案:ACD解析:2021年10月份我国规模以上工业天然气产量当月增速为0.5个百分点,9月份增速为7.1个百分点,比上月放缓6.6个百分点.故A 正确;2021年8月我国规模以上工业天然气产量为亿立方米,故B 错误;2021年4月至12月我国规模以上工业天然气产量当月增速的极差为13.1%0.5%12.6%-=.故C 正确;2021年4月至12月我国规模以上工业天然气日均产量从小到大为5.1,5.1,5.2,5.3,5.4,5.6,5.7,5.9,6.2,因为,所以该组数据的40%分位数为5.3亿立方米,故D 正确.9.答案:AD解析:因为随机变量X 服从二项分布,则()114(1)122D X =⨯⨯-=,故A 正确;因为随机变量X 服从正态分布()0,1N ,则对称轴为0μ=,1(10)[12(1)]0.352P X P X -<<=->=,故B 错误;7.5=,故C 错误;因为()(|)()()P AB P B A P B P A ==,所以()()()P AB P A P B =,所以事件A ,B 相互独立.故选:AD.10.答案:ABD解析:对于A,平均数1(9.19.39.49.69.81010)9.67=++++++=,故A 正确;对于B,出现次数最多5.131158.1⨯=90.4 3.6⨯=14,2B ⎛⎫ ⎪⎝⎭的数为10,故B正确;对于C,70.8 5.6⨯=,第80百分位数为第6位,即10,故C错误;对于D,方差为正确.故选ABD.11.答案:BD解析:当m=123455++++==11066265n++++==,解得16n=,同理,当时,,,,,所以,,,,故选:BD.12.答案:ABD2222221(9.19.6)(9.39.6)(9.49.6)(9.69.6)(9.89.6)2(109.6)7⎡⎤-+-+-+-+-+-=⎣⎦16-223)(26)12-= 8m=22b=-212a=2r=228s=12r r>2212s s<12b b>12a a<解析:对于A ,2015年我国新增电力装机中火电装机占比50.65%,显然占比最大,故A 正确;对于B ,2020年我国新增电力装机中风电装机占比37.55%,火电装机占比29.53%,所以新增电力装机中风电装机数大于火电装机数,故B 正确;对于C ,虽然相对于2015年,2020年我国核电新增装机占比减少,但由于总装机数不确定,所以不能得出核电装机数减少的结论,故C 错误;对于D ,2015年我国新增电力装机中火电装机占比50.65%,所以新能源装机占比不超过50%,但2020年我国风电和太阳能新增装机占比和为62.8%大于50%,所以2020年我国新增电力装机结构中清洁能源占比增加,故D 正确.故选ABD.13.答案:BC解析:对于选项A,B,C,设样本1x ,2x ,…,x 2,极差为M ,中位数为q ,则4ax =,224a s =,244s =,所以21s =,2a =±,当2a =时,样本11:2p x ,22x ,…,2n x ;样本12:21p x -,221x -,…,21n x -,可得样本1p 的平均数为24x =,样本2p 的平均数为213x -=,样本1p 和样本2p 的极差相等为2M ,方差也相等为4,故B,C 正确;选项D,设样本1p 的中位数为2q ,则样本2p 的中位数为21q -,故D 错误.当2a =-时,样本11:2p x -,22x -,…,2n x -;样本12:21p x -,221x -,…,21n x -,可得样本1p 的平均数为24x -=,样本2p 的平均数为215x -=-,样本1p 和样本2p 的极差相等为2M ,方差也相等为4,故B,C 正确;选项D,设样本1p 的中位数为,则样本的中位数为,故D 错误.故选:BC.14.答案:BC解析:15.答案:ABD解析:2022届初三年级学生仰卧起坐一分钟的个数在[)30,60内的学生人数占比为20%25%25%70%++=,A 正确.由于2023届初三学生人数较2022届上升了10%,假设2q -2p 21q -2022届初三学生人数为(0)a a >,则仰卧起坐一分钟的个数在[]60,80内的学生人数为0.2a ,2023届初三学生仰卧起坐一分钟的个数在[]60,80内的学生人数为()110%41%0.451,0.4510.2 2.2a a a a ⨯+⨯=>⨯,B 正确.2022届初三学生仰卧起坐一分钟个数的中位数在[)40,50内,2023届初三学生仰卧起坐一分钟个数的中位数在[)50,60内,C 错误.2022届初三学生仰卧起坐一分钟个数不小于50的人数占由表中数据,可知增长率为正,即D 正确.故选:BCD18.答案:AC解析:A 选项,由图1可以看出选取300人中其他人群人数为30010%30⨯=,青年人人数为30060%180⨯=,中年人人数为()300110%60%90⨯--=,由图2可以看出青年人中女性人数为1804072⨯%=,中年人中女性人数为9030%27⨯=,其他人群中,女性人数为3070%21⨯=,0.4=,A 正确;B 选项,中年人中男性人数为9070%63⨯=,故从所调查的主播中,随机抽取一位参加短视频剪辑培训,则被抽到的主播是中年男性0.21=,B 错误;C 选项,三个年龄段人数比例为青年主播,中年主播和其他人群主播比例为6:3:1,故用分层抽样法抽取20名主播担当平台监管,若样本量按比例分配,则中年主播应抽取3206631⨯=++名,C 正确;D 选项,从所调查的主播中,随机选取一位作为幸运主播,设幸运主播是青年人为事件A ,随机选取一位作为幸运主播,设幸运主播是女性主播为事件B ,则()180n A =,()72n AB =,()()()720.4180n AB P B A n A ===,D 错误.19.答案:AC解析:平均数和中位数反映的是一组数据的平均水平,标准差和极差则体现了一组数据的离散程度.故选AC.20.答案:CD解析:由题图可知第8,9天复工指数和复产指数均减小,故A 错误;第1天时复工指数小于复产指数,第11天时两指数相等,故复产指数的增量小于复工指数的增量,故B 错误;由题图可知第3天至第11天,复工复产指数都超过80%,故C 正确;第9天至第11天,复产指数的增量大于复工指数的增量,故D 正确.。
专题二十 统计与统计案例一、单选题1.(2021·河南高二月考(文))有下列四个命题:( ) ①在回归分析中,残差的平方和越小,模型的拟合效果越好;②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ③若数据1x ,2x ,…,n x 的平均数为1,则12x ,22x ,…2n x 的平均数为2; ④对分类变量x 与y 的随机变量2K 的观测值k 来说,k 越小,判断“x 与y 有关系”的把握越大.其中真命题的个数为( ) A .1B .2C .3D .42.(2021·全国高二课时练习)若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.20()P K k ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%第II 卷(非选择题)请点击修改第II 卷的文字说明二、解答题3.(2021·广东汕头市·高三一模)为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础.在产业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式.质检部门随机抽检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果将它们分为“A ”、“B ”、“C ”三个等级,,A B 等级都是合格品,C 等级是次品,统计结果如表所示:等级ABC频数 100 75 25(表二)合格品 次品 合计 甲 80 乙 5 合计在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由厂家自行销毁.(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99.5%的把握认为产品的合格率与技术升级有关?(2)每件玩具的生产成本为20元,,A B 等级产品的出厂单价分别为m 元、40元.若甲生产线抽检的玩具中有35件为A 等级,用样本的频率估计概率,若进行技术升级后,平均生产一件玩具比技术升级前多盈利12元,则A 等级产品的出产单价为多少元?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.05 0.025 0.010 0.005 0.0010k3.841 5.024 6.635 7.879 10.8284.(2021·河南高二月考(文))某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:积极参加班级工作不太主动参加班级工作总计 学习积极性高 18725 学习积极性一般ab25 总计cd50如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是1225. (1)求a ,b ,c ,d 的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:20()P K k ≥0.10 0.05 0.025 0.010 0.005 0.0010k2.7063.841 5.024 6.635 7.879 10.8285.(2021·内蒙古包头市·高三一模(文))某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表: 土地使用面积x (单位:亩) 1 2 3 4 5 管理时间y (单位:月)911142620并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:愿意参与管理不愿意参与管理男性村民 140 60 女性村民40(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥0.100 0.050 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.82848522.02≈.6.(2021·聊城市·山东聊城一中高三一模)已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:综合评价成绩(单位:分) [40,50)[50,60)[60,70)[70,80)[80,90)[90,100)频数 510151055赞成人数4812431(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?综合评价成绩小于80分的人数综合评价成绩不小于80分的人数合计赞成 不赞成 合计(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:P()20Kk ≥0.10 0.050.010 0.005 k 02.7063.8416.6357.8797.(2021·全国高三月考(理))某购物网站统计了,A B 两款手机在2020年7月至11月的总销售量y (单位:百部),得到以下数据: 月份x 7 8 9 10 11 销售量y100120110120200(Ⅰ)已知销售量y 与月份x 满足线性相关关系,求出y 关于x 的线性回归方程,ˆˆˆybx a =+,并预测12月的手机销售量; (Ⅱ)网站数据分析人员发现:,A B 两款手机11月的销售量与顾客性别有关.请填写下面的22⨯列联表,并判断能否有超过99.5%的把握认为“,A B 两款手机11月的销售量与顾客性别有关”?男性顾客女性顾客合计A 款销售量90B 款销售量50合计90参考公式:()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-, ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥ 0.010 0.005 0.0010k6.6357.879 10.8288.(2021·湖北高三月考)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a x =+dy c x=+建立y 关于x 的回归方程,令s x =,1t x=得到如下数据: xyst10.15109.943.040.16113ni ii s y s y =-⋅∑ 13113i ii t yt y =-⋅∑1322113ik ss =-∑1322113ii tt =-∑1322113ii yy =-∑13.94 -2.1 11.67 0.21 21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953. (1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数222211ni i nniii i u vnu vr unu vnv==-⋅=-⋅-∑∑∑.9.(2021·辽宁高三期末(文))2019年4月,中国电信公布了2019年的终端洞察报告,其中,国产手机品牌表现抢眼,统治地位不容置疑.在2018年6—11月上市的新机中,用户最满意机型与用户推荐机型的项目中国产手机优势明显,华为及荣耀手机分别占据不同价位段的榜单第一,OPPO 、vivo 、小米、魅族均有机型占据榜单.在用户满意机型调研项目中,曾经位于神坛地位的苹果手机也仅仅只有iPhoneXR 一款位列第三.最满意度机型TOP3 中国电信大于3500 2500-3499 1500-2499 1000-1499 1000元以下 第一名华为P30 ProvivoiQoo荣耀9X Vivo Z5x华为畅享9e第二名三星S10+荣耀20Pro红米K20ProOPPO A9红米7第三名iPhone XRVivo X27化为 麦芒8华为畅享9plus中兴BladeA7 (1)从上表中“华为(不含荣耀)”和“iPhoneXR ”的5个机型中任取2个,求这两个机型都是华为的概率;(2)测试数据源于消费者的反馈,从反馈信息中随机抽取500个“华为畅享9plus ”消费者,其中来自城市300个,来自农村200个,统计他们对“华为畅想9plus ”的满意情况如下:满意不满意城市 270 30 农村17030根据上表数据,问是否有95%的把握认为消费者是否满意与城市用户还是农村用户有关?(附:()()()()()22n ad bc X a b c d a c b d -=++++;当2 3.841X >时,有95%的把握说事件A与B 有关;当2 6.635X >时,有99%的把握说事件A 与B 有关;当2 3.841X ≤时,认为事件A 与B 是无关的)10.(2021·全国高三其他模拟)在我国,大学生就业压力日益严峻,伴随着政府政策的引导与社会观念的转变,大学生的创业意识与就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数i y (单位:万元)与时间i t (单位:年)的数据,列表如下:i t1 2 3 4 5i y2.4 2.7 4.1 6.4 7.9(1)依据表中给出的数据,是否可用线性回归模型拟合与t 的关系,请计算相关系数r 并加以说明(计算结果精确到0.01).(若0.75r>,则线性相关程度很高,可用线性回归模型拟合)(2)该专营店为吸引顾客,特推出两种促销方案. 方案一:每满500元可减50元;方案二:每满500元可抽奖一次,每次中奖的概率都为25,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.(ⅰ)某位顾客购买了1050元的产品,该顾客选择参加两次抽奖,求该顾客换得100元现金奖励的概率(ⅱ)某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择方案一返回200元现金,还是选择方案二参加四次抽奖?说明理由.附:相关系数公式:()()()()()()1122221111nnii i ii i nnnniiiii i i i tt y y t yntyr tt yy tt yy ======---=----∑∑∑∑∑∑,参考数据:56.957.547≈,5185.2i i i t y ==∑,()52110i i t t =-=∑,()52122.78i i y y =-∑11.(2021·全国高三其他模拟)人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:xy()3121=-∑ii xx()()311=--∑ii i xx y y()3121=-∑ii xx()3121=-∑ii yy15500 9632 1412000000 683900000 38000 18400参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 12.(2021·甘肃兰州市·高三其他模拟(文))某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度C x ︒时相对应产卵数个数为y 的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a =+和z dx c =+(其中ln z y =)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R 更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程: (方程表示为()y f x =的形式,数据计算结果保留两位小数) xyz81i ii x y =∑81i i i x z =∑821ii x=∑26 72 3.3 11871 757 5722(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 13.(2021·全国高三月考(文))2020年11月24日我国使用长征五号运载火箭成功发射嫦娥五号月球探测器,12月17日嫦娥五号返回器携带月球样品在预定地区安全着陆,探月工程嫦娥五号任务取得圆满成功.某大学为此举行了与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组; [)[)[]30,40,40,50,,90,100⋯,并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关: 男生 女生 优秀 不优秀附:20()P K k ≥0.050 0.010 0.0010k 3.841 6.635 10.828()()()()()22n ad bc K a b c d a c b d -=++++ (3)对于样本中分数在[)[]80,90,90,100的人数,学校准备按比例从这2组中抽取12人,在从这12人中随机抽取3人参与学校有关的宣传活动,记这3人分数不低于90分的学生数为,X 求X 的分布列.14.(2021·江西高三其他模拟(文))某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?性别 阴性阳性男 女 合计阳性 阴性合计附:()()()()()22n ad bcKa b c d a c b d-=++++.()2P K k≥0.050 0.010 0.001 0k 3.841 6.635 10.82815.(2021·全国高三专题练习(文))在关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:(Ⅰ)估算该市电动自行车骑乘人员的平均年龄;(Ⅱ)根据所给的数据,完成下面的列联表:是否佩戴头盔年龄是否[)20,40[]40,70(Ⅲ)根据(Ⅱ)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.050 0.010 0.001k 3.841 6.635 10.82816.(2021·全国高三专题练习(文))针对偏远地区因交通不便、消息闭塞导致优质农产品藏在山中无人识的现象,各地区开始尝试将电商扶贫作为精准扶贫的重要措施.为了解电商扶贫的效果,某部门随机就100个贫困地区进行了调查,其当年的电商扶贫年度总投入(单位:万元)及当年人均可支配年收入(单位:元)的贫困地区数目的数据如下表:人均可支配年收入(元)电商扶贫年度总投入(万元)(5000,10000] (10000,15000] (15000,20000] (0,500] 5 3 2(500,1000] 3 21 6(1000,3000) 2 34 24(1)估计该年度内贫困地区人均可支配年收入过万的概率,并求本年度这100个贫困地区的人均可支配年收入的平均值的估计值(同一组数据用该组数据区间的中间值代表);(2)根据所给数据完成下面的列联表,并判断是否有99%的把握认为当地的人均可支配年收入是否过万与当地电商扶贫年度总投入是否超过千万有关.人均可支配年收入≤10000元人均可支配年收入>10000元电商扶贫年度总投入不超过1000万电商扶贫年度总投入超过1000万附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()2P K k ≥0.050 0.01 0.005 k3.8416.6357.87917.(2021·全国高三专题练习(文))为研究男、女生的身高差异,现随机从高三某班选出男生、女生各10人,并测量他们的身高,测量结果如下(单位:厘米): 男:173 178 174 185 170 169 167 164 161 170 女:165 166 156 170 163 162 158 153 169 172(1)根据测量结果完成身高的茎叶图(单位:厘米),并分别求出男、女生身高的平均值;(2)请根据测量结果得到20名学生身高的中位数h (单位:厘米),将男、女生身高不低于h 和低于h 的人数填入下表中,并判断是否有90%的把握认为男、女生身高有差异?(3)若男生身高低于165厘米为偏矮,不低于165厘米且低于175厘米为正常,不低于175厘米为偏高.采用分层抽样的方法从以上男生中抽取5人作为样本.若从样本中任取2人,试求恰有1人身高属于正常的概率.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.0010k2.7063.8415.0246.6357.879 10.828参照公式:()()()()()22n ad bc k a b c d a c b d -=++++ 18.(2021·全国高三专题练习(文))某生物研究所研发了某种型号的新冠疫苗,为检验该种型号疫苗的效果,研究所将疫苗用在小白鼠身上进行科研实验,得到如下数据:未感染病毒感染病毒 总计未注射疫苗 a 60 m 注射疫苗 b30 n总计11090200从未注射疫苗的小白鼠中任取1只,取到“未感染病毒”的小白鼠的概率为5. (1)能否有99.9%的把握认为注射此疫苗有效?(2)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取6只进行病理分析,然后从这6只小白鼠中随机抽取2只对注射疫苗的情况进行核实,求至少有1只为注射过疫苗的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++. ()2P K k ≥0.05 0.025 0.010 0.005 0.001 k3.8415.0246.6357.87910.82819.(2021·全国高三专题练习(文))某研究部门为了研究气温变化与患流感人数多少之间的关系,在某地随机对50人进行了问卷调查得到如下列表:(附22()()()()()n ad bc K a b c d a c b d -=++++)高于22.5C ︒ 不高于22.5C ︒ 合计 患流感2025不患流感15合计50(1)对上述22⨯列联表进行填空,并判断是否有99%的把握认为患流感与温度有关,说明你的理由;(2)为了了解患流感与年龄的关系,已知某地患有流感的老年、中年、青年的人数分别为108人,72人,36人.按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少一人是中年人的概率.()2>0.10 0.05 0.025 0.01 P K kk 2.701 3.841 5.024 6.63520.(2021·山东德州市·高三一模)2021年春晚首次采用“云”传播,“云”互动形式,实现隔空连线心意相通,全球华人心连心“云团圆”,共享新春氛围,“云课堂”亦是一种真正完全突破时空限制的全方位互动性学习模式.某市随机抽取200人对“云课堂”倡议的了解情况进行了问卷调查,记Y表示了解,N表示不了解,统计结果如下表所示:(表一)了解情况Y N人数140 60(表二)男女合计Y80N40合计(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99%的把握认为对“云课堂”倡议的了解情况与性别有关系;(2)用样本估计总体,将频率视为概率,在男性市民和女性市民中各随机抽取4人,记“4名男性中恰有3人了解云课堂倡议”的概率为1P,“4名女性中恰有3人了解云课堂倡议”的概率为2P .试求出1P 与2P ,并比较1P 与2P 的大小. 附:临界值参考表的参考公式()20p K K ≥0.10 0.05 0.025 0.010 0.005 0.0010K 2.7063.841 5.024 6.635 7.879 10.828()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++) 21.(2021·吉林长春市·高三二模(理))随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x 表示开设网店数量,y 表示这x 个分店的年销售额总和),现已知55118850,2000i ii i i x yy ====∑∑,求解下列问题;(1)经判断,可利用线性回归模型拟合y 与x 的关系,求解y 关于x 的回归方程; (2)按照经验,超市每年在网上销售获得的总利润w (单位:万元)满足25140w y x =--,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.参考公式;线性回归方程y bx a =+,其中515221,i ii ii x y nx ya y bxb xnx==-=-=-∑∑22.(2021·河南高三月考(文))2020年初,新冠病毒肆虐.疫情期间,停课不停教学,各学校以网课形式进行教学.教育局抽样对某所学校的高三1000名学生某一周每天学习时间以及考试进行了调查,得如下频数分布表 学习时间(分钟) [)7,7.5[)7.5,8[)8,8.5[)8.5,9[)9,9.5[]9.5,10人数160190200180150120从1000名学生中抽取50名学生,调查学习时间与成绩的关系,得如下二阶列联表学习时间9小时以上(含9小时)学习时间9小时以下合计总分600分以上(含600分) 7 3 10 总分600分以下 17 23 40 合计242650(1)求出第一星期这1000名学生学习时间的中位数;(2)为了解学生们的学习状况,一次考试结束,从全年级随机抽取50人根据学习时间的多少和成绩的是否优秀列成以下列联表计算说明:有没有90%的把握认为总分600分以上和学习时间超过9小时有关附公式及表如下:()()()()()22n ad bc K a b c d a c b d -=++++ ()20P K K ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82823.(2021·全国高三专题练习)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据()(),1,2,,20i i x y i =⋅⋅⋅,其中i x 和i y 分别表示第i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得20180i i x ==∑,2014000i i y ==∑,()202180i i x x=-=∑,()20218000ii y y =-=∑,()()201700i ii x xy y =--=∑.(1)请用相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合; (2)求y 关于x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,对于一组具有线性相关关系的数据()(),1,2,3,,i i x y i n =⋅⋅⋅,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.24.(2021·全国高三专题练习(文))随着冬季的到来,是否应该自觉佩戴口罩成为了人们热议的一个话题.为了调查佩戴口罩的态度与性别是否具有相关性,研究人员作出相应调查,并统计数据如表所示: 认为冬季佩戴口罩十分必要 认为冬季佩戴口罩没有必要 男性 300 200 女性150150(1)判断是否有99.9%的把握认为佩戴口罩的态度与性别有关?(2)若按照分层抽样的方法从男性中随机抽取5人,再从这5人中随机抽取2人,求恰有1人认为冬季佩戴口罩十分必要的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k0.100 0.050 0.010 0.001k 2.706 3.841 6.635 10.82825.(2021·全国高三专题练习)在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分100分),记低于80的评分为“效果一般”,不低于80分为“效果较好”.(1)请补充完整22⨯列联表;通过计算判断,有没有99%的把握认为线上教学效果评分为“效果较好”与性别有关?效果一般效果较好合计男20女1555合计(2)用(1)中列联表的数据估计全校线上教学的效果,用频率估计概率.从该校学生中任意抽取3人,记所抽取的3人中线上教学“效果较好”的人数为X,求X的分布列和数学期望.附表及公式:()2P K k0.150.100.050.0250.010 0k 2.072 2.706 3.841 5.024 6.635其中()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.26.(2021·全国高三专题练习)近年来,我国的电子商务行业发展迅速,与此同时,相关管理部门建立了针对电商的商品和服务评价系统.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品的好评率为35,对服务的好评率为710;其中对商品和服务均为好评的有80次(1)是否可以在犯错误概率不超过0.1的前提下,认为商品好评与服务好评有关?(2)若将频率视为概率,某人在该购物平台上进行的4次购物中,设对商品和服务全好评的次数为随机变量X:求对商品和服务全好评的次数X的分布列及其期望.()20P K k 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.82822()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++)27.(2021·全国高三专题练习)某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.(1)若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关;(2)用分层抽样方法,在成绩不低于85的学生中抽取6人,再从这6人中随机选3人发言谈体会,设这3人中成绩在[)85,90的人数为ξ,求ξ的分布列与数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.临界值表:()20P K k ≥ 0.10 0.05 0.025 0.01 0.0050k2.7063.841 5.024 6.635 7.87928.(2021·全国高三专题练习)支付宝为人们的生活带来许多便利,为了了解支付宝在某市的使用情况,某公司随机抽取了100名支付宝用户进行调查,得到如下数据: 每周使用支付宝次数 1 2 3 4 5 6及以上 40岁及以下人数 3 3 4 8 7 30 40岁以上人数 4 5 6 6 4 20 合计7810141150(1)如果认为每周使用支付宝超过3次的用户“喜欢使用支付宝”,完成下面22⨯列联表,并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢使用支付宝”与年龄有关?不喜欢使用支付宝 喜欢使用支付宝 合计 40岁及以下人数 40岁以上人数 合计(2)每周使用支付宝6次及以上的用户称为“支付宝达人”,视频率为概率,在该市所有“支付宝达人”中,随机抽取3名用户.①求抽取的3名用户中,既有40岁及以下“支付宝达人”又有40岁以上“支付宝达人”的概率;②为了鼓励40岁以上用户使用支付宝,对抽出的40岁以上“支付宝达人”每人奖励500元,记奖励总金额为X (单位:元),求X 的数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82829.(2021·全国高三专题练习)2019年4月,江苏省发布了高考综合改革实施方案,试行“312++”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有。
高考数学统计与统计案例专题卷(附答案)一、单选题1.新高考改革后,某校2000名学生参加物理学考,该校学生物理成绩的频率分布直方图如图所示,若规定分数达到90分以上为A级,则该校学生物理成绩达到A级的人数是()A. 600B. 300C. 60D. 302.国庆70周年庆典磅礴而又欢快的场景,仍历历在目.已知庆典中某省的游行花车需要用到某类花卉,而该类花卉有甲、乙两个品种,花车的设计团队对这两个品种进行了检测.现从两个品种中各抽测了10株的高度,得到如下茎叶图.下列描述正确的是()A. 甲品种的平均高度大于乙品种的平均高度,且甲品种比乙品种长的整齐B. 甲品种的平均高度大于乙品种的平均高度,但乙品种比甲品种长的整齐C. 乙品种的平均高度大于甲品种的平均高度,且乙品种比甲品种长的整齐D. 乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐3.某次歌唱比赛中,7位评委为某选手打出的分数分别为83,91,91,94,94,95,96,去掉一个最高分和一个最低分后,所剩数据的平均数为()A. 94B. 93C. 92D. 914.为了解某市居民用水情况,通过抽样,获得了100位居民某年的月均用水量(单位:吨).将数据按照,…,分成9组,绘制了如图所示的频率分布直方图.政府要试行居民用水定额管理,制定一个用水量标准.使的居民用水量不超过,按平价收水费,超出的部分按议价收费,则以下比较适合做为标准的是()A. 2.5吨B. 3吨C. 3.5吨D. 4吨5.某校高三年级有男生220人,学籍编号为1,2,...,220;女生380人,学籍编号为221,222, (600)为了解学生学习的心理状态,按学籍编号采用系统抽样的方法从这600名学生中抽取10人进行问卷调查(第一组采用简单随机抽样,抽到的号码为10),再从这10名学生中随机抽取3人进行座谈,则这3人中既有男生又有女生的概率是()A. B. C. D.6.如图的折线图是某超市2018年一月份至五月份的营业额与成本数据,根据该折线图,下列说法正确的是()A. 该超市2018年的前五个月中三月份的利润最高B. 该超市2018年的前五个月的利润一直呈增长趋势C. 该超市2018年的前五个月的利润的中位数为0.8万元D. 该超市2018年前五个月的总利润为3.5万元7.为了从甲、乙两组学生中选一组参加“喜迎祖国七十华诞,共建全国文明城市”知识竞赛活动,班主任老师将这两组学生最近6次的测试成绩进行统计,得到如图所示的茎叶图.若甲、乙两组的平均成绩分别是,则下列说法正确的是()A. ,乙组比甲组成绩稳定,应选乙组参加竞赛B. ,甲组比乙组成绩稳定,应选甲组参加竞赛C. ,甲组比乙组成绩稳定,应选甲组参加竞赛D. ,乙组比甲组成绩稳定,应选乙组参加竞赛8.为了节能减排,发展低碳经济,我国政府从2001年起就通过相关政策推动新能源汽车产业发展.下面的图表反映了该产业发展的相关信息:根据上述图表信息,下列结论错误的是()A. 2017年3月份我国新能源汽车的产量不超过万辆B. 2017年我国新能源汽车总销量超过万辆C. 2018年8月份我国新能源汽车的销量高于产量D. 2019年1月份我国插电式混合动力汽车的销量低于万辆9.某学校运动会的立定跳远和秒跳绳两个单项比赛分成预赛和决赛两个阶段.下表为名学生的预赛成绩,其中有三个数据模糊.秒跳绳(单位:次)在这名学生中,进入立定跳远决赛的有人,同时进入立定跳远决赛和30秒跳绳决赛的有6人,则()A. 号学生进入秒跳绳决赛B. 号学生进入秒跳绳决赛C. 号学生进入秒跳绳决赛D. 号学生进入秒跳绳决赛10.2010-2018年之间,受益于基础设施建设对光纤产品的需求,以及个人计算机及智能手机的下一代规格升级,电动汽车及物联网等新机遇,连接器行业增长呈现加速状态.根据该折线图,下列结论正确的个数为()①每年市场规模量逐年增加;②增长最快的一年为2013~2014;③这8年的增长率约为40%;④2014年至2018年每年的市场规模相对于2010年至2014年每年的市场规模,数据方差更小,变化比较平稳A. 1B. 2C. 3D. 4二、填空题(共7题;共7分)11.己知随机变量与有相关关系,当时,的预报值为________.12.若数据的方差为,则________.13.某学校高一、高二、高三年级的学生人数成等差数列,现用分层抽样的方法从这三个年级中抽取90人,则应从高二年级抽取的学生人数为________.14.某班的全体学生参加数学测试,成绩的频率分布直方图如图,数据的分组依次为:、、、,若低于分的人数是,则成绩不低于分的学生人数是________.15.已知样本7,8,9,的平均数是9,且,则此样本的方差是________.16.某中学采用系统抽样方法,从该校高三年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是42,则在第1小组1~16中随机抽到的数是________.17.2020年年初,新冠肺炎疫情袭击全国.口罩成为重要的抗疫物资,为了确保口罩供应,某工厂口罩生产线高速运转,工人加班加点生产.设该工厂连续5天生产的口罩数依次为,,,,(单位:十万只),若这组数据,,,,的方差为1.44,且,,,,的平均数为4,则该工厂这5天平均每天生产口罩________十万只.三、解答题(共6题;共60分)18.每年的12月4日为我国“法制宣传日”.天津市某高中团委在2019年12月4日开展了以“学法、遵法、守法”为主题的学习活动.已知该学校高一、高二、高三的学生人数分别是480人、360人、360人.为检查该学校组织学生学习的效果,现采用分层抽样的方法从该校全体学生中选取10名学生进行问卷测试.具体要求:每位被选中的学生要从10个有关法律、法规的问题中随机抽出4个问题进行作答,所抽取的4个问题全部答对的学生将在全校给予表彰.(1)求各个年级应选取的学生人数;(2)若从被选取的10名学生中任选3人,求这3名学生分别来自三个年级的概率;(3)若被选取的10人中的某学生能答对10道题中的7道题,另外3道题回答不对,记表示该名学生答对问题的个数,求随机变量的分布列及数学期望.19.清华大学自主招生考试题中要求考生从A,B,C三道题中任选一题作答,考试结束后,统计数据显示共有600名学生参加测试,选择A,B,C三题答卷数如下表:(Ⅰ)负责招生的教授为了解参加测试的学生答卷情况,现用分层抽样的方法从600份答案中抽出若干份答卷,其中从选择A题作答的答卷中抽出了3份,则应分别从选择B,C题作答的答卷中各抽出多少份?(Ⅱ)测试后的统计数据显示,A题的答卷得优的有60份,若以频率作为概率,在(Ⅰ)问中被抽出的选择A题作答的答卷中,记其中得优的份数为,求的分布列及其数学期望.20.近年来,国资委.党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:土地使用面积(单位:亩) 1 2管理时间(单位:月)并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:参考公式:其中.临界值表:0.100 0.050 0.025 0.010 0.001参考数据:(1)求出相关系数的大小,并判断管理时间与土地使用面积是否线性相关?(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?(3)若以该村的村民的性别与参与管理意愿的情况估计贫困县的情况,则从该贫困县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.21.出版商为了解某科普书一个季度的销售量y(单位:千本)和利润x(单位:元/本)之间的关系,对近年来几次调价之后的季销售量进行统计分析,得到如下的10组数据.根据上述数据画出如图所示的散点图:参考公式及参考数据:①对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线的斜率和截距的公式分别为, .②参考数据:表中u i=Inx i,= .另:In4.06≈1.40.计算时,所有的小数都精确到0.01.(1)根据图中所示的散点图判断y=ax+b和y=clnx+d哪个更适宜作为销售量y关于利润x的回归方程类型?(给出判断即可,不需要说明理由);(2)根据(1)中的判断结果及参考数据,求出y关于x的回归方程;(3)根据回归方程分析:设该科普书一个季度的利润总额为:(单位:千元),当季销售量y为何值时,该书一个季度的利润总额预报值最大?(季利润总额=季销售量×每本书的利润)22.某险种的基本保费为(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:随机调查了该险种的200名续保人在一年内的出险情况,得到如下统计表:(I)记A为事件:“一续保人本年度的保费不高于基本保费”.求P(A)的估计值;(Ⅱ)记B为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”.求P(B)的估计值;(Ⅲ)求续保人本年度的平均保费估计值.23.为了研究55岁左右的中国人睡眠质量与心脑血管病是否有关联,某机构在适龄人群中随机抽取了100万个样本,调查了他们每周是否至少三个晚上出现了三种失眠症状,症状:入睡困难;症状:醒得太早;症状:不能深度入睡或做梦,得到的调查数据如下:数据1:出现症状人数为8.5万,出现症状人数为9.3万,出现症状人数为6.5万,其中含症状同时出现1.8万人,症状同时出现1万人,症状同时出现2万人,症状同时出现0.5万人;数据2:同时有失眠症状和患心脑血管病的人数为5万人,没有失眠症状且无心脑血管病的人数为73万人.(Ⅰ)依据上述数据试分析55岁左右的中国人患有失眠症的比例大约多少?(Ⅱ)根据以上数据完成如下列联表,并根据所填列联表判断能否有95%的把握说明失眠与心脑血管病存在“强关联”?参考数据如下:0.500.05参考公式:答案一、单选题1. B2. D3. B4. B5. D6. D7. D8. D9. B 10. C二、填空题11. 7 12. 13. 30 14. 15 15. 2 16. 10 17. 1.6三、解答题18. (1)解:由题意,知高一、高二、高三年级的人数之比为,由于采用分层抽样方法从中选取人,因此,高一年级应选取人,高二年级应选取人,高三年级应选取人.(2)解:由(1)知,被选取的名学生高一、高二、高三年级分别有人、人、人,所以,从这名学生任选名,且名学生分别来自三个年级的概率为.(3)解:由题意知,随机变量的所有可能取值为,且服从超几何分布,().所以,随机变量的分布列为所以,随机变量的数学期望为.19. 解:解:(Ⅰ)由题意可得:应分别从B,C题的答卷中抽出5份,2份.(Ⅱ)由题意可知,A题答案得优的概率为,显然被抽出的A题的答案中得优的份数x的可能取值为0,1,2,3,且.;;;随机变量x的分布列为:所以.20. (1)解:依题意:故则,故管理时间与土地使用面积线性相关.(2)解:依题意,完善表格如下:计算得的观测值为故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.(3)解:依题意,的可能取值为0,1,2,3,从该贫困县中随机抽取一名,则取到不愿意参与管理的男性村民的概率为,故故的分布列为则数学期望为(或由,得21. (1)解:y=cln x+d更适宜作为销售量y关于利润x的回归方程类型(2)解:令u=lnx,先建立y关于u的线性回归方程,由于,=6.63+10.20×1.75=24.48,所以x关于u的线性回归方程为=24.48-10.20u,即y关于x的回归方程为=24.48-10.20lnx.(3)解:由题意得z=xy=x(24.48-10.20lnx),z'=[x(24.48-10.20lnx)]'=14.28-10.20lnx,令z'=0 即14.28-10.20lnx=0,解得lnx=1.40,所以x≈4.06.当x∈(0,4.06)时,z'>0,所以z在(0,4.06)上单调递增,当x∈(4.06,+∞)时,z'<0,所以z在(4.06,+∞)上单调递减,所以当x=4.06时,即季销量y=10.20千本时,季利润总额预报值最大22. 解:(I)记A为事件:“一续保人本年度的保费不高于基本保费”.事件A的人数为:60+50=110,该险种的200名续保,P(A)的估计值为:;(Ⅱ)记B为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”.事件B的人数为:30+30=60,P(B)的估计值为:;(Ⅲ)续保人本年度的平均保费估计值为1.1925a.23. 解:(Ⅰ)设{出现症状的人}、{出现症状的人}、{出现症状的人}(表示有限集合元素个数)根据数据1可知,,,,所以得患失眠症总人数为20万人,比例大约为20%(Ⅱ)根据数据2可得:有95%的把握说明失眠与中风或心脏病存在“强关联”.第11 页共11 页。
第九章算法初步、统计与统计案例第一节算法与程序框图[考纲传真]1.了解算法的含义,了解算法的思想. 2.理解程序框图的三种基本逻辑结构:顺序、条件、循环. 3.理解几种基本算法语句——输入语句、输出语句、赋值语句、条件语句、循环语句的含义.1.算法(1)算法通常是指按照一定规则解决某一类问题的明确和有限的步骤.(2)应用:算法通常可以编成计算机程序,让计算机执行并解决问题.2.程序框图定义:程序框图又称流程图,是一种用程序框、流程线及文字说明来表示算法的图形.3.三种基本逻辑结构及相应语句1.(夯基释疑)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)程序框图中的图形符号可以由个人来确定.( )(2)一个程序框图一定包含顺序结构,但不一定包含条件结构和循环结构.( ) (3)5=x 是赋值语句.( )(4)输入语句可以同时给多个变量赋值.( )[解析] 图形符号不能个人确定,(1)不正确;赋值语句只能给变量赋值,(3)不正确. [答案] (1)× (2)√ (3)× (4)√2.(教材改编)根据给出的程序框图,计算f(-1)+f(2)=( )图911A .0B .1C .2D .4[解析] 输入-1,满足x≤0,所以f(-1)=4×(-1)=-4;输入2,不满足x≤0,所以f(2)=22=4,即f(-1)+f(2)=0.[答案]A3.运行如图所示的程序,可得A的输出值为( )A=20A=A*2-30PRINT AENDA.30 B.20 C.10 D.-10[解析]A=20×2-30=10.[答案]C4.(2014·天津高考)阅读下边的框图,运行相应的程序,输出S的值为________.图912[解析]S=0,n=3,S=0+(-2)3=-8,n=3-1=2≤1不成立;故S=-8+(-2)2=-4,n=2-1=1≤1成立.故输出S的值为-4.[答案]-45.(2014·福建高考改编)阅读如图913所示的程序框图,运行相应的程序,输出的n的值为________.图913[解析]当n=1时,21>12;当n=2时,22>22不成立,结束循环.因此输出n=2.[答案] 2考向1程序框图的基本结构与应用【典例1】(1)执行下面的程序框图,如果输入的t∈[-1,3],则输出的s属于( ) A.[-3,4] B.[-5,2]C.[-4,3] D.[-2,5]图914图915(2)(2014·浙江高考)若某程序框图如图915所示,当输入50时,则该程序运行后输出的结果是________.[解析] (1)由程序框图知s =⎩⎪⎨⎪⎧3t ,(t<1),4t -t 2,(t≥1),①当-1≤t<1时,-3≤s<3;②当1≤t≤3时,s =-(t -2)2+4.∴3≤s≤4. 由①②知,s 的取值范围属于[-3,4]. (2)第一次循环,S =1,i =2; 第二次循环,S =4,i =3;第三次循环,S =2×4+3=11,i =4; 第四次循环,S =2×11+4=26,i =5;第五次循环,S =2×26+5=57,i =6,此时S>50,退出循环. 所以输出的结果i =6. [答案] (1)A (2)6 【规律方法】1.对条件结构,无论判断框中的条件是否成立,都只能执行两个分支中的一个,不能同时执行两个分支.2.利用循环结构表示算法,第一要确定是利用当型还是直到型循环结构;第二准确表示累计变量;第三要注意从哪一步开始循环.弄清进入或终止的循环条件、循环次数是做题的关键.【变式训练1】 (1)如图916所示的程序框图,运行相应的程序.若输入x 的值为1,则输出S 的值为________.图916(2)(2014·陕西高考)根据下边框图,对大于2的整数N,输出的数列的通项公式是( )图917A.a n=2n B.a n=2(n-1) C.a n=2n D.a n=2n-1[解析](1)第1次运行:x=1,S=0+13=1<50;第2次运行:x=2,S=1+23=9<50;第3次运行:x=4,S=9+43=73>50,满足S≥50,跳出循环.输出S=73.(2)由程序框图可知第一次运行:i=1,a1=2,S=2;第二次运行:i=2,a2=4,S=4;第三次运行:i=3.a3=8,S=8;第四次运行:i=4,a4=16,S=16.故选C.[答案](1)73 (2)C考向2程序框图的识别与完善(高频考点)命题视角程序框图的识别与完善是高考命题的热点,主要以客观题的形式呈现.主要命题角度:(1)根据程序框图确定输出结果;(2)补充程序框图中判断框或执行框;(3)依据程序框图及运行结果求输入变量的初始值等.【典例2】 (1)如图918所示是计算某年级500名学生期末考试(满分为100分)及格率q 的程序框图,则图中空白框内应填入________.图918 图919(2)(2014·重庆高考)执行如图919所示的程序框图,若输出k 的值为6,则判断框内可填入的条件是( )A .s>12B .s>35C .s>710D .s>45[思路点拨] (1)根据程序框图的功能,应确定及格率q 与及格人数M 之间的关系;(2)依次执行程序框图,根据输出结果确定判断框内的控制条件.[解析] (1)由判断框输出可知,M 表示及格人数,N 表示不及格人数, ∴及格率q =M M +N ,因此执行框为“q=M M +N”.(2)第一次循环:s =1×910=910,k =8,s =910应满足条件;第二次循环:s =910×89=810,k =7,s =810应满足条件,排除选项D ;第三次循环:s =810×78=710,k =6,故这时程序不再满足条件,结束循环,因此判断框中的条件为s>710.[答案] (1)q =MM +N(2)C 【通关锦囊】1.(1)第1题的关键在于理解程序框图的功能;(2)第2题要明确何时进入或退出循环体,以及累乘变量的变化.2.解答此类题目:(1)要明确程序框图的顺序结构,条件结构和循环结构;(2)理解程序框图的功能;(3)要按框图中的条件运行程序,按照题目的要求完成解答.【变式训练2】 (2015·潍坊质检)执行如图9110所示的程序框图,若输出的S 是2 047,则判断框内应填写()图9110A .n ≤9?B .n ≤10?C .n ≥10?D .n ≥11?[解析] 由程序框图的功能知,题目的实质是数列{2n}(n∈N )求和. ∵{2n }的首项为20=1,公比为2.∴当n =9时,S =1+2+22+…+29=1-2101-2=1 023.当n =10时,S =1+2+22+…+210=1-2111-2=2 047.此时输出S =2 047,跳出循环,所以判断框的条件为n ≤9. [答案] A考向3 基本算法语句【典例3】 根据下列算法语句,当输入x 为60时,输出y 的值为( )A .25B .30C .31D .61[解析] 由题意,得y =⎩⎪⎨⎪⎧0.5x ,x ≤50,25+0.6(x -50),x>50.当x =60时,y =25+0.6×(60-50)=31. ∴输出y 的值为31. [答案] C ,【规律方法】1.本题主要考查条件语句,输入与输出语句,要注意赋值语句一般格式中的“=”不同于等式中的“=”,其实质是计算“=”右边表达式的值,并将该值赋给“=”左边的变量.2.解决此类问题关键要理解各语句的含义,以及基本算法语句与算法结构的对应关系. 【变式训练3】 运行下面的程序时,WHILE 循环语句的执行次数是( )A .3B .4C .18D .19[解析] 0<20,1<20,2×2<20,5×5>20,程序结束, 故WHILE 循环语句共执行了3次. [答案] A掌握1条规律 每个算法结构都含有顺序结构,循环结构中必定包含一个条件结构,用于确定何时终止循环体.循环结构和条件结构都含有顺序结构.注意1个区别 当型循环与直到型循环的区别:直到型循环是“先循环,后判断,条件满足时终止循环”;当型循环是“先判断,后循环,条件满足时执行循环”;两者的判断框内的条件表述在解决同一问题时是不同的,它们恰好相反.勿忘2点注意 1.赋值号左边只能是变量(不是表达式),在一个赋值语句中只能给一个变量赋值. 2.利用循环结构表示算法,要明确是利用当型循环结构,还是直到型循环结构.要注意:(1)选择好累计变量;(2)弄清在哪一步开始循环,满足什么条件不再执行循环体.易错辨析之10程序框图中“变量”的含义理解不清致误(2014·课标全国卷Ⅰ)执行下面的程序框图,若输入的a ,b ,k 分别为1,2,3,则输出的M =( )图9111A .203 B .72 C .165 D .158[错解] n =1,M =1+12=32,a =2,b =32;n =2,M =2+23=83,a =32,b =83;n =3,M =32+38=158,a =83,b =158;n =4,M =83+815=4815=165,a =158,b =165,此时不满足条件,跳出循环,输出M =165.[答案] C 【智慧心语】错因分析:(1)循环变量n 与累加变量M 计算不对立,或混淆当型循环,误认为直到型循环结构,导致错解.(2)对循环体中各执行框的含义不清,错误赋值,错选A 或B .防范措施:(1)要分清是当型循环结构还是直到型循环结构;要理解循环结构中各变量的具体含义以及变化规律.具体求解时,把每次循环中各个变量的值对应起来,并要清楚的写下来,再根据条件判断是否结束循环.(2)在处理含有循环结构的算法问题时,关键是确定循环的次数,循环中有哪些变量,且每一次循环之后的变量S 、k 值都要被新的S 、k 值所替换.[正解] 第一次执行循环后:M =1+12=32,a =2,b =32,n =2;第二次执行循环后:M =2+23=83,a =32,b =83,n =3.第三次执行循环后:M =32+38=158,a =83,b =158,n =4.这时n =4,跳出循环.输出M 的值158.[答案] D【类题通关】 (2014·北京高考)当m =7,n =3时,执行如图9112所示的程序框图,输出的S 值为( )图9112A.7 B.42 C.210 D.840[解析]程序框图的执行过程如下:m=7,n=3时,m-n+1=5,k=m=7,S=1,S=1×7=7;k=k-1=6>5,S=6×7=42;k=k-1=5=5,S=5×42=210;k=k-1=4<5,输出S=210.故选C.[答案]C课后限时自测[A级基础达标练]一、选择题1.(2014·课标全国卷Ⅱ)执行如图9113所示的程序框图,如果输入的x,t均为2,则输出的S=( )图9113A .4B .5C .6D .7[解析] x =2,t =2,M =1,S =3,k =1. k ≤t ,M =11×2=2,S =2+3=5,k =2;k ≤t ,M =22×2=2,S =2+5=7,k =3;3>2,不满足条件,输出S =7. [答案] D2.(2014·湖南高考)执行如图9114所示的程序框图,如果输入的t∈[-2,2],则输出的S 属于( )图9114A .[-6,-2]B .[-5,-1]C .[-4,5]D .[-3,6][解析] 由程序框图知,当0≤t≤2时,输出S =t -3,此时S∈[-3,-1];当-2≤t<0时,执行t =2t 2+1后1<t≤9,执行1<t≤9时,输出S =t -3,此时S∈(-2,6].因此输出S 的值属于[-3,6].[答案] D3.某程序框图如图9115所示,若输出的结果S=57,则判断框内应填入的条件是( )图9115A.k>4? B.k>5? C.k>6? D.k>7?[解析]由程序框图可知,k=1时,S=1;k=2时,S=2×1+2=4;k=3时,S=2×4+3=11;k=4时,S=2×11+4=26;k=5时,S=2×26+5=57.[答案]A4.阅读如图9116所示的程序框图,运行相应的程序,则输出S的值为( )图9116A.8 B.18 C.26 D.80[解析]执行一次循环S=2,n=2;执行第二次循环:S=2+32-31=8,n=3;执行第3次循环:S=8+33-32=26,n=4;满足n≥4,故输出S=26.[答案]C5.(2014·安徽高考)如图9117所示,程序框图(算法流程图)的输出结果是( )图9117A.34 B.55 C.78 D.89[解析]当输入x=1,y=1,执行z=x+y及z≤50,x=y,y=z后,x,y,z的值依次对应如下:x=1,y=1,z=2;x=1,y=2,z=3;x=2,y=3,z=5;x=3,y=5,z=8;x=5,y=8,z=13;x=8,y=13,z=21;x=13,y=21,z=34;x=21,y=34,z=55.由于55≤50不成立,故输出55.故选B.[答案]B二、填空题6.运行下列的程序,当输入a,b分别为2,3时,最后输出的m的值为________.[解析]∵a=2,b=3,满足a<b,∴应把b值赋给m,∴m的值为3.[答案] 37.(2014·山东高考)执行如图9118所示的程序框图,若输入的x的值为1,则输出的n的值为________.图9118[解析]按照程序框图逐一执行.由x2-4x+3≤0,解得1≤x≤3.当x=1时,满足1≤x≤3,所以x=1+1=2,n=0+1=1;当x=2时,满足1≤x≤3,所以x=2+1=3,n=1+1=2;当x=3时,满足1≤x≤3, 所以x=3+1=4,n=2+1=3;当x=4时,不满足1≤x≤3,所以输出n=3.[答案] 38.(2015·临沂模拟)图9119(1)是某高三学生进入高中三年来的数学考试成绩茎叶图,第1次到第14次的考试成绩依次记为A1,A2,…,A14.图(2)是统计茎叶图中成绩在一定范围内考试次数的一个算法流程图.那么算法流程图输出的结果是________.(1) (2)图9119[解析]从算法流程图可知,该图表示统计成绩大于或等于90分的考试次数.由茎叶图可知输出的结果为10.[答案]10三、解答题9.某篮球队6名主力队员在最近三场比赛中投进的三分球个数如表格所示:图9120统计该6名队员在最近三场比赛中投进的三分球总数的程序框图如图9120所示.(1)试在判断框内填上条件;(2)求输出的s的值.[解](1)依题意,程序框图是统计6名队员投进的三分球的总数.∴判断框内应填条件“i≤6?”.(2)6名队员投进的三分球数分别为a1,a2,a3,a4,a5,a6.故输出的s=a1+a2+…+a6.10.三月植树节,林业管理部门在植树前,为了保证树苗的质量,都会对树苗进行检测.现从甲,乙两种树苗中各抽测了10株树苗,量出它们的高度如下:(单位:厘米) 甲:37,21,31,20,29,19,32,23,25,33;乙:10,30,47,27,46,14,26,10,44,46.(1)画出两组数据的茎叶图,并根据茎叶图对甲,乙两种树苗的高度作比较,写出两个统计结论.(2)设抽测的10株甲种树苗高度平均值为x -,将这10株树苗的高度依次输入,按程序框图(如图9121)进行运算,问输出的S 大小为多少?并说明S 的统计学意义.图9121[解] (1)茎叶图如下:统计结论:①甲种树苗的平均高度小于乙种树苗的平均高度; ②甲种树苗比乙种树苗长得整齐;③甲种树苗的中位数为27,乙种树苗的中位数为28.5;④甲种树苗的高度基本上是对称的,而且大多数集中在均值附近.(任写两条即可) (2)x -=27,S =35;S 表示10株甲种树苗高度的方差,是描述树苗高度离散程度的量.S 值越小,表示长得越整齐,S 值越大,表示长得越参差不齐.[B 级 能力提升练]1.(2015·济南质检)已知函数f(x)=ax 3+12x 2在x =-1处取得极大值,记g(x)=1f ′(x ).程序框图如图9122所示,若输出的结果S>2 0142 015,则判断框中可以填入的关于n 的判断条件是( )图9122A .n ≤ 2 014?B .n ≤2 015?C .n>2 014?D .n>2 015?[解析] 由题意得f′(x)=3ax 2+x ,由f′(-1)=0得a =13,∴f ′(x)=x 2+x ,即g(x)=1x 2+x =1x (x +1)=1x -1x +1. 由程序框图可知S =0+g(1)+g(2)+…+g(n)=1-1n +1, 由1-1n +1>2 0142 015,得n>2 014. 因此条件应为n≤2 015? [答案] B2.执行如图9123所示的程序框图,若输入n 的值为4,则输出s 的值为________.图9123[解析] 第一步运算结果:s =1,i =2(i≤4成立);第二步运算结果:s =2,i =3(i≤4成立);第三步运算结果:s =4,i =4(i≤4成立);第四步运算结果:s =7,i =5(i≤4不成立),程序结束,故输出s 的值为7.[答案] 73.已知数列{a n }的各项均为正数,观察程序框图如图9124所示,若k =5,k =10时,分别有S =511和S =1021,试求数列{a n }的通项公式.图9124[解] 由程序框图可知,数列{a n }是等差数列,首项为a 1,公差为d. S i =1a 1a 2+1a 2a 3+…+1a i a i +1=1d (1a 1-1a 2+1a 2-1a 3+…+1a i -1a i +1) =1d ⎝ ⎛⎭⎪⎫1a 1-1a i +1. 当k =5时,S =⎝ ⎛⎭⎪⎫1a 1-1a 61d =5a 1a 6=511.∴a 1a 6=11,即a 1(a 1+5d)=11;①当k =10时,S =⎝ ⎛⎭⎪⎫1a 1-1a 111d =10a 1a 11=1021,∴a 1a 11=21,即a 1(a 1+10d)=21,② 由①②联立,得a 1=1,d =2, 因此a n =a 1+(n -1)d =2n -1.第二节 随机抽样[考纲传真]1.理解随机抽样的必要性和重要性. 2.会用简单随机抽样方法从总体中抽取样本. 3.了解分层抽样和系统抽样方法.1.简单随机抽样(1)设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)常用简单随机抽样的方法:抽签法和随机数表法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.(2)确定分段间隔k ,对编号进行分段,当N n 是整数时,取k =N n ,当Nn 不是整数时,随机从总体中剔除余数.(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k). (4)按照一定的规则抽取样本, 3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样.(2)应用范围:总体是由差异明显的几个部分组成时.1.(夯基释疑)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)简单随机抽样是从总体中逐个不放回的抽取抽样.( ) (2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( ) (3)系统抽样在起始部分抽样时采用简单随机抽样.( )(4)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )[解析] 由简单随机抽样,系统抽样,分层抽样的意义,知(1)与(3)正确,(2)与(4)不正确.[答案] (1)√ (2)× (3)√ (4)×2.(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20[解析] 根据系统抽样的特点可知分段间隔为1 00040=25,故选C .[答案] C3.(2015·青岛调研)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学,初中,高中三个学段学生的视力情况有较大差异,而男女视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样[解析] 由于三个学段学生的视力情况差别较大,故需按学段分层抽样. [答案] C4.(2014·湖南高考)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3[解析] 由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p 1=p 2=p 3. [答案] D5.某学校高一,高二,高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.[解析] 设应从高二年级抽取x 名学生,则x∶50=3∶10.解得x =15. [答案] 15考向1简单随机抽样【典例1】(1)下列抽取样本的方式属于简单随机抽样的个数为( )①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.②从20件玩具中一次性抽取3件进行质量检验.③某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0 B.1 C.2 D.3(2)(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 B.07 C.02 D.01[解析](1)①②③中都不是简单随机抽样,这是因为:①是放回抽样,②中是“一次性”抽取,而不是“逐个”抽取,③中“指定个子最高的5名同学”,不存在随机性,不是等可能抽样.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.[答案](1)A(2)D【规律方法】1.简单随机抽样是从含有N(有限)个个体的总体中,逐个不放回地抽取样本,且每次抽取时总体内的各个个体被抽到的机会都相等.2.(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是号签是否易搅匀,一般地,当总体容量和样本容量都较小时可用抽签法.(2)随机数表法适用于总体中个体数较多的情形:随机数表法的操作要点:编号,选起始数,读数,获取样本.【变式训练1】下列抽样试验中,适合用抽签法的有________.①从某厂生产的5 000件产品中抽取600件进行质量检测; ②从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验; ③从甲,乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检测; ④从某厂生产的5 000件产品中抽取10件进行质量检测. [解析] ①,④中总体的个体数较大,不适用抽签法.对于③中,甲,乙两厂的产品质量可能差别较大,不一定能够达到搅拌均匀的条件,不适宜用抽签法.②中为同厂的产品,且样本容量较小,可用抽签法. [答案] ②考向2 系统抽样及其应用【典例2】 (1)(2015·淄博调研)用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.(2)(2013·陕西高考)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14[解析] (1)设第1组抽取的号码为b ,由系统抽样则第n 组抽取的号码为8(n -1)+b , ∴8×(16-1)+b =126,∴b =6, 故第1组抽取的号码为6.(2)抽样间隔为84042=20.设在1,2,…,20中抽取号码x 0(x 0∈[1,20]),在[481,720]之间抽取的号码记为20k +x 0,则481≤20k+x 0≤720,k ∈N *.∴24120≤k +x 020≤36.∵x 020∈⎣⎢⎡⎦⎥⎤120,1,∴k =24,25,26,…,35, ∴k 值共有35-24+1=12(个),即所求人数为12. [答案] (1)6 (2)B 【规律方法】1.如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn,否则,可随机地从总体中剔除余数,然后按系统抽样的方法抽样.特别注意,每个个体被抽到的机会均是n N.2.系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.【变式训练2】 (2015·威海质检)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15[解析] 由系统抽样知:抽取号码的间隔为96032=30,∵第一组抽取的号码为9,∴抽取的第n 个号码为a n ,则a n =9+30(n -1), 由451≤a n ≤750,得151115≤n ≤25710,注意到n ∈N *,∴落入区间[451,750]的号码共10个, 因此做问卷B 的有10人. [答案] C考向3 分层抽样及应用(高频考点)命题视角 分层抽样是抽样方法考查的重点,主要以客观题的形式呈现,命题的主要角度:(1)求各层的个体容量;(2)根据某层的容量求总体容量;(3)分层抽样的简单应用.【典例3】 (1)(2015·日照联考)某工厂甲,乙,丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .13(2)(2014·湖北高考)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.[思路点拨] (1)利用抽样比为定值,列方程求解;(2)利用分层抽样,先求出总体中甲设备生产的产品数量,再计算乙设备生产的产品数量.[解析] (1)依题意得360=n120+80+60,故n =13.(2)由题设,抽样比为804 800=160.设甲设备生产的产品为x 件, 则x60=50,∴x =3 000. 故乙设备生产的产品总数为4 800-3 000=1 800. [答案] (1)D (2)1 800 【通关锦囊】1.分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.2.为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即n i ∶N i =n∶N.分层抽样的有关计算,转化为按比例列方程或算式求解.【变式训练3】 (1)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为________.(2)(2014·重庆高考)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250[解析] (1)抽样比为280560+420=280980=27,所以样本中男生人数为560×27=160.(2)法一:由题意可得70n -70=3 5001 500,解得n =100.法二:由题意,抽样比为703 500=150,总体容量为3 500+1 500=5 000,故n =5 000×150=100.[答案] (1)160 (2)A掌握2条规律 1.三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体容量为N ,每个个体被抽到的概率是nN. 2.系统抽样抽取的个体编号从小到大成等差数列.熟记3个范围 1.简单随机抽样:总体容量较少,尤其是样本容量较少. 2.系统抽样:适用于元素个数很多且均衡的总体. 3.分层抽样:适用于总体由差异明显的几部分组成的情形.勿忘3点注意 1.简单随机抽样中,易忽视样本是从总体中逐个抽取,是不放回抽样,且每个个体被抽到的概率相等. 2.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的. 3.分层抽样中,易忽视每层抽取的个体的比例是相同的.易错辨析之11 图表信息求解的误区(2014·广东高考改编)已知某地区中小学生人数和近视情况分别如图921①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.图921[错解] 由图①知,样本容量为(2 000+3 500+4 500)×2%=200, 根据图②知,高中学生的近视人数为200×50%=100. 或根据图②知,高中近视人数为50人. 【智慧心语】错因分析:(1)误把样本容量200认为高中学生的样本数量,或将条形图中近视率误为近视人数.(2)不能从图表中提取有效信息,有的考生无从入手,或者未抓住分层抽样的特点:“各层抽取的个体数依各层个体之比来分配”而无法正确完成高中近视人数的计算求值.防范措施:(1)加强识图能力的培养,如本题中纵轴表示的近视率分别为10%,30%,50%.(2)理解分层抽样的概念,首先分层抽样是等概率抽样,因此,各层的抽样比应相等,可以利用这个等比关系计算求值.[正解] 易知,样本容量为(3 500+4 500+2 000)×2%=200.又样本中高中学生共有2 000×2%=40人.利用图②知,高中学生的近视率为50%.因此所抽样本中高中学生的近视人数为40×50%=20人.[答案]200 20【类题通关】从某小学随机抽样100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图922所示),由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.图922[解析]∵0.005×10+0.035×10+a×10+0.020×10+0.010×10=1,∴a=0.030.设身高在[120,130),[130,140),[140,150]内的三组学生各有x,y,z人,则x100=0.030×10,y100=0.020×10,z100=0.01×10.∴x=30,y=20,z=10.由分层抽样的意义,抽样比为1830+20+10=30%.因此从身高在[140,150]内的学生中选取10×30%=3(人).[答案](1)0.030 (2)3课后限时自测[A 级 基础达标练]一、选择题1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本[解析] 调查的目的是“了解某地5 000名居民某天的阅读时间”,所以“5 000名居民的阅读时间的全体”是调查的总体.[答案] A2.从2 007名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样从2 007人中剔除7人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率( )A .不全相等B .均不相等C .都相等,且为502 007D .都相等,且为140[解析] 从N 个个体中抽取M 个个体,每个个体被抽到的概率均为MN .[答案] C3.某学校有男,女学生各500名,为了解男,女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( )A .抽签法B .随机数法C .系统抽样法D .分层抽样法[解析] 由于是调查男,女学生在学习兴趣与业余爱好方面是否存在差异,因此用分层抽样法.[答案] D4.(2015·潍坊一模)高三某班有学生56人,现将所有同学随机编号,用系统抽样的方。
高中统计案例试题及答案一、单项选择题(每题2分,共10分)1. 在统计学中,以下哪个选项不是数据收集的方法?A. 观察法B. 实验法C. 调查法D. 访谈法答案:D2. 以下哪种图形最适合展示两个变量之间的关系?A. 条形图B. 折线图C. 饼图D. 散点图答案:D3. 以下哪个指标可以用来衡量数据的离散程度?A. 平均数B. 中位数C. 众数D. 方差答案:D4. 在统计学中,以下哪个概念是描述数据分布的中心位置?A. 极差B. 四分位数C. 标准差D. 均值答案:D5. 以下哪个统计图可以展示数据随时间的变化趋势?A. 柱状图B. 饼图C. 散点图D. 折线图答案:D二、多项选择题(每题3分,共15分)1. 下列哪些因素会影响样本的代表性?A. 样本大小B. 抽样方法C. 样本的随机性D. 样本的多样性答案:A、B、C、D2. 在进行数据整理时,以下哪些步骤是必要的?A. 数据清洗B. 数据分类C. 数据编码D. 数据汇总答案:A、B、C、D3. 以下哪些统计量可以用来描述一组数据的集中趋势?A. 平均数B. 中位数C. 众数D. 极差答案:A、B、C4. 在统计分析中,以下哪些方法可以用来预测未来趋势?A. 线性回归B. 时间序列分析C. 移动平均法D. 指数平滑法答案:A、B、C、D5. 以下哪些图形可以用来展示分类数据的分布?A. 条形图B. 折线图C. 饼图D. 直方图答案:A、C三、填空题(每题2分,共10分)1. 在统计学中,数据的收集、处理、分析和解释的过程称为______。
答案:统计过程2. 当数据按照大小顺序排列后,位于中间位置的数值被称为______。
答案:中位数3. 标准差是衡量数据______程度的统计量。
答案:离散4. 在进行假设检验时,如果原假设被拒绝,则我们认为存在______。
答案:统计显著性5. 相关系数是用来衡量两个变量之间______关系的指标。
答案:线性相关四、简答题(每题5分,共20分)1. 简述什么是抽样误差,并举例说明。
§9.1线性回归分析9.1.1变量的相关性学习目标 1.结合实例,体会两个变量间的相关关系.2.掌握相关关系的判断,能根据散点图对线性相关关系进行判断.3.了解两个变量间的相关系数r,能利用相关系数r判断两个变量线性相关程度的大小.导语你知道“名师出高徒”的意思吗?——高明的师傅一定能教出技艺高的徒弟,比喻学识丰富的人对于培养人才的重要性.也就是说,高水平的老师往往能教出高水平的学生.那么老师的水平与学生的水平之间具有怎样的关系呢?这种关系是确定的吗?一、相关关系问题1俗话说“庄稼一枝花,全靠肥当家”,这说明施肥的多少对粮食的产量影响很大,那么施肥量和粮食的产量是确定的函数关系吗?两个变量间的关系除了可能是函数关系外,还可能是其他关系吗?提示农作物的产量与施肥量有关,一般来说,在一定范围内,施肥量越多,农作物的产量就越高,但不能用一个函数来准确地表示产量与施肥量之间的关系,故两者之间不是函数关系,我们称这种不确定的变量关系为相关关系.知识梳理像这样,两个变量之间具有一定的联系,但又没有确定性函数关系,这种关系称为相关关系(correlativity).注意点:相关关系与函数关系的异同点:相同点:均是指两个变量的关系.不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系.例1判断以下两个变量之间是否具有相关关系?(1)正方形的面积与其周长之间的关系;(2)父母的身高与子女的身高之间的关系;(3)学生的学号与身高;(4)汽车匀速行驶时的路程与时间的关系.解(1)设正方形的面积为S,周长为C,则S,即正方形的面积由其周长唯一确定,因此二者是函数关系,不是相关关系.(2)子女身高除了与父母的身高有一定关系外,还与其他因素有关,即子女的身高并不是由其父母的身高唯一确定的,因此二者之间具有相关关系.(3)学生的学号与身高之间没有任何关系,不具有相关关系.(4)若汽车匀速行驶时的速度为v,行驶的路程为s,时间为t,则有s=v t,因此当速度一定时,路程由时间唯一确定,二者之间具有函数关系,而不是相关关系.反思感悟函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.跟踪训练1(多选)下列说法正确的是()A.闯红灯与交通事故发生率的关系是相关关系B.同一物体的加速度与作用力是函数关系C.产品的成本与产量之间的关系是函数关系D.广告费用与销售量之间的关系是相关关系答案ABD解析闯红灯与发生交通事故之间不是因果关系,但具有相关性,是相关关系,所以A正确;物体的加速度与作用力的关系是函数关系,B正确;产品的成本与产量之间是相关关系,C 错误;广告费用与销售量之间是相关关系,D正确.二、散点图与相关性问题2在一次对人体脂肪含量和年龄之间关系的研究中,研究人员获得了一组样本数据如下表.年龄/岁23273941454950脂肪含量/%9.517.821.225.927.526.328.2年龄/岁53545657586061脂肪含量/%29.630.231.430.833.535.234.6其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数.根据上述数据,你能推断出人体的脂肪含量与年龄之间存在怎样的关系吗?提示画出散点图,散点图中的点散布在从左下角到右上角的区域,散点图成线性,即大致分布在一条直线附近,推断脂肪含量变量和年龄变量之间存在着相关关系.知识梳理1.散点图为直观地描述样本数据中两个变量间的关系,用横坐标表示其中的一个变量,纵坐标表示另一个变量,则样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫作散点图.2.线性相关关系散点落在一条直线附近,我们称这两个变量线性相关.3.相关关系的分类具有相关关系的两个变量的散点图:(1)如果散点呈从左下向右上方向发展的趋势,称这两个变量之间正相关.(2)如果散点呈从左上向右下方向发展的趋势,则称这两个变量之间负相关.注意点:散点图的作用(1)散点图具有直观、简明的特点,能体现样本数据的密切程度,可以根据散点图判断变量间是否具有相关关系.(2)通过散点图不但可以从点的位置判断测量值的大小、高低、变动范围与趋势,还可以通过观察剔除异常数据,提高估计相关程度的准确性.例2(1)(多选)某中学的兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是()A.沸点与海拔高度呈正相关B.沸点与气压呈正相关C.沸点与海拔高度呈负相关D.气压与海拔高度呈负相关答案BCD解析由左图知气压随海拔高度的增加而减小,由右图知沸点随气压的升高而升高,所以气压与海拔高度呈负相关,沸点与气压呈正相关,沸点与海拔高度呈负相关.(2)某种木材体积与树木的树龄之间有如下的对应关系:树龄2345678体积30344060556270①请作出这些数据的散点图;②你能由散点图发现木材体积与树木的树龄近似成什么关系吗?解①以x轴表示树木的树龄,y轴表示树木的体积,可得相应的散点图如图所示:②由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树龄成相关关系且呈正相关.延伸探究对于本例(2),若近似成线性相关关系,请画出一条直线来近似地表示这种线性相关关系.解近似拟合直线如图所示.反思感悟两个变量是否相关的两种判断方法(1)根据实际经验:借助积累的经验进行分析判断.(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.跟踪训练2(多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是()答案BC解析图A 的两个变量具有函数关系;图BC 的两个变量具有相关关系;图D 的两个变量之间既不是函数关系,也不是相关关系.三、相关系数问题3散点图可以说明变量间有无线性相关关系,但无法量化两个变量之间的相关程度的大小,更不能精确地说明样本数据之间关系的密切程度,那么我们如何才能寻找到这样一个合适的量来对样本数据的相关程度进行定量分析呢?提示一般地,对于n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),设点A 1(x 1,y 1),A 2(x 2,y 2),…,A n (x n ,y n ),取点M (x ,y )(其中x =x 1+x 2+…+x n n ,y =y 1+y 2+…+y nn).构造向量a 与b ,a =(x 1-x ,x 2-x ,…,x n -x ),b =(y 1-y ,y 2-y ,…,y n -y ),并记〈a ,b 〉=θ,则cos θ=错误!.(*)当|cos θ|越大(越接近于1)时,a ,b 的夹角θ就越接近于0或π,这时,向量a ,b 趋于共线.当a ,b 共线时,存在非零实数λ,使得b =λa1-y =λ(x 1-x ),2-y =λ(x 2-x),n -y =λ(x n -x ).这说明,向量MA 1→,MA 2→,…,MA n →趋于共线,即点A 1,A 2,…,A n ,M 这n +1个点接近于共线.知识梳理1.相关系数r 的公式计算:r =错误!=错误!=错误!.2.相关系数r 具有下列性质:(1)-1≤r ≤1;(2)r>0时y与x呈正相关关系,r<0时y与x呈负相关关系;(3)|r|越接近1,y与x相关的程度就越强,|r|越接近0,y与x相关的程度就越弱.通常情况下,当|r|>0.5时,认为线性相关关系显著;当|r|<0.3时,认为几乎没有线性相关关系.注意点:当r=1时,两个变量完全正相关;当r=-1时,两个变量完全负相关.角度1相关系数的性质例3(多选)对两个变量的相关系数r,下列说法正确的是()A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|趋近于0时,没有线性相关关系D.|r|越接近1时,线性相关程度越强答案AD解析对于A,|r|越大,相关程度越大,A正确;对于B,|r|越小,相关程度越小,B错误;对于C,|r|趋近于0时,线性相关关系越弱,C错误;对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD.反思感悟相关系数的性质(1)r的绝对值越接近0,相关性越弱.(2)r的绝对值越接近1,相关性越强.角度2相关系数的计算及判断例4某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:x2468y30405070(1)画出(x,y)的散点图;(2)计算x与y之间的相关系数,并刻画它们的相关程度.解(1)(x,y)的散点图如图所示.(2)x=5,y=47.5,错误!2i=120,错误!2i=9900,错误!i y i=1080,故相关系数r=错误!=1080-4×5×47.5(120-4×52)(9900-4×47.52)0.9827.由相关系数r≈0.9827,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.反思感悟线性相关强弱的判断方法(1)散点图:散点图只是粗略作出判断,其图象越接近直线,相关性越强.(2)相关系数:相关系数能够较准确地判断相关的程度,其绝对值越大,相关性越强.跟踪训练3(1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并分别求得相关系数r如下表:甲乙丙丁r0.820.780.690.85则哪位同学的试验结果体现A,B两变量有更强的线性相关性?()A.甲B.乙C.丙D.丁答案D解析|r|越接近1,相关性越强,故选D.(2)关于两个变量x和y的7组数据如下表所示:x21232527293235y711212466115325求变量y与x的相关系数,并判断变量y与x之间是正相关还是负相关.解x=17(21+23+25+27+29+32+35)≈27.4,y=17(7+11+21+24+66+115+325)≈81.3,错误!2i=212+232+252+272+292+322+352=5414,错误!i y i=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18542,错误!2i=72+112+212+242+662+1152+3252=124393,∴r=错误!=18542-7×27.4×81.3 (5414-7×27.42)(124393-7×81.32)≈2948.66 3520.92≈0.8375.∵r>0,∴变量y与x之间是正相关关系.1.知识清单:(1)相关关系.(2)散点图,正相关、负相关.(3)相关系数的计算公式及相关系数的性质.2.方法归纳:数形结合.3.常见误区:相关关系与函数关系不分,相关系数绝对值的大小与相关程度的关系.1.(多选)下列两个变量之间的关系不是函数关系的是()A.角度和它的余弦值B.眼睛的近视程度与看手机的时间C.正n边形的边数和内角和的度数D.人的年龄和身高答案BD解析函数关系就是变量之间的一种确定性关系.A,C两项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cosθ,h(n)=(n-2)π.B选项中的两个变量之间不是函数关系,眼睛的近视程度受很多因素影响.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选BD.2.已知某产品产量与产品单位成本之间的线性相关系数为-0.97,这说明二者之间存在着()A.高度相关B.中度相关C.弱度相关D.极弱相关答案A解析由|-0.97|比较接近1知选A.3.根据两个变量x,y之间的样本数据画出散点图如图,这两个变量是否具有线性相关关系______.(填“是”或“否”)答案否解析图中的点分布杂乱,两个变量不具有线性相关关系.4.某部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):固定资产价值33566789910工业增加值15172528303637424045根据上表资料计算的相关系数约为________.答案0.9918解析x =3+3+5+6+6+7+8+9+9+1010=6.6,y =15+17+25+28+30+36+37+42+40+4510=31.5.∴r =错误!≈0.9918.课时对点练1.(多选)给出下列关系,其中有相关关系的是()A .人的年龄与他(她)拥有的财富之间的关系B .曲线上的点与该点的坐标之间的关系C .苹果的产量与气候之间的关系D .森林中的同一种树木,其截面直径与高度之间的关系答案ACD2.(多选)对于线性相关系数r ,以下说法错误的是()A .r 只能是正值,不能为负值B .|r |≤1,且|r |越接近于1,相关程度越大;相反则越小C .|r |≤1,且|r |越接近于1,相关程度越小;相反则越大D .r <0时表示两个变量无相关关系答案ACD解析由相关系数的性质知B正确,其余均错误.3.对于散点图下列说法正确的是()A.一定可以看出变量之间的变化规律B.一定不可以看出变量之间的变化规律C.可以看出正相关与负相关有明显区别D.看不出正相关与负相关有什么区别答案C解析给出一组样本数据,总可以作出相应的散点图,但不一定能分析出两个变量的关系,不一定存在回归直线来模拟数据,但是通过散点图可以看出正相关与负相关有明显区别,故选C.4.(多选)下面的各图中,散点图与相关系数r符合的是()答案ACD解析因为相关系数r的绝对值越接近1,线性相关程度越高,且r>0时正相关,r<0时负相关,故观察各选项,易知B不符合,A,C,D均符合.5.变量x与y相对应的一组样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量u 与v相对应的一组样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量y与x 之间的相关系数,r2表示变量v与u之间的相关系数,则()A.r2<r1<0B.0<r2<r1C.r2<0<r1D.r1=r2答案C解析由已知中的数据可知:第一组的样本数据正相关,则相关系数大于零,第二组的样本数据负相关,则相关系数小于零,故选C.6.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.5 3.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额呈正比例函数关系B.利润率与人均销售额呈反比例函数关系C.利润率与人均销售额呈正相关关系D.利润率与人均销售额呈负相关关系答案C解析根据题意,画出利润率与人均销售额的散点图,如图所示.由散点图可知,利润率与人均销售额呈正相关关系.故选C.7.已知某个样本点中的变量x,y线性相关,相关系数r>0,平移坐标系,则在以(x,y)为坐标原点的坐标系下的散点图,大多数的点都落在第________象限.答案一、三解析因为r>0,所以大多数的点都落在第一、三象限.8.给出下列x,y值的数据如下:x1248y35917则根据数据可以判断x和y的关系是________.(填“确定关系”“相关关系”或“没有关系”)答案确定关系解析由表中数据可以得到x,y之间是一种函数关系:y=2x+1,所以x,y是一种确定的关系,即函数关系.9.某个男孩的年龄与身高的统计数据如下表所示:年龄x(岁)123456身高y(cm)788798108115120(1)画出散点图;(2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关.解(1)散点图如图所示.(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系,且是正相关关系.10.某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x与日销售量y之间有如下关系:x5678y10873试计算x,y之间的相关系数.参考数据:错误!(x i-x)(y i-y)=-11,错误!(x i-x)2=5,错误!(y i-y)2=26.解根据参考数据,得相关系数r=错误!=-115×26≈-0.9648.11.下列两个变量相关程度最高的是()A.商品销售额和商品销售量的相关系数是0.9B.商品销售额和商业利润率的相关系数是0.84C.平均流通费用率和商业利润率的相关系数是-0.94D.商品销售价格和商品销售量的相关系数是-0.91答案C解析当|r|越接近1时,样本数据的线性相关程度越强;当|r|越接近0时,样本数据的线性相关程度越弱,-0.94的绝对值最大,故选C.12.两个变量x,y的相关系数r1=0.7859,两个变量u,v的相关系数r2=-0.9568,则下列判断正确的是()A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强D .变量x 与y 负相关,变量u 与v 正相关,变量u 与v 的线性相关性较强答案C解析由相关系数r 1=0.7859>0知x 与y 正相关,由相关系数r 2=-0.9568<0知u ,v 负相关,又|r 1|<|r 2|,∴变量u 与v 的线性相关性比x 与y 的线性相关性强.故选C.13.为考察两个变量x ,y 的相关性,搜集数据如表,则两个变量的线性相关程度()x 510152025y103105110111114A.很强B .很弱C .无相关D .不确定答案A解析错误!i =75,错误!i =543,错误!2i =1375,错误!i y i =8285,错误!2i =59051,x =15,y =108.6,r =错误!=8285-5×15×108.61375-5×152×59051-5×108.62≈0.9826,故相关程度很强.14.若已知错误!(y i -y )2是错误!(x i -x )2的4倍,错误!(x i -x )·(y i -y )是错误!(x i -x )2的1.5倍,则相关系数r 的值为________.答案34解析由r =错误!,得r =34.15.(多选)如图所示是某市2020年4月至2021年3月每月最低气温与最高气温的折线统计图,已知每月最低气温与最高气温的相关系数r =0.83,则下列结论正确的是(若|r |>0.75,则线性相关程度较强)()A.每月最低气温与最高气温有较强的线性相关性,且二者为正线性相关B.月温差(月最高气温-月最低气温)的最大值出现在10月C.9~12月的月温差相对于5~8月,波动性更大D.每月最高气温与最低气温的平均值在所统计的前6个月里逐月增加答案ABC解析每月最低气温与最高气温的相关系数r=0.83,可知每月最低气温与最高气温有较强的线性相关性,且二者为正线性相关.由所给的折线图可以看出月温差(月最高气温-月最低气温)的最大值出现在10月.9~12月的月温差相对于5~8月,波动性更大.每月的最高气温与最低气温的平均值在所统计的前5个月里逐月增加,在第6个月开始减少,所以A,B,C 正确,D错误.16.为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x=116错误!i=9.97,s=错误!=错误!≈0.212,错误!≈18.439,错误!(x i-x)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).附:样本(x i,y i)(i=1,2,…,n)的相关系数r=错误!.解由样本数据得(x i,i)(i=1,2,…,16)的相关系数为r=错误!≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.§9.2独立性检验学习目标 1.掌握分类变量和列联表的概念,并会依据列联表判断两个分类变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想.导语有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语,那么吸烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟引起的吗?“如果你认为健康问题不一定是由吸烟引起的,那么可以吸烟”的说法对吗?要回答这个问题,我们先一起来学习本课时的知识吧!一、2×2列联表问题某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中,有21人患病,274人未患病.根据这些数据能否断定:患呼吸道疾病与吸烟有关?提示为了研究这个问题,我们将上述数据用表表示如下:患病未患病合计吸烟37183220不吸烟21274295合计58457515由此表可以粗略地估计出在吸烟的人中,有37220≈16.82%的人患病;在不吸烟的人中,有21295≈7.12%的人患病.因此,从直观上可以得到结论:吸烟者与不吸烟者患病的可能性存在差异.知识梳理一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下列联表所示的抽样数据:Ⅱ合计类1类2Ⅰ类Aa b a +b 类B c d c +d 合计a +cb +da +b +c +d上述表格称为2×2列联表.注意点:列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2列联表.例1(1)某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m =________,n =________.80分及80分以上80分以下合计试验班321850对照班24m 50合计5644n答案26100解析+m =50+44=n ,=26,=100.(2)在一项有关医疗保健的社会调查中,发现调查的男性有530人,女性有670人,其中男性中喜欢吃甜食的有117人,女性中喜欢吃甜食的有492人,请作出性别与是否喜欢吃甜食的2×2列联表.解2×2列联表如下:喜欢吃甜食不喜欢吃甜食合计男117413530女492178670合计6095911200反思感悟2×2列联表是对两个分类变量的汇总统计表,列表时关键是对涉及的变量分清类别.制作2×2列联表的基本步骤:第一步,合理选取两个变量,且每一个变量都可以取两个值;第二步,抽取样本,整理数据;第三步,画出2×2列联表.跟踪训练1在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,试作出性别与色盲的列联表.解根据题目所给的数据作出如下的列联表.色盲患色盲不患色盲合计性别男38442480女6514520合计449561000二、独立性检验知识梳理独立性检验1.定义:用χ2统计量研究两个变量X和Y是否有关的方法称为独立性检验.2.χ2统计量:.χ2=n(ad-bc)2(a+c)(b+d)(a+b)(c+d)3.独立性检验的步骤要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:Ⅰ与Ⅱ没有关系;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)根据临界值,作出判断.其中临界值如表所示:P(χ2≥x0)0.500.400.250.150.100.050.0250.0100.0050.001 x00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828例如:(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;(2)若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;(3)若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;(4)若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系.注意点:独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度.角度1对独立性检验的理解例2在吸烟与患肺癌是否相关的研究中,下列说法正确的是()A.若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,则在100个吸烟的人中必有99个人患肺癌B.由独立性检验可知,当有99%的把握认为吸烟与患肺癌有关时,若某人吸烟,则他有99%的可能患有肺癌C.通过计算得到χ2>3.841,是指有95%的把握认为吸烟与患肺癌有关联D.以上三种说法都不正确答案C解析若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,而不是在100个吸烟的人中必有99个人患肺癌,故A不正确;99%是指吸烟与患肺癌有关的概率,而不是吸烟的人有99%的可能患有肺癌,故B不正确.C显然正确,D不正确.反思感悟χ2≥x0的实质就是两个变量相关的概率为1-P(χ2≥x0).角度2由χ2进行独立性检验例3某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病(阳性是指工人患皮肤病)人数如下:阳性例数阴性例数合计新防护服57075旧防护服101828合计1588103问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.解提出假设H0:新防护服对预防皮肤炎没有明显效果.根据列联表中的数据可求得χ2=103×(5×18-70×10)275×28×15×88≈13.826.因为H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握认为新防护服比旧防护服对预防工人患职业性皮肤炎有效.反思感悟解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表.(2)求χ2的值.(3)判断可能性:与临界值比较,得出事件有关的可能性大小.跟踪训练2(1)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:理科文科合计。
第1页共14页2024年高考数学总复习第十一章《统计与统计案例》测试卷及答案解析(时间:120分钟满分:150分)一、选择题(本大题共12小题,每小题5分,共60分)1.从某社区65户高收入家庭,280户中等收入家庭,105户低收入家庭中选出100户调查社会购买力的某一项指标,应采用的最佳抽样方法是()A .系统抽样B .分层抽样C .简单随机抽样D .各种方法均可答案B 解析从某社区65户高收入家庭,280户中等收入家庭,105户低收入家庭中选出100户调查社会购买力的某一项指标,因为社会购买力的某项指标,受到家庭收入的影响,而社区中各个家庭收入差别明显,所以应用分层抽样法,故选B.2.某学校的教师配置及比例如图所示,为了调查各类教师的薪资状况,现采用分层抽样的方法抽取部分教师进行调查,在抽取的样本中,青年教师有30人,则样本中的老年教师人数为()A .10B .12C .18D .20答案B 解析设样本中的老年教师人数为x ,由分层抽样的特征得30x =50%20%,所以x =12,故选B.3.九江联盛某超市为了检查货架上的奶粉是否合格,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用系统抽样方法确定所选取的5袋奶粉的编号可能是()A .6,12,18,24,30B .2,4,8,16,32C .2,12,23,35,48D .7,17,27,37,47答案D 解析因为系统抽样是确定出第一个数据后等距抽取的,因此只有D 符合,故选D.4.如图所示,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的平均数为17,乙组数据的中位数为17,则x ,y 的值分别为()。
专题10.1 统计与统计案例【考纲要求】1.抽样(1)简单随机抽样通过实例,了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法:抽签法和随机数法.会计算样本均值和样本方差,了解样本与总体的关系.(2)分层随机抽样通过实例,了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.结合具体实例,掌握分层随机抽样的样本均值和样本方差.(3)抽样方法的选择在简单的实际情境中,能根据实际问题的特点,设计恰当的抽样方法解决问题.2.统计图表能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.3.用样本估计总体(1)结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.(2)结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.(3)结合实例,能用样本估计总体的取值规律.4.成对数据的统计相关性(1)结合实例,了解样本相关系数的统计含义.(2)结合实例,会通过相关系数比较多组成对数据的相关性.5.一元线性回归模型(1)结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.(2)针对实际问题,会用一元线性回归模型进行预测.6.2×2列联表(1)通过实例,理解2×2列联表的统计意义.(2)通过实例,了解2×2列联表独立性检验及其应用.【知识清单】知识点一.随机抽样与用样本估计总体 1.简单随机抽样(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法. 2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样. (2)分层抽样的应用范围当总体是由差异明显的几个部分组成时,往往选用分层抽样. 3.频率分布直方图(1)纵轴表示频率组距,即小长方形的高=频率组距;(2)小长方形的面积=组距×频率组距=频率; (3)各个小方形的面积总和等于1. 4.频率分布表的画法第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 5.条形图、折线图及扇形图(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图. 6.中位数、众数、平均数的定义 (1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数一组数据中出现次数最多的数据叫做这组数据的众数. (3)平均数一组数据的算术平均数即为这组数据的平均数,n 个数据x 1,x 2,…,x n 的平均数x =1n(x 1+x 2+…+x n ).7.样本的数字特征如果有n 个数据x 1,x 2,…,x n ,那么这n 个数的 (1)标准差.(2)方差.[常用结论]1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x ,则mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a . (2)若数据x 1,x 2,…,x n 的方差为s 2,则数据ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2. 知识点二.变量间的相关关系与统计案例 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归方程为y ^=b ^x +a ^,其中, ()()()1122211ˆn niii ii i nni ii i x x y y x y nxybx x xnx ====---==--∑∑∑∑ˆˆay bx =-(3)通过求Q =∑i =1ny i -bx i -a2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法. (4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值22()()()()()n ad bc K a b c d a c b d -=++++ (其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断. [常用结论]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ). 2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大. 3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.【考点梳理】考点一 统计数据与图表在实际问题中的应用【典例1】(2017·全国高考真题(理))某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳【答案】A【解析】对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.【典例2】(2018·全国高考真题(文))某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:则下面结论中不正确的是A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半【答案】A 【解析】首先设出新农村建设前的经济收入为M ,根据题意,得到新农村建设后的经济收入为2M ,之后从图中各项收入所占的比例,得到其对应的收入是多少,从而可以比较其大小,并且得到其相应的关系,从而得出正确的选项. 详解:设新农村建设前的收入为M ,而新农村建设后的收入为2M ,则新农村建设前种植收入为0.6M ,而新农村建设后的种植收入为0.74M ,所以种植收入增加了,所以A 项不正确;新农村建设前其他收入我0.04M ,新农村建设后其他收入为0.1M ,故增加了一倍以上,所以B 项正确; 新农村建设前,养殖收入为0.3M ,新农村建设后为0.6M ,所以增加了一倍,所以C 项正确;新农村建设后,养殖收入与第三产业收入的综合占经济收入的,所以超过了经济收入的一半,所以D 正确; 故选A. 【规律方法】条形图、折线图及扇形图(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图. 【变式探究】1.(2020·西城·北京铁路二中高三期中)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,给出下列四个结论:30%28%58%50%+=>①第3天至第11天复工复产指数均超过80%;②这11天期间,复产指数增量大于复工指数的增量;③第9天至第11天复产指数增量大于复工指数的增量;④第1天至第3天复工指数的方差大于第2天至第4天复工指数的方差.其中所有正确结论的序号是____________________.【答案】①③【解析】由图像可得,第3天至第11天复工复产指数均超过80%,故①正确;由图像可得,第1天复产指数与复工指数的差大于第11天复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故②错误;由图像可得,第9天至第11天复产指数增量大于复工指数的增量;故③正确;由图像可得,第1天至第3天复工指数波动较小,第2天至第4天复工指数波动较大,所以第1天至第3天复工指数的方差小于第2天至第4天复工指数的方差,故④错误.故答案为:①③2.(多选)(2019·贵州省适应性考试)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高条形图:根据图中(35岁以上含35岁)的信息,下列结论中一定正确的是( )A.样本中男性比女性更关注地铁1号线全线开通B.样本中多数女性是35岁以上C .样本中35岁以下的男性人数比35岁以上的女性人数多D .样本中35岁以上的人对地铁1号线的开通关注度更高 【答案】ABD【解析】设等高条形图对应2×2列联表如下:根据第1个等高条形图可知,35岁以上男性比35岁以上女性多,即a >b ;35岁以下男性比35岁以下女性多,即c >d .根据第2个等高条形图可知,男性中35岁以上的比35岁以下的多,即a >c ;女性中35岁以下的比35岁以下的多,即b >d .对于A ,男性人数为a +c ,女性人数为b +d ,因为a >b ,c >d ,所以a +c >b +d ,所以A 正确; 对于B,35岁以上女性人数为b,35岁以下女性人数为d ,因为b >d ,所以B 正确;对于C,35岁以下男性人数为c,35岁以上女性人数为b ,无法从图中直接判断b 与c 的大小关系,所以C 不一定正确;对于D,35岁以上的人数为a +b,35岁以下的人数为c +d ,因为a >c ,b >d ,所以a +b >c +d ,所以D 正确.故选A 、B 、D. 考点二 抽样方法【典例3】(2020·横峰中学高三其他(理))某中学高二年级共有学生2400人,为了解他们的身体状况,用分层抽样的方法从中抽取一个容量为80的样本,若样本中共有男生42人,则该校高二年级共有女生( ) A .1260 B .1230C .1200D .1140【答案】D 【解析】设女生总人数为:人,由分层抽样的方法可得: 抽取女生人数为:人,所以,解得: 故选:D【典例4】(2019·山东省泰安实验中学高一开学考试)总体由编号为01,02,,29,30的30个个体组成,现从中9抽取一个容量为6的样本,请以随机数表第1行第3列开始,向右读取,则选出来的第6个x 804238-=80382400x=1140x =⋯个体的编号为()70 29 17 12 13 40 33 12 38 26 13 89 51 0356 62 18 37 35 96 83 50 87 75 97 12 55 93A.12 B.13 C.03 D.40【答案】C【解析】13从随机数表第行第列开始由左到右依次选取两个数字中小于30的编号依次为29,17,12,13,26,03,则第6个个体的编号为26.故选C.【总结提升】1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.2. 分层抽样的前提和遵循的两条原则(1)前提:分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取.(2)遵循的两条原则:①将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;②分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.3. 两种抽样方法的特点、联系及适用范围【变式探究】1.(2019·绥德中学高二月考(文))高二年级有男生560人,女生420人,为了解学生职业规划,现用分层抽样的方法从该年级全体学生中抽取一个容量为280人的样本,则此样本中男生人数为( )A.120 B.160 C.280 D.400【答案】B【解析】有男生560人,女生420人,年级共有,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,每个个体被抽到的概率是, 要从男生中抽取,故选:B .2.下列抽取样本的方式属于简单随机抽样的个数为( ) ①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛. A .0 B .1 C .2 D .3 【答案】A 【解析】①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样.因为它是有放回抽样;③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取;④不是简单随机抽样.因为不是等可能抽样.故选A . 【易错提醒】1.应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去. 2.分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. (3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”.∴560420980+=∴28029807=∴25601607⨯=考点三 频率分布直方图的应用【典例5】(2020·天津高考真题)从一批零件中抽取80个,测量其直径(单位:mm ),将所得数据分为9组:[)[)[)[]5.31,5.33,5.33,5.35,,5.45,5.47, 5.47,5.49,并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A .10B .18C .20D .36【答案】B 【解析】根据直方图,直径落在区间[)5.43,5.47之间的零件频率为:()6.25 5.000.020.225+⨯=, 则区间[)5.43,5.47内零件的个数为:800.22518⨯=. 故选:B.【典例6】(2019·全国高考真题(理))为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成两组,每组100只,其中组小鼠给服甲离子溶液,组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:,A B A B记为事件:“乙离子残留在体内的百分比不低于”,根据直方图得到的估计值为. (1)求乙离子残留百分比直方图中的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表). 【答案】(1) ,;(2) ,. 【解析】(1)由题得,解得,由,解得. (2)由甲离子的直方图可得,甲离子残留百分比的平均值为,乙离子残留百分比的平均值为 【规律方法】(1)在频率分布直方图中,各小长方形的面积表示相应各组的频率,所有小长方形的面积的和等于1; (2)频率组距×组距=频率; (3)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数 【变式探究】1.(2020·海南高三期中)为了评估某家快递公司的服务质量,某评估小组进行了客户满意度调查,从该公司参与调查的客户中随机抽取500名客户的评分,评分均在区间上,分组为,,,,,其频率分布直方图如图所示.规定评分在60分以下表示对该公司的服务质C 5.5()P C 0.70,a b 0.35a =0.10b = 4.0560.200.150.70a ++=0.35a =0.050.151()10.70b P C ++=-=-0.10b =0.1520.2030.3040.2050.1060.057 4.05⨯+⨯+⨯+⨯+⨯+⨯=0.0530.1040.1550.3560.2070.1586⨯+⨯+⨯+⨯+⨯+⨯=[]50,100[)50,60[)60,70[)70,80[)80,90[]90,100量不满意,则这500名客户中对该公司的服务质量不满意的客户的人数为( )A .15B .16C .17D .18【答案】A 【解析】由频率分布直方图可知,评分在区间上的频率为,所以评分在区间上的客户有(人), 即对该公司的服务质量不满意的客户有15人. 故选:A2. (2017北京,文17)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),┄,[80,90],并整理得到如下频率分布直方图:(Ⅰ)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;[)50,601(0.0070.020.030.04)100.03-+++⨯=[)50,600.0350015⨯=(Ⅱ)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(Ⅲ)已知样本中有一半男生的分数学.科网不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例. 【答案】(Ⅰ)0.4;(Ⅱ)5人;(Ⅲ). 【解析】(Ⅰ)根据频率分布直方图可知,样本中分数不小于70的频率为,所以样本中分数小于70的频率为.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(Ⅱ)根据题意,样本中分数不小于50的频率为,分数在区间内的人数为.学科%网 所以总体中分数在区间内的人数估计为.【易错提醒】频率分布直方图的纵坐标是频率组距,而不是频率 考点四 用样本的数字特征估计总体的数字特征【典例7】(2020·全国高考真题(理))在一组样本数据中,1,2,3,4出现的频率分别为1234,,,p p p p ,且411i i p ==∑,则下面四种情形中,对应样本的标准差最大的一组是( )A .14230.1,0.4p p p p ====B .14230.4,0.1p p p p ====C .14230.2,0.3p p p p ====D .14230.3,0.2p p p p ====【答案】B 【解析】对于A 选项,该组数据的平均数为()()140.1230.4 2.5A x =+⨯++⨯=,32(0.020.04)100.6+⨯=10.60.4-=(0.010.020.040.02)100.9+++⨯=[40,50)1001000.955-⨯-=[40,50)540020100⨯=方差为()()()()222221 2.50.12 2.50.43 2.50.44 2.50.10.65A s =-⨯+-⨯+-⨯+-⨯=;对于B 选项,该组数据的平均数为()()140.4230.1 2.5B x =+⨯++⨯=,方差为()()()()222221 2.50.42 2.50.13 2.50.14 2.50.4 1.85B s =-⨯+-⨯+-⨯+-⨯=;对于C 选项,该组数据的平均数为()()140.2230.3 2.5C x =+⨯++⨯=,方差为()()()()222221 2.50.22 2.50.33 2.50.34 2.50.2 1.05C s =-⨯+-⨯+-⨯+-⨯=;对于D 选项,该组数据的平均数为()()140.3230.2 2.5D x =+⨯++⨯=,方差为()()()()222221 2.50.32 2.50.23 2.50.24 2.50.3 1.45D s =-⨯+-⨯+-⨯+-⨯=.因此,B 选项这一组的标准差最大. 故选:B.【典例8】(2019年高考全国Ⅱ卷文)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) .【答案】(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%;(2)这类企业产值增长率的平均数与标准差的估计值分别为30%,17%. 【解析】(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为. 产值负增长的企业频率为. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%. (2), 8.602≈1470.21100+=20.02100=1(0.1020.10240.30530.50140.707)0.30100y =-⨯+⨯+⨯+⨯+⨯=,,所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%. 【总结提升】(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征. 【变式探究】1. (2019·全国高考真题(理))演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是 A .中位数 B .平均数 C .方差 D .极差【答案】A 【解析】设9位评委评分按从小到大排列为.则①原始中位数为,去掉最低分,最高分,后剩余,中位数仍为,A 正确. ②原始平均数,后来平均数平均数受极端值影响较大,与不一定相同,B 不正确 ③ 由②易知,C 不正确.④原极差,后来极差可能相等可能变小,D 不正确.()52211100i ii s n y y ==-∑222221(0.40)2(0.20)240530.20140.407100⎡⎤=-⨯+-⨯+⨯+⨯+⨯⎣⎦=0.02960.020.17s ==≈123489x x x x x x ≤≤≤≤≤5x 1x 9x 2348x x x x ≤≤≤5x ∴1234891()9x x x x x x x =+++++234817x x x x x '=+++()∴x x '()()()222219119S x x x x x x ⎡⎤=-+-++-⎣⎦()()()222223817s x x x x x x ⎡⎤'=-'+-'++-'⎢⎥⎣⎦91=x -x 82=x -x2.(2020·全国高考真题(文))设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A .0.01 B .0.1C .1D .10【答案】C 【解析】因为数据的方差是数据的方差的倍,所以所求数据方差为 故选:C 【总结提升】1.众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s 2=1n [(x 21+x 22+…+x 2n )-n x 2]或写成s 2=1n(x 21+x 22+…+x 2n )-x 2,即方差等于原数据平方的平均数减去平均数的平方. 2.主要命题角度:(1)样本的数字特征与频率分布直方图交汇 (2)样本的数字特征与茎叶图交汇①在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.②茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等. (3)样本的数字特征与优化决策问题交汇:利用样本的数字特征解决优化决策问题的依据①平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. ②用样本估计总体就是利用样本的数字特征来描述总体的数字特征. 考点五 相关关系的判断【典例9】对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )(1,2,,)i ax b i n +=,(1,2,,)i x i n =,2a 2100.01=1⨯。
全国卷高考数学复习专题(附参考答案)统计与统计案例考点一抽样方法与总体分布的估计1.(2014湖南,2,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p2,p3,则( )A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案 D2.(2014广东,6,5分)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )图1图2A.200,20B.100,20C.200,10D.100,10答案 A3.(2014山东,7,5分)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )A.6B.8C.12D.18 答案 C4.(2014陕西,9,5分)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a(a 为非零常数,i=1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A.1+a,4 B.1+a,4+a C.1,4 D.1,4+a 答案 A5.(2014江苏,6,5分)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有 株树木的底部周长小于100 cm.答案 246.(2014天津,9,5分)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取 名学生. 答案 607.(2014广东,17,13分)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.根据上述数据得到样本的频率分布表如下:分组 频数 频率[25,30] 3 0.12 (30,35] 5 0.20 (35,40] 8 0.32 (40,45] n 1 f 1 (45,50] n 2f 2(1)确定样本频率分布表中n1,n2, f1和f2的值;(2)根据上述频率分布表,画出样本频率分布直方图;(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.解析(1)n1=7,n2=2, f1=0.28, f2=0.08.(2)样本频率分布直方图如图所示.(3)根据样本频率分布直方图,得每人的日加工零件数落在区间(30,35]的概率为0.2,设所取的4人中,日加工零件数落在区间(30,35]的人数为ξ,则ξ~B(4,0.2),P(ξ≥1)=1-P(ξ=0)=1-(1-0.2)4=1-0.409 6=0.590 4,所以4人中,至少有1人的日加工零件数落在区间(30,35]的概率为0.590 4.考点二变量间的相关关系、统计案例8.(2014重庆,3,5分)已知变量x与y正相关,且由观测数据算得样本平均数错误!未找到引用源。
全国卷高考数学复习专题
(附参考答案)
统计与统计案例
考点一抽样方法与总体分布的估计
1.(2014湖南,2,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中
的概率分别为p
1,p
2
,p
3
,则( )
A.p
1=p
2
<p
3
B.p
2
=p
3
<p
1
C.p
1
=p
3
<p
2
D.p
1
=p
2
=p
3
答案 D
2.(2014广东,6,5分)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
图1
图2
A.200,20
B.100,20
C.200,10
D.100,10
答案 A
3.(2014山东,7,5分)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为
[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6
B.8
C.12
D.18
答案 C
4.(2014陕西,9,5分)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若
y i =x i +a(a 为非零常数,i=1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( )
A.1+a,4
B.1+a,4+a
C.1,4
D.1,4+a
答案 A
5.(2014江苏,6,5分)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有 株树木的底部周长小于100 cm.
答案 24
6.(2014天津,9,5分)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取 名学生.
答案 60
7.(2014广东,17,13分)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如
下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.
根据上述数据得到样本的频率分布表如下:
分组 频数
频率 [25,30] 3
0.12 (30,35] 5
0.20 (35,40] 8
0.32 (40,45] n 1
f 1 (45,50] n 2 f 2
(1)确定样本频率分布表中n
1,n
2
, f
1
和f
2
的值;
(2)根据上述频率分布表,画出样本频率分布直方图;
(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.
解析(1)n
1=7,n
2
=2, f
1
=0.28, f
2
=0.08.
(2)样本频率分布直方图如图所示.
(3)根据样本频率分布直方图,得每人的日加工零件数落在区间(30,35]的概率为0.2,设所取的4人中,日加工零件数落在区间(30,35]的人数为ξ,则
ξ~B(4,0.2),P(ξ≥1)=1-P(ξ=0)=1-(1-0.2)4=1-0.409 6=0.590 4,
所以4人中,至少有1人的日加工零件数落在区间(30,35]的概率为0.590 4. 考点二变量间的相关关系、统计案例
8.(2014重庆,3,5分)已知变量x与y正相关,且由观测数据算得样本平均数错误!未找到引用源。
=3,错误!未找到引用源。
=3.5,则由该观测数据算得的线性回归方程可能是( )
A.错误!未找到引用源。
=0.4x+2.3
B.错误!未找到引用源。
=2x-2.4
C.错误!未找到引用源。
=-2x+9.5
D.错误!未找到引用源。
=-0.3x+4.4
答案 A
9.(2014湖北,4,5分)根据如下样本数据
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
得到的回归方程为错误!未找到引用源。
=bx+a,则( )
A.a>0,b>0
B.a>0,b<0
C.a<0,b>0
D.a<0,b<0
答案 B
10.(2014课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份2007 2008 2009 2010 2011 2012 2013
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
错误!未找到引用源。
=错误!未找到引用源。
,错误!未找到引用源。
=错误!未找到引用源。
-错误!未找到引用源。
.
解析(1)由所给数据计算得
错误!未找到引用源。
=错误!未找到引用源。
×(1+2+3+4+5+6+7)=4,
错误!未找到引用源。
=错误!未找到引用源。
×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
错误!未找到引用源。
(t
i
-错误!未找到引用源。
)2=9+4+1+0+1+4+9=28,
错误!未找到引用源。
(t
i -错误!未找到引用源。
)(y
i
-错误!未找到引用
源。
)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1. 6=14,
错误!未找到引用源。
=错误!未找到引用源。
=错误!未找到引用源。
=0.5, 错误!未找到引用源。
=错误!未找到引用源。
-错误!未找到引用源。
=4.3-0.5×4=2.3,
所求回归方程为错误!未找到引用源。
=0.5t+2.3.
(2)由(1)知,错误!未找到引用源。
=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得错误!未找到引用源。
=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.。