3.2 独立性检验
- 格式:ppt
- 大小:258.50 KB
- 文档页数:25
3.2 独立性检验是如何判断两个事件是否相互独立的独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2χ应该很小.如果由观测数据计算得到的2χ的观测值很大,则在一定程度上说明假设不合理.根据随机变量2χ的含义,可以通过概率式评价该假设不合理的程度,由实际计算的2χ>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2χ≤3.841时,认为两个分类变量是无关的.对于两事件而言即相互独立.1.两个事件独立的判定例1: 为了研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果列表如下:根据193个病人的数据,能否作出药的效果与给药方式有关的结论?请说明理由.解:提出假设H0:药的效果与给药方式无关系.根据列联表中的数据,得χ2=2193(58314064)122719895-⨯-⨯⨯⨯⨯≈1.3896<2.072.当H0成立时,χ2>1.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H0,即不能作出药的效果与给药方式有关的结论.注意:这是一个由列联表来验证的独立性检验问题,其结论是没有关系的假设成立.并且应该注意上述结论是对所有口服药物与注射药物的实验人而言的,绝不要误以为对被跟踪的193个跟踪研究对象成立.例2:调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系.分析:利用表中的数据通过公式计算出2χ统计量,可以用它的取值大小来推断独立性是否成立.解:由公式()841.368892.35732345531826248922<≈⨯⨯⨯⨯-⨯⨯=χ 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关).2.两个事件不独立的判定例3:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?分析:列出22⨯列联表,利用公式求出2χ与两个临界值3.841与6.635比较大小得适当范围.解:根据题目所给数据得到如下表所示: 秃顶与患心脏病列联表由公式,得:()635.6373.167726651048389451175597214143722>≈⨯⨯⨯⨯-⨯⨯=χ所以有99%的把握认为“秃顶与患心脏病有关”.说明:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.例4.某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有8人,认为作业不多的有15人,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约是多少?解:2x =059.523272426)981518(502=⨯⨯⨯⨯-⨯, ()024.52>x P =0.025, 有97.5%的把握认为喜欢玩电脑游戏与认为作业多有关系.。
3.2独立性检验的基本思想及其初步应用1.问题导航(1)分类变量的概念是什么?什么是列联表?什么是2×2列联表?(2)等高条形图的优点是什么?如何利用等高条形图判断两个变量之间的关系?(3)独立性检验的概念是什么?怎样进行独立性检验?2.例题导读例1是利用等高条形图和K2值的计算判断秃顶与患心脏病是否有关,请试做教材P97练习.1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的_______不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的_______频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为_______{x1,x2_______}和_______{y1,y2.2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否_______相互影响,常用等高条形图展示列联表数据的_______频率特征.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间_______有关系.3.独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=_______n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定_______临界值k0.②利用公式计算随机变量K2的_______观测值k.③如果_______k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在_______犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_______没有发现足够证据支持结论“X与Y有关系”.1.判断(对的打“√”,错的打“×”)(1)列联表中的数据是两个分类变量的频数.()(2)事件A与B的独立性检验无关,即两个事件互不影响.()(3)K2的大小是判断事件A与B是否相关的统计量.()答案:(1)√(2)×(3)√2.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是()A.散点图B.等高条形图C.2×2列联表D.以上均不对答案:B3.分类变量X和则下列说法中正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强答案:C4.若由一个2×2列联表中的数据计算K2的观测值k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量有关系.答案:0.05详析独立性检验(1)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握认为两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论.(3)独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率.等高条形图的应用(2015·青岛高二检测)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[解]作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关.利用等高条形图判断两个分类变量是否相关的步骤1.(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是()解析:选D.在四幅图中,D图中两个阴影条的高度相差最明显,说明两个分类变量之间的关系最强.(2)在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况如下表所示,据此解:由数据的列联表可以得到等高条形图为:从图中可以发现男性中晕机的频率与女性中晕机的频率相差较大,故我们认为性别和是否晕机有关系,且在恶劣气候飞行中男性比女性更容易晕机.独立性检验(2014·高考辽宁卷节选)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.[解]将2×2列联表中的数据代入公式计算,得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(60×10-20×10)2 70×30×80×20=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.解决独立性检验问题的基本步骤:(1)根据已知的数据作出列联表.(2)作出相应的等高条形图,可以利用图形做出相应判断.(3)求K2的观测值.(4)判断可能性:与临界值比较,得出事件有关的可能性大小.2.(1)为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?解:列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关. (2)①这种传染病是否与饮用水的卫生程度有关,请说明理由;②若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解:①假设H 0:传染病与饮用水无关,把表中数据代入公式得K 2=830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. ②依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)214×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但①中我们有99.9%的把握肯定结论的正确性.②中我们只有97.5%的把握肯定.(本题满分12分)调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将下面的2×2(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系? [解] (1)4分(2)由所给数据计算K 2的观测值 k =89×(24×26-31×8)255×34×32×57≈3.689>2.706.8分根据临界值表知P (K 2≥2.706)≈0.10.9分因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.12分 [规范与警示] (1)解答过程中的表格经常因为不认真仔细,把数据填写错误,会直接导致总计出错,也会导致k值求错,另外在利用公式求K2的观测值时经常因为公式用错,数据代入计算错误,而使得独立性检验出错.(2)在解答独立性检验题目中,数据有时比较多,一定不要混淆,要分辨清楚,否则会影响解题的下一步,如本例2×2列联表中数据极易混淆.(3)计算中,有时公式复杂,要记忆准确,同时计算不能失误,如K2的公式很复杂,计算中也不要粗心.1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B.k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:选C.由图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故B、D 不正确.由图知,男生比女生喜欢理科的可能性大些.3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名由表中数据直观分析,收看新闻节目的观众与年龄________.(填“有关”或“无关”) 解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄有关.答案:有关4.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a ,(2)文科学生总成绩不好与数学成绩不好有关系吗? 解:(1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,∵P (k ≥5.024)≈0.025,∴在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.[A.基础达标]1.下面是2×2则表中a ,b 的值分别为A .94,72 B .52,50 C .52,74 D .74,52 解析:选C.根据列联表的特点,可知:⎩⎪⎨⎪⎧a +21=73,a +22=b ,解得⎩⎪⎨⎪⎧a =52,b =74. 2.下列关于等高条形图的叙述正确的是( )A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图中可以粗略地看出两个分类变量是否有关系D .以上说法都不对解析:选C.在等高条形图中仅能粗略判断两个分类变量的关系,故A 错.在等高条形图中仅能够找出频率,无法找出频数,故B 错.3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )A .100个心脏病患者中至少有99人打鼾B .1个人患心脏病,则这个人有99%的概率打鼾C .100个心脏病患者中一定有打鼾的人D .100个心脏病患者中可能一个打鼾的人都没有解析:选D.这是独立性检验,犯错误的概率在不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中由以上数据,计算得到K 的观测值k ≈9.643,根据临界值表,以下说法正确的是( ) A .没有充足的理由认为课外阅读量大与作文成绩优秀有关 B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关 C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:选D.根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.5.对两个分类变量A、B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.1 B.2C.3 D.0解析:选A.①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,也可借助等高条形图等.故选A.6.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.答案:无关系不成立7.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③8根据上述数据分析,我们得出的K 的观测值k 约为________. 解析:由公式可计算得k =102×(27×29-34×12)239×63×61×41≈2.334.答案:2.3349.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.解:根据题目所给数据得如下2×2列联表:∵ad -bc =982×17-8×493=12 750,|ad -bc |比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高条形图如图所示.图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.10.研究人员选取170名青年男女大学生作为样本,对他们进行一种心理测验,发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,作否定的有38名;110名男生在相同的题目上作肯定的有22名,作否定的有88名,问:性别与态度之间是否存在某种关系?试用独立性检验的方法判断.解:根据题意,得如下2×2列联表:根据列联表中的数据,得k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024,所以可以在犯错误的概率不超过0.025的前提下认为“性别与态度有关”.[B.能力提升]1.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为()A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=2,b=3,c=5,d=4解析:选D.对于A,|ad-bc|=|10-12|=2;对于B,|ad-bc|=|10-12|=2;对于C,|ad-bc|=|10-12|=2;对于D,|ad-bc|=|8-15|=7.2.有两个分类变量X,Y,其一组的列联表如下所示,其中a,15-a均为大于50.05的前提下认为X,Y有关,则a 的值为( )A .8B .9C .8,9D .6,8解析:选 C.根据公式,得K 2的观测值k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,根据a >5且15-a >5,a ∈Z ,求得a =8,9满足题意.3.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:K 2的观测值:k =50×(13×20-10×7)223×27×20×30≈4.844>3.841.因此,判定主修统计专业与性别有关系,那么这种判断出错的概率为________. 解析:根据k >3.841,可判断在犯错误的概率不超过0.05的前提下,认为主修统计专业与性别有关系.故出错的概率为0.05.答案:0.054试说明心理障碍与性别的关系:________. 解析:由表可知,a =10,b =20,c =10,d =70,a +b =30,c +d =80,a +c =20,b +d =90,n =110,ad =700,bc =200, 把以上数值代入K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=110×(700-200)230×80×20×90≈6.365 7.因为6.365 7>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.答案:在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系5.某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯; (2)(3)能否在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”?并写出简要分析.解:(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.(2)列联表如表所示:(3)K 2=30×(4×2-8×16)212×18×20×10=10>6.635,所以在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”. 6.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否在犯错误的概率不超过0.010的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2的观测值k =500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以在犯错误的概率不超过0.010的前提下认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。
独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。
3.2独立性检验的基本思想及其初步应用学习目标:1.通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本方法2.了解随机变量K²的含义学习重点:会根据K²公式求出k的值.并结合临界值作出统计推断.学习过程:一.2×2列联表1.分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量.2.列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个值,这样的列联表称为2×2列联表.问题1:由以上列联表,我们估计吸烟是否对患肺癌有影响?①在不吸烟者中患肺癌的比例为________;②在吸烟者中患肺癌的比例为________.问题2:我们能够从多大程度上认为吸烟与患肺癌之间有关系呢?二:独立性检验(即判断两个变量是否相关,把握性有多大)合计不吸烟 a b a+b吸烟 c d c+d合计a+c b+d a+b+c+d1.()()()()()22)n ad bck n a b c da b c d a c b d-==+++++++构造随机变量其中(作为检验在多大程度上可以认为“两个变量有关系”的标准。
2.进行检验变量A与B是否相关的步骤如下:(1) 求K22则有的把握说事件例:2 3.841K≥时,有的把握说事件A与B有关;当2K<时,认为事件A与B无关.2 6.635K≥时,有的把握说事件A与B有关;当2K<时,认为事件A与B无关.练习:1.某高校“统计初步”课程的教师随机调查了该课的一些学生情况,具体数据如下表得到844.42=K,所以断定有_____的把握说主修统计专业与性别有关。
2、.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99%B. 95%C. 90%D.无充分依据。