分类资料的统计分析(doc 24页)
- 格式:doc
- 大小:309.00 KB
- 文档页数:23
分类资料的统计分析一、概念分类资料是指观测对象按照其中一种特征进行分类或分组的数据。
常见的分类资料有性别(男、女)、学历(小学、初中、高中、大学)、职业(医生、教师、律师等)。
分类资料中每个分类称为一类或一组,根据组别统计频数或百分比可以揭示不同分类间的差异和关系。
二、方法1.频数与频率分析:通过统计每个类别的个数,得到各类别的频数和频率(频次比),并绘制柱状图、饼图等图表,直观地展示不同类别的占比情况。
2.极差分析:对于有序分类资料,比如学历,可以计算最高和最低值的差距,该差距称为极差。
极差分析衡量了不同类别之间的距离,有助于比较不同类别在一些变量上的差异。
3.交叉分析:用于分析两个或多个分类资料之间的关系。
通过交叉表格(列联表)和卡方检验,可以计算出各类别之间的关联度,判断不同分类是否相互关联。
4.分类资料的描述性统计分析:主要包括计算百分比、计算平均数、计算方差等统计指标。
通过这些指标,可以对不同类别的分布情况进行综合分析。
三、实践应用1.人口统计学:年龄、性别、婚姻状况等是人口统计学中常见的分类资料。
通过对这些资料的统计分析,可以了解人口结构、人口变动趋势等,为制定人口政策提供参考。
2.市场调研:对于市场调研中收集到的消费者分类资料,可以通过频数分析和交叉分析揭示不同人群的消费偏好和购买行为,帮助企业制定更加精准的销售策略。
3.教育评估:对学生的学历、家庭背景等进行统计分析,可以了解学生群体的整体素质水平、教育资源配置情况等,为教育政策制定和学校招生计划提供依据。
4.健康管理:对医疗数据中患者的病种、治疗效果等分类资料进行统计分析,可以评估不同病种的流行趋势、治疗效果、药物副作用等,为医疗决策提供参考。
总之,分类资料的统计分析是统计学中的重要内容,通过对分类资料的频数、频率、交叉分析等方法进行利用,可以揭示分类之间的差异、关系和趋势,为各个领域的决策者和研究者提供参考依据。
实习二分类资料的统计分析
一.目的要求:
1、掌握率、构成比、相对比的概念及计算,应用注意事项;
2、掌握率的标准误、总体率可信区间估计方法;
3、熟悉率的u检验的适用条件和方法
4、掌握x2检验的基本思想,四格表资料、配对资料以及行列表资料x2检验的公式和应用条
件。
二.重点与难点:
1、率、构成比、相对比的概念,应用注意事项;
2、正态近似法估计总体率的可信区间的公式与应用条件;
3、四格表资料、配对资料以及行列表资料x2检验的用途、计算公式和应用条件。
三.练习题:
上交作业:10-7,
课外练习(不上交):9-1,9-2,9-3,9-8
1。
分类数据的统计分析开设目的医学科研中分类数据多见常用的分类数据的统计分析方法 软件实现过程讲授内容列联表中变量关联(association)的假设检验 2×2表行×列表分层2×2表CMH方法解释变量与反应结果间联系的统计模型 LOGISTIC回归模型Poisson回归模型对数线性模型成绩评定到课次数(20%) 平时作业(30%) 期终测验(50%)参考资料分类数据的统计分析及SAS编程Categorical Data Analysis Using the SAS SystemSAS-Base and SAS-STAT User's Guide _Version 8SPSS 使用教程分类数据定义分类数据是指反应变量(应变量)为分类变量,而解释变量(自变量)可是分类变量或连续变量。
列联表中变量关联(association)的假设检验 解释变量与反应结果间联系的统计模型。
分类反应变量的尺度分类尺度: 分类尺度是两种可能的结果顺序尺度: 结果不止两种可能性,而且有顺序关系离散计数: 结果本身是离散计数名义尺度: 结果多于两类,而类别之间并没有顺序关系分组计数: 数据本身是连续数据,经分组后,反应变量为在不同组中的例数。
分类数据分析策略¾假设检验对建立的一个关于联系(association)的假设进行检验,说明列联表的行与列之间是否有关。
¾建立模型用建立模型的方法可求得各参数值,说明各因素的作用。
通常用最大似然估计或加权最小二乘法估计。
2×2 列联表资料χ2二项分布一批产品共N 件,其中有M 件次品,进行有放回抽样检查,每次从这批产品中任意取出一件,取出的产品再放回去,连续取n 次,共取出n 件产品,则取出的n 件产品中的次品数X 服从二项分布X =0,1,…,n(1)()X nX n X P P X C P −−=Kappa 值的意义Kappa值的取值范围是|Κ| ≤1。
分类数据的统计分析技巧分类数据的统计分析技巧分类数据的统计分析1.样本数据与总体比较1)二分类资料:(1)小样本数据:用二项分布进行确切概率法检验;(2)大样本数据:用U检验;2)多分类数据:用Pearson检验(又称拟合优度检验)。
2.四格表(2×2表)数据1)完全随机设计的四格表数据的分析(1)当样本量n>40,并且4个格子理论数均大于5时,则用Pearson检验;(2)当样本量n>40,并且4个格子理论数均大于1且至少存在一个格子的理论数<5时,则用校正检验或用Fisher’s精确概率法检验;(3)当样本量n£40或存在任一格子理论数<1,则用精确概率法检验;2)配对设计的四格表数据的分析(1)b+c≥40,则用McNemar配对检验;(2)b+c<40,则用二项分布确切概率法检验;3.2×C表或R×2表数据的统计分析1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则可以采用行平均得分差(RowMeanScoresDiffer)的CMH或成组的Wilcoxon秩和检验;2)列变量为效应指标并且为二分类,行变量为有序多分类变量,则可采用普通的Pearson检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。
3)行变量和列变量均为无序分类变量:(1)当样本量n>40,并且理论数小于5的格子数少于行列表中格子总数的25%,则用Pearson检验;(2)当样本量n£40,或理论数小于5的格子数多于行列表中格子总数的25%,则用Fisher’s确切概率法检验;4.R×C表数据的统计分析1)完全随机设计的R×C表数据的统计分析(1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH或KruskalWallis的秩和检验;(2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,则采用普通的Pearson检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义;(3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析或者非零相关(nonezerocorrelation)的CMH;(4)列变量和行变量均为无序多分类变量:i.当样本量n>40并且理论数小于5的格子数少于行列表中格子总数的.25%,则用Pearson检验进行分析;ii.当样本量n£40或理论数小于5的格子数多于行列表中格子总数的25%,则用Fisher’s确切概率法检验;2)配对设计的C×C表数据:(1)配对比较:用McNemar配对检验;(2)一致性检验(Agreement):用Kappa检验;Poisson分布数据1.单样本数据与总体比较:1)当观察值较小时:可以用确切概率法进行检验。
第十章分类资料的统计分析A型选择题1、下列指标不属于相对数的是()A、率B、构成比C、相对比D、百分位数E、比2、表示某现象发生的频率或强度用A 构成比B 观察单位C 相对比D 率E 百分比3、下列哪种说法是错误的()A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数B、分析大样本数据时可以构在比代替率C、应分别将分子和分母合计求合计率或平均率D、相对数的比较应注意其可比性E、样本率或构成比的比较应作假设检验4、以下哪项指标不属于相对数指标( )A.出生率B.某病发病率C.某病潜伏期的百分位数D.死因构成比E.女婴与男婴的性别比5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ).A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阳转人数E.年均人口数6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ).A.该病男性易得B.该病女性易得C.该病男性、女性易患率相等D.尚不能得出结论E.以上均不对7、某地区某重疾病在某年的发病人数为0α,以后历年为1α,2α,…,n α,则该疾病发病人数的年平均增长速度为( )。
A.1...10+++n n αααB. 110+⨯⨯n n αααC.n n 0αα D.n n 0αα -1E.10-a a n8、按目前实际应用的计算公式,婴儿死亡率属于( )。
A. 相对比(比,ratio ) B. 构成比(比例,proportion ) C. 标准化率(standardized rate ) D. 率(rate ) E 、以上都不对9、某年某地乙肝发病人数占同年传染病人数的9.8%,这种指标是 A .集中趋势 B .时点患病率 C .发病率 D .构成比 E .相对比 10、构成比:A.反映事物发生的强度B 、反映了某一事物内部各部分与全部构成的比重C 、既反映A 也反映BD 、表示两个同类指标的比E 、表示某一事物在时间顺序上的排列11、构成比之重要特点是各组成部分的百分比总和:A.必大于1B、必小于1C、必等于1D、随着资料的变化而变化E、随着各构成部分大小改变而变12、某日门诊各科的疾病分类统计资料,可以作为:A.计算死亡率的基础B、计算发病率的基础C、计算构成比的基础D、计算相对比基础13、计算率的平均值时:A.将各个率直接相加来求平均值B、以总的绝对数值为依据求平均值C、先标化,再按A法计算D、按求中位数的方法求平均值E、以上都不对14、分类资料的统计描述常用的指标是A.平均数B.标准化死亡率比C.变异系数D.相对数E.动态数列分析指标15、.动态数列分析中的定基比和环基比属于A.相对比B.率C.构成比D.平均数E.频数16、某地1971-1995年床位发展情况列于下表。
1971年与1975年比较,累计增长量为年份年份1971 14001972 21001973 22001974 23001975 2500A.(2500-1400)/1400B.2500/1400-1C.2500-1400D.(2500/1400)×100E. 2500/140017、甲地恶性肿瘤死亡率比乙地高,标化后甲地恶性肿瘤死亡率比乙地低,其原因可能是()A.甲地的老年人的比例比乙地高B.甲地的老年人的比例比乙地低C.甲地的青年人的比例比乙地高D.甲地的诊断水平比乙地低E.甲地的诊断水平比乙地高18、甲丙两地计算标准化肺癌死亡率后作比较,可以消除()A、不同年龄组肺癌死亡率差别的影响B、抽样误差C、总人数不同的影响D、性别、年龄构成不同的影响E、以上都不是19、标准化后的总死亡率()A.仅仅作为比较的基础,它反映了一种相对水平B、它反映了实际水平C、它不随标准的选择变化而变化D、它可以作为任意两组资料比较的依据E、以上都不是20、在两地某病患病率的比较中,为消除年龄构成不同的影响,作直接法标准化的要求是-------A、两地人口年龄构成相仿B、要有标准的年龄别该病的患病率C、要有两地人口的年龄别该病的患病率D、要求两地人口数相仿E、以上都不对21、率的标准化法的主要目的是()A.消除内部构成的差异,使率具有更好的可比性B、把率变成实际水平C、使大的率变小,小的率变大D、使率能够在任意两组资料中对比E、以上都不是22、欲比较两地死亡率,计算标准化率可以().A.消除两地总人口数不同的影响B.消除两地各年龄组死亡人数不同的影响C、消除两地各年龄组人口数不同的影响D、消除两地抽样误差不同的影响E、以上都不是23、经调查得知甲乙两地的冠心病粗死亡率为40/10万,按年龄构成标准化后,甲地冠心病标化死亡率为45/10万;乙地为38/10万,因此可以认为()。
A、甲地年龄别人口构成较乙地年轻B.乙地年龄别人口构成较甲地年轻C、甲地冠心病的诊断较乙地准确D.甲地年轻人患冠心病较乙地多E、以上都不是24、为了研究粪管措施的效果,拟比较已经实行无害化处理的甲乡和尚未实行的乙乡的居民钩虫感染率,已知男性的钩虫感染率高于女性,甲乡人口女多于男,而乙乡男多于女,其正确比较的方法是()A、两个率比较的u检验B、两个率比较的2检验C.不具可比性,不能比较D、对性别进行标准化后在做比较E、可以直接进行比较25、根据下述资料,则病情甲疗法乙疗法病人数治愈数治愈率(%)病人数治愈数治愈率(%)轻型40 36 90 60 53 88.33 重型60 42 70 40 27 67.50合计 100 78 78 100 80 80A. 乙疗法优于甲疗法B. 甲疗法优于乙疗法C. 甲疗法与乙疗法疗效相等D. 此资料应先求标化率再做假设检验E 、甲疗法与乙疗法疗效不相等 26、下列哪一项说法是正确的( )A 、若要比较各个年龄组的死亡率,则该做标准化B 、只有当要比较总体死亡情况,而且希望归因为人口分布不同之外的其他因素时,标准化才有意义C 、虽然人口分布不同,但各个年龄组的死亡率相同或相差不大时,没有必要做标准化D 、不同比较组的人口分布不同,各年龄的死亡率也不同,但有明显的交叉,此时不宜做标准化E 、以上都不对十章二节分类资料统计推断27、关于样本率p 的分布正确的说法是( ).A.当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布B.服从正态分布C.服从负偏态分布D.服从t 分布E.服从2χ分布28、率的标准误的计算公式是( )。
A.)p 1(p - B.n )p 1(p - C 、1n p - D 、n)p 1(p -E 、1n p - 29、某医生随机抽取100名儿童,检查粪便蛔虫卵阳性情况,得阳性率为20%,则此阳性率的标准误Sp 为 A .4.0%B.0.4%C.0.04%D.1.6%E.0.2%30、关于率的标准误,正确的是()A.反映由抽样造成的样本率和总体率间的差异B.反映的是有无抽样误差C.由率的方差除以根号n计算得到D.反映二项分类事件的的离散指标E.以上都不对31、我国人群HBSAg阳性率平均为10%,某地随机抽查150人,其中HBSAg阳性30人。
问该地HBSAg阳性率是否高于我国平均阳性率?应当选用下列何种假设检验方法?A.配对χ2检验B.成组χ2检验C.样本率与总体率比较的的Z检验D.样本平均数与总体平均数比较的的Z检验.E. 方差分析32、.我国人群HBSAg阳性率平均为10%。
为研究某地的HBSAg阳性率是否高于我国平均阳性率,随机抽查了100人,其中 HBSAg阳性20人。
若检验结果P<0.05,作何结论,两样本率相等A.接受HB.拒绝H,两样本率不等,两总体率不等C.接受HD.接受H,样本率与总体率相等,两总体率不等E.拒绝H33、以下说法正确的是()。
A、两样本率比较可用u检验B.两样本率比较可用t检验χC、两样本率比较时,有u=2χD.两样本率比较时,有t2=2E、两样本率比较可用方差分析34、两个样本率差别的假设检验,其目的是( )A.推断两个样本率有无差别B .推断两个总体率有无差别C .推断两个样本率与两个总体率有无差别D .推断样本率与总体率有无差别E .推断两个总体分布是否相同35、反映观察频数与理论差距的最好指标是( ) A 、∑(A -T )2B 、()TT A 2-C 、T TA - D 、()∑-TT A 2E 、∑(A -T )36、若2,05.02n x x '≥则( ) A 、P ≥0.05 B 、P ≤0.05 C 、P <0.05 D 、P =0.05 E 、P >0.0537、x 2值的分布形状取于( ) A 、自由度n ' B 、样本含量n C 、理论值TD 、观察值与理论值之差的平方(A -T )2E 、()TT A 2-38、22χμ=的条件是2χ分布的自由度( ) A 、大 B 、小 C 、1ν= D 、ν=∞E 、以上都不对39、对三行四列表资料作χ2 检验,自由度等于 A. 1 B. 2 C. 3 D.4E. 640、x 2检验中,自由度n '的计算为( ) A 、行×列(R ×C ) B 、样本含量n C 、n-1D 、(R -1)(C -1)E 、nn n C R41、以下关于2χ检验的自由度的说法,正确的是( )。
A 、拟合优度检验时,υ=n-2(n 为观察频数的个数) B 、对一个3⨯4表进行检验时,υ=11 C 、对四格表检验时,υ=4D 、若205,.0υχ>2,05.0ηχ,则ηυ>E 、自由度等于行数×列数42、下列哪项检验不适用2χ检验( )。
A 、样本均数的比较 B.两样本率的比较 C.多个样本构成比的比较 D.拟合优度检验 E.以上都适合43、如样本来自某总体,x 2当值小于3.84时,样本为来自总体的概率( ) A 、99% B 、95% C 、<1.0% D 、>5.0% E 、<5.0%44、分析计数资料时,最常用的显著性检验方法是()A、t检验法B、正态检验法C、秩和检验法D、x2检验法E、方差分析45、在卡方界值(x2)表中,当自由度一定时,x2值愈大,P值()A、不变B、愈大C、愈小D、与x2值相等E、与x2值无关46、当四格表的周边合计不变时,如果某格子的实际频数有变化,则其理论频数()A.增大B.减小C.不变D.不确定E、随该格子实际频数的增减而增减χ检验结47、从甲乙两篇论文中,查到同类的两个率比较的四格表资料以及2χ>2χ0。
01(1),乙论文2χ>2χ0.05(1)。
若甲乙两论文的样本量相同,果,甲论文2则可认为()A、两论文结果有矛盾B、两论文结果基本一一致C、甲论文结果更可信D、甲论文结果不可信E、甲论文说明两总体的差别大48、.四格表中如有一个实际数为0,()。