logistic回归及其分析攻略
- 格式:pptx
- 大小:1.38 MB
- 文档页数:92
excellogistic回归模型Excel中的logistic回归模型在数据分析中,logistic回归是一种常用的统计建模方法,用于预测二元变量的概率。
它可以被看作是线性回归模型的扩展,其中因变量是二元的(成功/失败,是/否等),而不是连续的。
这篇文章将带你逐步了解如何在Excel中使用logistic回归模型来分析数据。
一、准备数据首先,需要准备一组包含因变量和自变量的数据。
假设我们想预测一个人是否会购买某种产品,因变量可以是“购买”(1)或“不购买”(0),自变量可以是各种影响购买行为的因素,比如年龄、性别、收入等等。
将这些数据整理为一个Excel表格,确保每一列代表一个变量,每一行代表一个样本。
二、打开Excel的数据分析工具在Excel中,要使用logistic回归模型,首先需要打开数据分析工具。
在菜单栏中,点击“数据”选项卡,然后在“分析”组中找到“数据分析”按钮。
点击该按钮后,会弹出一个对话框,其中列出了各种可用的分析工具。
三、选择logistic回归模型在数据分析对话框中,滚动并找到“回归”选项,然后点击“回归”按钮。
在下一个对话框中,选择“logistic回归”模型,并点击“确定”按钮。
四、设置回归分析的输入范围在下一个对话框中,需要设置回归分析的输入范围。
第一个输入范围应该是因变量的数据列,也就是购买行为的数据。
点击“输入范围”文本框右侧的选择按钮,在表格中选择包含因变量的列。
接下来,选择自变量的数据范围,也就是影响购买行为的各种因素的数据。
同样地,点击“输入范围”文本框的选择按钮,并在表格中选择这些自变量的列。
五、设置其他选项在设置输入范围后,还可以选择一些其他的选项来控制回归分析的输出。
比如,可以选择是否计算拟合的残差,是否将结果显示在新的工作表中等。
根据需要勾选或取消这些选项。
六、点击“确定”按钮进行回归分析完成上述设置后,点击“确定”按钮来执行回归分析。
Excel会在选定的输出位置中生成结果。
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
如何用SPSS做logistic回归分析解读————————————————————————————————作者:————————————————————————————————日期:如何用进行二元和多元logistic回归分析一、二元logistic回归分析二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。
下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。
(一)数据准备和SPSS选项设置第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS、ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋值为1,否赋值为0。
年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。
图 1-1第二步:打开“二值Logistic 回归分析”对话框:沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic(Binary Logistic)”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。
如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<),因此我们这里选择以性别和年龄为例进行分析。
在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。
掌握多元logistic回归分析,看这篇就够了01. 概念多元 logistics 回归(multinomial logistics regression)又称多分类logistics 回归。
医学研究、社会科学领域中,存在因变量是多项的情况,其中又分为无序(口味:苦、甜、酸、辣;科目:数学、自然、语文、英语)和有序(辣度:微辣、中辣、重辣)两类。
对于这类数据需要用多元 logistics 回归。
多元logistics 回归实际就是多个二元logistics 回归模型描述各类与参考分类相比各因素的作用。
如,对于一个三分类的因变量(口味:酸、甜、辣),可建立两个二元logistics回归模型,分别描述酸味与甜味相比及辣味与酸味相比,各口味的作用。
但在估计这些模型参数时,所有对象是一起估计的,其他参数的意义及模型的筛选等与二元logistics类似。
02.条件因变量:三个及以上分类变量自变量:分类或连续变量协变量:分类变量03.案例及操作【例】为了研究饮食口味偏好的影响因素,分析年龄、婚姻情况、生活态度在饮食口味类型偏好(1=酸、2=甜、3=辣)中的作用,共挑选被试30人,结果见下表,试进行多元logistics回归。
说明:本案例数据纯属编造,结论不具有参考性和科学性,仅供操作训练使用。
⑴ 建立数据文件口味偏好,sav,见下图每个被试有一个口味偏好因变量taste和3个自变量age、married、inactive。
⑵对口味偏好 taste 加权单击【数据】→【加权个案】,打开加权个案对话框,加权口味偏好,见下图(3)选择【分析】→【回归】→【多项logistics】,打开多项logistics回归主对话框,见图。
⌝【因变量】:分类变量,本例选择“taste”⌝【因子】:可选择多个变量作为因子,本例选择“age”、“married”、“inactive”⌝【协变量】:可选择多个变量作为协变量,本例未选择(4)单击【参考类别】按钮,打开参考类别对话框,见图⌝【参考类别】:可选择【第一类别】、【最后类别】或【定制】,本例选择【最后类别】⌝【类别顺序】:可选择【升序】或【降序】(5)单击【模型】按钮,打开模型对话框,见下图:本例主要考察自变量age、married、inactive的主效应,暂不考察它们之间的交互作用,然后点击【继续】;(6)单击【statistics】按钮,打开统计对话框,见图:设置模型的统计量。
第十二章Logistic 回归分析一、Logistic 回归概述:Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施; 通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的 因素为自变量建立模型。
、Logistic 回归的分类及资料类型:第一节非条件Logistic 回归分析、Logistic 回归模型:Logistic 回归模型:exp ( • :i X i ——亠」p X p )p 二1 +exp ( B o + B i X i i + Pp X p ) 1二、回归系数的估计(参数估计):回归模型的参数估计:Logistic 计法。
二、假设检验: 1. Logistic 回归方程的检验:•检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性 关系,也即方程是否成立。
检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。
上述三种方法中,似然比检验最可靠。
•似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为 G=-2l n(L)(又称Devia nee )。
无效假设H O : B =0。
当H 0成立时,检验统计量 G 近似服从自由度为N-P-1的X 2分布。
当G 大于临界值时,接受H,拒绝无效假设, 认为从整体上看适合作Logistic 回归分析,回归方程成立。
2. Logistic 回归系数的检验:•为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假 设检验,判断其对模型是否有贡献。
•检验方法常用 WaldX 检验,无效假设H0 B =0。
当X 2大于临界值时,拒 绝无效假设,自变量能进入方程。
1亠elogit (P )= ln (±)=B o +B * 1 x 1 + , + B n x n回归模型的参数估计通常利用最大似然估3.Logistic 回归模型的拟合优度检验:•Logistic 回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。
Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
Logistic回归分析(Logistic Regression)施红英主讲温州医科大学预防医学系肺癌心理遗传慢支smokeLogistic回归分析解决的问题医学研究中,有关生存与死亡,发病与未发病,阴性与阳性等结果的产生,可能与病人的年龄、性别、生活习惯、体质、遗传、心理等许多因素有关。
如何找出其中哪些因素对结果有影响?以及影响有多大?Logistic回归:概率型回归用于分析某类事件发生的概率与自变量之间的关系。
适用于因变量是分类变量的资料,尤其是二分类的情形。
线性回归:应变量是连续型变量分类二分类logistic回归模型◆非条件logistic回归模型-成组资料◆条件logistic回归模型-配对资料 多分类logistic回归模型内容提要♦非条件logistic回归☻数据库格式☻Logistic回归模型的基本结构☻参数估计☻假设检验☻变量筛选☻模型拟合效果的判断♦条件logistic回归♦应用及其注意事项案例1为了探讨冠心病发生的有关影响因素,对26例冠心病病人和28例对照者进行病例-对照研究,试用logistic回归分析筛选冠心病发生的有关因素。
(data:gxb.sav)冠心病8个可能的危险因素与赋值因素变量名赋值说明<45=1,45~=2,55~=3,65~=4年龄(岁)X1无=0,有=1高血压史X2无=0,有=1高血压家族史X3吸烟X不吸=0,吸=14无=0,有=1高血脂史X5低=0,高=1动物脂肪摄入X6<24=1,24~=2,26~=3体重指数(BMI)X7否=0,是=1A型性格X8冠心病Y对照=0,病例=11、数据库格式2、Logistic 回归模型的基本结构011011exp()1exp()p p p p X X P X X ββββββ+++=++++L L 设X 1,X 2,……,X p 是一组自变量,Y 是应变量(阳性记为y =1,阴性记为y =0),用P 表示发生阳性结果的概率。
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
撇开了参照组,相对危险度就没有意义了。