logistic回归及其分析攻略

格式：pptx
大小：1.38 MB
文档页数：92

下载文档原格式

Logistic 回归分析

10
分层分析的局限性
只能控制少数因素（分层因素过多，每个格子中的样本例数太少）定量资料需要分组，信息丢失不能对因素作用大小进行定量分析（交互作用）
11
y = log2x y
二、Logistic 回归原理
0
1
经过数理统计学家证明：把疾病概率 P 转换成
p ln 1 − p ，会使该回归方程的统计性能更好一些。而且，
≈
当发病率低的时候ac所占的比例非常小，当发病率低的时候所占的比例非常小，所占的比例非常小公式中忽略ac后对在RR公式中忽略后对值的影响非常小公式中忽略后对RR值的影响非常小则有：则有： RR
≈
(ad)/(bc) ＝ OR
5
举例1 举例口服避孕药与心肌梗塞的流行病学研究
（病例对照，曾光《现代流行病学方法与应用》，P90）病例对照，曾光《现代流行病学方法与应用》 P90）
β1
ORX1 =
p X1 =1 q X1 =1 p X 1 =0 q X 1 =0
=
...... ...... 1 − p x1 =1 p x1 =0 1 − p x1 =0
e
14
假设建立了如下的logistic回归方程：回归方程：假设建立了如下的回归方程 Logit P = α + βx x 为二分变量，当暴露时，取值为1；为二分变量，当暴露时，取值为1 不暴露时，取值为0 不暴露时，取值为0。暴露时 Logit(P1) = α + β，所以暴露，所以暴露时, 比值(odds) = exp(α + β ) 比值所以不暴露时所以不暴露时, 不暴露 Logit(P0) = α ，比值(odds) = exp(α) 比值

excellogistic回归模型

excellogistic回归模型Excel中的logistic回归模型在数据分析中，logistic回归是一种常用的统计建模方法，用于预测二元变量的概率。

它可以被看作是线性回归模型的扩展，其中因变量是二元的（成功/失败，是/否等），而不是连续的。

这篇文章将带你逐步了解如何在Excel中使用logistic回归模型来分析数据。

一、准备数据首先，需要准备一组包含因变量和自变量的数据。

假设我们想预测一个人是否会购买某种产品，因变量可以是“购买”（1）或“不购买”（0），自变量可以是各种影响购买行为的因素，比如年龄、性别、收入等等。

将这些数据整理为一个Excel表格，确保每一列代表一个变量，每一行代表一个样本。

二、打开Excel的数据分析工具在Excel中，要使用logistic回归模型，首先需要打开数据分析工具。

在菜单栏中，点击“数据”选项卡，然后在“分析”组中找到“数据分析”按钮。

点击该按钮后，会弹出一个对话框，其中列出了各种可用的分析工具。

三、选择logistic回归模型在数据分析对话框中，滚动并找到“回归”选项，然后点击“回归”按钮。

在下一个对话框中，选择“logistic回归”模型，并点击“确定”按钮。

四、设置回归分析的输入范围在下一个对话框中，需要设置回归分析的输入范围。

第一个输入范围应该是因变量的数据列，也就是购买行为的数据。

点击“输入范围”文本框右侧的选择按钮，在表格中选择包含因变量的列。

接下来，选择自变量的数据范围，也就是影响购买行为的各种因素的数据。

同样地，点击“输入范围”文本框的选择按钮，并在表格中选择这些自变量的列。

五、设置其他选项在设置输入范围后，还可以选择一些其他的选项来控制回归分析的输出。

比如，可以选择是否计算拟合的残差，是否将结果显示在新的工作表中等。

根据需要勾选或取消这些选项。

六、点击“确定”按钮进行回归分析完成上述设置后，点击“确定”按钮来执行回归分析。

Excel会在选定的输出位置中生成结果。

logistic回归分析

0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式：同多元线性回归分析的数据格式参数估计：
最大似然估计(maximum likelihood
estimate,MLE)法可利用统计软件实现。
21
优势比估计：某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为：
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析，从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢？在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别，这是我们就要⽤到logistic分析（逻辑回归分析，⾮线性模型）。

参数解释（对变量的评价）发⽣⽐(odds)： ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率（odds ratio）：odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率）注：odds ratio⼤于1或者⼩于1都有意义，代表⾃变量的两个分组有差异性，对因变量的发⽣概率有作⽤。

若等于1的话，该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中，主要是采⽤最⼩⼆乘法进⾏参数估计，使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的，但不同的是极⼤似然法可以⽤于⾮线性模型，⼜因为逻辑回归是⾮线性模型，所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式：L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时，极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时，估计的风险会⽐较⼤，⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准：AIC准则和SC准则，两统计量越⼩说明模型拟合的越好，越可信。

若事件发⽣的观测有n条，时间不发⽣的观测有M条，则称该数据有n*m个观测数据对，在⼀个观测数据对中，P>1-P，则为和谐对（concordant）。

P<1-P,则为不和谐对（discordant）。

P=1-P，则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T，其中NC为和谐对数，ND为不和谐对数，这⾥我们就可以根据C统计量来表明模型的区分度，例如C=0.68，则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

用SPSS做logistic回归分析解读

如何用SPSS做logistic回归分析解读————————————————————————————————作者：————————————————————————————————日期：如何用进行二元和多元logistic回归分析一、二元logistic回归分析二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量，如：死亡或者生存，男性或者女性，有或无，Yes或No，是或否的情况。

下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。

（一）数据准备和SPSS选项设置第一步，原始数据的转化：如图1-1所示，其中脑梗塞可以分为ICAS、ECAS和NCAS三种，但现在我们仅考虑性别和年龄与ICAS的关系，因此将分组数据ICAS、ECAS和NCAS转化为1、0分类，是ICAS赋值为1，否赋值为0。

年龄为数值变量，可直接输入到spss中，而性别需要转化为（1、0）分类变量输入到spss当中，假设男性为1，女性为0，但在后续分析中系统会将1，0置换（下面还会介绍），因此为方便期间我们这里先将男女赋值置换，即男性为“0”，女性为“1”。

图 1-1第二步：打开“二值Logistic 回归分析”对话框：沿着主菜单的“分析（Analyze）→回归（Regression）→二元logistic（Binary Logistic）”的路径（图1-2）打开二值Logistic 回归分析选项框（图1-3）。

如图1-3左侧对话框中有许多变量，但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压，有无糖尿病等（P<），因此我们这里选择以性别和年龄为例进行分析。

在图1-3中，因为我们要分析性别和年龄与ICAS的相关程度，因此将ICAS选入因变量（Dependent）中，而将性别和年龄选入协变量（Covariates）框中，在协变量下方的“方法（Method）”一栏中，共有七个选项。

logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例：某地25岁及以上人中各类婚姻状况居民的死
亡情况见表，试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p

A 1M1
2M 2
3M3
• 其中，A表示年龄(取中值)，M1、M2、M3表示婚姻状况
• 于是，估计的logit方程为：
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何种学习方式的影响。调查数据见表:
• 其中，三个学校对应两个哑变量x1和x2，两个课程计划为常规(x3=1)和附加(x3=0)，学习方式分为：自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出，响应变量是学习方式有三类，属于多项逻辑斯蒂回归问题。于是，建模为：
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程：
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄，E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是，估计的logit方程为：
ln p 11.637 0.124A 0.164E 1 p
• 其中，年龄的系数0.124，说明年龄越大死亡率会越高；
• 文化程度的系数-0.164，说明文化程度与死亡率呈负相关，文化程度越高，死亡率越低。

第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0：β=0 （模型中不含变量） H1： β≠ 0 （模型中含变量）
统计量：G = － 2lnL－ (－2lnL') ~ χ2(k) 在例19-1中的SAS结果中：
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类按反应变量的类型分：
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分： 1.非条件 Logistic 回归模型，研究对象未经过配对的成组资料 2.条件 Logistic 回归模型，研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死（AMI）患者能否成功的危险因素调查中，某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前：X1=1表示已发生休克，X1=0表示未发生休克；X2=1表示发生心衰， X2=0表示未发生
心衰；X3=1表示12小时内将患者送往医院， X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义（释义同于病例-对照设计研究）
1. 相对危险度RR （Re lative Risk） RR P 1 P0

掌握多元logistic回归分析，看这篇就够了

掌握多元logistic回归分析，看这篇就够了01. 概念多元 logistics 回归(multinomial logistics regression)又称多分类logistics 回归。

医学研究、社会科学领域中，存在因变量是多项的情况，其中又分为无序（口味：苦、甜、酸、辣；科目：数学、自然、语文、英语）和有序（辣度：微辣、中辣、重辣）两类。

对于这类数据需要用多元 logistics 回归。

多元logistics 回归实际就是多个二元logistics 回归模型描述各类与参考分类相比各因素的作用。

如，对于一个三分类的因变量（口味：酸、甜、辣），可建立两个二元logistics回归模型，分别描述酸味与甜味相比及辣味与酸味相比，各口味的作用。

但在估计这些模型参数时，所有对象是一起估计的，其他参数的意义及模型的筛选等与二元logistics类似。

02.条件因变量：三个及以上分类变量自变量：分类或连续变量协变量：分类变量03.案例及操作【例】为了研究饮食口味偏好的影响因素，分析年龄、婚姻情况、生活态度在饮食口味类型偏好（1=酸、2=甜、3=辣）中的作用，共挑选被试30人，结果见下表，试进行多元logistics回归。

说明：本案例数据纯属编造，结论不具有参考性和科学性，仅供操作训练使用。

⑴ 建立数据文件口味偏好,sav，见下图每个被试有一个口味偏好因变量taste和3个自变量age、married、inactive。

⑵对口味偏好 taste 加权单击【数据】→【加权个案】，打开加权个案对话框，加权口味偏好，见下图(3)选择【分析】→【回归】→【多项logistics】，打开多项logistics回归主对话框，见图。

⌝【因变量】：分类变量，本例选择“taste”⌝【因子】：可选择多个变量作为因子，本例选择“age”、“married”、“inactive”⌝【协变量】：可选择多个变量作为协变量，本例未选择(4)单击【参考类别】按钮，打开参考类别对话框，见图⌝【参考类别】：可选择【第一类别】、【最后类别】或【定制】，本例选择【最后类别】⌝【类别顺序】：可选择【升序】或【降序】(5)单击【模型】按钮，打开模型对话框，见下图：本例主要考察自变量age、married、inactive的主效应，暂不考察它们之间的交互作用，然后点击【继续】；(6)单击【statistics】按钮，打开统计对话框，见图：设置模型的统计量。

回归分析-Logistic回归

zi = β 0 + β1 xi + ε i
其中权系数
ri pi 1 zi = ln ~ N (ln , ) & ni − ri 1 − pi ni pi (1 − pi )
ni % , ε i = ε i / wi ~ N (0,1) wi = & ri (ni − ri )
回归模型
p( x ) ln = 0.013 − 0.25 x 1 − p( x )
Logistic 回归分析
前言
Logistic回归模型的基本思想 Logistic回归模型的参数估计
基本原理
Y 多元线性回归模型： = β0 + β1 x1 + β 2 x2 + ... + β n xn = β0 + X β β 其中是β 0 截距，是参数向量，X是自变量向量。
表示n个自变量x与反应变量Y间的关系，Y为任意实数，属于连续变量
yi i
n
1− yi
似然函数对数似然
L( β 0 , β1 ) = ∏ piyi (1 − pi )1− yi
i =1
n n
ln L( β 0 , β1 ) = ∑ yi (β 0 + β1 xi ) − ∑ ln(1 + e β0 + β1xi )
i =1 i =1
加权最小二乘
设x可以取值x1，x2……xk。x=xi时，Y的取值为yi（yi=0或1）；如果模型正确 pi ln = β 0 + β1 xi 1 − pi 观测模型
该转换称为logit转换。P为事件发生的概率，1-P 为事件不发生的概率
p 1− p
=e
β0 + X β

第十二章Logistic回归分析

第十二章Logistic 回归分析一、Logistic 回归概述：Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施；通常以疾病的死亡、痊愈等结果发生的概率为因变量，以影响疾病发生和预后的因素为自变量建立模型。

、Logistic 回归的分类及资料类型：第一节非条件Logistic 回归分析、Logistic 回归模型：Logistic 回归模型：exp （ • ：i X i ——亠」p X p ）p 二1 +exp （ B o + B i X i i + Pp X p ） 1二、回归系数的估计(参数估计)：回归模型的参数估计：Logistic 计法。

二、假设检验： 1. Logistic 回归方程的检验：•检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系，也即方程是否成立。

检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。

上述三种方法中，似然比检验最可靠。

•似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行，其统计量为 G=-2l n(L)(又称Devia nee )。

无效假设H O ： B =0。

当H 0成立时，检验统计量 G 近似服从自由度为N-P-1的X 2分布。

当G 大于临界值时，接受H,拒绝无效假设，认为从整体上看适合作Logistic 回归分析，回归方程成立。

2. Logistic 回归系数的检验：•为了确定哪些自变量能进入方程，还需要对每个自变量的回归系数进行假设检验，判断其对模型是否有贡献。

•检验方法常用 WaldX 检验，无效假设H0 B =0。

当X 2大于临界值时，拒绝无效假设，自变量能进入方程。

1亠elogit （P ）= ln （±）=B o +B * 1 x 1 + , + B n x n回归模型的参数估计通常利用最大似然估3．Logistic 回归模型的拟合优度检验：•Logistic 回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。

Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。

适用于因变量的取值仅有两个（即二分类变量，一般用1和0表示）的情况，如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等，对于这类数据如果采用线性回归方法则效果很不理想，此时用Logistic 回归分析则可以很好的解决问题。

一、Logistic 回归模型设Y 是一个二分类变量，取值只可能为1和0，另外有影响Y 取值的n 个自变量12,,...,n X X X ，记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率，则Logistic 回归模型为：[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式：01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。

二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。

变量筛选的原理与普通的回归分析方法是一样的，不再重复。

三、Logistic 回归的应用（1）可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。

（2）预测与判别Logistic回归是一个概率模型，可以利用它预测某事件发生的概率。

当然也可以进行判别分析，而且可以给出概率，并且对数据的要求不是很高。

四、SPSS操作方法1．选择菜单2．概率预测值和分类预测结果作为变量保存其它使用默认选项即可。

例：试对临床422名病人的资料进行分析，研究急性肾衰竭患者死亡的危险因素和统计规律。

Logistic回归分析.sav解：在SPSS中采用Logistic回归全变量方式分析得到：（1）模型的拟合优度为0.755。

12 logistic回归分析

Logistic回归分析（Logistic Regression）施红英主讲温州医科大学预防医学系肺癌心理遗传慢支smokeLogistic回归分析解决的问题医学研究中，有关生存与死亡，发病与未发病，阴性与阳性等结果的产生，可能与病人的年龄、性别、生活习惯、体质、遗传、心理等许多因素有关。

如何找出其中哪些因素对结果有影响？以及影响有多大？Logistic回归：概率型回归用于分析某类事件发生的概率与自变量之间的关系。

适用于因变量是分类变量的资料，尤其是二分类的情形。

线性回归：应变量是连续型变量分类二分类logistic回归模型◆非条件logistic回归模型－成组资料◆条件logistic回归模型－配对资料多分类logistic回归模型内容提要♦非条件logistic回归☻数据库格式☻Logistic回归模型的基本结构☻参数估计☻假设检验☻变量筛选☻模型拟合效果的判断♦条件logistic回归♦应用及其注意事项案例1为了探讨冠心病发生的有关影响因素，对26例冠心病病人和28例对照者进行病例-对照研究，试用logistic回归分析筛选冠心病发生的有关因素。

（data：gxb.sav）冠心病8个可能的危险因素与赋值因素变量名赋值说明<45=1，45～=2，55～=3，65～=4年龄(岁)X1无=0，有=1高血压史X2无=0，有=1高血压家族史X3吸烟X不吸=0，吸=14无=0，有=1高血脂史X5低=0，高=1动物脂肪摄入X6<24=1，24～=2，26～=3体重指数(BMI)X7否=0，是=1A型性格X8冠心病Y对照=0，病例=11、数据库格式2、Logistic 回归模型的基本结构011011exp()1exp()p p p p X X P X X ββββββ+++=++++L L 设X 1,X 2,……,X p 是一组自变量，Y 是应变量（阳性记为y ＝1，阴性记为y ＝0），用P 表示发生阳性结果的概率。

logistic回归分析8个知识点整理,建议收藏

④ 在 logistic 回归中，评价模型拟合优度的指标主要有 Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标、Akaike 信息准则 (AIC)、SC 指标等。
Pearson χ2、偏差 (deviance) 主要用于自变量不多且为分类变量的情况，当自变量增多且含有连续型变量时，用 HL 指标则更为恰当。
以下为线性回归方程判断依据，可用于 logistic 回归分析
① 决定系数 (R2) 和校正决定系数，可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加，所以需要校正；
校正决定系数越大，方程越优。但亦有研究指出 R方是多元线性回归中经常用到的一个指标，表示的是因变量的变动中由模型中自变量所解释的百分比，并不涉及预测值与观测值之间差别的问题，因此在 logistic 回归中不适合。
Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标值均服从χ2 分布，χ2 检验无统计学意义 (P>0.05) 表示模型拟合的较好，χ2 检验有统计学意义 (P ≤ 0.05) 则表示模型拟合的较差。AIC 和 SC 指标还可用于比较模型的优劣，当拟合多个模型时，可以将不同模型按其 AIC 和 SC 指标值排序，AIC 和 SC 值较小者一般认为拟合得更好。
③在逐步回归的时可根据需要放宽或限制进入方程的标准，或硬性将最感兴趣的研究变量选入方程;
④ 强影响点记录的选择：从理论上讲，每一个样本点对回归模型的影响应该是同等的，实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去，没有错误的强影响点可能和自变量与应变量的相关有关，不可轻易删除。
可以采用双向筛选技术：

Logistic回归分析报告结果解读分析

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。

比较常用的情形是分析危险因素与是否发生某疾病相关联。

例如，若探讨胃癌的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群有不同的临床表现和生活方式等，因变量就为有或无胃癌，即“是”或“否”，为二分类变量，自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。

自变量既可以是连续变量，也可以为分类变量。

通过Logistic回归分析，就可以大致了解胃癌的危险因素。

Logistic回归与多元线性回归有很多相同之处，但最大的区别就在于他们的因变量不同。

多元线性回归的因变量为连续变量；Logistic回归的因变量为二分类变量或多分类变量，但二分类变量更常用，也更加容易解释。

1.Logistic回归的用法一般而言，Logistic回归有两大用途，首先是寻找危险因素，如上文的例子，找出与胃癌相关的危险因素；其次是用于预测，我们可以根据建立的Logistic回归模型，预测在不同的自变量情况下，发生某病或某种情况的概率(包括风险评分的建立)。

2.用Logistic回归估计危险度所谓相对危险度(risk ratio，RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。

Logistic回归给出的OR(odds ratio)值与相对危险度类似，常用来表示相对于某一人群，另一人群发生终点事件的风险超出或减少的程度。

如不同性别的胃癌发生危险不同，通过Logistic回归可以求出危险度的具体数值，例如1.7，这样就表示，男性发生胃癌的风险是女性的1.7倍。

这里要注意估计的方向问题，以女性作为参照，男性患胃癌的OR是1.7。

如果以男性作为参照，算出的OR将会是0.588(1/1.7)，表示女性发生胃癌的风险是男性的0.588倍，或者说，是男性的58.8％。

撇开了参照组，相对危险度就没有意义了。

logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步常数项
回归系数标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间下限上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果，如发病与不发病、死亡与生存、有效与无效、复发与未复发等，当需要研究二分类应变量的影响因素时，适合采用 logistic回归分析。
logistic回归属于概率型非线性回归，它是研究二分类（可以扩展到多分类）反应变量与多个影响因素之间关系的一种多变量分析方法。logistic回归模型参数具有明确的实际意义。
OR值的可信区间：
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟（X1）、饮酒（X2）与食道癌（Y）关系的病例－对照资料，试作logistic回归分析。

论文经典方法Logistic回归分析及其应用课堂PPT课件PPT40页

概述
1967年Truelt J，Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究，较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归
.
第2页，共40页。
一元直线回归模型 y = a + b x + e多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
.
第39页，共40页。
其他问题
logistic回归的局限性理论上的不足：自变量对疾病的影响是独立的，但实际情况及推导结果不同。模型有不合理性：“乘法模型”与一般希望的“相加模型”相矛盾。最大似然法估计参数的局限样本含量不宜太少：例数大于200例时才可不考虑参数估计的偏性。
.
第40页，共40页。
.
第30页，共40页。
非条件logistic回归
研究对象之间是否发生某事件是独立的。适用于：成组的病例-对照研究无分层的队列研究或横断面调查诊断性试验
.
第31页，共40页。
条件logistic回归
研究中有N个配比组，每组中n个病例配m个对照者。这时，各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究精细分层设计的队列研究
value labelssex 1 '男' 2 '女'/hisc 1 '是' 0 '否' 9 '无法判断'/nsex 1 '正常' 0 '异常' 9 '未检'/demdx 1 '有' 0 '无'/addx 0 '无' 1 '危险性' 2 '可能' 3 '很可能'/edu 0 ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'

Logistic回归分析(重点、难点)

1
p2 p2
，通通常常在在流流行行病病研研究究中中p1
为病例
p1为组病的暴例露组率的，暴p露2 是率指，对p2照为组对的照暴组露的率暴。露率。
对发病对率发较病低率的较疾低的病疾，病一，般一有般R有R≈RORR OR 。
比数比
病例对照研究
暴露未暴露
病例 a b
对照 c
d
OR a/(ab) / c/(cd) b/(ab) d/(cd)
理解非条件Logistic回归和条件Logistic回归的区别
1. Logistic回归分析结果及解释掌握 2. Logistic回归变量筛选方法
3. Logistic回归系数的流行病学意义 4. Logistic回归的应用及注意事项
几个重要的流行病学概念
病因分析（预后分析）的目的：找出影响疾病发生（或预后好坏）的影响因素及其影响的强度。
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
模型参数的意义
当 P 1 , 则有 O RP 1/(1P 1) R R P 0/(1P 0)
由于 Oj值 R 与模型中的常数项 0α 无关，
α0在危险因素分析中通常视其为无效参数。
实例分析
❖ Analyze ▪ Regression
• Binary Logistic
实例分析
❖ 应变量编码Depen dent Variabl e Enco din g
Original ValuIenternal Value
.00
0
1.00
1
❖ 模型拟合结果

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Score检验（也称拉格朗日乘数检验、求导检验）：检验无效假设成立时对数似然函数的效率
logistic回归分析思路
5、建立初步模型：根据参数估计值，建立初步模型
log it( p)
ln( p ) 1 p

0

1x1

2 x2

m xm
logistic回归分析思路
11
0 1
1
1
0 1
0
1
ee e 1- p2 1- 1
0
1
0
logistic回归参数估计
最大似然估计（maximum likelihood estimation，MLE）
最大似然法就是选取使总体参数落在样本观察值领域里的概率达到最大时的值作为参数的估计值。
AIC =（- 2 ln L）+2（q＋s） AIC指标通常不用于单个模型的评价，而是用于两个或多个
模型拟合优度的比较。较小的AIC值表示拟合模型较好。
SC（Schwartz Criterion）标准是对AIC指标的一种修正： SC =（- 2 ln L）+2（q＋s）* ln（n） SC与AIC一样，都是值越小表示模型拟合越好，均可用于嵌
Logit变换：logit P ln( P ) 1 P
式中等号右边的分数 [p/(1-p)] 是流行病学常用的描述疾病发生强度的统计指标，称为优势（odds）。
当疾病发生的概率p与不发生的概率q相等皆为0.5时， odds=1，否则odds大于或小于1。
什么是Logistic回归
通常赋值为：暴露时x=1，非暴露时x=0 此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比的优势比的对数值。此时eβ表示1(暴露)与0(非暴露)相比，事件发生的危险，即 OR值
logistic回归分析思路
（2）暴露因素(自变量) x是多分类变量时：常用1，2，3，…，k分别表示k个不同的类别。进行logistic回归分析时，将变量转换为k-1个虚拟变量或
为(m+1)/n。当hi>2(m+1)/n时，第个观测可看作高杠杆点。
logistic回归分析思路
（2）异常点诊断
强影响点(influential points)：对模型估计影响较大。常用诊断指标为Cook距离（Cook’s Distance）。如果第i个观测的Cook距离远大于其他观测的Cook距离，意
哑变量（dummy variable），每个虚拟变量都是一个二分类变量，通常用0和1表示。每个虚拟变量各有一个回归系数，其意义表示1与0相比的优势比的对数值
logistic回归分析思路
例如，血型x为A、B、AB、O四个值，以1、2、3、4来表示，该数字只是一个代码，并非是一个等级变量。
1 p
e 1 (0 1x2x2 ...m xm )
什么是Logistic回归
Logistic回归的主要用途：（1）寻找某现象发生的影响因素。（2）校正混杂因素。（3）确定不同因素对疾病发生影响的相对重要性。（4）预测。
logistic回归参数估计
Hypertension age1
age
0
1
40
0
1
40
0
1
40
0
1
41
0
1
41
0
1
41
0
1
42
0
1
42
0
1
42
1
1
43
logistic回归分析思路
直接用连续变量age分析，结果如下：
提示年龄无统计学意义
logistic回归分析思路
用分类变量age1分析，结果如下：
年龄50-59与<50相比，有统计学意义。
logistic回归分析思路
为什么多分类自变量要用虚拟变量的形式？
logit P
0.4
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
0
1
2
3
4
妊娠次数
logistic回归分析思路
（3）暴露因素(自变量) x是连续变量时，最好将其转化为分类变量
为什么？
logistic回归分析思路
分析年龄与高血压发生与否的关系：age2是原始的年龄数据，age1是年龄分组数据（分为<50、50-59、>=60三个年龄组）
套或非嵌套的模型比较。
logistic回归分析思路
（5）广义确定系数R2——自变量对因变量的解释能力，值越大，表示自变量对因变量的解释能力越强。当自变量与因变量完全无关时，其值近于0；当拟合模型能够完美预报时，其值趋近于1。
2

R2
=1－

L(0)
L(ˆ)

n
校正
Rˆ 2
暴露人群的优势为p1/(1－p1) 非暴露人群的优势为p2/（1－p2）二者之比，称为优势比（odds ratio，OR）
OR＝ p1 /(1 p1) ad p2 /(1 p2) bc
对OR求对数，得
ln（OR）=ln(
ad bc
)=
ˆ1
或
OR= e1
logistic回归分析思路
Logistic回归模型：
log it( p)
ln( p ) 1 p
0
1x1
2 x2

m xm
βi表示自变量xi改变一个单位时，logit（p）的改变量。其它形式：
0 1x1 2 x2 ... m xm
p 1 ee0 1x1 2 x2 ...m xm
1、分析前准备——是否可以用logistic回归：研究目的：寻找某现象的危险因素吗？预测？多因素分析？因变量类型：是分类变量吗？二分类或多分类均可
logistic回归分析思路
2、分析前准备——自变量形式审查：
（1）暴露因素(自变量) x是二分类变量时：直接纳入模型
（2）Deviance——比较饱和模型和现有模型的差别 D 2(ln Ls ln Lf )
饱和模型包含了所有的变量，其模型估计值与观测值完全相等，反映一种理想状态。
Deviance值越小，现有模型与饱和模型的偏差越小，拟合效果越好。
logistic回归分析思路
（3）HL指标——用于模型中含有连续自变量的情形
故上述问题的最大似然函数是：
0 1
0
e e L （ e e e e 1
）（a
0 1
1
0
）b ( 1

1
0

1
)c
( 1
1
)d
0
两边取对数，变为
e e e e Q ln(L) a (0 1) a ln(1 ) 01 b 0 b ln(1 0) c ln(1 ) 01 d ln(1 0)
、Wald χ2检验
logistic回归分析思路
Wald χ2检验：参数估计值与标准误之比的平方
Wald
2

ˆ j se(ˆ
j
)
2

似然比检验：比较两个嵌套模型的对数似然值，如模型A 中含a、b两个变量，模型B中含a一个变量，如果两个模型有差异，提示b可能有统计学意义。
Logistic回归分析攻略
冯国双
什么是logistic回归
常见的几种回归模型：
因变量为连续资料——线性回归因变量为分类资料——Logistic回归因变量为计数资料——Poisson回归因变量为生存资料—— Cox回归 …………
什么是Logistic回归
线性回归模型： yˆ a b1x1 b2 x2 bm xm
Logit变换： logit P ln( P ) 1 P
p表示事件发生的概率，1-p为事件不发生的概率当p=1时，logit（p）=+∞, 当p=0.5时，logit（p）=0, 当p=0时，logit（p）=-∞ 故logit（p）的取值范围是（-∞，+∞）
什么是Logistic回归
味着该点可能既是离群点，又是高杠杆点，因此很可能是一个强影响点。
logistic回归分析思路
（3）其它问题
空单元(zero cell count)：自变量各水平的交叉列联表中有些单元（格子）的观测频数为0
完全分离(complete separation)：若自变量存在一临界值c，当xi≥c时，事件发生，而xi<c时，则事件不发生。
在logistic回归分析时，需将变量x转换为3个虚拟变量。若以A型血为参照组，3个虚拟变量分别为x1、x2、x3。
在分析时，将3个虚拟变量x1、x2、x3同时纳入logistic回归模型，可得3个回归系数β1、β2、β3，其中，
β1为B型血与A型血相比患白血病的优势比的对数值； β2为AB型血与A型血相比患白血病的优势比的对数值； β3为O型血与A型血相比患白血病的优势比的对数值。
结局y
1 0 合计
暴露因素x
1
0
a
b
c
d
a+c b+d
0 1
ee p1 p( y 1 | x 1) 1 01
0
ee p2 p( y 1 | x 0) 1 0
结局y
1 0 合计
暴露因素x
1
0

logistic回归及其分析攻略

合集下载

Logistic 回归分析

excellogistic回归模型

logistic回归分析

LOGISTIC回归分析

用SPSS做logistic回归分析解读

logistic回归模型分析和总结

第十九章 Logistic回归分析

掌握多元logistic回归分析，看这篇就够了

回归分析-Logistic回归

第十二章Logistic回归分析

Logistic回归分析

12 logistic回归分析

logistic回归分析8个知识点整理,建议收藏

Logistic回归分析报告结果解读分析

logistic回归分析

论文经典方法Logistic回归分析及其应用课堂PPT课件PPT40页

Logistic回归分析(重点、难点)

文档推荐

最新文档