实 习 五 多元线性回归分析、 logistic 回归分析
一、目的与要求:
1 、掌握多元回归分析的概念和偏回归系数、复相关系数,校正复相关系数,剩余标准差的意义;
2 、了解多元回归分析和 logistic 回归分析 的步骤;
3 、了解多元回归分析和 logistic 回归分析 中自变量选择的方法。
二、学时:
3 学时。
三、案例:
1 .有学者认为,血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量了 30 名被怀疑患有动脉硬化的就诊患者的载脂蛋白 A Ⅰ 、载脂蛋白 B 、载脂蛋白 E 、载脂蛋白 C 、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见表 5-1 :
表 5-1 30 名就诊患者血清中低、高密度脂蛋白中的胆固醇含量及载脂蛋白的测量结果
序号
i |
载脂蛋白 A Ⅰ
(mg/dl)
X 1 |
载脂蛋白 B
(mg/dl)
X 2 |
载脂蛋白 E
(mg/dl)
X 3 |
载脂蛋白 C
(mg/dl)
X 4 |
低密度脂蛋白
(mg/dl)
Y 1 |
高密度脂蛋白
(mg/dl)
Y 2 |
1 |
173 |
106 |
7.0 |
14.7 |
137 |
62 |
2 |
139 |
132 |
6.4 |
17.8 |
162 |
43 |
3 |
198 |
112 |
6.9 |
16.7 |
134 |
81 |
4 |
118 |
138 |
7.1 |
15.7 |
188 |
39 |
5 |
139 |
94 |
8.6 |
13.6 |
138 |
51 |
6 |
175 |
160 |
12.1 |
20.3 |
215 |
65 |
7 |
131 |
154 |
11.2 |
21.5 |
171 |
40 |
8 |
158 |
141 |
9.7 |
29.6 |
148 |
42 |
9 |
158 |
137 |
7.4 |
18.2 |
197 |
56 |
10 |
132 |
151 |
7.5 |
17.2 |
113 |
37 |
11 |
162 |
110 |
6.0 |
15.9 |
145 |
70 |
12 |
144 |
113 |
10.1 |
42.8 |
81 |
41 |
13 |
162 |
137 |
7.2 |
20.7 |
185 |
56 |
14 |
169 |
129 |
8.5 |
16.7 |
157 |
58 |
15 |
129 |
138 |
6.3 |
10.1 |
197 |
47 |
16 |
166 |
148 |
11.5 |
33.4 |
156 |
49 |
17 |
185 |
118 |
6.0 |
17.5 |
156 |
69 |
18 |
155 |
121 |
6.1 |
20.4 |
154 |
57 |
19 |
175 |
111 |
4.1 |
27.2 |
144 |
74 |
20 |
136 |
110 |
9.4 |
26.0 |
90 |
39 |
21 |
153 |
133 |
8.5 |
16.9 |
215 |
65 |
22 |
110 |
149 |
9.5 |
24.7 |
184 |
40 |
23 |
160 |
86 |
5.3 |
10.8 |
118 |
57 |
24 |
112 |
123 |
8.0 |
16.6 |
127 |
34 |
25 |
147 |
110 |
8.5 |
18.4 |
137 |
54 |
26 |
204 |
122 |
6.1 |
21.0 |
126 |
72 |
27 |
131 |
102 |
6.6 |
13.4 |
130 |
51 |
28 |
170 |
127 |
8.4 |
24.7 |
135 |
62 |
29 |
173 |
123 |
8.7 |
19.0 |
188 |
85 |
30 |
132 |
131 |
13.8 |
29.2 |
122 |
38 |
用 SPSS 或 SAS 统计软件完成:
问题 1 :分别求 Y 1 , Y 2 关于 X 1 , X 2 , X 3 , X 4 的线性回归方程,并做分析。
问题 2 :分别用向前法、向后法和逐步回归法选择变量,看结果是否一致。
问题 3 :作 Y 2 / Y 1 关于 X 1 , X 2 , X 3 , X 4 的逐步回归分析,并与前面的分析结果进行比较。
问题 4 :进一步做残差分析,看是否满足回归分析的条件和有无离群值。
问题 5 :根据上面的分析,从专业上用文字扼要地叙述最后的分析结果。
问题 6 :有人做同类研究时,得到载体蛋白 X 1 与高密度脂蛋白 Y 2 的回归系数为负值,试分析产生这一错误结论的原因。
2 .某医院骨科在研究某种药物治疗骨折效果时,收集了 516 例病例资料,对每一患者采用相同的标准按照 “ 好、差 ” 做疗效评价。在评价时需要同时考虑骨折的类型、是否手术、是否服药和治疗时间 4 个因素对结果的影响,各因素的说明及部分计算结果见表 5-2 :
表 5-2 各因素与说明
因素 |
变量名 |
赋值说明 |
骨折类型 |
X 1 |
闭合 =0 ,开放 =1 |
治疗方法 |
X 2 |
非手术 =0 ,手术 =1 |
服药情况 |
X 3 |
未服药 =0 ,服药 =1 |
治疗周数 |
X 4 |
1 ~ =1 , 11 ~ =2 , 21 ~ =3 |
疗效评价 |
Y |
差 =0 ,好 =1 |
将治疗周数化为哑变量
水平 |
X 4 - 1 |
X 4 - 2 |
1 |
0 |
0 |
2 |
1 |
0 |
3 |
0 |
1 |
模型 1 : 
logistic 回归参数估计 ( 模型 1)
估计 |
X 1 |
X 2 |
X 3 |
X 4_1 |
X 4_2 |
回归系数 ( ) |
- 0.148 |
- 0.006 |
2.220 |
2.654 |
4 .745 |
标准误 ( ) |
0.219 |
0.189 |
0.257 |
0.243 |
0.376 |
变量标准差 ( ) |
0.701 |
0.668 |
0.776 |
0.768 |
0.666 |
模型对数似然函数值: ln L 1 =- 423.033
模型 2 : 
Logistic 回归参数估计 ( 模型 2)
估计 |
X 1 |
X 2 |
X 3 |
X 4_1 |
X 4_2 |
X 1 X 2 |
回归系数 ( ) |
- 1.092 |
- 0.317 |
2.351 |
2.738 |
4.920 |
1.430 |
标准误 ( ) |
0.384 |
0.215 |
0.263 |
0.247 |
0.384 |
0.474 |
模型对数似然函数值: ln L 2 = -418.292
问题 1 :根据拟合模型 1 的结果说明,在相同的治疗时间条件下,药物及手术的作用。
问题 2 :根据拟合模型 1 的结果说明,各因素对结果的影响大小顺序及不同治疗时间的优势比值。
问题 3 :根据拟合模型 2 的结果说明, X 1 X 2 是否有必要考虑?手术究竟有无作用?
问题 4 :根据拟合模型 2 的结果说明,在开放性骨折中,药物和手术同时使用相对于单纯手术作用有多大?
3 .某医生在河南平顶山煤矿区人群糖尿病 (DM) 现况调查基础上,对筛选出的 174 例糖尿病病例和 3 066 例糖耐量正常者进行以人群为基础的病例 - 对照研究。调查内容包括性别、年龄、糖尿病史、肥胖、体力劳动、饮酒和饮食等因素,分析目的主要是糖尿病患病是否与肥胖有关。该医生应用非条件 logistic 回归分析糖尿病发生与各种危险因素的关联性,先做糖尿病患病与逐个因素的单因素 logistic 回归结果摘要在表 5-3 中。然后将单因素分析有统计学意义的危险因素引入多因素 logistic 回归模型进行逐步筛选,筛选结果列在表 5-4 中。结果表明,年龄大、母亲有糖尿病史、同胞有糖尿病史、最重时体质指数 (BMI) 高、腰臀比值 (WHR) 高、舒张压高、多食高梁和豆类可能是糖尿病患病的独立危险因子;职业性体力活动强度高和多食浅色蔬菜可能是糖尿病患病的独立保护因子。
表 5-3 非条件 logistic 回归单因素分析结果
变 量 |

|
OR 的 95%CI |
变 量 |

|
OR 的 95%CI |
性 别 |
0.52 |
0.38 ~ 0.71 |
年 龄 |
2.44 |
2.08 ~ 2.87 |
居住年限 |
1.58 |
1.24 ~ 2.03 |
母亲糖尿病史 |
5.93 |
3.25 ~ 10.82 |
子女有糖尿病 |
8.95 |
2.22 ~ 36.08 |
同胞糖尿病史 |
4.99 |
2.44 ~ 10.21 |
现时 BMI |
3.35 |
2.41 ~ 4.65 |
最重时 BMI |
4.44 |
3.01 ~ 6.56 |
现时 WHR |
5.91 |
4.05 ~ 8.63 |
饮酒指数 |
0.67 |
0.47 ~ 0.96 |
职业性体力活动 |
0.71 |
0.63 ~ 0.80 |
收缩压 |
3.89 |
2.39 ~ 6.33 |
舒张压 |
3.28 |
2.27 ~ 4.48 |
大 米 |
0.11 |
0.03 ~ 0.45 |
小 米 |
1.64 |
1.24 ~ 2.18 |
高 梁 |
2.96 |
1.35 ~ 6.52 |
豆 类 |
1.47 |
1.19 ~ 1.82 |
禽 肉 |
1.30 |
1.02 ~ 1.66 |
鲜 奶 |
1.52 |
1.10 ~ 2.10 |
豆制品 |
1.27 |
1.03 ~ 1.06 |
浅色蔬菜 |
0.51 |
0.37 ~ 2.74 |
动物油 |
0.78 |
0.66 ~ 0.91 |
两年前动物油 |
0.78 |
0.67 ~ 0.91 |
月 经 |
1.80 |
1.38 ~ 2.36 |
表 5-4 非条件 logistic 回归多因素分析结果及各危险因子的 PAR% 值
变 量 |

|
SE ( ) |
STE ( ) |

|
OR 的 95%CI |
PAR % |
年 龄 |
0.7134 |
0.0900 |
0.4242 |
2.04 |
1.71 ~ 2.44 |
80.04 |
母亲糖尿病史 |
1.7984 |
0.3613 |
0.1369 |
6.04 |
2.98 ~ 12.26 |
7.19 |
同胞糖尿病史 |
0.8069 |
0.4349 |
0.0532 |
2.24 |
0.96 ~ 5.26 |
3.18 |
职业性体力活动 |
-0.1191 |
0.0689 |
-0.0909 |
0.89 |
0.78 ~ 1.02 |
-19.20 |
最重时 BMI |
0.6135 |
0.2255 |
0.1691 |
1.85 |
1.19 ~ 2.87 |
37.35 |
现时 WHR |
0.9437 |
0.2207 |
0.2571 |
2.57 |
1.67 ~ 3.96 |
48.80 |
舒张压 |
0.4111 |
0.2507 |
0.0670 |
1.51 |
1.01 ~ 2.26 |
8.15 |
高 梁 |
0.7988 |
0.2951 |
0.0709 |
2.22 |
1.25 ~ 3.96 |
3.20 |
豆 类 |
0.2211 |
0.1187 |
0.0774 |
1.25 |
0.99 ~ 1.57 |
10.63 |
浅色蔬菜 |
-0.6935 |
0.1974 |
-0.1202 |
0.50 |
0.34 ~ 0.74 |
-269.54 |
问题 1 :目前的统计分析程序存在什么问题?
问题 2 :如何应用 logistic 回归校正混杂因素的影响?
问题 3 :如何根据研究目的估计校正混杂因素后糖尿病与肥胖的关联?
附: SPSS 程序
1.多元回归分析 以 实习五第 1 题为例。
数据文件:“例5-1.sav”。
数据格式:5列30行。1个应变量“y”,4个自变量,“ x1 ”,“ x2 ”,“ x3 ”,“ x4 ”。
程序 :
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT y
/METHOD=ENTER x1 x2 x3 x4 .
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT y
/METHOD=STEPWISE x1 x2 x3 x4 .
2.Logistic回归分析 以 实习五第 2 题为例( 第 3 题相同)。
数据文件:“例5-2.sav”。
数据格式:5列516行。5个列变量,其中,1个反应变量“ y ”,其余4个自变量。
程序 :
LOGISTIC REGRESSION y
/METHOD = FSTEP(WALD) x1 x2 x3 x4
/SAVE = PGROUP
/CLASSPLOT
/PRINT = SUMMARY CI(95)
/CRITERIA = PIN(.10) POUT(.15) ITERATE(20) CUT(.5) .
附: SAS 程序
1. 多元回归: 以 实习五第 1 题为例 。
data ex5_1; |
/*建立数据集*/ |
input x1-x4 y @@; |
/*确定变量名称,x1-x4分别为自变量,y为应变量*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc reg; |
/*调用reg过程*/ |
model y=x1-x4; |
/*定义模型,以y为应变量,x1-x4为自变量进行多元回归分析*/ |
run; |
|
2. 逐步回归: 以 实习五第 1 题为例 。
data ex5_1; |
/*建立数据集*/ |
input x1-x4 y @@; |
/*确定变量名称,x1-x4分别为自变量,y为应变量*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc reg; |
/*调用reg过程*/ |
model y=x1-x4 |
/*定义模型,以y为应变量,x1-x4为自变量进行多元回归分析*/ |
/selection=stepwise |
/*选择逐步回归方法筛选变量*/ |
sle=0.05 |
/*定义入选变量的界值*/ |
sls=0.10; |
/*定义剔除变量的界值*/ |
run; |
|
如果用前进法和后退法来筛选变量,可以在model后加上选项forward和backward。
3. 多个自变量的 Logistic 逐步回归分析: 以 实习五第 2 题为例( 第 3 题相同)
data ex5_2; |
/*建立数据集*/ |
input x1-x4 y @@; |
/*确定变量名称,x1-x4为四种危险因素,y为 疗效评价 ,1为好,0为差*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc logistic; |
/*调用logistic过程*/ |
model y=x1-x4 |
/*定义模型,以y为应变量,x1-x4为自变量*/ |
/selection=stepwise |
/*选择逐步回归方法筛选变量*/ |
sle=0.05 sls=0.1; |
/*入选的界值为0.05和剔除的界值为0.1*/ |
run; |
|
|