首页
课程介绍申报表教学队伍教学内容教学条件教学方法
教学效果评价教改教研课程建设规划政策支持学术研究课题与获奖附件材料

实 习 指 导

               打印本页 | 关闭窗口

多元线性回归分析、 logistic 回归分析

 

一、目的与要求:

1 、掌握多元回归分析的概念和偏回归系数、复相关系数,校正复相关系数,剩余标准差的意义;

2 、了解多元回归分析和 logistic 回归分析 的步骤;

3 、了解多元回归分析和 logistic 回归分析 中自变量选择的方法。

二、学时:

3 学时。

三、案例:

1 .有学者认为,血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量了 30 名被怀疑患有动脉硬化的就诊患者的载脂蛋白 A Ⅰ 、载脂蛋白 B 、载脂蛋白 E 、载脂蛋白 C 、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见表 5-1 :

表 5-1 30 名就诊患者血清中低、高密度脂蛋白中的胆固醇含量及载脂蛋白的测量结果

序号

i

载脂蛋白 A Ⅰ

(mg/dl)

X 1

载脂蛋白 B

(mg/dl)

X 2

载脂蛋白 E

(mg/dl)

X 3

载脂蛋白 C

(mg/dl)

X 4

低密度脂蛋白

(mg/dl)

Y 1

高密度脂蛋白

(mg/dl)

Y 2

1

173

106

7.0

14.7

137

62

2

139

132

6.4

17.8

162

43

3

198

112

6.9

16.7

134

81

4

118

138

7.1

15.7

188

39

5

139

94

8.6

13.6

138

51

6

175

160

12.1

20.3

215

65

7

131

154

11.2

21.5

171

40

8

158

141

9.7

29.6

148

42

9

158

137

7.4

18.2

197

56

10

132

151

7.5

17.2

113

37

11

162

110

6.0

15.9

145

70

12

144

113

10.1

42.8

81

41

13

162

137

7.2

20.7

185

56

14

169

129

8.5

16.7

157

58

15

129

138

6.3

10.1

197

47

16

166

148

11.5

33.4

156

49

17

185

118

6.0

17.5

156

69

18

155

121

6.1

20.4

154

57

19

175

111

4.1

27.2

144

74

20

136

110

9.4

26.0

90

39

21

153

133

8.5

16.9

215

65

22

110

149

9.5

24.7

184

40

23

160

86

5.3

10.8

118

57

24

112

123

8.0

16.6

127

34

25

147

110

8.5

18.4

137

54

26

204

122

6.1

21.0

126

72

27

131

102

6.6

13.4

130

51

28

170

127

8.4

24.7

135

62

29

173

123

8.7

19.0

188

85

30

132

131

13.8

29.2

122

38

用 SPSS 或 SAS 统计软件完成:

问题 1 :分别求 Y 1 , Y 2 关于 X 1 , X 2 , X 3 , X 4 的线性回归方程,并做分析。

问题 2 :分别用向前法、向后法和逐步回归法选择变量,看结果是否一致。

问题 3 :作 Y 2 / Y 1 关于 X 1 , X 2 , X 3 , X 4 的逐步回归分析,并与前面的分析结果进行比较。

问题 4 :进一步做残差分析,看是否满足回归分析的条件和有无离群值。

问题 5 :根据上面的分析,从专业上用文字扼要地叙述最后的分析结果。

问题 6 :有人做同类研究时,得到载体蛋白 X 1 与高密度脂蛋白 Y 2 的回归系数为负值,试分析产生这一错误结论的原因。

2 .某医院骨科在研究某种药物治疗骨折效果时,收集了 516 例病例资料,对每一患者采用相同的标准按照 “ 好、差 ” 做疗效评价。在评价时需要同时考虑骨折的类型、是否手术、是否服药和治疗时间 4 个因素对结果的影响,各因素的说明及部分计算结果见表 5-2 :

表 5-2 各因素与说明

因素

变量名

赋值说明

骨折类型

X 1

闭合 =0 ,开放 =1

治疗方法

X 2

非手术 =0 ,手术 =1

服药情况

X 3

未服药 =0 ,服药 =1

治疗周数

X 4

1 ~ =1 , 11 ~ =2 , 21 ~ =3

疗效评价

Y

差 =0 ,好 =1

 

将治疗周数化为哑变量

水平

X 4 - 1

X 4 - 2

1

0

0

2

1

0

3

0

1

模型 1 :

logistic 回归参数估计 ( 模型 1)

估计

X 1

X 2

X 3

X 4_1

X 4_2

回归系数 ( )

- 0.148

- 0.006

2.220

2.654

4 .745

标准误 ( )

0.219

0.189

0.257

0.243

0.376

变量标准差 ( )

0.701

0.668

0.776

0.768

0.666

模型对数似然函数值: ln L 1 =- 423.033

模型 2 :

Logistic 回归参数估计 ( 模型 2)

估计

X 1

X 2

X 3

X 4_1

X 4_2

X 1 X 2

回归系数 ( )

- 1.092

- 0.317

2.351

2.738

4.920

1.430

标准误 ( )

0.384

0.215

0.263

0.247

0.384

0.474

模型对数似然函数值: ln L 2 = -418.292

问题 1 :根据拟合模型 1 的结果说明,在相同的治疗时间条件下,药物及手术的作用。

问题 2 :根据拟合模型 1 的结果说明,各因素对结果的影响大小顺序及不同治疗时间的优势比值。

问题 3 :根据拟合模型 2 的结果说明, X 1 X 2 是否有必要考虑?手术究竟有无作用?

问题 4 :根据拟合模型 2 的结果说明,在开放性骨折中,药物和手术同时使用相对于单纯手术作用有多大?

 

3 .某医生在河南平顶山煤矿区人群糖尿病 (DM) 现况调查基础上,对筛选出的 174 例糖尿病病例和 3 066 例糖耐量正常者进行以人群为基础的病例 - 对照研究。调查内容包括性别、年龄、糖尿病史、肥胖、体力劳动、饮酒和饮食等因素,分析目的主要是糖尿病患病是否与肥胖有关。该医生应用非条件 logistic 回归分析糖尿病发生与各种危险因素的关联性,先做糖尿病患病与逐个因素的单因素 logistic 回归结果摘要在表 5-3 中。然后将单因素分析有统计学意义的危险因素引入多因素 logistic 回归模型进行逐步筛选,筛选结果列在表 5-4 中。结果表明,年龄大、母亲有糖尿病史、同胞有糖尿病史、最重时体质指数 (BMI) 高、腰臀比值 (WHR) 高、舒张压高、多食高梁和豆类可能是糖尿病患病的独立危险因子;职业性体力活动强度高和多食浅色蔬菜可能是糖尿病患病的独立保护因子。

表 5-3 非条件 logistic 回归单因素分析结果

变  量

OR 的 95%CI

变  量

OR 的 95%CI

性 别

0.52

0.38 ~ 0.71

年 龄

2.44

2.08 ~ 2.87

居住年限

1.58

1.24 ~ 2.03

母亲糖尿病史

5.93

3.25 ~ 10.82

子女有糖尿病

8.95

2.22 ~ 36.08

同胞糖尿病史

4.99

2.44 ~ 10.21

现时 BMI

3.35

2.41 ~ 4.65

最重时 BMI

4.44

3.01 ~ 6.56

现时 WHR

5.91

4.05 ~ 8.63

饮酒指数

0.67

0.47 ~ 0.96

职业性体力活动

0.71

0.63 ~ 0.80

收缩压

3.89

2.39 ~ 6.33

舒张压

3.28

2.27 ~ 4.48

大 米

0.11

0.03 ~ 0.45

小 米

1.64

1.24 ~ 2.18

高 梁

2.96

1.35 ~ 6.52

豆 类

1.47

1.19 ~ 1.82

禽 肉

1.30

1.02 ~ 1.66

鲜 奶

1.52

1.10 ~ 2.10

豆制品

1.27

1.03 ~ 1.06

浅色蔬菜

0.51

0.37 ~ 2.74

动物油

0.78

0.66 ~ 0.91

两年前动物油

0.78

0.67 ~ 0.91

月 经

1.80

1.38 ~ 2.36

 

表 5-4 非条件 logistic 回归多因素分析结果及各危险因子的 PAR% 值

 

变  量

SE ( )

STE ( )

OR 的 95%CI

PAR %

年 龄

0.7134

0.0900

0.4242

2.04

1.71 ~ 2.44

80.04

母亲糖尿病史

1.7984

0.3613

0.1369

6.04

2.98 ~ 12.26

7.19

同胞糖尿病史

0.8069

0.4349

0.0532

2.24

0.96 ~ 5.26

3.18

职业性体力活动

-0.1191

0.0689

-0.0909

0.89

0.78 ~ 1.02

-19.20

最重时 BMI

0.6135

0.2255

0.1691

1.85

1.19 ~ 2.87

37.35

现时 WHR

0.9437

0.2207

0.2571

2.57

1.67 ~ 3.96

48.80

舒张压

0.4111

0.2507

0.0670

1.51

1.01 ~ 2.26

8.15

高 梁

0.7988

0.2951

0.0709

2.22

1.25 ~ 3.96

3.20

豆 类

0.2211

0.1187

0.0774

1.25

0.99 ~ 1.57

10.63

浅色蔬菜

-0.6935

0.1974

-0.1202

0.50

0.34 ~ 0.74

-269.54

 

问题 1 :目前的统计分析程序存在什么问题?

问题 2 :如何应用 logistic 回归校正混杂因素的影响?

问题 3 :如何根据研究目的估计校正混杂因素后糖尿病与肥胖的关联?

附: SPSS 程序

1.多元回归分析 以 实习五第 1 题为例。

数据文件:“例5-1.sav”。

数据格式:5列30行。1个应变量“y”,4个自变量,“ x1 ”,“ x2 ”,“ x3 ”,“ x4 ”。

程序 :

REGRESSION

/DESCRIPTIVES MEAN STDDEV CORR SIG N

/MISSING LISTWISE

/STATISTICS COEFF OUTS CI R ANOVA CHANGE

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT y

/METHOD=ENTER x1 x2 x3 x4 .

REGRESSION

/DESCRIPTIVES MEAN STDDEV CORR SIG N

/MISSING LISTWISE

/STATISTICS COEFF OUTS CI R ANOVA CHANGE

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT y

/METHOD=STEPWISE x1 x2 x3 x4 .

2.Logistic回归分析 以 实习五第 2 题为例( 第 3 题相同)。

数据文件:“例5-2.sav”。

数据格式:5列516行。5个列变量,其中,1个反应变量“ y ”,其余4个自变量。

程序 :

LOGISTIC REGRESSION y

/METHOD = FSTEP(WALD) x1 x2 x3 x4

/SAVE = PGROUP

/CLASSPLOT

/PRINT = SUMMARY CI(95)

/CRITERIA = PIN(.10) POUT(.15) ITERATE(20) CUT(.5) .

附: SAS 程序

1. 多元回归: 以 实习五第 1 题为例 。

data ex5_1;

/*建立数据集*/

input x1-x4 y @@;

/*确定变量名称,x1-x4分别为自变量,y为应变量*/

cards;

/*变量赋值*/

 

;

 

proc reg;

/*调用reg过程*/

model y=x1-x4;

/*定义模型,以y为应变量,x1-x4为自变量进行多元回归分析*/

run;

 

2. 逐步回归: 以 实习五第 1 题为例 。

data ex5_1;

/*建立数据集*/

input x1-x4 y @@;

/*确定变量名称,x1-x4分别为自变量,y为应变量*/

cards;

/*变量赋值*/

 

;

 

proc reg;

/*调用reg过程*/

model y=x1-x4

/*定义模型,以y为应变量,x1-x4为自变量进行多元回归分析*/

/selection=stepwise

/*选择逐步回归方法筛选变量*/

sle=0.05

/*定义入选变量的界值*/

sls=0.10;

/*定义剔除变量的界值*/

run;

 

如果用前进法和后退法来筛选变量,可以在model后加上选项forward和backward。

3. 多个自变量的 Logistic 逐步回归分析: 以 实习五第 2 题为例( 第 3 题相同)

data ex5_2;

/*建立数据集*/

input x1-x4 y @@;

/*确定变量名称,x1-x4为四种危险因素,y为 疗效评价 ,1为好,0为差*/

cards;

/*变量赋值*/

 

;

 

proc logistic;

/*调用logistic过程*/

model y=x1-x4

/*定义模型,以y为应变量,x1-x4为自变量*/

/selection=stepwise

/*选择逐步回归方法筛选变量*/

sle=0.05 sls=0.1;

/*入选的界值为0.05和剔除的界值为0.1*/

run;

 

中南大学医学统计学版权所有
copyright © 2006