实 习 四 双变量 直线相关与回归
一、目的与要求:
1 、理解直线回归的意义,掌握直线回归方程的求法、回归系数的意义及其假设检验的方法(方差分析与 t 检验的基本思想);
2 、掌握直线回归的区间估计方法;
3 、掌握直线相关的概念、相关系数的意义,相关系数的计算方法、假设检验方法(查表法与 t 检验法);
4 、掌握秩相关分析适用的条件、 Spearman 等级相关系数的意义,分析的步骤和等级相关系数 r s 的校正。
二、学时:
3 学时。
三、案例:
1 . 为了探讨镉对机体免疫功能的影响,分别对每组 20 只 lace 小鼠以剂量为 0.3 、 1.2 、 2.4mg/kg/da Y 的氯化镉灌胃染毒 14 天,以 20 只未施染毒的小鼠为对照,分别测定小鼠脾淋巴细胞内钙调素含量( 10 5 ng/kg )见表 4-1 :
表 4-1 染毒计量与钙调素含量的分组信息
染毒剂量( mg/kg/da Y ) |
样本含量 |
钙调素含量( 10 5 ng/kg ) |
对照组( 0 ) |
20 |
5.38 2.86 |
0.3 |
20 |
4.68 2.72 |
1.2 |
20 |
4.32 2.26 |
2.4 |
20 |
3.70 2.67 |
对这份资料 , 研究人员作了如下的统计分析 : 四个剂量组间比较的方差分析、钙调素均值与染毒剂量的相关系数、钙调素均值关于染毒剂量的线性回归。结论为:
(1) 经方差分析得 F=1.417,p>0.05 ,认为为三个实验组的钙调素含量差异无统计学意义;
(2) 以各组的染毒剂量和钙调素的组均值计算的相关系数( r=-0.9996,p<0.05 ),故又结论为:染毒剂量与钙调素含量呈负相关;
(3) 通过染毒剂量预测钙调素含量效果很好。
问题 1 :对该研究数据进行方差分析的目的是什么?
问题 2 :染毒剂量和钙调素的相关分析应该怎么做 ?
问题 3 :为了探讨小鼠脾淋巴细胞内钙调素含量与氯化镉染毒剂量的剂量 -- 反应关系,应采用何种统计分析方法?
问题 4 :研究人员上述做法存在何种问题 ?
2 .某地 10 名一年级女大学生的胸围( cm )与肺活量( L )数据见表 4-2 所示。
表 4-2 10 名一年级女大学生的胸围( cm )与肺活量( L )
学生编号 1 2 3 4 5 6 7 8 9 10 |
胸 围 X 72.5 83.9 78.3 88.4 77.1 81.7 78.3 74.8 73.7 79.4 |
肺活 Y 2.51 3.11 2.72 3.38 2.83 2.86 2.72 1.91 2.98 3.28 |
问题 1 :按此资料绘制散点图?
问题 2 :求直线回归方程并对回归系数作假设检验。
问题 3 :求直线相关系数,相关系数的假设检验结果与直线回归系数会一致吗?为什么?
问题 4 :试估计胸围为 75cm 时的平均肺活量,计算其 95 %的可信区间,并说明其含义。
问题 5 :求胸围为 75cm 时,某地一年级大学生肺活量的 95 %的散布范围,并解释其含义。
3 .对某省不同地区水质的碘含量及其甲状腺肿的患病率作了调查,结果见表 4-3 :
表 4-3 某省不同地区水质碘含量与甲状腺肿患病率
地区 |
碘含量
( μg/L ) |
患病率
(%) |
|
地区 |
碘含量
( μg/L ) |
患病率
(%) |
1 |
1.0 |
40.5 |
|
10 |
7.7 |
6.3 |
2 |
2.0 |
37.7 |
|
11 |
8.0 |
7.1 |
3 |
2.5 |
39.0 |
|
12 |
8.0 |
9.0 |
4 |
3.5 |
20.0 |
|
13 |
8.3 |
4.0 |
5 |
3.5 |
22.0 |
|
14 |
8.5 |
4.0 |
6 |
4.0 |
37.4 |
|
15 |
8.5 |
5.4 |
7 |
4.4 |
31.5 |
|
16 |
8.8 |
4.7 |
8 |
4.5 |
15.6 |
|
17 |
24.5 |
0.0 |
9 |
4.6 |
21.0 |
|
|
|
|
研究者发现不同地区的甲状腺肿的患病率的高低与本地区水质的碘含量有关,于是利用 Pearson 积差相关的计算公式,把碘含量视为变量 X , 把甲状腺肿的患病率视为因变量 Y ,计算出相关系数,得 r =-0.712 ,经检验 P <0.002, 据此认为甲状腺肿的患病率与水质的碘含量之间有负相关关系。
问题 1 :这是否正确?为什么?
问题 2 :应当搜集哪些资料?如何分析?
附: SPSS 程序
直线相关回归分析(含 散点图) 以 实习四第 2 题为例。
数据文件:“例4-2.sav”。
数据格式:2列10行。1个自变量“ x ”,1个因变量“ y ”。
程序:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT y
/METHOD=ENTER x .
GRAPH
/SCATTERPLOT(BIVAR)=x WITH y
/MISSING=LISTWISE .
附: SAS 程序
1.两个变量的 直线回归分析: 以 实习四第 2 题为例 。
data ex4_2; |
/*建立数据集*/ |
input x y; |
/*确定变量名称*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc reg; |
/*调用reg过程*/ |
model y=x; |
/*定义模型,以y为应变量,以x为自变量*/ |
run; |
|
在 model 语句后面可以加上选项,得到一些有用的统计量。常用选项包括:
stb :输出标准化偏回归系数。
p :输出每个观测的实际值、预测值和残差。
cli :输出每个观测预测值均数的双侧95%置信区间,
clm :输出每个观测预测值的双侧95%置信范围。
2.两个变量的直线相关分析:以 实习四第 2 题为例。
data ex4_2; |
/*建立数据集*/ |
input x y; |
/*确定变量名称*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc corr; |
/*调用corr过程*/ |
var x y |
/*确定作相关分析的变量*/ |
run; |
|
3.两个变量的 秩相关分析: 以 实习四第 3 题为例 。
data ex4_3; |
/*建立数据集*/ |
input x y; |
/*确定变量名称*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc corr spearman; |
/*调用corr过程,要求作spearman相关分析*/ |
var x y; |
/*确定作相关分析的变量*/ |
run; |
|
|