实 习 三 计数资料与等级资料的统计分析方法
一、目的与要求:
1 、掌握常用相对数的区别和易犯的错误;
2 、掌握使用标准化法的目的,标准化率的计算方法和应用条件;
3 、掌握等级资料秩和检验的方法;
4 、了解 Poisson 分布的基本概念及方法;
5 、掌握 检验的基本思想及方法。
二、学时:
3 学时。
三、案例:
1 . 某医生在一个有 5 万人口的社区进行肺癌调查,通过随机抽样共调查 2000 人,全部调查工作在 10 天内完成,调查内容包括流行病学资料和临床实验室检查资料。调查结果见表 3-1 :
表 3-1 某社区不同性别人群肺癌情况
性别 |
检查人数 |
有病人数 |
死亡人数 |
死亡率( % ) |
发病率( % ) |
男 |
1050 |
6 |
3 |
50.0 |
0.6 |
女 |
950 |
3 |
2 |
66.7 |
0.3 |
合计 |
2000 |
9 |
5 |
58.4 |
0.45 |
该医生对表中资料进行了统计分析,认为男性肺癌的发病率高于女性,而死亡情况则完全相反。
问题 1 :该医生所选择的统计指标正确吗?
问题 2 :该医生对指标的计算方法恰当吗?
问题 3 :应该如何作适当的统计分析?
2 . 某医生统计了本医院从 1960 年至 1999 年的住院病例,得到表 3-2 和表 3-3 的数据。
表 3-2 1960-99 年住院患者中心脏病患者的频率
年度 |
住院患者中 10 种心脏病患者的频率 (%) |
1960- |
4.6 |
1970- |
7.3 |
1980- |
8.9 |
1990-2000 |
10.1 |
表 3-3 1960-99 年住院心脏病患者中冠心病患者的频率
年度 |
10 种心脏病住院患者中冠心病患者的频率 (%) |
1960- |
9.38 |
1970- |
30.10 |
1980- |
29.21 |
1990-2000 |
51.45 |
根据表 3-2 ,该医生认为 “40 年来, 10 种心脏病总的发病率逐年代增高 ” ;根据表 3-3 ,该医生认为 “ 在 10 种心脏病中,冠心病发病率迅速增高,从二十世纪 70 年代起居心脏病中第一位 ” 。
问题 1 :如何评价这位医生的分析结论?
问题 2 :这两份资料各有什么用处 ?
3 . A 、 B 两个条件相近的县级医院院长在一起谈论各自医院的治愈率时得到见表 3-4 :
表 3 -4 A 、 B 两个县级医院的治愈率
科 室 |
A 医院 |
B 医院 |
治疗人数 |
治愈率 % |
治疗人数 |
治愈率 % |
内科 |
830 |
65 |
110 |
80 |
外科 |
550 |
63 |
163 |
68 |
儿科 |
315 |
39 |
526 |
39 |
妇产科 |
429 |
33 |
395 |
35 |
中医科 |
186 |
28 |
375 |
30 |
其他科室 |
363 |
6 |
268 |
10 |
合计 |
2673 |
46 |
1837 |
37 |
A 医院院长自豪地说: “ 尽管都是县级医院,硬件条件也差不多,但本院的治愈率 46% 明显高于贵医院的 37% ,可见我们的医疗质量和管理水平较高 ” 。 B 医院院长不服气,说道: “ 我们医院的各个治疗科室的治愈率均比你们高,应该是我们医院的医疗质量和管理水平高 ” 。二人各不相让,争执不下。
问题 1 :为什么同样的资料会产生完全不同的看法,根本原因何在?如何才能避免类似的争执?
问题 2 :你认为哪个的结论正确,或者都不正确? 要怎样才能做出合理的评判?
4 . 2000 年某地爱滋病病毒的感染率为十万分之七,该地 10 万人口, 2001 年感染了爱滋病病毒的人数为 17 人,有人说 , 该地 2001 年总体上爱滋病病毒感染率与 2000 年持平。如果是这样的话,该地 2001 年感染了爱滋病病毒的人数为 17 人这种情况发生的概率为

因为发生的概率太小了,所以说该地 2001 年总体上爱滋病病毒感染率与 2000 年持平的说法是不成立的。
问题 1 :该分析是否正确?
问题 2 :如果有问题,出在哪里?
5. 某地对区级医院 2001~2002 年医疗质量进行总体评价与比较,按分层抽样方法抽取两年内某病患者 1250 例,患者年龄构成与病情两年间差别没有统计学意义,观察三项指标分别为疗效、住院日、费用。规定很好、好、一般、差的标准见表 3-5 ,病人医疗质量各等级频数分布见表 3-6 :
表 3-5 很好、好、一般、差的标准
指标 |
很好 |
好 |
一般 |
差 |
疗效 |
治愈 |
显效 |
好转 |
无效 |
住院日 |
≤15 |
16~20 |
21~25 |
> 25 |
费用(元) |
≤1400 |
1400~1800 |
1800~2200 |
> 2200 |
表 3-6 两年病人按医疗质量等级的频数分配表
指标 |
|
很好 |
质量好 |
等级一般 |
差 |
疗效 |
01 年 02 年 |
160 170 |
380 410 |
20
10 |
40 60 |
|
|
|
|
|
|
住院日 |
01 年 02 年 |
180 200 |
250 310 |
130 120 |
40 20 |
|
|
|
|
|
|
费用 |
01 年 02 年 |
130 110 |
270 320 |
130 120 |
70 100 |
对疗效、住院日、费用三项指标分别采用 检验,结果为
疗效 =6.786 0.079
住院日 =12.568 0.006
费用 = 9.613 0.020
故不能认为两年疗效不同;而两年的住院日和费用均有差别,根据调查所得平均住院日和平均费用可以认为平均住院日 2001 年比 2002 年长,而费用 2001 年低于 2002 年。
问题 1 :以上 检验方法是否正确?为什么?
问题 2 :如果不正确 , 问题出在什么地方?该选择何种假设检验方法?
6. 某研究者欲比较某药物与对照药的疗效,将类似病情的患者随机分成两组,分别接受该药物和对照药,结果见表 2-7 :
表 2-7 某药物治疗某病人疗效结果
疗效 |
治疗组 |
对照组 |
合计 |
恶化 |
1 |
1 |
2 |
无变化 |
5 |
14 |
19 |
进步 |
13 |
10 |
23 |
显著进步 |
9 |
5 |
14 |
基本痊愈 |
2 |
0 |
2 |
合计 |
30 |
30 |
60 |
对于该资料研究者作了列联表 检验:
= 5.79 , , , 
在 的检验水准上,不能认为某药物对治疗组与对照组的疗效不同。
问题 1 :该资料的分析方法是否合适?为什么?
问题 2 :应该如何分析该资料?
附: SPSS 程序
1.行列表资料的χ 2 检验 以 实习三第 5题为例。
数据文件:“例3-5.sav”。
数据格式:3列8行。2个分类变量,“ 年份 ”和“ 医疗质量 ”;1个频数变量“ f ”。
程序:
WEIGHT
BY f .
CROSSTABS
/TABLES= 年份 BY 医疗质量
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT ROW
/COUNT ROUND CELL .
2.两组等级资料比较的秩和检验 以 实习三第 5题为例。
数据文件:“例3-5.sav”。
数据格式:3列8行。1个分组变量“ 年份 ”,1个反应变量 “ 医疗质量 ”,1个频数变量“ f ”。
程序 :
WEIGHT
BY f .
NPAR TESTS
/M-W= 医疗质量 BY 年份 (1 2)
/MISSING ANALYSIS.
附: SAS 程序
1 . Poisson 分布的样本均数与总体均数比较(直接法) 以 实习三第 4题为例 。
data ex3_4; |
/*建立数据集*/ |
n=100000; |
/*确定样本例数*/ |
pai=0.000007; |
/*确定总体率*/ |
lam=n*pai; |
/*计算总体均数*/ |
x=17; |
/*确定实际发生数*/ |
p=1-poisson(lam,x-1); |
/*计算实际发生数所对应的概率*/ |
proc print; |
/*调用print过程*/ |
var lam p; |
/*显示变量lam和 P */ |
run; |
|
2.行×列表资料的χ 2 检验 以 实习三第 5题为例。
data ex3_5; |
/*建立数据集*/ |
input r c f @@; |
/*确定变量名称,r为行变量,c为列变量,f为频数变量*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc freq; |
/*调用freq过程*/ |
weight f; |
/*定义f为频数变量*/ |
tables r*c |
/*作r*c的列联表*/ |
/chisq; |
/*对列联表 χ 2 检验*/ |
run; |
|
3. 两组等级资料比较的秩和检验 以 实习三第 5题为例 。
data ex3_5; |
/*建立数据集*/ |
input c g f@@; |
/*确定变量名称*/ |
cards; |
/*变量赋值*/ |
略 |
|
; |
|
proc npar1way wilcoxon; |
/*调用npar1way过程, 进行wilcoxon分析*/ |
freq f; |
/*确定频数变量为f*/ |
var g; |
/*定义分析变量g*/ |
class c; |
/*定义分组变量c*/ |
run; |
|
|