《医学统计学(2)》由会员分享,可在线阅读,更多相关《医学统计学(2)(192页珍藏版)》请在人人文库网上搜索。
1、医学统计学医学统计学(2)统计学统计学在中医药科研实践中通过观察、调查、实验等方在中医药科研实践中通过观察、调查、实验等方式搜集到的各种资料含有大量信息,由此揭示或式搜集到的各种资料含有大量信息,由此揭示或表达样本信息特征,不仅需要依据相关专业知识,表达样本信息特征,不仅需要依据相关专业知识,还需借助适当的统计学方法和手段。还需借助适当的统计学方法和手段。统计描述又称描述性统计,是运用适宜的统计描述又称描述性统计,是运用适宜的统计指统计指标标、统计表统计表、统计图统计图等方法,对研究对象等方法,对研究对象(
(变量变量) )的分布类型和数量特征进行展示的过程。的分布类型和数量特征进行展示的过程
2、。通过统计描述,可了解研究对象的基本特征,便通过统计描述,可了解研究对象的基本特征,便于对样本资料作进一步的统计分析。于对样本资料作进一步的统计分析。F频数分布频数分布F正态分布正态分布F数值变量的统计描述数值变量的统计描述F分类变量的统计描述分类变量的统计描述F统计表统计表F统计图统计图
频数表频数表及及频数图频数图是统计描述的基本是统计描述的基本内容,也是揭示样本数据分布特征的基内容,也是揭示样本数据分布特征的基本手段。本手段。 频数表频数表又称频数分布表,是将某变量各又称频数分布表,是将某变量各组组段段及其及其相应的频数相应的频数按一定顺序排列而成的按一定顺序排列而成的表格形式,主要用于
3、描述数据的分布特征,表格形式,主要用于描述数据的分布特征,是对样本含量较大的资料进行统计描述的是对样本含量较大的资料进行统计描述的常用方法。常用方法。【例例2-12-1】随机抽取某年某地随机抽取某年某地120120例正常人血清铜例正常人血清铜的含量,见表的含量,见表2-12-1,试编制频数表。,试编制频数表。1.
1.数值资料频数表的编制数值资料频数表的编制(1)(1)找出找出120120例血清铁数据的最小值例血清铁数据的最小值(9.23(9.23)与最大值)与最大值(19.8419.84)。)。(2)(2)计算全距(计算全距(rangerange,R R),也称为极差。),也称为极差。 R=
4、R=最大值一最小值最大值一最小值=19.84=19.849.239. (3)(3)确定组段数确定组段数(k)(k):组段数应根据研究目的和观察值多少:组段数应根据研究目的和观察值多少而定,当而定,当n100 n100n100时,通时,通常取常取组组,不宜过粗或过细。本例,不宜过粗或过细。本例n=120n=120,可先将原,可先将原始资料粗略定为始资料粗略定为11 11组。组。
(4)(4)确定组距确定组距(i)(i):组距等于全距比组数,一般等距分组。:组距等于全距比组数,一般等距分组。 i=R/ki=R/k 本例中:本例中:i=10.61/11=0.9
5、651i=10.61/11=0.9651频数表的手工编制方法频数表的手工编制方法 (5)(5)确定组段:第一组段应包括最小值,最后一个组段应确定组段:第一组段应包括最小值,最后一个组段应包括最大值。每一组段的起始值称为下限,终点值称为上包括最大值。每一组段的起始值称为下限,终点值称为上限限( (即下一组段的下限即下一组段的下限)
),为避免汇总时的重复,组段不包,为避免汇总时的重复,组段不包括本组段的括本组段的“上限上限”,但最后一个组段应同时写出下限和,但最后一个组段应同时写出下限和上限。如本例最小值为上限。如本例最小值为9.23 9.23 ,为计算方便,第一组段的,为计算方便,第一组段的下
6、限取下限取9.00 9.00 ,然后每隔一个组距列一个组段,直至最后,然后每隔一个组距列一个组段,直至最后一个组段一个组段19..0020.00 。 ( 6 )( 6 )列表并统计频数,还可计算频率、累计频数和累计频列表并统计频数,还可计算频率、累计频数和累计频率,见表率,见表2-22-2。表中:组中值表中:组中值=(=(上组段下限值上组段下限值+
+下组段下限值下组段下限值)/2)/2;频数即各组段内观察值的个数;频数即各组段内观察值的个数;频率即各组段频数与总观察值个数之比,一般用频率即各组段频数与总观察值个数之比,一般用百分数表示;百分数表示;累计频数是由上至下将频数
7、累加;累计频数是由上至下将频数累加;累计频率是由上至下将频率累加。累计频率是由上至下将频率累加。从本例的分布可见:以第六组段从本例的分布可见:以第六组段(14.00(14.00)
)分布的分布的数据最多,数据最多,2222例,占例,占18.3%18.3%,且以该组段为中心,且以该组段为中心呈对称分布,小于呈对称分布,小于15.00umol/L15.00umol/L的数据占的数据占59.1%59.1%。SPSSSPSS软件绘制频数表软件绘制频数表 对【例2-1】资料进行统计描述2.2.分类资料频数表的编制分类资料频数表的编制
(1)(1)一维频数表:一维频数表:用分类资料的分类水平代替上述数值用
8、分类资料的分类水平代替上述数值资料频数表的组段,然后通过分类计数便可编制其频资料频数表的组段,然后通过分类计数便可编制其频数表,见表数表,见表2-32-3。(2
2)二维频数表:)二维频数表:分类资料的二维频数表在各种医学分类资料的二维频数表在各种医学杂志中较为常见。按分类资料的分类水平特征,可组合杂志中较为常见。按分类资料的分类水平特征,可组合成各种不同的二维表,不同二维表名称见表成各种不同的二维表,不同二维表名称见表2-4 2-4 。(3
3)配对设计分类资料的频数表:)配对设计分类资料的频数表:同一研究对象同时接受同一研究对象同时接受两种不同的处理,观测的结果为属性相同的分类资料时,这两
9、种不同的处理,观测的结果为属性相同的分类资料时,这样就形成了配对设计的分类资料,可用行数与列数相同的方样就形成了配对设计的分类资料,可用行数与列数相同的方形表归纳其频数分布,见表形表归纳其频数分布,见表2-52-5。 频数图频数图是在频数表基础上,以直方是在频数表基础上,以直方( (或直条或直条)
)的面积大小表示频数的多少或频率的大小的面积大小表示频数的多少或频率的大小的图形,可直观显示数据的分布类型和特的图形,可直观显示数据的分布类型和特征。征。1 .1 .数值资料频数图数值资料频数图直方图的绘制直方图的绘制(1)(1)等距分组:横轴表示随机变量,纵轴表等距分组:横轴表示随机变量,纵轴表示
10、频数示频数( (或频率或频率) )。表。表2-12-1资料的频数图,见资料的频数图,见图图2-12-1。SPSSSPSS绘制频数图绘制频数图(2 2)不等距分组:横轴表示变量,纵轴是每个横轴单位的频数。)不等距分组:横轴表示变量,纵轴是每个横轴单位的频数。表表2-62-6资料的频数图,见图资料的频数图,见图2-22-2。
2.2.分类资料频数图分类资料频数图直条图的绘制直条图的绘制频数表和频数图的用途频数表和频数图的用途 1. 1.描述频数分布的类型描述频数分布的类型资料的频数分布类型有资料的频数分布类型有对称分布对称分布和和偏态分布偏态分布两种。两种。如果频数分布集中位置如果频数分布集中位置
11、( (单峰最高处单峰最高处)
)在中间,左在中间,左右两侧频数大体对称,称为右两侧频数大体对称,称为对称分布对称分布。如果频数分布不对称,集中位置偏向一侧,则称如果频数分布不对称,集中位置偏向一侧,则称为偏态分布。若集中位置偏向观察值小的一侧,为偏态分布。若集中位置偏向观察值小的一侧,称为称为正偏态正偏态,又称右偏态。若集中位置偏向观察,又称右偏态。若集中位置偏向观察值大的一侧,称为值大的一侧,称为负偏态负偏态,又称左偏态。,又称左偏态。不同资料的频数分布类型,见图不同资料的频数分布类型,见图2-42-4。对于不同频。对于不同频数分布类型的资料,应选用不同的统计方法进行数分布类型的资料,应选用
12、不同的统计方法进行分析。分析。描述频数分布形态的统计量有两个:描述频数分布形态的统计量有两个:峰度系数峰度系数和和偏度系数偏度系数。理论上总体理论上总体偏度系数为偏度系数为0 0时,分布是时,分布是对称的对称的;取正;取正值时,分布为负偏态;取负值时,分布为正偏态。值时,分布为负偏态;取负值时,分布为正偏态。正态分布正态分布的总体的总体峰度系数为峰度系数为0
0;取负值时,分布为;取负值时,分布为平阔峰;取正值时,分布为尖峭峰。平阔峰;取正值时,分布为尖峭峰。正态分布正态分布是一种特殊的以集中性、对称性和均匀是一种特殊的以集中性、对称性和均匀变动性为特点的对称分布,故无论尖峭峰或平阔变动性为特
13、点的对称分布,故无论尖峭峰或平阔峰,均为非正态分布。峰,均为非正态分布。
2.2.展示频数分布的特征展示频数分布的特征频数分布有两个重要特征:一是频数分布有两个重要特征:一是集中趋势集中趋势,反映,反映一组观察值的中心位置或平均水平;二是一组观察值的中心位置或平均水平;二是离散趋离散趋势势,反映观察值之间参差不齐的程度。对数值变,反映观察值之间参差不齐的程度。对数值变量资料作统计描述,就是用统计指标将这两个重量资料作统计描述,就是用统计指标将这两个重要特征数量化。要特征数量化。
3.3.便于发现某些特大或特小的异常值便于发现某些特大或特小的异常值对资料中出现的异常值应谨慎对待,必要时对原对资料
14、中出现的异常值应谨慎对待,必要时对原始资料进行核实,并再次进行观察或测量。若条始资料进行核实,并再次进行观察或测量。若条件不允许再次观察或测量,在有充分依据的前提件不允许再次观察或测量,在有充分依据的前提下,可将异常值予以剔除,然后再做统计描述和下,可将异常值予以剔除,然后再做统计描述和分析。分析。
4.4.有利于进一步计算有关指标和统计分析处理有利于进一步计算有关指标和统计分析处理F频数分布频数分布F正态分布正态分布F数值变量的统计描述数值变量的统计描述F分类变量的统计描述分类变量的统计描述F统计表统计表F统计图统计图正态分布是生物医学和统计学上极其重要正态分布是生物医学和统计学上极其重要的
15、一种分布,医学研究的很多指标都服从的一种分布,医学研究的很多指标都服从或近似服从正态分布。或近似服从正态分布。在统计学上,很多分布都是由正态分布导在统计学上,很多分布都是由正态分布导出,同时正态分布又是多种分布的极限分出,同时正态分布又是多种分布的极限分布。布。正态分布正态分布( normal distribution)( normal
distribution):是描述连:是描述连续型随机变量最重要的分布。其分布曲线续型随机变量最重要的分布。其分布曲线叫正态分布曲线,呈中间高,两边低,左叫正态分布曲线,呈中间高,两边低,左右基本对称的右基本对称的“钟型钟型”曲线,又称高斯分曲线,又称高斯分布
16、。布。正态分布由德国数学家正态分布由德国数学家 Gauss Gauss 在描述误差分布时所发现,并在描述误差分布时所发现,并加以推广,所以通常称为加以推广,所以通常称为高斯高斯分布分布( (Gauss distribution)Gauss distribution)。高高 斯斯10马克的钱币马克的钱币 +60)n60)的集的集中趋势。中趋势。
百分位数百分位数(percentile)(percentile)是一个位置指标,用是一个位置指标,用p px x表示。表示。 把一组变量值由小到大依次排列,将位次平均分成把一组变量值由小到大依次排列,将位次平均分成100100等份,与第等份,与第x x百
17、分位数相应的变量值称为第百分位数相应的变量值称为第x x百分百分位数。位数。 一个百分位数可将一组变量值分为两部分,理论上有一个百分位数可将一组变量值分为两部分,理论上有
nx%nx%个变量值比它小,有个变量值比它小,有n(1-x%)n(1-x%)个变量值比它大。个变量值比它大。所以百分位数是一个界值或分割值。百分位数常用于所以百分位数是一个界值或分割值。百分位数常用于描述一组偏态分布的大样本资料在某个百分位置上的描述一组偏态分布的大样本资料在某个百分位置上的水平及确定偏态分布资料的医学正常值范围。中位数水平及确定偏态分布资料的医学正常值范围。中位数是一个特定的百分位数,即是一个特定的百分位数
18、,即p p5050。 计算百分位数的公式为:计算百分位数的公式为:%X(100)%XXP 百分位数示意图百分位数示意图运用平均数的注意事项运用平均数的注意事项
(1)(1)了解各医学专业平均数的习惯用法。例如,儿童龋齿个了解各医学专业平均数的习惯用法。例如,儿童龋齿个数虽然呈偏态分布,但在口腔预防保健统计中,习惯上计数虽然呈偏态分布,但在口腔预防保健统计中,习惯上计算算术均数。算算术均数。
(2)(2)同一资料有时可能同时满足几个平均数指标的应用条同一资料有时可能同时满足几个平均数指标的应用条件。例如,对于某些偏态分布的资料,几何均数和中位数件。例如,对于某些偏态分布的资料,几何均数和中位数比
19、较接近。出现这种情况时,除了专业上的习惯用法外,比较接近。出现这种情况时,除了专业上的习惯用法外,统计上的处理原则是:统计上的处理原则是:如果均数与中位数接近、几何均数如果均数与中位数接近、几何均数与中位数接近,最终采用均数或几何均数作为平均数指标。与中位数接近,最终采用均数或几何均数作为平均数指标。反之,则采用中位数作为平均数指标。反之,则采用中位数作为平均数指标。
(3)(3)计算和运用平均数时,要注意极端值的影响,如算术计算和运用平均数时,要注意极端值的影响,如算术平均数受极端值的影响较大。为了正确反映观察值的特征,平均数受极端值的影响较大。为了正确反映观察值的特征,当存在过大或过小的极
20、端值时,应予以剔除,当存在过大或过小的极端值时,应予以剔除,然后将其余然后将其余数值计算平均数。通常称这种去除极端值再平均的方法为数值计算平均数。通常称这种去除极端值再平均的方法为切尾平均法。该法在文艺、体育比赛评分时应用较多。切尾平均法。该法在文艺、体育比赛评分时应用较多。
(4)(4)平均数只反映变量的集中趋势,只有把平均指标与变平均数只反映变量的集中趋势,只有把平均指标与变异指标相结合,才能全面反映研究对象的数量特征。异指标相结合,才能全面反映研究对象的数量特征。(二)离散趋势的统计描述(二)离散趋势的统计描述 离散趋势是反映一组观察值之间参差不齐的程度,即变异离散趋势是反映一组观察值之
21、间参差不齐的程度,即变异度。度。 【例例 2 -92 -9】有三组同龄男孩的身高值有三组同龄男孩的身高值( cm )( cm )如下,其平均如下,其平均身高均为身高均为 100 cm 100 cm ,试分析其离散程度。,试分析其离散程度。 甲组:甲组:90 95 100 105 110 90 95 100 105 110 甲的平均值甲的平均值= 100 cm= 100 cm
22、丙的平均值丙的平均值= 100 cm= 100 cm 由资料可见,虽然三组的均数相同,即集中趋势相同,但由资料可见,虽然三组的均数相同,即集中趋势相同,但各组数据参差不齐的程度并不相同,即离散趋势不同。各组数据参差不齐的程度并不相同,即离散趋势不同。 所以要反映数值资料的整体特征,既要考虑集中趋势,还所以要反映数值资料的整体特征,既要考虑集中趋势,还要考虑离散趋势。要考虑离散趋势。
常用的离散趋势指标有极差、四分位数间距、方差和标准常用的离散趋势指标有极差、四分位数间距、方差和标准差、变异系数等。差、变异系数等。1. 1.极差极差(range(range,R)R)又称全距,是一组观察值中最大值
23、与最小值之差。又称全距,是一组观察值中最大值与最小值之差。适用于任何分布类型的资料(适用于任何分布类型的资料(开口资料开口资料除外)。除外)。极差越大,说明变异程度越大。计算公式见式极差越大,说明变异程度越大。计算公式见式(2-1).(2-1).用极差描述资料的离散趋势虽然计算简单,但除了用极差描述资料的离散趋势虽然计算简单,但除了最大值和最小值,不能反映组内其他数据的变异,最大值和最小值,不能反映组内其他数据的变异,且易受极端值和样本含量的影响,所以常用于资料且易受极端值和样本含量的影响,所以常用于资料的粗略估计和小样本数据。的粗略估计和小样本数据。2
.2 .四分位数间距四分位数间距 将全
24、部观察值按其位次分为四等份,有三个分点:第一个将全部观察值按其位次分为四等份,有三个分点:第一个分点是下四分位数即分点是下四分位数即 P25,P25,常用常用QQL L表示;第二个分点即中表示;第二个分点即中位数位数MM,记为,记为p
p5050,第三个分点也称上四分位数,即,第三个分点也称上四分位数,即P75P75,常用常用QuQu表示。四分位数间距表示。四分位数间距(quartilc interval, Q)(quartilc interval, Q)即指上、即指上、下四分位数之差,用下四分位数之差,用QQ表示。四分位数间距示意图,见图表示。四分位数间距示意图,见图2-52-5。 四分位数
25、间距适用于任何分布类型的资料,尤其是呈偏态四分位数间距适用于任何分布类型的资料,尤其是呈偏态分布的大样本资料,常与中位数一起描述偏态分布资料的分布的大样本资料,常与中位数一起描述偏态分布资料的分布特征。它作为描述数据分布离散程度的指标,比极差分布特征。它作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小。稳定,但仍未考虑到每个数据的大小。3.3.方差和标准差方差和标准差为了全面考察每个观察值的变异情况,克服极差为了全面考察每个观察值的变异情况,克服极差和四分位数间距的缺点,需要计算总体中每个观和四分位数间距的缺点,需要计算总体中每个观察值察值x
x与总体均数与总体均数的差值
26、(的差值(x-x-),称为离均差。),称为离均差。由于由于(x-x-)=0=0时,不能反映变异度大小,需时,不能反映变异度大小,需将离均差平方后再求和,即将离均差平方后再求和,即(x-x-) 2 2 ,称为离,称为离均差平方和。同时考虑到观察值个数均差平方和。同时考虑到观察值个数NN的影响,的影响,取其均数,称为总体方差,用取其均数,称为总体方差,用2
2表示,计算公式表示,计算公式为:为: 由于在实际研究中很难得到总体均数和总由于在实际研究中很难得到总体均数和总例数,只能用样本均数和样本例数来代替,例数,只能用样本均数和样本例数来代替,计算出样本方差计算出样本方差(s (s2 2) )作为总
27、体方差的估计值。作为总体方差的估计值。为了克服为了克服s s2 2对对2 2的有偏估计,统计学家提出的有偏估计,统计学家提出用用n-1n-1代替代替n n来校正,计算公式为:来校正,计算公式为:式中式中, n-1 , n-1 称为自由度称为自由度(degree of freedom)(degree of
freedom),统计符号为,统计符号为,表示,表示在计算某一统计量时可以自由取值的变量个数或观察值个数。设某在计算某一统计量时可以自由取值的变量个数或观察值个数。设某统计量的变量统计量的变量x x共有共有n n个取值,则个取值,则v=nv=n;若它们受到;若它们受到k k个条件限制个条件限制
28、(kn)(k0.05P0.05表示符表示符合正态分布合正态分布箱图:显示最小值、最大值、第箱图:显示最小值、最大值、第7575、5050、2525百分位数,及异常值。百分位数,及异常值。4、统计分析时的描述输出描述统计是统计检验的基础,所以任何统计分析方法,输出统计推断结论,输出结果的同时,软件系统自动会输出主要的统计指标。(四)数值变量的报告规范(四)数值变量的报告规范x xs
s 算术均数算术均数标准差标准差 算术均数是一组呈算术均数是一组呈正正态分布态分布的变量值的平的变量值的平均水平,代表均水平,代表集中趋集中趋势势,标准差代表,标准差代表离散离散趋势趋势。 通过均数和标准差的通过均数
29、和标准差的大小关系,可以大致大小关系,可以大致看出是否符合正态分看出是否符合正态分布,进而判断出使用布,进而判断出使用统计方法是否正确。统计方法是否正确。(四)数值变量的报告规范(四)数值变量的报告规范如何在WORD中写出 x 1、输入英文小写字母x,并将其改为斜体x如何在WORD中写出 x 2、选中x后,单击菜单栏中的【格式】【中文版式】 【拼音指南】如何在WORD中写出 x
3、在【拼音指南】对话框的【基准文字】项可以看到x,在【拼音文字】项下第一行输入“_”。如何在WORD中写出 xGGSDGSD几何均数标准差 几何均数可反映一组经对数转换后呈正态几何均数可反映一组经对数转换后呈正态分布
30、的变量值在数量上的平均水平,在医分布的变量值在数量上的平均水平,在医学研究中常适用于免疫指标。学研究中常适用于免疫指标。Min,Max 最小、最大值最小、最大值 相当于报告数值的区间,如年龄相当于报告数值的区间,如年龄18-7018-70岁。岁。最小最小1818,最大,最大7070。 有助于发现离群值,或异常值。有助于发现离群值,或异常值。MM中位数中位数 Q QL LQQU U
(QQ1 1QQ3 3)四分位间距四分位间距 中位数是将中位数是将n n个变量个变量从小到大排序,位置从小到大排序,位置居中的那个数,适用居中的那个数,适用于偏态和一端或两端于偏态和一端或两端无确切值的资料。无确切值
31、的资料。 与之相适应的统计图与之相适应的统计图为箱式图为箱式图minminmedianmedianp p7575maxmaxp p2525Q QL LQ QU UF频数分布频数分布F正态分布正态分布F数值变量的统计描述数值变量的统计描述F分类变量的统计描述分类变量的统计描述F统计表统计表F统计图统计图
分类资料是按研究对象的名义、类别或性质清点数目而得,分类资料是按研究对象的名义、类别或性质清点数目而得,常见的数据形式是绝对数常见的数据形式是绝对数(absolute number)(absolute number)。 绝对数指标绝对数指标又称总量指标,表示被描述对象的规模。广义又称总量指标,表
32、示被描述对象的规模。广义的绝对数指标指总体变量值或标志值之和;狭义的绝对数的绝对数指标指总体变量值或标志值之和;狭义的绝对数指标通常指数值资料的合计值或分类资料的合计频数。绝指标通常指数值资料的合计值或分类资料的合计频数。绝对数指标的缺点是缺乏可比性。例如,甲、乙两个医院某对数指标的缺点是缺乏可比性。例如,甲、乙两个医院某病住院人数不同时,比较两医院该病的死亡人数没有意义,病住院人数不同时,比较两医院该病的死亡人数没有意义,需要在绝对数的基础上计算相对数。需要在绝对数的基础上计算相对数。
33、标指标是两个有联系的绝对数指标数值之比形式表示。相对数指标从数量上反映两个相互关数值之比形式表示。相对数指标从数量上反映两个相互关联现象之间的对比关系或联系强度,有助于分析和阐明研联现象之间的对比关系或联系强度,有助于分析和阐明研究现象的规律性。相对数的意义是将绝对数指标转换成基究现象的规律性。相对数的意义是将绝对数指标转换成基数相同的相对数指标数相同的相对数指标(
(如每千人发病人数、每百例患者死如每千人发病人数、每百例患者死亡人数等亡人数等) ),以便相互比较。常用的相对数有,以便相互比较。常用的相对数有率、构成比率、构成比和相对比和相对比等比例指标。等比例指标。 ( (一一) )率率 率
34、率(rate)(rate)是反映某现象的强度、密度和普遍程度的指标,是反映某现象的强度、密度和普遍程度的指标,特点是比例基数较灵活。特点是比例基数较灵活。
比例基数的选择:一是根据习惯用法,如患病率通常用百分率、婴儿死亡率比例基数的选择:一是根据习惯用法,如患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示等;二是使计算的结果能保留用千分率、肿瘤死亡率以十万分率表示等;二是使计算的结果能保留1-2 1-2
位整位整数,以便阅读。数,以便阅读。注意:计算率时,分子必须是分母的一部分,而且通常先确定分母作为观察注意:计算率时,分子必须是分母的一部分,而且通常先确定分母作为观察对象,然
35、后再在一定条件下清点某现象的实际发生数,如阳性检出率、治愈对象,然后再在一定条件下清点某现象的实际发生数,如阳性检出率、治愈率、病死率等。当分母较大时,比率近似等于概率。率、病死率等。当分母较大时,比率近似等于概率。
【例例2-152-15】某医院某医院年在某社区调查全年在某社区调查全部成年居民部成年居民例,体检发现高血脂症患例,体检发现高血脂症患者为者为341341例,则该社区成年居民高血脂症患例,则该社区成年居民高血脂症患病率为:病率为: 341/%= 24.73% 341/%= 24.73% 。1. 1.发病率发病率(inc
即在一定时期内,可能发生某病的人群中新发生某病的即在一定时期内,可能发生某病的人群中新发生某病的强度,可表示发病危险,常用于疾病危险因素的探讨和强度,可表示发病危险,常用于疾病危险因素的探讨和疾病防治效果的评价。计算公式为:疾病防治效果的评价。计算公式为:特殊情况下,要注意分母中特殊情况下,要注意分母中“可能发生某病可能发生某病”的含义,是指对某种疾病具有发病风险者,的含义,是指对某种疾病具有发病风险者,而不包括不可能发生某病者。以计算麻疹发而不包括不可能发生某病者。以计算麻疹发病率为例,由于麻疹基本为终生免疫,故在病率为例
37、,由于麻疹基本为终生免疫,故在计算分母时,应除去已患过麻疹者。计算分母时,应除去已患过麻疹者。2.2.患病率患病率(prevalence rate(prevalence rate,PR)PR) 又称为现患率,是指某时点上受检人数中现患某又称为现患率,是指某时点上受检人数中现患某种疾病的频率,分为时点患病率种疾病的频率,分为时点患病率(point (point prevalence
38、同,患病率的分子中与发病率分子的计算方法不同,患病率的分子中不仅包括某种疾病的新发病例不仅包括某种疾病的新发病例( (“新病例新病例”) ),还包,还包括原有病例括原有病例( (“旧病例旧病例”) ) 。3.3.死因别死亡率死因别死亡率(cause-speciflc death (cause-speciflc death rate, CSDR)rate,
CSDR)又称某死因死亡率,是指由某种原因或疾又称某死因死亡率,是指由某种原因或疾病所导致的死亡率,主要用于死因分析,病所导致的死亡率,主要用于死因分析,可反映各种病伤损害对居民生命健康的危可反映各种病伤损害对居民生命健康的危害程度。计算公式
)某病患者中因某病患者中因该病而死亡者所占的百分比,亦用于死因该病而死亡者所占的百分比,亦用于死因分析,一方面反映某种疾病的严重程度,分析,一方面反映某种疾病的严重程度,另一方面反映医疗质量和水平。计算公式另一方面反映医疗质量和水平。计算公式为:为:( (二二)
40、ntage),用,用来说明事物内部各构成部分在整体中所占的比重。来说明事物内部各构成部分在整体中所占的比重。特点是以特点是以100%100%为比例基数,分子是分母的一部分,为比例基数,分子是分母的一部分,取值范围为取值范围为0 01 1。计算公式为:。计算公式为:注意注意:
:构成比不能说明事物发生的频率或强度。构成比不能说明事物发生的频率或强度。【例例2-162-16】辨证治疗高血压病辨证治疗高血压病176176例,其中肝阳上亢型例,其中肝阳上亢型4545例,肝阳上亢例,肝阳上亢型占高血压病型占高血压病5 5种中医辨证分型的构成比为种中医辨证分型的构成比为45/176=25.57%45/17
41、6=25.57%。率与构成比的区别率与构成比的区别9/( (三三) )相对比相对比 相对比相对比( relative ratio )是两个有关联的指标之比,特点是是两个有关联的指标之比,特点是常以倍数或百分数表示。计算公式为:常以倍数或百分数表示。计算公式为: 式中,式中,A A、B B分别表示两个总量指标。分别表示两个总量指标。A A和和B
B可以是绝对数、可以是绝对数、相对数和平均数,其量纲可以相同,也可不同,但相对数和平均数,其量纲可以相同,也可不同,但 A A和和B B互不包含(如某人群中男女性别比)。互不包含(如某人群中男女性别比)。 【例例2-172-17】某医院
42、用中西医结合疗法及西药疗法治疗脑梗某医院用中西医结合疗法及西药疗法治疗脑梗死的病死率分别为死的病死率分别为7.43%7.43%和和16.21%16.21%。则西药疗法的病死率。则西药疗法的病死率为中西医结合疗法的为中西医结合疗法的2.182.18倍倍(16.21/7.43)(16.21/7.43);或中西医结合疗;或中西医结合疗法的病死率是西药疗法的法的病死率是西药疗法的45.84%45.84%。(
(四四) )应用注意事项应用注意事项 1. 1.计算相对数应有足够数量计算相对数应有足够数量即分母不宜过小,一般来说,样本数量较即分母不宜过小,一般来说,样本数量较多,计算的相对数可靠性也较大。当
43、观察多,计算的相对数可靠性也较大。当观察例数很少时例数很少时( (n30n30例例)
)会使相对数波动较大,会使相对数波动较大,不宜计算率。不宜计算率。在临床试验中,各种偶然因素都可能导致在临床试验中,各种偶然因素都可能导致计算结果的较大变化,因此例数很少的情计算结果的较大变化,因此例数很少的情况下最好用绝对数直接表示;否则,应同况下最好用绝对数直接表示;否则,应同时写出其置信区间。时写出其置信区间。 2.
2.正确区分率和构成比正确区分率和构成比构成比只能说明某事物内部各组成部分的比重或构成比只能说明某事物内部各组成部分的比重或分布,不能说明该事物某一部分发生的强度与频分布,不能说明该事物某
44、一部分发生的强度与频率。率。构成比与率的区别在于:构成比与率的区别在于:构成比是对已有的观察结果分类。构成比是对已有的观察结果分类。例如,某医例如,某医院对胃溃疡住院病人的职业按工人、农民、干部院对胃溃疡住院病人的职业按工人、农民、干部和军人进行分析,得出工人患病率高、干部患病和军人进行分析,得出工人患病率高、干部患病率低的结论是错误的,因为此时只能得出职业所率低的结论是错误的,因为此时只能得出职业所占的构成比。占的构成比。率则是在未知观察结果的情况下先确定观察对率则是在未知观察结果的情况下先确定观察对象。象。例如,将观察对象先按职业分组,然后统计例如,将观察对象先按职业分组,然后统计有无胃溃
45、疡,计算出工人的患病率、农民患病率、有无胃溃疡,计算出工人的患病率、农民患病率、干部的患病率、军人的患病率。干部的患病率、军人的患病率。
3.3.正确计算合计率正确计算合计率对分组资料计算合计率或称平均率时,不对分组资料计算合计率或称平均率时,不能简单地由各组率相加或平均而得,而应能简单地由各组率相加或平均而得,而应是各组分子之和与各组分母之和的比。是各组分子之和与各组分母之和的比。例如,用某疗法治疗肝炎,甲医院治疗例如,用某疗法治疗肝炎,甲医院治疗
150150例,治愈例,治愈3030例,治愈率为例,治愈率为20%20%。乙医院治。乙医院治疗疗100100例,治愈例,治愈3030例,治愈率为
4.4.资料的可比性资料的可比性在比较相对数时,除了要对比的因素在比较相对数时,除了要对比的因素( (如不如不同的药物同的药物) ),其余的影响因素应尽可能相同,其余的影响因素应尽可能相同或相近。遵循均衡和随机原则是资料可比或相近。遵循均衡和随机原则是资料可比性的
47、重要保证。下列因素可能影响对比组性的重要保证。下列因素可能影响对比组之间的可比性:之间的可比性:(l)(l)观察对象是否同质:观察对象是否同质:研究方法是否相同,研究方法是否相同,观察时间是否相等,地区、周围环境、风观察时间是否相等,地区、周围环境、风俗习惯和经济条件是否一致或相近等。俗习惯和经济条件是否一致或相近等。(2)(2)观察对象内部结构是否相同:观察对象内部结构是否相同:若两组资料的年若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率同性别的小组率比较或对总率(
(合计率合计率) )进行标准进行标准化后再作比较
48、。化后再作比较。(3)(3)不同时期的资料客观条件是否相同:不同时期的资料客观条件是否相同:例如,在例如,在比较两组病人的治愈率时,应检查各病例诊断标比较两组病人的治愈率时,应检查各病例诊断标准是否一致等;居民因医疗普及,就诊机会增加,准是否一致等;居民因医疗普及,就诊机会增加,或诊断技术提高,也会引起发病率或诊断技术提高,也会引起发病率“升高升高”。因。因此在分析讨论时,应根据各方面情形全面考虑此在分析讨论时,应根据各方面情形全面考虑,
,慎慎重对待。重对待。 5.5.样本率样本率( (或构成比或构成比) )的抽样误差的抽样误差不能仅凭数字表面相差大小下结论,应进不能仅凭数字表面相差大小下结
49、论,应进行样本率行样本率( (或构成比或构成比) )差别的假设检验。差别的假设检验。 nn例数例数 例数,表示研究对象的数量。例数,表示研究对象的数量。 每一项研究,只要涉及到研究对象,每一项研究,只要涉及到研究对象,例数是必不可少的、必须报告的统计例数是必不可少的、必须报告的统计指标。指标。( (五五) )分类资料的报告规范分类资料的报告规范频数,百分比频数,百分比
频数,表示分类资料各类别的例数。频数,表示分类资料各类别的例数。 百分比,表示分类资料各类别的例数百分比,表示分类资料各类别的例数占总例数的百分比。占总例数的百分比。 当小样本资料时,不适宜计算百分比当小样本资料时,不适宜计算百
50、分比,而需用相对频数来表示。,而需用相对频数来表示。频数,百分比频数,百分比频数,百分比频数,百分比F频数分布频数分布F正态分布正态分布F数值变量的统计描述数值变量的统计描述F分类变量的统计描述分类变量的统计描述F统计表统计表F统计图统计图统计表统计表在科研或临床工作中,将统计分析的事物在科研或临床工作中,将统计分析的事物及指标用表格的形式列出称为统计表。及指标用表格的形式列出称为统计表。广义上的统计表包括原始资料调查表、整广义上的统计表包括原始资料调查表、整理资料表、统计资料计算用表及表达结果理资料表、统计资料计算用表及表达结果的统计表。狭义上的统计表特指的统计表。狭义上的统计表特指表达统计
51、表达统计结果的报告表结果的报告表。 1
1、统计表的意义、统计表的意义统计表用简明的表格形式,有条理地罗列统计表用简明的表格形式,有条理地罗列数据和统计量,方便阅读、比较和计算。数据和统计量,方便阅读、比较和计算。在统计描述过程中,统计表展示统计数据在统计描述过程中,统计表展示统计数据的结构、分布和主要特征,便于在进一步的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。分析中选择和计算统计量。在学术报告和论文中常用统计表在学术报告和论文中常用统计表代替冗长代替冗长的文字叙述的文字叙述,表达主要研究结果、数据、,表达主要研究结果、数据、指标和统计量,方便读者作比较和掌握主指标和统计量,
52、方便读者作比较和掌握主要研究结果。要研究结果。 2.2.统计表的基本格式统计表的基本格式统计表的基本格式为统计表的基本格式为三条线三条线( (顶线、标目线、顶线、标目线、底线底线) )、三部分三部分( (标题、标目、数字标题、标目、数字) ),具有,具有如此基本格式的表格通常简称为如此基本格式的表格通常简称为“三线三线”表格。表格。
3.3.统计表的基本结构包括统计表的基本结构包括: :表号表号标题标题标目标目线条线条数字数字备注备注 4.4.统计表的种类:统计表的种类:可分为简单表和组合表。可分为简单表和组合表。 (1)(1)简单表简单表(simple table)(simple table
table):):又称复合表,又称复合表,是按两个或两个以上的标志或特征结合分组。是按两个或两个以上的标志或特征结合分组。表表2-152-15是按性别、病程、年龄、突出部位、外伤是按性别、病程、年龄、突出部位、外伤史和直腿抬高试验等史和直腿抬高试验等6 6个标志个标志( (纵标目纵标目) )分为治疗组分为治疗组和对照组,进行治疗前的组间基线资料和对照组,进行治疗前的组间基线资料
分析。分析。 5.5.制表的原则制表的原则(1)(1)简单明了:简
54、单明了:指文字、数字和线条都尽量从简,指文字、数字和线条都尽量从简,使人一目了然。每张表都要有自明性,即表格应使人一目了然。每张表都要有自明性,即表格应有相对的独立性,有相对的独立性,单看表即可了解表格的内容与单看表即可了解表格的内容与意义。意义。(2)(2)层次清楚:层次清楚:指表的内容要按照逻辑顺序合理安指表的内容要按照逻辑顺序合理安排,主语、谓语划分清楚。排,主语、谓语划分清楚。
6 . 6 .制表的基本要求制表的基本要求(1)(1)表号:表号:亦称表序,位于顶线上方、标题亦称表序,位于顶线上方、标题的左侧,的左侧,与标题之间空与标题之间空 2 2 个字符个字符,以阿拉,以阿拉伯数字表示
55、。伯数字表示。(2)(2)标题:简明扼要地说明表的内容标题:简明扼要地说明表的内容,必要,必要时注明时间和地点,时注明时间和地点,写在表的上端写在表的上端。不能。不能因为上下文中有所述及而过于简略甚至把因为上下文中有所述及而过于简略甚至把标题省略,也要避免标题过于繁琐及标题标题省略,也要避免标题过于繁琐及标题不确切。不确切。(3)(3)标目:标目:分为纵标目与横标目。横标目表示相应分为纵标目与横标目。横标目表示相应的行的内容,纵标目表示相应一列的行的内容,纵标目表示相应一列(
(或数列或数列) )的内的内容。容。横标目是统计表的主语,横标目是统计表的主语,指被观察的对象,指被观察的对象,通常列
56、在表的左侧。通常列在表的左侧。纵标目是统计表的谓语,说纵标目是统计表的谓语,说明主语的各项指标,明主语的各项指标,通常列在表的右侧。一般要通常列在表的右侧。一般要求主语和谓语连贯起来能成为一句完整通顺的话。求主语和谓语连贯起来能成为一句完整通顺的话。标目要求文字简明,层次清楚,一张表内不要安标目要求文字简明,层次清楚,一张表内不要安排过多的标目。排过多的标目。当表示指标的标目指标有不止一类时应标注出指当表示指标的标目指标有不止一类时应标注出指标符号,有单位的标目应注明单位。标符号,有单位的标目应注明单位。(4)(4)线条:线条:不宜过多,除顶线、底线及纵标目下面不宜过多,除顶线、底线及纵标目下
57、面与合计行上面的横线外,其余线条一般均省去,与合计行上面的横线外,其余线条一般均省去,表的左上角不应有斜线。表的左上角不应有斜线。顶线、底线应加粗顶线、底线应加粗(1.5 (1.5 磅磅) ),标目线采用默认粗细,标目线采用默认粗细(0.5(0.5磅磅)
),组合表可在标,组合表可在标目线上出现小标目线。目线上出现小标目线。(5)(5)数字:数字:表内数字一律用阿拉伯数字,同一指标表内数字一律用阿拉伯数字,同一指标的小数位数应一致,位次对齐。表内不宜留有空的小数位数应一致,位次对齐。表内不宜留有空格,暂缺或未记录可用格,暂缺或未记录可用“”表示,表示,无数字可用无数字可用“- -”表示表示,数
58、字若是,数字若是0 0则填写则填写0 0。要注意同一类数要注意同一类数据的小数点位保持一致。据的小数点位保持一致。(6)(6)备注:备注:一般不列入表内,必要时一般不列入表内,必要时可用可用“*
*”号号标出,写在表的下面。标出,写在表的下面。当纵标目过多时,可进行横纵标目的互换,当纵标目过多时,可进行横纵标目的互换,以层次清晰为原则。以层次清晰为原则。如何在WORD中画表格初始的表格默认是初始的表格默认是0.50.5磅,有竖线的表格。磅,有竖线的表格。去除竖线去除竖线及其它不及其它不需要线的需要线的方法:方法:选选择表格工择表格工具中的无具中的无边框,然边框,然后在不需后在不需要的线上要的线
59、上画一遍。画一遍。加粗顶线加粗顶线和底线的和底线的方法:方法:将将线条选择线条选择为为1.51.5磅磅后,用鼠后,用鼠标在顶线标在顶线和底线上和底线上画一遍画一遍。F频数分布频数分布F正态分布正态分布F数值变量的统计描述数值变量的统计描述F分类变量的统计描述分类变量的统计描述F统计表统计表F统计图统计图统计图统计图(statistical graph)(statistical
graph)是用点的位置、线段是用点的位置、线段的升降、直条的长短或面积的大小等表达统的升降、直条的长短或面积的大小等表达统计资料的一种形式。它在揭示各种现象间的计资料的一种形式。它在揭示各种现象间的数量差别和相互关系、
60、说明研究对象内部构数量差别和相互关系、说明研究对象内部构成和动态变化、表达地区分布等方面成和动态变化、表达地区分布等方面, ,具有简具有简明清晰、形象直观、易为人理解等优点,必明清晰、形象直观、易为人理解等优点,必要时可与统计表同时应用。要时可与统计表同时应用。( (一一)
)常用统计图的种类、绘制及应用常用统计图的种类、绘制及应用常用的统计图有条图、线图、百分条图、常用的统计图有条图、线图、百分条图、圆图和直方图等。使用计算机与相应的软圆图和直方图等。使用计算机与相应的软件件( (如如ExcelExcel,SPSS)SPSS)可以方便地绘制出各种统可以方便地绘制出各种统计图。各种统计图的应用