第一节 计数资料常用指标
作者:徐荣祥 出版社:中国科学技术出版社 发行日期:2009年7月
一、 率的抽样误差和标准误
关于抽样误差的概念已在第一章中作了介绍,在抽样研究中,获得的样本率与总体率或各样本率之间必然也存在着“率”的抽样误差。均数抽样误差产生的原因与之相同。表示率(比)抽样误差大小的统计指标叫率的标准误。如某医生调查了某乡某种疾病的患病率为15%(即调查1 000人有150人患这种疾病),但在抽样过程中必然会有抽样误差。被调查的这个乡是一个整体,如果再次重复调查1 000人,其患病率不一定是15%,可能高一点,也可能低一点。这种差异是由于抽样所造成的。率的标准误根据公式计算:
式中αp为率的标准误,π为总体率,n为样本的含量。
由于π为总体率,实际工作中一般不知道它的数值,故常用样本率p来代替,从而计算出率的标准误的估计值(Sp),计算公式为:
式中Sp为率的标准误估计值; p为样本率;n为样本的含量
示例341某医生用一种新药治疗烧伤康复期贫血,100例病人有75例血液血红蛋白增加至10g/L以上,求血红蛋白增加率的标准误。
【解题步骤】
1计算血红蛋白增长率:75÷100=075,或750%。
2将数值代入公式342,计算血红蛋白增加率的标准误:
3分析:血红蛋白增加率为750%,其标准误为185%。由此可见,率的标准误反映率的抽样误差大小,是衡量样本率的稳定性和可靠性的指标。率的标准误越小,表示率的抽样误差越小,用以估计总体率的可靠性越大。反之,率的标准误也越大,则由样本估计总体率的可靠性就越小。
4意义:有了率的标准误,可以用其来确定总体率的可信区间;还可用于样本率与总体率及两个样本率之间差异的显著性检验。
二、总体率的可信区间
由于样本率与总体率之间存在误差,所以我们只能根据样本率来推算总体率的可能性。当总体率π不太接近0或1时,且每次抽样的样本观察数n又不是太小时,样本率的分布也属正态分布。因此可以根据率的标准误,仿照估计均数可信区间方法估计总体率所在的范围,这个范围即为总体率的可信区间。
总体率的可信区间公式为:
式中p为标准率,Sp为率的标准误,U为常量。
总体率区间的表达参数与公式:①求95%可信区间的参数采用196; ②求99%可信区间的参数采用258。
即:总体率95%可信区间为:
总体率99%可信区间为:
示例342某医院用新疗法治疗大面积烧伤病人243例,治愈236例,死亡7例,病死率为288%。求其总体病死率95%和99%的可信区间。
【解题步骤】
1根据例中提供的资料已知:病死率P=288%,(1-P)=9712%,n=243。
2将以上数据代入公式(342),求病死率的标准误:
3根据公式(344)、(345),求出95%、99%的可信区间:
(1)总体率95%的可信区间范围为:P±196SP,即288%±196×(107)=288%±210%。说明总体病死率有95%的可能性在078%~498%之间。
(2)总体率99%的可信区间范围为:P±258SP,即288%±258×(107)=288%±276%。说明总体病死率有99%的可能性在012%~564%。
4分析:由于抽样误差的存在,当发现两个率或两个以上的率之间存在差异时,应考虑到差异是真正存在的,还是由于抽样误差造成的,故应进行显著性检验。