第三节 直线回归方程
作者:徐荣祥 出版社:中国科学技术出版社 发行日期:2009年7月
一、直线回归方程的概念
所谓回归,是说当一种观象(y)受另一种现象(x)的影响,致使(y)随着现象(x)的变动而有规律的变动时,这种协同变异的关系在统计学中称之为回归。回归分析是当研究两种事物间的相互关系时,描述其中一种事物依存另一种事物变动的规律。其表达式为:
式中y为估计值;α为常数,也称为截距,即当x等于零时在回归直线轴上的交点;b为回归系数,它是回归直线的斜率,其意义是每当x变动一个单位,则y随之变动b个单位。
直线回归分析的目的是求出一条能确切反映本资料的回归变动规律的直线方程式,以通过此式由x值估计y值。一般要求回归方程能满足下述条件:即从回归方程推算出的y值与实际y值之差的平方和[∑(y-y)]2是最小值。确立直线回归方程式的关键是求出回归系数b和截距α,它们的计算公式为:
二、求直线回归方程的基本方法
(一)小样本的计算方法
当原始数据不多(n<40)时,可直接按实测数据X、Y,求∑X、∑Χ2、∑Y、∑Y2及∑XY。代入下列公式(396)、(397) 、(398) 、(399),求α、b和直线回归方程。
式中Ixx=∑(x-x)(y-y)(离均差积和)
Ixx=∑(x-X)2(离均差平方和)
示例393某研究人员观察胃肠营养胶囊的营养价值,用大白鼠做试验,对每只大白鼠在观察期间胃肠营养胶囊的用量(g)和体重增加量(g)汇入表(394)中,根据原始资料试作直线回归分析。
【解题步骤】
1先列出直线回归分析计算表,求基础数值(表395):
2根据表395中的基础数值计算x、y的均数(x、y)、离均差平方和(Ixx、Iyy)、离均差积和(Ixy)。
3根据公式(396)、(397) 、(398),求b、α和回归方程。
4按求得的直线回归方程,在X值范围内任意取两点(x1y1),(x22),相连即得回归直线。
(二)大样本的求法
当原始资料比较多时,接小样本处理公式计算其工作量相当的大,可按直线相关系数的简捷方法先绘制双变量频数表,然后再根据表中的基础数值分别计算x、y的均数(x、y)、离均差平方和(Ixx、Iyy)、离均差积和(Ixy)。现以示例392为例,试用简捷方法计算回归方程。
示例392样本数n=40,组距ix=02,组距iy=10,(∑fxdx)=43,∑fxd2x=139,∑fYdY=-3,∑fyd2y=79,∑fdXdY=39。
【解题步骤】
1计算均数:本例假定均数(取组中值,x0为“~20”组的组中值)。
2离均差的平方和:
3离均差积和:
4按公式(396),求回归系数b:
直线回归方程:=2932+2276x
答:其直线回归方程为=2932+2276x。
三、回归系数的显著性检验
回归系数显著性检验的意义与相关系数的显著性检验的意义相同,其回归系数(b)也是因抽样研究得来的,即使严格按随机抽样,回归系数也存在抽样误差的问题,也应进行显著性检验。当y变量服从正态分布时,回归系数的显著性检验可以用t检验,也可以用方差分析方法求得。本节仅介绍t检验方法。
用t检验方法检验回归系数(b)是否显著,先根据以下公式分别计算sy、x和回归系数的标准误(sb),然后计算t值。其公式分别为 (3910)、(3911) 、(3912):
当求得t值后,根据自由度(n-2)查t值表,主要目的是与P=005相当的临界值[t(n′)005]进行比较。如果求得的t值< t(n′)005,则P>005,回归系数无显著意义;相反,如果求得的t值> t(n′)005,则P<005,回归系数有显著意义;如果求得的t值> t(n′)001,则P<001,回归系数有非常显著意义。
现以例393为例,检验其回归系数有无显著意义。
因为已知Iyy=42341, Ixx=759064, Ixy=168432,n=10, b=02219,将以上数据分别代入公式(3910)、(3911)、(3912),得:
查t界值表(附表4):n′=8(10-2)时,t(8)001=3355。本例t=77587,p<001, 回归系数有非常显著意义。
四、相关和回归分析应注意的事项
1 明确相关与回归分析的实质内容
相关系数说明两变量间关系的密切程度,回归方程说明两变量间的数量关系,两者说明的问题不同,之间有相关关系。因此,如果回归系数显著性检验有显著性的话,相关系数也一定是显著的,反之亦然。
2正确理解相关分析的作用
相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性证明因果关系之存在。要证明两事物间的因果关系,必须凭藉专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。
3不要把毫无关联的两个事物或现象用来作相关或回归分析,否则是没有意义的。另外,相关分析只说明相关。
4不要把相关显著性大小误解为相关程度的大小。相关系数是说明两事物间密切程度的, r的绝对值越接近于1,相关越密切;越接近0,则相关程度越松散。相关系数的显著性检验是说明由抽样误差引起这样大的r值的可能性有多大。P>005说明由抽样误差引起这样大的r值的可能性大于5%,因此而不排除它抽自于无相关的总体。只有P≤005, r才有意义。
5在回归分析中,由x推算y或由y推算x ,其回归方程不同,不能混用。推算公式如下:
6相关与回归的区别和联系
相关表示两变量间的相互关系是双方向的。而回归则表示y随x而变化,这种关系是单方向的。医学资料中的有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。但有些资料用相关和回归都不适宜,此时须视研究需要而定。就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。
7适合作相关和回归分析的资料通常有两种资料
(1)一个变量x是选定的,另一个变量y是从正态分布的总体中随机抽取的,宜作回归分析。
(2)两变量x、y(或x1、x2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。这时,若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可作相关分析。如果变量(一个或两个)呈明显偏态时,须经过适当的变量代换(如对数代换等),使资料接受正态分布后再做相关与回归分析,或者采用秩相关法。