线性回归分析

野外实习资料的数理统计分析

一元线性回归分析

一元回归处理的是两个变量之间的关系，即两个变量X和Y之间如果存在一定的关系，则通过观测所得数据，找出两者之间的关系式。如果两个变量的关系大致是线性的，那就是一元线性回归问题。

对两个现象X和Y进行观察或实验，得到两组数值：X1，X2,…，Xn和Y1，Y2，…，Yn,假如要找出一个函数Y=f(X),使它在X=X1,X2, …,Xn时的数值f(X1),f(X2), …,f(Xn)与观察值Y1，Y2，…，Yn趋于接近。

在一个平面直角坐标XOY中找出（X1，Y1），（X2，Y2），…，（Xn，Yn）各点，将其各点分布状况进行察看，即可以清楚地看出其各点分布状况接近一条直线。对于这种线性关系，可以用数学公式表示：

Y = a + bX

这条直线所表示的关系，叫做变量Y对X的回归直线，也叫Y对X的回归方程。其中a为常数，b为Y对于X的回归系数。

对于任何具有线性关系的两组变量Y与X，只要求解出a与b的值，即可以写出回归方程。计算a与b值的公式为：

式中：为变量X的均值，Xi为第i个自变量的样本值，为因变量的均值，Yi为第i个因变量Y的样本值。n为样本数。

当前一般计算机的Microsoft Excel中都有现成的回归程序，只要将所获得的数据录入就可自动得到回归方程。

得到的回归方程是否有意义，其相关的程度有多大，可以根据相关系数的大小来决定。通常用r来表示两个变量X和Y之间的直线相关程度，r为X和Y的相关系数。r值的绝对值越大，两个变量之间的相关程度就越高。当r为正值时，叫做正相关，r为负值时叫做负相关。r 的计算公式如下：

式中各符号的意义同上。

在求得了回归方程与两个变量之间的相关系数后，可以利用F检验法、t检验法或r检验法来检验两个变量是否显著相关。具体的检验方法在后面介绍。

2．多元线性回归分析

一元回归研究的是一个自变量和一个因变量的各种关系。但是客观事物的变化往往受到多种因素的影响，即使其中有一个因素起着主导作用，但其它因素的作用也是不可忽视的。因此，我们还需要研究多种变量的关系，这种多个变量之间的关系就叫做多元回归问题。例如，水稻的产量不仅与生长期内的雨量有关，而且与温度也有关系。所以寻求水稻的产量不仅与生长期内的雨量之间的相互关系，就是多元回归问题。

如果假设自变量为X1，X2，…，Xm，因变量为Y，而且因变量与自变量之间是线性的关系，则因变量Y与自变量为X1，X2，…，Xm的多元线性回归方程为：

Y = a+b1X1+b2X2+…+bmXm

式中：a，b1，b2，bm为常数。

因此，只要能够求出a，b1，b2，…，bm这些常数，就可以得到因变量Y与自变量为X1，X2，…，Xm之间的多元回归方程。具体的算法比较简单，但很烦琐。这里不再叙述。求解多元回归的计算机程序很多，只要将自变量的数据以及与其相对应的因变量的数据输入计算机程序中，立刻就可以求出a，b1，b2，…，bm各常数的值，从而可以获得因变量Y与自变量为X1，X2，…，Xm的多元线性回归方程。

例如，设已知因变量Y的自变量X1，X2，X3，共得18组数据，并已知Y对Xi存在着线性关系，求其回归方程。

样品X1 X2 X3 Y

1 0.4 53 158 64

2 0.4 2

3 163 60

3 3.1 19 37 71

4 0.6 34 157 61

5 4.7 24 59 54

6 1.

7 65 123 77

7 9.4 44 46 81

8 10.1 31 117 93

9 11.6 29 173 93

10 12.6 58 112 51

11 10.9 37 111 76

12 23.1 46 114 96

13 23.1 50 134 77

14 21.6 44 73 93

15 23.1 56 168 95

16 1.9 36 143 54

17 26.8 58 202 168

18 29.9 51 124 99

通过求解，得到a=41.6516b1=1.7410b2=-0.0062b3=0.1553

所以，回归方程为

Y=41.6516+1.7410 X1 -0.0062 X2+0.1553 X3

通常可采用单相关系数、偏相关系数和复相关系数来说明这三个自变量与因变量之间是否有明显的线性关系以及它们之间相关的程度如何。单相关系数是指在不考虑其他因素影响的条件下，所求两个变量之间的相关系数。用rX1X2、rYX1和rYX2分别表示X1和X2、Y和X1以及Y与X2之间的单相关系数。偏相关系数是指在这三个变量中，将其中一个变量保持常数时，其他两个变量之间的相关系数。用rYX1X2和rYX2X1分别表示X2为常数时，Y与X1的偏相关系数和X1为常数时，Y与X2的偏相关系数。偏相关系数可以用单相关系数求得。当这三个变量中，同时考虑两个变量对另一个变量相关系数时，叫做复相关系数。用r（X1X2）Y表示X1和X2、两个自变量对于Y的复相关系数。

3.方差分析

方差分析法是分析多组平均数之间差异显著性时常用的一种统计方法。方差（或均方）是一个表示变异程度的量，它是离均差的平方和与自由度之商。在一项实验或调查中往往存在着许多造成生物形状变异的因素，这些因素有比较重要的，也有较次要的。分析时主要是把平方和与自由度按不同的变异起因分解为若干部分，从而构成来自不同起因的方差。利用它来检验各组平均数之间差异的显著性。在正态总体及方差相同的基本假定下，我们将利用方差比给出F分布的检验统计量。因此这种方法称为方差分析法。

方差分析是分析和处理试验或观测数据的主要方法之一。它首先被应用于农业试验，目前它在农业、工业、生物、医学等各部门有着广泛的应用。方差分析的方法往往与试验设计的方式紧密地联系在一起。对于从不同试验设计中得出观测资料，进行方差分析时将有不同的计算方法，类型繁多，但其基本原理却大同小异。在这里将结合一个较简单的例子介绍方差分析的数学模型和基本方法，以便于读者对方差分析的方法有一个大致的了解。

在实验设计的基础上，分组试验，如分为a组，每组作b个水平的试验，共得到a×b个数据。然后，算出组平均值和总平均值，组内和组间的离差平方和，组内和组间方差，作F检验。

F＝组间方差/组内方差

假设HO: μ1 ＝μ2＝···＝μb ，表示各水平的均值相等。当F ≤Fα 时，HO: 真；当F > Fα时，HO：假。

试验中必不可少地会产生误差。误差有两种：条件误差和试验误差。前者是由试验条件不同而引起的系统性误差，后者是在相同试验条件下引起的随机误差。

例如，把四种不同的饲料分别喂给4组小鸡，每组5只，它们的增重情况如下：

组别增重（Xij）

1 5549422152

2 61112308963

3 4297819592

4 16913716885153

试问四组小鸡在平均增重量方面有没有明显的差别？

通过计算，得到组内和组间方差分别为719.2和8706.3，因此，

F=8706.3/719.2=12.1

对于给定的显著性水平α，将有临界值Fα一，当α=0.01时，F0.01(3,16)=5.3，其中3与16是自由度。

所以F=12.1>5.3= F0.01(3,16)

故，否定各种饲料效果一致的假设，可以认为四种饲料的效果有极明显的差别。

目前现成的计算机方差分析计算程序很多，如SPASS、SAS软件等，将数据输入后，都可以直接计算，并按要求输出结果。

上述例子是单因素的方差分析，比较简单。对于多因素的方差分析，由于比较复杂，这里就不再叙述了。

4. T检验

生物学中所遇到的绝大多数问题，总体标准差σ都是未知的。在σ未知时，平均数的显著性检验有两种解决方法。其一是根据以往的经验或从类似的工作中估计出一个σ值，用这个σ做μ检验。使用估计的σ做检验并不是很可靠的。因此在实际工作中，一般不用这种方法而广泛使用t检验。

对于一个正态分布总体，若σ未知则服从n-1自由度的t分布，因此，在σ未知时可以用t检验做平均数的显著性检验。

t检验的零假设H0为：μ=μ0

备择假设有以下三种情况：（1）HA：μ>μ0，若已知μ不可能小于μ0；（2）HA：μ<μ0，若已知μ不可能大于μ0；（3）HA：μ≠μ0，包括μ>μ0和μ<μ0 。

三种备择假设的拒绝域为：

（1）t>tα ；（2）t< -tα；（3）t > tα/2，或表示为t > tα（双侧）。

其中α为给定的显著性水平。

t检验的统计量为：

t = （-μ0）/（s/n1/2）

例如，已知玉米单交种群单105的平均穗重μ0=300克，喷药后，随机抽取9个果穗，其穗重为分别：308、305、311、298、315、300、321、294、320克。问喷药后与喷药前的果穗重差异是否显著？

根据上面介绍的基本程序：

已知玉米穗重是服从正态分布的随机变量，σ未知。

（2）假设：H0 ：μ=μ0=300HA：μ≠μ0=300

由于问题要求检验的是“果穗重差异是否显著”，并没有明确穗重一定增加或一定减少，所以备择假设为HA：μ≠μ0

（3）显著性水平：根据实验的要求（差异是否“显著”）规定α=0.05。

（4）统计量的值：由于σ未知需使用t检验。

t = （-μ0）/（s/n1/2）

t = （308-3000）/（9.62/91/2）=2.49

(5)建立的拒绝域H0:因HA：μ≠μ0,所以是双侧检验。当t > t0.05（双侧）时拒绝H0，α=0.05时，经查表t8，0.05（双侧）=2.306。

（6）结论：因t =2.49> t8，0.05（双侧）=2.306 ，所以结论是拒绝H0，接受HA。即喷药前后果穗重的差异是显著的。

5. F检验

t检验属于单个样本的显著性检验，即在样本统计量与零假设所提出的总体参量之间做比较。这种检验需要我们事先能够提出合理的参量假设值和对参量有某种意义的备择值。然而，在实际工作中，很难提出这样的假设值及备择值。因此，限制了这种方法在实际工作中的应用。

为了避免上述问题的出现，在实际应用时，常常选择两个样本，一个作为处理，一个作为对照。在这两个样本之间做比较。判断它们之间是否存在足够显著的差异。当它们之间的差异不能用偶然性解释时，则认为它们之间存在足够显著的差异，这两个样本来自两个不同的总体。而F检验是关于两个方差的检验，所以常用F检验来解决上述问题。

F检验的程序概述如下：

（1）假定从两个正态总体中，独立地抽取含量分别为n1和n2的两个随机样本，计算出s12和s22。总体平均数μ1和μ2可以相等也可以不相等。

（2）零假设H0为：σ1=σ2

备择假设有以下三种情况：（1）HA：σ1>σ2，若已知σ1不可能小于σ2；（2）HA：σ1<σ2，若已知σ1不可能大于σ2；（3）HA：σ1≠σ2 ，包括σ1>σ2和σ1<σ2 。

（3）显著性水平：经常用α=0.05和α=0.01两个水平。

（4）检验的统计量：F（n1-1），（n2-1）经= s12 /s22

（5）建立H0的拒绝域：

对于HA：σ1>σ2σ1<σ2，应做上尾单侧检验，当F>Fα时拒绝H0；

对于HA：σ1<σ2，应做下尾单侧检验，当F

对于HA：σ1≠σ2 ，应做双侧检验，当F>Fα/2及F

永和九年，岁在癸丑，暮春之初，会于会稽山阴之兰亭，修禊事也。群贤毕至，少长咸集。此地有崇山峻岭，茂林修竹；又有清流激湍，映带左右，引以为流觞曲水，列坐其次。虽无丝竹管弦之盛，一觞一咏，亦足以畅叙幽情。是日也，天朗气清，惠风和畅，仰观宇宙之大，俯察品类之盛，所以游目骋怀，足以极视听之娱，信可乐也。

夫人之相与，俯仰一世，或取诸怀抱，晤言一室之内；或因寄所托，放浪形骸之外。虽取舍万殊，静躁不同，当其欣于所遇，暂得于己，快然自足，不知老之将至。及其所之既倦，情随事迁，感慨系之矣。向之所欣，俯仰之间，已为陈迹，犹不能不以之兴怀。况修短随化，终期于尽。古人云：“死生亦大矣。”岂不痛哉！

每览昔人兴感之由，若合一契，未尝不临文嗟悼，不能喻之于怀。固知一死生为虚诞，齐彭殇为妄作。后之视今，亦犹今之视昔。悲夫！故列叙时人，录其所述，虽世殊事异，所以兴怀，其致一也。后之览者，亦将有感于斯文。