生物统计学课后习题答案(杜荣骞第三版)

第一章统计数据的收集与整理1.1 算术平均数是怎样计算的？为什么要计算平均数？

答：算数平均数由下式计算：n y

∑

，含义为将全部观测值相加再被观测值的个数除，所得之商称为

算术平均数。计算算数平均数的目的，是用平均数表示样本数据的集中点，或是说是样本数据的代表。

1.2 既然方差和标准差都是衡量数据变异程度的，有了方差为什么还要计算标准差？

答：标准差的单位与数据的原始单位一致，能更直观地反映数据地离散程度。

1.3 标准差是描述数据变异程度的量，变异系数也是描述数据变异程度的量，两者之间有什么不同？答：变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。

1.4 完整地描述一组数据需要哪几个特征数？答：平均数、标准差、偏斜度和峭度。

1.5 下表是我国青年男子体重（kg）。由于测量精度的要求，从表面上看像是离散型数据，不要忘记，体重是通过度量得到的，属于连续型数据。根据表中所给出的数据编制频数分布表。

66 69 64 65 64 66 68 65 62 64 69 61 61 68 66 57 66 69 66 65

70 64 58 67 66 66 67 66 66 62 66 66 64 62 62 65 64 65 66 72

60 66 65 61 61 66 67 62 65 65 61 64 62 64 65 62 65 68 68 65

67 68 62 63 70 65 64 65 62 66 62 63 68 65 68 57 67 66 68 63

64 66 68 64 63 60 64 69 65 66 67 67 67 65 67 67 66 68 64 67

59 66 65 63 56 66 63 63 66 67 63 70 67 70 62 64 72 69 67 67

66 68 64 65 71 61 63 61 64 64 67 69 70 66 64 65 64 63 70 64

62 69 70 68 65 63 65 66 64 68 69 65 63 67 63 70 65 68 67 69

66 65 67 66 74 64 69 65 64 65 65 68 67 65 65 66 67 72 65 67

62 67 71 69 65 65 75 62 69 68 68 65 63 66 66 65 62 61 68 65

64 67 66 64 60 61 68 67 63 59 65 60 64 63 69 62 71 69 60 63

59 67 61 68 69 66 64 69 65 68 67 64 64 66 69 73 68 60 60 63

38 62 67 65 65 69 65 67 65 72 66 67 64 61 64 66 63 63 66 66

66 63 65 63 67 68 66 62 63 61 66 61 63 68 65 66 69 64 66 70

69 70 63 64 65 64 67 67 65 66 62 61 65 65 60 63 65 62 66 64

答：首先建立一个外部数据文件，名称和路径为：E:\data\exer1-5e.dat。所用的SAS程序和计算结果如下：

proc format;

value hfmt

56-57='56-57' 58-59='58-59' 60-61='60-61'

62-63='62-63' 64-65='64-65' 66-67='66-67'

68-69='68-69' 70-71='70-71' 72-73='72-73'

74-75='74-75';

run;

data weight;

infile 'E:\data\exer1-5e.dat';

input bw @@;

run;

proc freq;

table bw;

format bw hfmt.;

run;

The SAS System

Cumulative

BW Frequency Percent Frequency

Percent

-----------------------------------------------------

56-57 3 1.0 3

1.0

58-59 4 1.3 7

2.3

60-61 22 7.3 29

9.7

62-63 46 15.3 75

25.0

64-65 83 27.7 158

52.7

66-67 77 25.7 235

78.3

68-69 45 15.0 280

93.3

70-71 13 4.3 293

97.7

72-73 5 1.7 298

99.3

74-75 2 0.7 300

100.0

1.6 将上述我国男青年体重看作一个有限总体，用随机数字表从该总体中随机抽出含量为10的两个样本，分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗？标准差相等吗？能够解释为什么吗？答：用means过程计算，两个样本分别称为1y和2y，结果见下表：

The SAS System

Variable N Mean Std

Dev

----------------------------------------

Y1 10 64.5000000

3.5039660

Y2 10 63.9000000

3.1780497

----------------------------------------

随机抽出的两个样本，它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量，统计量有自己的分布，很难得到平均数和标准差都相等的两个样本。

1.7 从一个有限总体中采用非放回式抽样，所得到的样本是简单的随机样本吗？为什么？本课程要求

的样本都是随机样本，应当采用哪种抽样方法，才能获得一随机样本？

答：不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样，在前后两次抽样之间不是相互独立的，后一次的抽样结果与前一次抽样的结果有关联，因此不是随机样本。应采用随机抽样的方法抽取样本，具体说应当采用放回式抽样。 1.8 证明()()∑∑==±='-='-'n i n

i i i i

C y y y y

y y 1

。其中若用

C y y i

i ='或i i Cy y ='编码时，前式是否仍然相等？

答：（1）令 C y y i i ±='

则 C y y ±=' 平均数特性之③。

()()()[]

()

∑∑∑===-=±-±='-'n

i i n i i n

i i y y C y C y y y 1

（2）令 C y y i

i =

则

C y

y =

' 平均数特性之②。

()

()2

112

C y y C y C y

y y n

i i n

i i

∑∑∑===-=

?? ??-='-'

用第二种编码方式编码结果，两式不再相等。

1.9 有一个样本：n y y y ,,,21 ，设B 为其中任意一个数值。证明只有当y B =时，

()

∑=-n

i B y 1

最小。这是平均数的一个重要特性，在后面讲到一元线型回归时还会用到该特性。

答：令 ()∑-=2B y p ，为求使p 达最小之B ，令()

=?-?∑B B y

则 ()y

y B B y ===-∑∑0

2 。

1.10 检测菌肥的功效，在施有菌肥的土壤中种植小麦，成苗后测量苗高，共100株，数据如下[1]：

10.0

9.3

7.2

8.5

8.0 10.5 10.6

9.6 10.1

7.0 6.7 9.5 7.

8 10.5 7.9 8.1 9.6 7.6 9.4

10.0 7.5 7.2 5.

0 7.3 8.7 7.1 6.1 5.2 6.8

10.0 9.9 7.5 4.

5 7.

6 7.0 9.

7 6.2 8.0 6.9

8.3 8.6 10.0 4.

4.9 7.0 8.3 8.4 7.8 7.5

6.6 10.0 6.5 9.

5 8.5 11.0 9.7 6.

6 10.0 5.0

6.5 8.0 8.4 8.

3 7.

4 7.4 8.1 7.7 7.

5 7.1

7.8 7.6 8.6 6.

0 7.0 6.4 6.7 6.3 6.4 11.0

10.5 7.8 5.0 8.

0 7.0 7.4 5.2 6.7 9.0 8.6

4.6 6.9 3.5 6.

9.7 6.4 5.8 6.4 9.3 6.4

编制苗高的频数分布表，绘制频数分布图，并计算出该样本的四个特征数。

答：首先建立一个外部数据文件，名称和路径为：E:\data\exr1-10e.dat。SAS程序及结果如下：options nodate;

proc format;

value hfmt

3.5-

4.4='3.5-4.4' 4.5-

5.4='4.5-5.4' 5.5-

6.4='5.5-6.4'

6.5-

7.4='6.5-7.4' 7.5-

8.4='7.5-8.4' 8.5-

9.4='8.5-9.4'

9.5-10.4='9.5-10.4' 10.5-11.4='10.5-11.4';

run;

data wheat;

infile 'E:\data\exr1-10e.dat';

input height @@;

run;

proc freq;

table height;

format height hfmt.;

run;

proc capability graphics noprint;

var height;

histogram/vscale=count;

inset mean var skewness kurtosis;

run;

The SAS System

The FREQ Procedure

Cumulative

height Frequency Percent Frequency

Percent

------------------------------------------------------------------

---

3.5-

4.4 1 1.00 1

1.00

4.5-

5.4 9 9.00 10

10.00

5.5-

6.4 11 11.00 21

21.00

6.5-

7.4 23 23.00 44

44.00

7.5-8.4 24 24.00 68

68.00

8.5-9.4 11 11.00 79

79.00

9.5-10.4 15 15.00 94

94.00

10.5-11.4 6 6.00 100

100.00

1.11 北太平洋宽吻海豚羟丁酸脱氢酶（HDBH）数据的接收范围频数表[2]如下：（略作调整）

HDBH数据的接收范

频数

围/(U·L-1)

<214 1

<245.909 1 3

<277.818 2 11

<309.727 3 19

<341.636 4 26

<373.545 5 22

<405.454 5 11

<437.363 6 13

<469.272 7 6

<501.181 8 3

<533.090 9 2

根据上表中的数据作出直方图。

答：以表中第一列所给出的数值为组界，直方图如下：

1.12 灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。纹嵴有许多特征，这些特征在胚胎形成之后是终生不变的。人类手指尖的纹型，大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点，从该点纹嵴向三个方向辐射，这个点称为三叉点。弓形纹没有三叉点，箕形纹有一个三叉点，斗形纹有两个三叉点，记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数（finger ridge count, FRC）。将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加，称为总纹嵴数（total finger ridge count, TFRC）。下表给出了大理白族人群总纹嵴数的频数分布[3]：

TFRC分组中值频数

11~30 20 2

31~50 40 1

51~70 60 8

71~90 80 29

91~110 100 54

111~130 120 63

131~150 140 68

151~170 160 51

171~190 180 18

191~210 200 6

首先判断数据的类型，然后绘出样本频数分布图，计算样本的四个特征数并描述样本分布形态。

答：总纹脊数属计数数据。

计数数据的频数分布图为柱状图，频数分布图如下：

样本特征数（以TFRC的中值计算）SAS程序：

options nodate;

data tfrc;

do i=1 to 10; input y @@;

input n @@;

do j=1 to n;

output;

end;

cards;

20 2

40 1

60 8

80 29

100 54

120 63

140 68

160 51

180 18

200 6

;

run;

proc means mean std skewness kurtosis;

var y;

run;

结果见下表：

The SAS System

Analysis Variable : Y

Mean Std Dev Skewness Kurtosis

------------------------------------------------------

126.5333333

32.8366112 -0.2056527

-0.0325058

------------------------------------------------------

从频数分布图可以看出，该分布的众数在第七组，即总纹脊数的中值为140的那一组。分布不对称，平均数略小于众数，有些负偏。偏斜度为-0.2056527，偏斜的程度不是很明显，基本上还可以认为是对称的，峭度几乎为零。

1.13 海南粗榧叶长度的频数分布[4]：

叶长度/mm 中值

频数

2.0~2.2 2.1 390

2.2~2.4 2.3 1 434

2.4~2.6 2.5 2 643

2.6~2.8 2.7 3 546

2.8~

3.0 2.9 5 692

3.0~3.2 3.1 5 187

3.2~3.4 3.3 4 333

3.4~3.6 3.5 2 767

3.6~3.8 3.7 1 677

3.8~

4.0 3.9 1 137

nag

4.0~4.2 4.1 667

4.2~4.4 4.3 346

4.4~4.6 4.5 181

绘出频数分布图，并计算偏斜度和峭度。

答：表中第一列所给出的数值为组限，下图为海南粗榧叶长度的频数分布图。

计算偏斜度和峭度的SAS程序和计算结果如下：

options nodate;

data length;

do i=1 to 13; input y @@;

input n @@;

do j=1 to n;

output;

end;

cards;

2.1 390

2.3 1434

2.5 2643

2.7 3546

2.9 5692

3.1 5187

3.3 4333

3.5 2767

3.7 1677

3.9 1137

4.1 667

4.3 346

4.5 181

;

run;

proc means n skewness kurtosis;

var y;

run;

The SAS System

Analysis Variable : Y

n Skewness

Kurtosis

---------------------------------

30000 0.4106458

0.0587006

---------------------------------

样本含量n＝30000，是一个很大的样本，样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41，有一个明显的正偏。

1.14 马边河贝氏高原鳅繁殖群体体重分布如下[5]：

体质量/g 中值雌鱼雄鱼

2.00~

3.00 2.50 1 4 3.00~

4.00 3.50 6 7 4.00~

5.00 4.50 13 11 5.00~

6.00 5.50 30 25 6.00~

7.00 6.50 25 25

7.00~8.00 7.50 16 23 8.00~9.00 8.50 21 17 9.00~10.0

9.50 18 16 10.00~11.00

10.50 12 4 11.00~12.00 11.50 3

12.00~13.00 12.50 2

首先判断数据的类型，然后分别绘制雌鱼和雄鱼的频数分布图，计算样本平均数、标准差、偏斜度和峭度并比较两者的变异程度。

答：鱼的体重为度量数据，表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的分布绘在了同一张图上，以不同的颜色表示。

计算统计量的SAS 程序与前面的例题类似，这里不再给出，只给出结果。

雌鱼：

The SAS System

Analysis Variable : Y

N Mean Std Dev Skewness Kurtosis

-----------------------------------------------------------

147 7.2414966 2.1456820 0.2318337 -0.6758677

-----------------------------------------------------------

雄鱼：

The SAS System

Analysis Variable : Y

N Mean Std Dev Skewness Kurtosis

-----------------------------------------------------------

132 6.7803030 1.9233971 -0.1322816 -0.5510332 -----------------------------------------------------------

直观地看，雄鱼的平均体重低于雌鱼。雌鱼有一正偏，雄鱼有一负偏。因此，相对来说雌鱼低体重者较多，雄鱼高体重者较多。但两者都有很明显的负峭度，说明“曲线”较平坦，两尾翘得较高。

1.15 黄胸鼠体重的频数分布[6]：

组界/g

频数

22 75

4 150

5 2 总数

169

绘制频数分布图，从图形上看分布是对称的吗，说明什么问题？

答：下面是频数分布图：

从上图可见，图形不是对称的，有一些正偏。说明在该黄雄鼠群体中，低体重者分布数量，高于高体重者的数量。另外，似乎峭度也有些低。

1.16 25名患者入院后最初的白细胞数量（×103）[7]如下表：

8 5 12 4 11 6 8 7 7 12

7 3 11 14 11 9 6 6 5 6

10 14 4 5 5

计算白细胞数量的平均数、方差和标准差。

答：用means过程计算，程序不再给出，只给出运行结果。

The SAS System

Analysis Variable : Y

N Mean Variance Std

Dev

-------------------------------------------

25 7.8400000 10.3066667

3.2103998

--------------------------------------------

1.17 细胞珠蛋白基因（CYGB）可能是非小细胞肺癌（NSCLC）的抑制基因之一。一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等，以便发现它与肿瘤发病间的关联。下面列出了其中15名患者的基因表达（肿瘤患者/正常对照，T/N），肿瘤患者与正常对照甲基化指数差（MtI T-MtI N）[8]：

样本号T/N MtI T-MtI N

357 0.014 0.419

370 0.019 0.017

367 0.035 0.105

316 0.044 0.333