生物统计学教案(3)

生物统计学教案(3)
生物统计学教案(3)

生物统计学教案

第三章几种常见的概率分布律

教学时间:3学时

教学方法:课堂板书讲授

教学目的:重点掌握正态分布,掌握二项分布,了解泊松分布,中心极限定律。

讲授难点:正态分布、二项分布

3.1 二项分布(重点)

3.1.1 二项分布的概率函数

满足二项分布的条件:

1、在一随机试验中,每次试验都有两种不同的结果。

2、两种结果是互不相容的。

3、每一种结果在每次试验中都有恒定的概率。

4、试验间应是独立的。

独立地将此试验重复n次,求在n此试验中,一种结果出现x次的概率是多少?

例:从雌雄各半的100只动物中抽样,抽样共进行10次,问

其中包括3只雄性动物的概率是多少?包括3只及3只以下的概率是多少?即求P (X=3)和P(X≤3)

该例符合二项分布的条件。规定以下一组符号:

n=试验次数

x =在n次试验中事件A出现的次数

φ=事件A发生的概率(每次试验都是恒定的) 1-φ=事件A发生的概率

p(x) = x的概率函数=P(X=x)

(累积分布函数) F (x ) = P ( X ≤x )

上例中:n =10 x =3 φ=0.5 求p (3) 和F (3)。在一次抽样中抽到的结果为:mmmfffffff ,它的概率为

P (mmmfffffff )=φ3(1-φ) 7

抽到3雄7雌的数目相当于从10个元素中抽出3个元素的组合数

对于任意n 和x 有以下通式:

()()

1,0,1,2,,n x

x x

n

p x C x n ??-=-=???

上式称为二项分布的概率函数。该式正是二项展开式的第x +1项,因而产生“二项分布”这一名称。因为φ+(1-φ)=1,所以

将x =0,1,2,3,代入二项分布概率函数,可以得出出现0,1,2,3只雄性动物

的概率。

P (0)= 0.0009766 P (1)= 0.0097656 P (2)= 0.0439453 P (3)= 0.1171876 抽到3只和3只以下雄性动物的概率为:

F (3)=P (0)+P (1)+P (2)+P (3) =0.1718751

3.1.2 服从二项分布的随机变量的特征数

平均数: μ=n φ 或 μ=φ 方差: σ2=n φ(1-φ) 或

3.1.3 二项分布应用实例

例1 以杂合基因型Wvwv 的小鼠为父本,隐性纯合子小鼠wvwv 为母本杂交(wv 波浪毛,Wv 直毛),后代两种基因型的数目应各占一半。实验只选每窝8只的,多于

()()7

33

1013??-=C p ()()[]

1

10

=-+=∑

=n

n

x x p ??()

n

??σ

-=

12

8只和少于8只的都淘汰。结果列在下表中。 直毛后代数 观测频数

(x ) (f ) fx fx 2 p (x ) Np (x )

0 0 0 0 0.003906 0.124992 1 1 1 1 0.031250 1.000000 2 2 4 8 0.109375 3.500000 3 4 12 36 0.218750 7.000000 4 12 48 192 0.273437 8.749984 5 6 30 150 0.218750 7.000000 6 5 30 180 0.109375 3.500000 7 2 14 98 0.031250 1.000000 8 0 0 0 0.003906 0.124992 总数 N =32 139 665 0.999999 31.99968 样本平均数、总体平均数;样本方差、总体方差如下:

例2 遗传学中单因子杂交RR ×rr ,F 1代为Rr ,F 1自交,F 2基因型比符合二项分布。在F 2中P (R )=φ=1/2,P (r )=1-φ=1/2,n =2。展开二项式:

()()()2

1974798.131

321396651

000000

.4218343750

.432

139

2

2

2

2

2=-==-

=

--

=

=??

?

??====

=

∑∑∑??σ

?μn N N

fx fx s

n N fx x ()[]

()()

()()()rr Rr RR 4

12141

21212122111212

2

2

2

2

++=

?

?

? ??+??? ????? ??+??

? ??=-+-+=-+????

??

对于两对因子,n =4

在为人类或动物遗传学研究中,为了保证实验顺利完成,在制定试验计划时,首先要以指定概率求出所需样本含量n 。

例3 用棕色正常毛(bbRR )的家兔和黑色短毛(BBrr )兔杂交,F 1代为黑色正

常毛长的家兔(BbRr ), F 1代自交,F 2代表型比为:9/16B_R_ : 3/16B_rr : 3/16bbR_ :

1/16bbrr 。问最少需要多少F 2代家兔,才能以99%的概率得到一个棕色短毛兔? 答: φn =(15/16)n = 0.01 n (lg15-lg16)= lg0.01 -0.02803n =-2.00000 n =71.4 3.2 泊松分布

3.2.1 泊松分布的概率函数

在二项分布中,当某事件出现的概率特别小(φ→0),而样本含量又很大(n

→∞)时,二项分布就变成泊松分布了。泊松分布是描述在一定空间、长度、面积、体积或一定时间间隔内,点子散布状况的理想化模型。泊松分布的概率函数为:

3.2.2 服从泊松分布的随机变量的特征数

泊松分布的平均数: μ= μ

可见,泊松分布的平均数就是泊松分布概率函数中的μ。

泊松分布的方差: σ2= μ

概率函数中的μ不但是它的平均数,而且是它的方差。 3.2.3 泊松分布应用实例

()[]16

1164166164161212121421216212142114

322344++++=?

??

??+??? ????? ??+??? ????? ??+??? ????? ??+??? ??=-+??()?

??==

,2,1,0,!x e

x x p x

μ

μ

例1 在麦田中,平均每10m 2有一株杂草,问每100m 2麦田中,有0株、1株、2株、…杂草的概率是多少?

解: 先求出每100m 2麦田中,平均杂草数μ μ= 100/10= 10株

将μ代入泊松分布的概率分布函数中, p (x ) = 10x /x !e 10,

即可求出x = 0,1,2,… 时所相应的概率。结果如下:

x ≤5 6 7 8 9 10

p (x ) 0.0671 0.0631 0.0901 0.1126 0.1251 0.1251 11 12 13 14 ≥15 0.1137 0.0948 0.0729 0.0521 0.0835

例2 绘制遗传连锁图时,制图函数是通过泊松分布推演出的。在一对同源染色体之间交换的出现是服从泊松分布的,将x =0代入泊松分布的概率函数中,

得出两基因座之间无交换出现的概率。两基因座之间至少出现一次交换的概率P(x ≥1) = 1-e -μ。从遗传学理论可知,在两基因座之间大于等于1的任何有限次交换其重组频率恒等于50%。因此重组率

解出两基因座之间的平均交换次数

μ= -ln (1-2RF )

两基因座之间平均交换一次,其图距为50m.u.,从而可以得出图距 MD =-50ln (1-2RF )

3.4 正态分布(重点)

()μ

μμ--==

e e p !

000

()

μ--=

e RF 12

1

3.4.1 正态分布的密度函数和分布函数

对于平均数是μ,标准差是σ的正态分布,其密度函数为:

正态分布密度函数的图象称为正态曲线

正态分布曲线

以符号N (μ,σ2)表示平均数为μ,标准差为σ2的正态分布。 随机变量X 的值落在任意区间(a ,b )内的概率

累积分布函数

3.4.2 标准正态分布

当μ=0,σ=1时的正态分布称为标准正态分布,标准正态分布记为N (0,1)。标准正态分布的密度函数为:

标准正态分布的分布曲线如下图

()()0

,,21

2

22

>∞<<∞-=

--

σπ

σσμx e

x f x ()(

)()2

2

21

x b

b

a

a

P a X b f x dx e

dx

μσ--

<<=

=

?

?

()()()()dz

e

dz z f x X P x F x

z x

?

?

---

-=

=

<=2

2221

σ

μπ

σ()∞

<<∞-=

-

u e

u u ,212

2

π

?

标准正态分布曲线

累积分布函数分布图如下:

标准正态分布的累积分布曲线

标准正态分布有以下特性:

1、在u =0时φ(u )达到最大值。

2、当u 不论向哪个方向远离0时,φ(u )的值都减小。

3、曲线两侧对称。

4、曲线在u =-1和u =1处有两个拐点。

5、曲线与横轴所夹面积等于1。

6、累积分布曲线围绕点(0,0.5)对称。 3.4.3 正态分布表的查法

()()dv

e

u U

P u u

v ?

--

=

<

=2

221π

φ

为了简化计算,随机变量(U )的值(u )落在区间(a ,b )内的概率,根据标准正态累积分布函数,已经把不同u 值的Ф(u )值列成表(附表2),称为正态分布表。根据以下关系式可以扩展正态分布表的使用范围。

例1 查u =-0.82及u =1.15时的Ф(u )值。

解:Ф(-0.82)=0.20611

Ф(1.15)=0.87493

例2 随机变量U 服从正态分布N (0,1),问随机变量的值落在0,1.21间的概率是多少?落在-1.96,1.96间的概率是多少? 解:

1) P (0

= Ф(1.21)-0.5 =0.88686-0.5000 =0.38686 2)

P (|U |

=1-2Ф(-u )

()()()()

(

)()()()

()()()

122

12125.00u u u U u P u u U

P u u U

P u u U P u u U P φφφφφφ-=<<--=<

-=>-=>-=<

<

=1-Ф(-1.96) =1-0.05000 =0.95000

对于服从N (μ,σ2)的随机变量X ,首先要进行标准化变换,使之变为标准正态分布,再按上述方法查表。变换的方法是:

对于随机变量X

在对x 进行标准化变换后,即可从正态分布表中查出相应的概率值。

例3 已知高粱品种“三尺三”的株高X 服从正态分布N (156.2,4.822),求:1)X <161厘米的概率;2)X >164厘米的概率;3)X 在156-162厘米间的概率。

解:

3.4.4 正态分布的单侧临界值

附表3给出了满足P (U > u α) =α时的u α值。即曲线右侧尾区一定面积(α)下,所对应的u 值u α,u α称为α的上侧临界值。

对于左侧尾区,满足P (U <-u α) =α时的-u α值,称为α的下侧临界值。

σ

μ

-

=

x u ()?

?

?

??-=??? ??-<=<σμφσμx x U P x X P ()()()()

()()()69278

.019251.088493.087.02.182.42.15615282.42.156162162152)

305262

.094738.0162.1182.42.1561641164)

284314

.0182.42.156161161)1=

-=--=?

?? ??--??

?

??-=<<=-=-=??

?

??--=>==???

??-=<φφφ

φφφφφX P X P X P

将α平分到两个尾区,每一尾区的曲线下面积只有α/2,满足P (|U|> uα/2) =α时的uα/2称为α的双侧临界值。

正态分布的单侧(上侧)和双侧临界值

3.6 中心极限定理

假设所研究的随机变量X可以被表示为许多相互独立的随机变量X i的和,如果X i的数量很大,而且每一个别的X i对于X所起的作用很小,则可以认为X服从或近似地服从正态分布。

推理:若已知总体平均数为μ,标准差为σ,那么,不论该总体是否正态分布,对于从该总体所抽取的含量为n的样本,当n充分大,其平均数渐近服从正态分布N(μ,σ2/n)。

生物统计学教案

《生物统计学》教案 第一章统计数据的收集和整理 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握样本特征数平均数、样本方差、标准差的概念和计算方法,掌握数据类型及频数(率)分布,了解众数、中位数、变异系数。 讲授难点:样本方差、标准差的概念和计算方法 1.1 总体与样本 1.1.1 统计数据的不齐性 1、变异性是自然界存在的客观规律。 2、自然界如果没有变异,也就不需要统计学了。 3、生物学研究的对象都是很大的群体,不可能研究全部对象,只能通过研究其中的一部分,来推断全部对象,于是引出以下概念。 1.1.2 总体与样本 总体:研究的全部对象。 个体:总体中的每个成员。 样本:总体的一部分。 样本含量:样本所包含的个体数目。 1.1.3 抽样 抽样:从总体中获得样本的过程。 随机抽样:总体中的每一个个体被抽中的机会都相同的一种抽样方法。 放回式抽样:从总体中抽出一个个体,记下其特征后,放回原总体中,再做第二次抽样。 非放回式抽样:从总体中抽出个体后,不再放回,即做第二次抽样。 抽样的目的:从总体中获得一个有代表性的样本,以便通过样本推断总体。 应注意的问题:①样本必须有代表性。②样本含量与可实施性之间的平衡。 1.2 数据类型及频数(率)分布

1.2.1 连续型数据和离散型数据 连续型数据:与某种标准比较所得到的数据。又称为度量数据。 离散型数据:由记录不同类别个体的数目所得到的数据。又称为计数数据。 1.2.2 频数(率)分布表和频数(率)分布图的编绘 例1.1 调查每天出生的10名新生儿中体重超过3公斤的人数, 共调查120天,结果如下: 表 1-1 每10名新生儿中体重超过3Kg的人数的 频数(率)分布表 频数(率)分布:把频数(率)按组值的顺序排列起来,便得到离散型数据的频数(率)分布。 频数(率)分布还可以用图形表示,见图1-1。 图1-1 每10名新生儿中体重超过3Kg的人数的频数分布图 下面介绍连续型数据的频数(率)分布表和分布图的编绘方法。

生物统计学教案(4)

生物统计学教案 第四章 抽样分布 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握样本平均数的t 分布、F 分布和样本方差的X 2分布,掌握两个样 本标准差比的分布。 讲授难点:t 分布、F 分布和X 2分布 4.1 从一个正态总体中抽取的样本统计量的分布 4.1.1 样本平均数的分布 标准差已知时的平均数的分布 从平均数为μ,标准差为σ的正态总体中,独立随机地抽取含量为n 的样本,其样本平均数为一服从正态分布的随机变量。它的平均数和方差分别为: σ/n 称为标准误差。标准化的平均数 服从N (0,1)分布。 标准差未知时的平均数的分布-t 分布 若上述总体的标准差未知,可以用样本标准差代替总体标准差,标准化的平均数称为t 统计量t 不再服从N (0,1)分布,而服从n - 1自由度的t 分布。 S/n 称为样本标准误差。 n x x σ σμμ= =n x u σ μ -= n s x t μ-=

t 分布也是一种对称分布,在密度函数中只有自由度一个参数,随着自由度的增加,t 分布越来越接近于标准正态分布。 不同自由度下的t 分布 与标准正态分布类似,t 分布的上侧、下侧和双侧临界值,由以下各式给出: 对于给定的α从附表4中可以查出相应的上侧、下侧和双侧临界值。 4.1.2 样本方差的分布 从方差为σ2的正态总体中,随机抽取含量为n 的样本,计算出样本方差s 2, 标准化的s 2称为χ2。 ()()αα α α αα =??? ? ? ?≥=-≤ =≥2t t P t t P t t P ()2 2 2 2 2 1σσ χs n s df df -= =

生物统计学教案

生物统计学教案 第九章 两因素及多因素方差分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握固定模型、随机模型两因素方差分析的方法步骤,掌握混合模型 的方差分析,了解多因素的方差分析方法。。 讲授难点:固定模型、随机模型两因素方差分析的方法步骤 9.1 两因素方差分析中的一些基本概念 9.1.1 模型类型 交叉分组设计:A 因素的a 个水平和B 因素的b 个水平交叉配合,共构成ab 个组合,每一组合重复n 次,全部实验共有abn 次。 固定模型:A 、B 两因素均为固定因素。 随机模型:A 、B 两因素均为随机因素。 混合模型:A 、B 两因素中,一个是固定因素,一个是随机因素。 9.1.2 主效应和交互作用 主效应:由于因素水平的改变所造成的因素效应的改变。 A 1 A 2 A 1 A 2 B 1 18 24 B 1 18 28 B 2 38 44 B 2 30 22 先看左边的表。A 因素的主效应应为A 2水平的平均效应减A 1水平的平均效应,B 的主效应类似。 当A 1B 1+A 2B 2=A 1B 2+A 2B 1时,A 、B 间不存在交互作用。这里A 1B 1+A 2B 2=62,A 1B 2+A 2B 1=62,因此A 、B 间不存在交互作用。 交互作用:若一个因素在另一因素的不同水平上所产生的效应不同,则它们之间存在交互作用。 20 2 241824438226 2361824424221211222121112212=+-+=+-+==+-+=+-+=B A B A B A B A B B A B A B A B A A

现在看右边的表。 A(在B1水平上)=A2B1-A1B1=28-18=10 A(在B2水平上)=A2B2-A1B2=22-30=-8 显然A的效应依B的水平不同而不同,故A、B间存在交互作用。交互作用的大小为AB=(A1B1+A2B2)-(A1B2+A2B1) 9.1.3 两因素交叉分组实验设计的一般格式 假设A因素有a水平,B因素有b水平,则每一次重复包含ab次实验,实验重复n次,总的实验次数为abn次。以x ilk表示A因素第i水平,B因素第j水平和第k次重复的观测值。一般格式见下表。 因素 B j=1,2,…,b B1B2…B b总计 A1x111x121x1b1 x112x122x1b2 x11n x12n x1b n x1. . 因 素A2x211x221x2b1 A x212x222x2b2 x21n x22n x2bn x2. . A a x a11x a21x ab1 x a12x a22x ab2 x a1n x a2n x abn x a. . 总计x.1. x.2.x.b.x. . .

生物统计学教案(5)

生物统计学教案 第五章统计推断 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握两个样本的差异显著性检验,掌握一个样本的差异显著性检验,了解二项分布的显著性检验。 讲授难点:一个、两个样本的差异显著性检验 统计假设检验:首先对总体参数提出一个假设,通过样本数据推断这个假设是否可以接受,如果可以接受,样本很可能抽自这个总体,否则拒绝该假设,样本抽自另外总体。 参数估计:通过样本统计量估计总体参数。 5.1 单个样本的统计假设检验 5.1.1 一般原理及两种类型的错误 例:已知动物体重服从正态分布N(μ,σ2),实验要求动物体重μ=10.00g。已知总体标准差σ=0.40g,总体平均数μ未知,为了得出对总体平均数μ的推断,以便决定是否接受这批动物,随机抽取含量为n的样本,通过样本平均数,推断μ。 1、假设: H 0: μ=μ 或H0: μ-μ0=0 H A : μ>μ μ<μ μ≠μ 三种情况中的一种。 本例的μ =10.00g,因此 H : μ=10.00 H A : μ>10.00或μ<10.00或μ≠10.00 2、小概率原理小概率的事件,在一次试验中几乎是不会发生的,若根据一定的假设条件计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而拒绝假设。 从动物群体中抽出含量为n的样本,计算样本平均数,假设该样本是从N(10.00,0.402)中抽取的,标准化的样本平均数

服从N (0,1)分布,可以从正态分布表中查出样本抽自平均数为μ的总体的概率,即 P (U >u ), P (U <-u ), 以及P (|U |>u )的概率。如果得到的值很小,则 x 抽自平均数 为μ0的总体的事件是一个小概率事件,它在一次试验中几乎是不会发生的,但实际上它发生了,说明假设的条件不正确,从而拒绝零假设,接受备择假设。 显著性检验:根据小概率原理建立起来的检验方法。 显著性水平:拒绝零假设时的概率值,记为α。通常采用α=0.05和α=0.01两个水平,当P < 0.05时称为差异显著,P < 0.01时称为差异极显著。 3、临界值 例 从上述动物群体中抽出含量n =10的样本,计算出 x =10.23g ,并已知 该批动物的总体平均数μ绝不会小于10.00g ,规定的显著水平α=0.05。根据以上条件进行统计推断。 H 0: μ=10.00 H A : μ>10.00 根据备择假设,为了得到x 落在上侧尾区的概率P (U > u ),将x 标准化,求 出u 值。 P (U >1.82)=0.03438,P < 0.05,拒绝H 0,接受 H A 。 在实际应用中,并不直接求出概率值,而是建立在α水平上H 0的拒绝域。从 正态分布上侧临界值表中查出P (U > u α)= α时的u α值,U > u α的区域称为在α水平上的H 0拒绝域,而U < u α的区域称为接受域。接受域的端点一般称为临界值。本例的u =1.82,从附表3可以查出u 0.05=1.645, u > u α,落在拒绝域内,拒绝H 0而接受H A 。 4、单侧检验和双侧检验 上尾单侧检验:上例中的H A :μ>μ0,相应的拒绝域为U > u α。对应于H A :μ>μ0时的检验称为上尾单侧检验。 下尾单侧检验:对应于H A :μ<μ0时的检验称为下尾单侧检验。 n x n x u 40 .000.100 -= -= σ μ82 .110 40 .000 .1023.100 =-= -= n x u σ μ

生物统计学教案(7)

生物统计学教案 第七章拟合优度检验 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握二项分布的检验、正态性的检验,掌握独立性检验,了解X2的可加性。 讲授难点:正态性的检验、二项分布的检验 7.1 拟合优度检验的一般原理 7.1.1 什么是拟合优度检验 用来检验实际观测数与依照某种假设或模型计算出来的理论数之间的一致性的方法。可分为两种类型: (1)拟合优度检验:检验观测数与理论数之间的一致性。 (2)独立性检验:通过检验实际观测数与理论数之间的一致性来判断事件之间的独立性。 7.1.2 拟合优度检验的统计量 例黄圆豌豆与绿皱豌豆杂交,第二代分离数目如下: 黄圆黄皱绿圆绿皱总计 实测数(O i) 315(O1) 101(O2)108(O3) 32(O4) 556 理论数(T i) 312.75(T1) 104.25(T2) 104.25(T3) 34.75(T4) 556 拟合优度的一般做法是: (1)将观测值分为k种不同类别,如四种类型豌豆。 (2)共获得n个独立观测值,第i类观测值的数目为O i。如O1-O4,他们的和等于n。 (3)第i类的概率为p i,如上述四类豌豆的概率分别为9/16、3/16、3/16、1/16,概率之和等于1。 (4)第i类的理论数T i = np i, k个理论数之和等于n。如上例中的T1-T4,它们的和等于n。 (5)O i与T i不符合程度的计算: ①求k个O i-T i之和,显然它们恒等于0。 ②求k个(O i-T i)2之和,得不出相对的不符合程度。O i=9、T i=6,O i-T i=3;O i=49、T i=46,O i-T i=3。前者的不符合程度远大于后者。 ③求k个[(O i-T i)/T i]2之和,但仍有问题。如:O i=8、T i=5以及O i=80、T i=50时O i -T i/T i都等于0.6。

生物统计学教案(11)

生物统计学教案 第十一章 多元回归及复相关分析 教学时间:1学时 教学方法:课堂板书讲授 教学目的:重点掌握多元回归及复相关分析 讲授难点: 多元回归及复相关分析 11.1 多元线性回归方程 11.1.1 多元线性回归模型 一个典型的多元回归数据可列成下表 观测次数 Y X 1 X 2 ┅ X j ┅ X k 1 y 1 x 11 x 21 x j 1 x k 1 2 y 2 x 12 x 22 x j 2 x k 2 ┇ ┇ ┇ ┇ ┇ ┇ p y p x 1p x 2p x jj x kj ┇ ┇ ┇ ┇ ┇ ┇ n y n x 1n x 2n x jn x kn 第p 次观测值为 y p =α+β1x 1p +β2x 2p +…+βk x kp +εp , p =1,2,…,n 上式称为多元线性回归模型,其中εp 是服从正态分布N (0,σ2)的随机变量。 11.1.2 正规方程 可以用最小二乘法求出α和βj 的估计值a 和b j ,从而得出多元回归方程。用最小二乘法求b j ,首先会得到一组联立方程,称为正规方程: 解该方程组可以得到b j ,a 由下式得到: ????? ??=+???++=+???++=+???++kY k kk k k Y k k Y k k S b S b S b S S b S b S b S S b S b S b S 22112222212111212111

回归方程为: 式子中的a 称为常数项,b j 称为偏回归系数。 11.1.3 多元回归方程的计算 (略) 11.1.6 回归方程中各自变量对因变量贡献大小的比较 多元回归方程中的偏回归系数的含义是,在其它变量都固定的情况下,某一变量对因变量的贡献。由于各自变量的单位不同,因此通过比较偏回归系数的大小,来决定各自变量对因变量贡献的大小是不行的。为了达到这一目的,就需对回归方程进行标准化,得到标准回归方程。标准回归方程的总平方和S YY =1,各偏回归系数为无单位的量,通过比较标准偏回归系数,可以确定它们对因变量贡献的大小。剔除贡献小的自变量,从而构建成最优回归方程。 所谓最优回归方程是指,回归方程中包括全部对Y 显著的变量,而不包含对Y 不显著的变量。 但是,用这种方法筛选最优回归方程有一定的局限性。如果各自变量之间存在显著相关,某些自变量对因变量的贡献是通过另一自变量体现出,当从方程中剔除该变量后,使得留在方程中的变量变成不显著的变量。而剔除的变量恰恰是一个有重要贡献的变量。这一问题,需要通过其它方法解决。 11.2 复相关分析 11.2.1 复相关系数 复相关系数是因变量与所有自变量之间相关程度的度量。相当于实际观测值与回归估计值之间的简单相关系数。 11.2.2 偏相关系数 在多个自变量与因变量及自变量之间都存在显著相关时,只用其中一个自变量与因变量计算简单相关系数,不能真正反应两变量之间的真实关系。为了能真正反应某一自变量与因变量之间的真实关系,就要保证在其它自变量都保持不变的情况下,计算它们之间的相关系数,这时的相关系数称为偏相关系数。 11.3 逐步回归分析 11.3.1 最优回归方程的选择 1、从变量可能的全部可能的组合中选出最优者 把自变量各种可能的组合都计算出来,对每一方程的各(偏)回归系数做显著性检验,计算剩余方差,从中选出包含的全部变量 k k X b X b X b a Y +???+++=2211?

生物统计学教案

生物统计学教案 第十章一元回归及简单相关分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握一元线性回归方程,掌握一元线性回归方程的检验和相关,了解一元非线性回归和多元回归与相关。 讲授难点:一元线性回归方程的检验和相关 10.1 回归与相关的基本概念 函数关系:F=ma 相关关系:单位面积的施肥量、播种量和产量;血压和年龄;胸径和高度;玉米的穗长和穗重;身高和体重。 相关:设有两个随机变量X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个分布与之相对应,称X和Y存在相关。 回归:对于变量X的每一个可能的值x i,都有随机变量Y的一个分布相对应,则称随机变量Y对变量X存在回归。X称为自变量,Y称为因变量。 条件平均数:当X=x i时Y的平均数μY.X=xi,称为条件平均数。 10.2 一元线性回归方程 10.2.1 散点图 例不同NaCl含量对单位叶面积干物质的影响 NaCl 含量X(g/kg土壤) 0 0.8 1.6 2.4 3.2 4.0 4.8 干重Y(mg/dm2) 80 90 95 115 130 115 135

从上图虽可以看出Y对X的线性关系,但点子并不在一条直线上。 例每一 NaCl含量下干物质10次重复值 干重(mg/dm2)重 复值 NaCl含量(g/kg土壤) 0 0.8 1.6 2.4 3.2 4.0 4.8 1 80 90 95 115 130 115 135 2 100 85 89 94 106 125 137 3 75 107 115 103 103 128 128 4 89 93 92 110 110 143 127 5 91 103 115 113 128 132 155 6 79 92 120 108 131 121 132 7 101 78 95 121 117 129 148 8 85 105 95 110 121 112 117 9 83 93 105 108 114 120 134 10 79 85 98 111 116 130 132 平均值 86.2 93.1 101.9 109.3 117.6 125.5 134.5 如果增加每一NaCl浓度下的重复次数,用其平均值画成散点图,则点子直线化的程度要好得多。上表给出10次重复的平均值,从下图中可见,点子更接近在一条直线上。当以Y的条件平均数所做的散点图,则完全在一条上。

生物统计学教案

第一章绪论 一、细胞生物学的定义 生命体是多层次、非线性、多侧面的复杂结构体系,而细胞是生命体的结构与生命活动的基本单位,有了细胞才有完整的生命活动。 细胞生物学是研究细胞基本生命活动规律的科学,它是在不同层次(显微、亚显微与分子水平)上以研究细胞结构与功能、细胞增殖、分化、衰老与凋亡、细胞信号传递、真核细胞基因表达与调控、细胞起源与进化等为主要内容。核心问题是将遗传与发育在细胞水平上结合起来。 二、细胞生物学的主要研究内容 1、细胞增殖、分化及其调控 2、细胞核、染色体以及基因表达的研究 3、生物膜与细胞器的研究 4、细胞骨架体系的研究 5、细胞的衰老与凋亡 6、干细胞及其应用 7、细胞信号转导 8、细胞工程 三、细胞生物学发展简史 1.细胞的发现 英国学者胡克于1665年制造了第一台有科研价值的显微镜,第一次描述了植物细胞的构造,细胞的发现是在1665年。1677—1683年,荷兰人列文胡克用自己设计好的显微镜第一次观察到活细胞。 2.细胞学说的基本内容 1)1838年,德国植物学家施莱登(J.Schleiden)关于植物细胞的工作,发表了《植物发生论》一文(Beitrage zur Phytogenesis). 2)1839年,德国动物学家施旺(T.Shwann)关于动物细胞的工作,发表了《关于动植物的结构和生长一致性的显微研究》一文,论证了所有动物体也是由细胞组成的,并作为一种系统地科学理论提出了细胞学说。 3)细胞是生物体的基本结构单位(单细胞生物,一个细胞就是一个个体); 细胞是生物体最基本的代谢功能单位; 细胞只能通过细胞分裂而来。 认为细胞是有机体,一切动植物都是由细胞发育而来,并由细胞和细胞产物所构成;每个细胞作为一个相对独立的单位,既有它自己的生命,又对与其它细胞共同组成的整体的生命有所助益;新的细胞可以通过老的细胞繁殖产生。 3.细胞学的经典时期

生物统计学教案(2)

生物统计学教案 第二章概率和概率分布 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握离散型概率分布和连续型概率分布,掌握概率、总体特征数的定义和一般运算,了解概率分布与频率分布的关系 讲授难点:离散型概率分布和连续型概率分布 2.1 概率的基本概念(45分钟) 2.1.1 问题的提出 从同一总体中抽取样本,各次所得到的样本不会完全相同。用不同样本去推断同一总体将得出不同的结论。这些结论不可能都是正确的。用某个样本去推断总体时,错误的可能性有多大?置信度有多高?这是对总体推断时所必须回答的问题。为回答这个问题,就要对总体分布有所了解。总体分布是建立在概率这一概念基础之上的。 自然现象,一般可分为确定性现象和非确定性现象。非确定性现象或称为随机

现象。随机现象不存在简单的因果关系。支配这些现象出现的因素很多,各因素所 起的作用不一样,作用的程度也不一样,很难遇到两个不同个体接受相同的配合方 式,因此从每一个个体所观察到的结果都不一样。 研究偶然现象本身规律性的科学称为概率论。基于实际观测结果,利用概率论 得出的规律,揭示偶然性中所寄寓的必然性的科学就是统计学。 2.1.2 事件及事件间的关系(自已复习) 2.1.3 概率的统计定义(重点) 设某随机试验共进行k次,成功了(事件A)l次,则称l/k是k次随机试验 中成功的频率。我们会发现,随着k的增大,频率l/k将围绕某一确定的常数p做 平均幅度越来越小的变动,最终稳定于p,p即为事件A的概率。 表2-1 不同样本含量的抽样试验 k=20 k=200 k=2000 抽样号l l/k l l/k l l/k 1 1 0.050 3 2 0.160 40 3 0.202 2 4 0.200 31 0.155 414 0.207 3 1 0.050 38 0.190 409 0.205 4 4 0.200 49 0.245

生物统计学教案(3)

生物统计学教案 第三章几种常见的概率分布律 教学时间:3学时 教学方法:课堂板书讲授 教学目的:重点掌握正态分布,掌握二项分布,了解泊松分布,中心极限定律。 讲授难点:正态分布、二项分布 3.1 二项分布(重点) 3.1.1 二项分布的概率函数 满足二项分布的条件: 1、在一随机试验中,每次试验都有两种不同的结果。 2、两种结果是互不相容的。 3、每一种结果在每次试验中都有恒定的概率。 4、试验间应是独立的。 独立地将此试验重复n次,求在n此试验中,一种结果出现x次的概率是多少? 例:从雌雄各半的100只动物中抽样,抽样共进行10次,问 其中包括3只雄性动物的概率是多少?包括3只及3只以下的概率是多少?即求P (X=3)和P(X≤3) 该例符合二项分布的条件。规定以下一组符号: n=试验次数 x =在n次试验中事件A出现的次数 φ=事件A发生的概率(每次试验都是恒定的) 1-φ=事件A发生的概率 p(x) = x的概率函数=P(X=x)

(累积分布函数) F (x ) = P ( X ≤x ) 上例中:n =10 x =3 φ=0.5 求p (3) 和F (3)。在一次抽样中抽到的结果为:mmmfffffff ,它的概率为 P (mmmfffffff )=φ3(1-φ) 7 抽到3雄7雌的数目相当于从10个元素中抽出3个元素的组合数 对于任意n 和x 有以下通式: ()() 1,0,1,2,,n x x x n p x C x n ??-=-=??? 上式称为二项分布的概率函数。该式正是二项展开式的第x +1项,因而产生“二项分布”这一名称。因为φ+(1-φ)=1,所以 将x =0,1,2,3,代入二项分布概率函数,可以得出出现0,1,2,3只雄性动物 的概率。 P (0)= 0.0009766 P (1)= 0.0097656 P (2)= 0.0439453 P (3)= 0.1171876 抽到3只和3只以下雄性动物的概率为: F (3)=P (0)+P (1)+P (2)+P (3) =0.1718751 3.1.2 服从二项分布的随机变量的特征数 平均数: μ=n φ 或 μ=φ 方差: σ2=n φ(1-φ) 或 3.1.3 二项分布应用实例 例1 以杂合基因型Wvwv 的小鼠为父本,隐性纯合子小鼠wvwv 为母本杂交(wv 波浪毛,Wv 直毛),后代两种基因型的数目应各占一半。实验只选每窝8只的,多于 ()()7 33 1013??-=C p ()()[] 1 10 =-+=∑ =n n x x p ??() n ??σ -= 12

最新生物统计学教案(6)

生物统计学教案 第六章 参数估计 教学时间:1学时 教学方法:课堂板书讲授 教学目的:重点掌握平均数、标准差和平均数差的区间估计,掌握配对数据、方差 比的区间估计,了解点估计、二项分布总体的区间估计。 讲授难点:标准差和平均数差的区间估计 6.1 点估计 6.1.1 无偏估计量 定义:如果统计量的数学期望等于总体参数,则该统计量称为无偏估计量。 因此样本平均数和样本方差都是无偏估计量。在这里只有用n -1为除数所得到的方差才是σ2的无偏估计量,用n 除得的结果并不是σ2的无偏估计量。这是我们在求方差时用 n -1作为除数,而不用n 作为除数的主要原因。 6.1.2 有效估计量 定义:如果统计量的方差小于另一个统计量的方差,则前一个统计量称为更有效统计量。 从一个正态总体中抽取含量为n 的样本,样本平均数的方差为: 当n 充分大时,中位数m 的方差为: 中位数的方差比平均数的方差大π/2倍,因此样本平均数是μ的有效估计量。 ()() 2 2σ μ==s E x E n x 2 2σσ= n m 22 2πσ σ=

6.1.3 相容估计量 若统计量的取值任意接近于参数值的概率,随样本含量n 的无限增加而趋于1,则该统计量称为参数的相容估计量。 如样本平均数的方差σ2/n ,当n →∞时,平均数的方差趋于0,这时样本平均数的唯一可能值即为μ。所以样本平均数是总体平均数的相容估计量,样本方差也是总体方差的相容估计量。 6.2 区间估计 6.2.1 区间估计的一般原理 在第五章的例子中,H 0:μ=10.00g ,所得u =1.82,在做双侧检验时是接受 H 0的。如果H 0不是μ=10.00,而是μ=10.20(u =0.24)或μ=10.40(u =-1.34)等值时,全都落在接受域内。由此可见,当用样本平均数估计总体平均数时所得到的结果不是单一值而是一个区间。 只要标准化的样本平均数落在-u α/2和u α/2区间内,所有H 0都将被接受,于是得到一个包括总体平均数的区间,用这种方法对总体参数所做的估计称为区间估计。 6.2.2 μ的置信区间 μ的置信区间依σ已知和未知而不同。 6.2.2.1 σ已知时:在σ已知时,μ的1-α置信区间可由下式导出。 μ的1-α置信区间可由下式得到: 由此得到μ的1-α置信区间为: 6.2.2.2 σ未知时 ασσασμ α α ααααα-=??? ? ??+<<--=? ??? ? ? ??<-<--=???? ? ?<<-111222222n u x u n u x P u n x u P u u u P n u x σ α 2 ±

生物统计学教案(9)

生物统计学教案(9)

生物统计学教案 第九章 两因素及多因素方差分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握固定模型、随机模型两因素方差分析的方法步骤,掌握混合模型 的方差分析,了解多因素的方差分析方法。。 讲授难点:固定模型、随机模型两因素方差分析的方法步骤 9.1 两因素方差分析中的一些基本概念 9.1.1 模型类型 交叉分组设计:A 因素的a 个水平和B 因素的b 个水平交叉配合,共构成ab 个组合,每一组合重复n 次,全部实验共有abn 次。 固定模型:A 、B 两因素均为固定因素。 随机模型:A 、B 两因素均为随机因素。 混合模型:A 、B 两因素中,一个是固定因素,一个是随机因素。 9.1.2 主效应和交互作用 主效应:由于因素水平的改变所造成的因素效应的改变。 A 1 A 2 A 1 A 2 B 1 18 24 B 1 18 28 B 2 38 44 B 2 30 22 先看左边的表。A 因素的主效应应为A 2水平的平均效应减A 1水平的平均效应,B 的主效应类似。 当A 1B 1+A 2B 2=A 1B 2+A 2B 1时,A 、B 间不存在交互作用。这里A 1B 1+A 2B 2=62,A 1B 2+A 2B 1=62,因此A 、B 间不存在交互作用。 交互作用:若一个因素在另一因素的不同水平上所产生的效应不同,则它们之间存在交互作用。 20 2 241824438226 2361824424221211222121112212=+-+=+-+==+-+=+-+=B A B A B A B A B B A B A B A B A A

生物统计学教案(8)

生物统计学教案 第八章单因素方差分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握方差分析的方法步骤,掌握单因素和两因素的方差分析,了解多重比较的一些常用方法 讲授难点:掌握单因素和两因素的方差分析 8.1 方差分析的基本原理 8.1.1 方差分析的一般概念 第五章讲过两个平均数差异性的比较可用t检验,在多组数据之间作比较便需要通过方差分析来完成。在多组数据之间作比较可以在两两平均数之间比较,但会提高犯I型错误的概率。最简单的方差分析是单因素方差分析。下面举例说明。 例1 调查5个不同小麦品系株高,结果见下表: 品系 I II III IV V 1 64.6 64.5 67.8 71.8 69.2 2 65. 3 65.3 66.3 72.1 68.2 3 64.8 64.6 67.1 70.0 69.8 4 66.0 63.7 66.8 69.1 68.3 5 65.8 63.9 68.5 71.0 67.5 和 326.5 322.0 336.5 354.0 343.0 平均数 65.3 64.4 67.3 70.8 68.6 例2 从每窝均有4只幼仔的初生动物中,随机选择4窝,称量每只动物的出生重,结果如下: 窝别 I II III IV 1 34.7 33. 2 27.1 32.9 2 33. 3 26.0 23.3 31.4 3 26.2 28.6 27.8 25.7 4 31.6 32.3 26.7 28.0 和 125.8 120.1 104.9 118.0

平均数 31.450 30.025 26.225 29.500 这两个例子都只有一个因素,例1是“品系”,例2是“窝别”。在每个因素下,又有a 个水平(或称为处理),例1有5个品系,例2 有4个窝别。a 个水平可以认为是a 个总体,表中的数据是从a 个总体中抽出的a 个样本。方差分析的目的就是由这a 个样本推断a 个总体。因为上述实验都只有一个因素,对这样的数据所进行的方差分析称为“单因素方差分析”。单因素方差分析的典型数据见下表。 X 1 X 2X 3…X i …X a 1 x 11x 21x 31x i1x a1 2 x 12x 22x 32x i2x a2 3 x 13x 23x 33x i3x a3 ┇ j x 1j x 2j x 3j x ij x aj ┇ nx 1n x 2n x 3n x in x an 平均数 x 1.x 2.x 3.x i.x a. 表中的x ij 表示第i 次处理下的第j 次观测值,下标中的“.”表示求和,具体说明如下: 8.1.2 不同处理效应与不同模型 线性统计模型: 模型中的x ij 是在i 水平下的第j 次观测值。μ是对所有观测值的一个参数,称为总平均数。αi 是仅对第i 次处理的一个参数,称为第i 次处理效应。εij 是随机误差成分,要求误差是服从N (0,σ2)的独立随机变量。 ? ???==????=?==???===∑∑∑x an x x x a i x n x x x a i n j ij i i n j ij i 1, ,,2,1, 1 , 11 1?? ????=???=++=n j a i x ij i ij ,,2,1,,2,1εαμ

相关主题