生物统计学总复习

生物统计学总复习
生物统计学总复习

生物统计学总复习(2011)

生物统计学是指导我们如何利用生命活动中表现出的数量现象,由样本信息推断总体特征的方法论和技法,贯彻通篇的主线是“如何由样本推断总体”,一切概念的引出、一切方法的建立都是为了实现“由样本推断总体”,都是为了保证“由样本推断总体”的过程经济有效,都是为了保证“由样本推断总体”的结果真实可靠。

全面理解“样本”、“总体”、“推断”三者的概念、应用、联系是掌握生物统计学的基础,是理解统计原理、统计方法的基础,是联系统计原理与统计方法的纽带。

“实验单位”、“抽样”、“总体参数”、“大数定律”、“中心极限定理”、“总体分布”、“抽样分布”、“无效假设推断”、“点估计”、“区间估计”、“置信区间”、“局部控制”、“正交设计”等等,有些是为了描述、定义“由样本推断总体”的过程,有些是为了实现“由样本推断总体”而建立的方法,因此,在理解和掌握的过程中,只有与“由样本推断总体”紧密联系,才能真正理解和掌握。

第一章、绪论

一、基本概念:

1、生物统计学:是应用数理统计的原理和方法来分析和解释生物界数量现象的科学。

2、描述性统计:对原始资料进行整理并作基本分析。

3、总体与样本:根据研究目的确定的、符合指定条件的全部观察对象称为总体。构成总体的每一个基本单元,称为该总体的个体。

4、总体和个体(举例):把所研究的对象的全体称为总体,把总体中的每一个基本单位称为个体。(参考举例:如考察某一地区冬小麦越冬前的苗高,则该地区所有小麦即为总体,每一株小麦苗即为个体。)

5、随机抽样与随机样本:所谓随机抽样是指抽样时,不搀杂人们的主观愿望,总体中每一个个体被抽取的机会均等。由随机抽样而得的样本,称随机样本。

6、样本和随机样本:从总体中抽取一部分个体称为样本。生物统计学就是要用样本的信息对总体作出推断,为了保证样本信息能够真实、可靠地反映总体,在抽样时必须遵循样本抽取的随机性原则,即要求每一个样本值与总体有相同的概率分布,且不同样本值之间相互独立,称这样的样本为“简单随机样本”,简称随机样本。

7、参数与统计量:从总体中计算所得的特征数值,如总体平均数、总体标准差称为参数;从样本中计算所得的特征数值称为统计量,它是总体参数的估计值。

8、试验误差:由样本推断总体时,试验抽样中由非处理因素对观测指标产生的影响,可用误差平方和、误差军方来定量描述。试验误差的大小会影响对处理效应的判断,因此在由样本推断总体时,需要对试验误差进行控制,根据实验误差的来源和可控性又可分为系统误差和随机误差。

9、系统误差或错误:系统误差是指在试验过程中,人为的作用所引起的差错,如试验人员粗心大意,使仪器矫正不准、药品配制比例不当、称量不准确等都是人为因素造成的,在试验中完全可以避免的。随机误差:由于无法控制的随机因素所引起的差异是不可避免的,称之为机误或随机误差。试验中随机误差只能设法减小,而不能完全消灭,增加抽样或试验次数,可以降低随机机误的数值。

10、变异系数:衡量不同样本间,或不同性状样本间变异程度的变异量数,为样本标准差对样本平均数的百分比。CV=S/

11、效应:效应是用于描述因子对观测指标的影响而建立的概念,其大小可用平方和或方差定量描述。即引起试验差异的作用称为效应,如不同饲料使动物的体重增加表现出差异,不同品种的玉米产量不同等。)

12、互作:是指两个或两个以上的因子同时存在时互相影响,不能各自独立地对观测指标产生影响,也称连应,是指两个或两个以上处理因素间的相互作用产生的效应。如氮、磷肥并施会对作物产量产生互作效应,如果氮、磷共施的产量效应大于氮、磷单施效应之和,说明氮、磷互作为正效应,如果氮、磷

共施的产量效应小于氮、磷单施效应之和,说明氮、磷互作为负效应。)

二、基本问题

1、生物统计学的研究内容包括统计哪些?(统计原理、统计方法和试验设计。)

2、生物统计学核心内容是什么?(如何从样本推断总体)

3、生物统计学所研究的对象构成的总体有什么基本特征?(是有变异的总体,既是在同质的对象中往往也存在差异。)

4、生物统计与试验设计的关系是什么?(是不可分割的统一整体,试验设计需要以统计的原理和方法为基础,而正确设计的试验又为统计方法提供可靠的信息。)

5、统计方法的主要内容可分为哪三个主要方面?(描述性统计、显著性检验、相关与回归)

6、生物统计学基本功用包括哪些?(科学地整理分析数据、判断试验结果的可靠性、确定事物之间的相互关系、提供试验设计的原则,为学习相关学科提供基础。)

7、生物统计学的研究内容包括哪些?(统计原理、统计方法和试验设计。统计原理阐述统计理论和有关公式,以满足统计方法的需要。统计方法的应用,旨在对客观事物得出本质的和规律性的认识。试验设计是试验工作前应用统计原理,制定科学的试验方案和方法。)

8、由样本的统计数来推断总体的参数时,要求统计数既有“准确性”,又有“精确性”。解释“准确性”和“精确性”的概念和二者的区别。(统计工作是用样本的统计数来推断总体的参数,我们用统计数接近参数真值的程度,来衡量统计数“准确性”高低。用样本中各个变数间变异程度的大小,来衡量该样本“精确性”的高低。因此,准确性就不等于精确性,准确性是说明测定值对真值的符合程度大小,而精确性却是多次测定值的变异程度。)

9、举例说明效应与互作的概念。(效应是用于描述因子对观测指标的影响力而建立的概念,其大小可用平方和或方差定量描述。引起试验差异的作用称为效应,如不同饲料使动物的体重增加表现出差异,不同品种的玉米产量不同等。互作是指两个或两个以上的因子同时存在时互相影响,不能各自独立地对观测指标产生影响,也称连应,是指两个或两个以上处理因素间的相互作用产生的效应。如氮、磷肥并施会对作物产量产生互作效应,如果氮、磷共施的产量效应大于氮、磷单施效应之和,说明氮、磷互作为正效应,如果氮、磷共施的产量效应小于氮、磷单施效应之和,说明氮、磷互作为负效应。)

第二章、绪论

一、基本概念:

1、数量性状资料:数量化的生物性状资料,简称数性资料,一般包括计量资料和计数资料两类。

2、计量资料:能够用度量衡等计量工具直接测定的数性资料,在一定取值范围内,可能取任何整数或小数值,也称连续性变数资料。

3、计数资料:是指用计数方式而得来的数性资料。在这类资料中,每一个变数必须以整数来表示,两整数间的数值是不连续的,因此不具有小数,也称间断性变数资料(答离散性变数资料或非连续性变数资料均可)。

4、质量性状资料:是指一些能观察到而不易直接测量的性状,如颜色、性别、生死、状态等,简称质性资料。对于质量性状的分析,必须先将质量性状数量化。

5、连续型变数资料:即计量资料,是指能够用度量衡等计量工具直接测定的数性资料,在一定取值范围内,可能取任何整数或小数值。

6、离散型变数资料:是指计数资料和质量性状资料,即用计数方式而得来的数性资料,或数量化的质量性状资料。在这类资料中,每一个变数必须以整数来表示,两整数间的数值是不连续的,因此不具有小数,也称间断性变数资料或非连续性变数资料。

7、资料的整理分析:就是要把大量复杂的数据进行整理归类,使其系统化,便于统计分析,从而得出正确的科学结论。

8、依次表:原始数据按数值的大小依次排列起来,由小到大以表格形式表示,称为依次表。

9、频次分布表:将大样本的原始数据进行分组归类,用表格表示出来称为频次分布表。

10、基本集中量数:衡量样本或总体取值集中性的统计量。包括平均数、中位数、众数等,最重要的是平均数。

11、平均数:是最重要的基本集中量数,是衡量样本或总体取值集中性的统计量。

12、变异量数:衡量样本或总体内个体间变异程度的统计量。有极差、平局差、平方和、变异系数、方差和标准差,最重要的是方差和标准差。

13、平方和:将样本(或总体)中每一个个体的取值与样本(或总体)平均数之差的平方求和,称之为离均差平方和,简称平方和。

14、方差:是一种变异量数,对样本为 ,对于总体为

15、标准差:是一种变异量数,对样本为 ,对于总体为

16、变异系数:衡量不同样本间,或不同性状样本间变异程度的变异量数,为样本标准差对样本平均数的百分比。CV=S/

二、问题:

1、为什么要进行资料的分类?

资料的分类是统计归纳的基础,若不进行分类,大量的原始资料就不能系统化、规格化,只有根据科学原理来分类,才能使资料正确地反映出事务的本质和规律。

2、原始数据在整理之前,首先要对全部数据进行检查和核对,最常见的数据差错原因有那些?

3、简述数据整理的方法

答:首先是按照一定的标志,把记载的数据分门别类的分成若干部分,把同一现象、同一类型的数据进行合并,使它们与其他现象、其他类型区别开来。

另外,在数据整理时,要注意数据的完整性、真实性和准确性。对个别极大和极小的数值要反复核实,力求确实可靠。

原始数据的整理,其结果需要用数字来表明,可将整理的数据制成依次表。

4、数据整理的作用

可以按不同的标志把数据的特征反映出来,以便于进一步运用各种统计方法进行计算,来研究它们的规律性和相互关系。

5、分组频次分布表和分组频次分布图:

原始数据经整理,在依次表的基础上,根据数据的多少进行分组归类,统计各组变数的频数,制成较有规律的分组频次分布表,并根据分组频次分布表作出分组频次分布图。频数分布表和分组频数分布图可直观地反映变数的取值规律,同时便于进一步的统计分析。

6、间断性变数资料的整理与分组

间断性变数资料的整理与分组通常采用单项式分组法,特点是用样本变数的自然值进行分组,将数据中每个变数分别归入相应的组内,然后制成频次分布表。

由整理所得的频次分布表,可以了解数据的集中和变异情况,便于进一步计算与分析。

7、连续性变数资料的整理与分组

连续性变数资料的整理与分组是采用组距式分组法,在分组前需要确定全距、组数、组距、组中值和组限,然后将每个变数分别归入相应的组内,然后制成频次分布表。

由整理所得的频次分布表,可以了解数据的集中和变异情况,便于进一步计算与分析。

8、依次表和频次分布表在什么时候使用?二者有什么区别?

在原始数据的整理分析时,通常使用依次表和频次分布表来表示对原始数据整理的结果,样本较小时用依次表表示,样本较大时使用频次分布表表示。从依次表和频次分布表中可以初步看出样本取值的规律。

第三章、概率、随机变量及其分布

一、基本概念:

1、随机抽样:在“由样本推断总体”中,获得有效样本的方法,即使得总体中每一个个体都有均等的被抽到可能。

2、随机试验:用来描述随机抽样、及生物属性数量化的过程,即观察者(研究者)采取一定的手段和方法,有目的地观察、记录随机现象的过程。

3、随机现象:用来描述随机抽样的结果,站在观察者(研究者)的角度,我们把有着多种变异结果的生命现象,叫做随机现象。即在一定的条件下具有多种可能结果而究竟出现哪一种结果是事先不可预言的现象叫做随机现象。

4、随机事件:用来描述一次随机抽样的结果,随机现象的每一个结果叫做一个随机事件,简称为事件。对于同一随机现象进行研究,讨论的范围不同,考虑问题的角度不同,就会产生不同的结果,因而得到不同的随机事件。

5、随机变量:用来描述随机抽样的所有可能结果(随机事件),通常用一个变量X 表示随机现象的所用可能结果,X 取不同的数值就表示不同的事件发生,但X 究竟取什么值预先是不知道的,它取任一值都有确定的概率,其所有可能取值的概率之和为1,将这样的变量定义为随机变量。

或答:设随机试验的样本空间是Ω=|ω|,如果对于每一个ω∈Ω有一个实数X (ω)和它对应,这样就得到一个定义在Ω上的实值单值函数X (ω),我们称之为随机变量。

6、离散型随机变量:如果随机变量的取值是有限个或可数个,则称为离散型的随机变量。 或答:描述离散性(间断性)变数资料的随机变量。

7、连续型的随机变量:如果随机变量的取值是无数个或不可数,不能按照一定的顺序一一列举出来,则称为非离散型的随机变量。非离散型的随机变量牵涉的范围很广,其中最重要的也是实际工作中经常遇到的是连续型的随机变量。即描述连续性变数资料的随机变量。

8、事件的概率:用来刻画随机事件发生可能性大小的数量指标,简称概率。事件的概率是客观存在的,是不依人的主观意志为转移的,事件A 的概率用P …A ?表示,并且规定0≤P …A ?≤1。

9、概率分布:用来描述针对随机现象的随机试验中全部可能的结果(事件)的概率,即用来描述随机变量取值的概率的数学模型,由于它实质上是将100%的可能性在各随机事件上进行分配,因此也称概率分配。

或答:将随机变量的一切可能取值以及取得这些值的概率全部表示出来,称为随机变量的概率分布,简称概率分布。概率分布可以用函数式表示,也可以用表格或图来表示。

10、概率函数:离散型随机变量概率分布的函数表示,要了解离散型随机变量x 的统计规律,就必须知道它的一切可能值x i 及取每种可能值的概率p i 。 如果我们将离散型随机变量x 的一切可能取值x i (i=1,2,…),及其对应的概率p i ,记作f (x)=P(X=x i )=p i i=1,2,…,则称上式为离散型随机变量x 的概率分布,即概率函数。

11、概率密度函数:描述连续型随机变量在某个区间取值的概率的密度函数。

连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x 在某个区间内取值的概率P(a ≤x

1)()()

(0)(==≥??∞

∞-dx x f dx x f X x x f 的任一可能取值是

12、概率分布函数:描述随机变量取值小于等于某值的概率的函数,也称累计分布函数。即可用于描述离散型随机变量的概率分布,又可用于描述连续型随机变量的概率分布,

离散型随机变量的概率分布函数:∑≤=≤=x y y f x X P x F )()()(

连续型随机变量的概率分布函数:y d y f x X P x F x

?∞-=≤=)()()(

13、统计规律:单独一次的不肯定性和累积结果的有规律性常常出现于科学实验之中,把这种规律性称

为统计规律。

14、数学期望:描述随机变量取值的平均状况的数字特征。

设离散型随机变量X的概率分布是P…X=x k?=p k,( k=1,2,…),若级数∑x k p k收敛,则称级数∑x k p k的和为X的数学期望,记为EX,即EX=∑x k p k。

设X为连续型随机变量,分布密度为p(x),若积分∫xp(x)dx 绝对收敛,则称该积分为连续型随机变量X的数学期望,记作EX。

方差:度量总体(或样本)各变量间变异程度的参数(总体)或统计量(样本)。

15.二点分布:

16.二项分布:

17.几何分布:

18.泊松分布:

19、正态分布:

常用的随机抽样方法:主要有纯随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样等。

纯随机抽样

又称简单随机抽样。是最基本的抽样方法。分为重复抽样和不重复抽样。在重复抽样中,每次抽中的单位仍放回总体,样本中的单位可能不止一次被抽中。不重复抽样中,抽中的单位不再放回总体,样本中的单位只能抽中一次。社会调查采用不重复抽样。

纯随机抽样的具体作法有:①抽签法。将总体的全部单位逐一作签,搅拌均匀后进行抽取。②随机数字表法。将总体所有单位编号,然后从随机数字表中一个随机起点(任一排或一列),开始从左向右或从右向左、向上或向下抽取,直到达到所需的样本容量为止。

纯随机抽样必须有一个完整的抽样框,即总体各单位的清单。总体太大时,制作这样的抽样框工作量巨大,加之有许多情况,使总体名单根本无法得到。故在大规模社会调查中很少采用纯随机抽样。分层抽样

先依据一种或几种特征将总体分为若干个子总体,每一子总体称作一个层;然后从每层中随机抽取一个子样本,这些子样本合起来就是总体的样本。各层样本数的确定方法有 3种:①分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1即为样本比例,每层均按这个比例确定该层样本数。②奈曼法。即各层应抽样本数与该层总体数及其标准差的积成正比。

③非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。但这样做会增加推论的复杂性。

总体中赖以进行分层的变量为分层变量,理想的分层变量是调查中要加以测量的变量或与其高度相关的变量。分层的原则是增加层内的同质性和层间的异质性。常见的分层变量有性别、年龄、教育、职业等。分层随机抽样在实际抽样调查中广泛使用,在同样样本容量的情况下,它比纯随机抽样的精度高,此外管理方便,费用少,效度高。

系统抽样

又称等距抽样。是纯随机抽样的变种。在系统抽样中,先将总体从1~N相继编号,并计算抽样距离K=N/n。式中N为总体单位总数,n为样本容量。然后在1~K中抽一随机数k1,作为样本的第一个单位,接着取k1+K,k1+2K……,直至抽够n个单位为止。

系统抽样要防止周期性偏差,因为它会降低样本的代表性。例如,军队人员名单通常按班排列,10人一班,班长排第 1名,若抽样距离也取10时,则样本或全由士兵组成或全由班长组成。

整群抽样

又称聚类抽样。先将总体按照某种标准分群,每个群为一个抽样单位,用随机的方法从中抽取若干群,抽中的样本群中所有单位都要进行调查。与分层抽样相反,整群抽样的分类原则是使群间异质性小,群内异质性大。分层抽样时各群(层)都有样本,整群抽样时只有部分群有样本。整群抽样只需列出入样群的单位,因此可节约大量财力、人力。整群抽样的代表性低于简单随机抽样。

多阶段抽样

又称多级抽样。前 4种抽样方法均为一次性直接从总体中抽出样本,称为单阶段抽样。多阶段抽样则是将抽样过程分为几个阶段,结合使用上述方法中的两种或数种。例如,先用整群抽样法从北京市

某中等学校中抽出样本学校,再用整群抽样法从样本学校抽选样本班级,最后用系统或纯随机抽样从样本班级的学生中抽出样本学生。当研究总体广泛且分散时,多采用多阶段抽样,以降低调查费用。但由于每级抽样都会产生误差,经多级抽样产生的样本,误差也相应增大。

二、问题:

1、成为一个随机试验需要满足的三个特性是什么?

(1)试验可以在相同条件下多次重复进行;

(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;

(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。

2、刻画事件发生可能性大小的数量指标至少应该满足的两个要求:

⑴它应该是事件本身所固有的,不依人的主观意志为转移的一种客观的度量,而且在相同条件下可以通过大量的重复试验予以识别和检验。

⑵如果事件B包含事件A,则事件A发生的可能性就不会大于事件B发生的可能性。必然事件的值应该最大,不可能事件的值应该最小。

3、简答离散型随机变量的概率分布和连续型随机变量的概率分布在表示方式(形式)上的区别和特点

答:离散型随机变量的概率分布可用函数式表示,因离散型随机变量结果的有限性或可数性,故常用表格来表示,每一个结果对应着一个概率。连续型随机变量的概率分布也可用函数式表示,因连续型随机变量结果的无限性和不可数性,其概率分布无法用表格表示,通常采用坐标曲线图来表示,不能显示每一个结果和对应的概率,而是显示a

4、统计学中常用的离散型随机变量的概率分布有哪些?说明它们各自的特征。

答:统计学中常用的离散型随机变量的概率分布有二点分布、二项分布、几何分布和泊松分布。它们各自的特征如下:

⑴二点分布:随机变量的取值只有两个,且互为对立事件,概率常用p和q表示,p=1-q。两点分布又称伯努利分布,为纪念瑞士科学家詹姆斯〃伯努利(Jacob Bernoulli 或James Bernoulli)而命名。

⑵二项分布:是从二点分布总体中随机独立抽样的抽样分布(抽样结果的概率分布)。从二项分布总体中随机独立重复抽样(每次抽n个个体),抽样结果是观察某一事件A(2个对立事件之一,或2种结果之一)发生的次数,则一切可能次数的概率是有规律的,这一规律可以用一个函数式表示

P…A发生的次数?=C n k p k q k-1

从同一个二点总体中随机抽样,不同的抽样方式,即n不同,则结果服从不同的二项分布。或者说,一个二点总体,因抽样方式n不同,而对应着许许多多个二项分布。

⑶几何分布:是从二点分布总体中随机独立抽样的抽样分布(抽样结果的概率分布)。从二项分布总体中随机独立重复抽样(每次抽一个个体),抽样结果是观察某一事件(2个对立事件之一,或2种结果之一)首次发生在第几次?则所有可能结果的概率是有规律的,这一规律可以用一个函数式描述

P…X=k?=pq k-1 ( k=0,1,…,p=1-q )

称为几何分布。一个二点总体对应着一个几何分布。

⑷泊松分布:是从已知生物平均密度的总体(面积、体积、时间等)中随机独立抽样的抽样分布(抽样结果的概率分布)。从已知生物平均密度的总体(面积、体积、时间等)中随机独立抽样(每次抽n个单位),抽样结果是观察n个单位中生物个体的数目,则所有可能结果的概率是有规律的,这一规律可以用一个函数式描述

P k=C k N(D/V)k((V-D)/V)N-k

称为泊松分布。一个已知生物平均密度的总体,因抽样方式n不同,而对应着许许多多个泊松分布5、简答正态分布和标准正态分布的特征

答:正态分布是生物数量性状中常见的概率分布。用坐标曲线图表示时,有以下特点:

⑴曲线呈钟形,x轴为渐进线(x→±≦时)

⑵曲线关于直线x=μ对称

⑶在x=μ处曲线达到最大值,在x=μ±σ处曲线有拐点。

⑷正态分布的密度曲线与x 轴之间的面积等于1,而且曲线下介于x=x1到x=x2之间的面积等于随机变量落于区间(x1,x2)的概率。

正态分布是依赖于两个参数μ和σ2的一族分布。定义μ=0和σ2=1的正态分布为标准正态分布。或答:正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。遵从正态分布的随机变量的概率规律为取μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2=1时,称为标准正态分布,记为N(0,1)。

6、简答数学期望及其性质

答:描述随机变量取值的平均状况的数字特征。有以下性质

⑴对任意常数C来说,EC=C

⑵设X是随机变量,C是常数,则E(CX)=C(EX)

⑶设X和Y是任意两个随机变量,则有E(X+Y)=EX+EY

⑷设X和Y是相互独立的两个随机变量,则有E(XY)=(EX)(EY)

7、利用标准正态分布的概率表可以查找标准正态总体中某一取值的累积概率,对于无穷多个非标准正态总体,为什么也可以利用标准正态分布的概率表查找已知总体参数(总体期望和总体方差)的非标准正态总体某一取值的累积概率?

答:因为对于非标准正态总体,只要已知其(总体期望和总体方差),即可利用标准化公式

σμ

-

=X

U,将非标准正态总体的每一个取值x都转化为标准正态总体中的对应取值u,u的累积概率等于x的累积概率,因此在一般的正态分布中某一区间的概率也可以转化成标准正态分布中相应范围内的概率,所以正态分布的查表求概率只需要编制标准正态分布的概率表一个表即可。

1、基本事件有一个重要的性质,就是在一次试验中只能发生基本事件中的一个。换句话说,在一次试验中两个和两个以上的基本事件不可能同时发生。

2、随机变量的数字特征中,最重要的两个是数学期望和方差。

第四章、抽样分布及统计推断原理

一、基本概念:

1、样本统计量:由样本信息(资料)计算,或构造的用以估计总体参数,或反映总体取值规律的特征量,通过随机抽样研究总体时,研究的目的不同、观察的角度不同,抽样方式会不同,抽样结果的表示形式也不同,我们将数量化的抽样结果统称为样本统计量,简称统计量。样本统计量也是随机变量,如样本均数、方差、标准差、相关系数等,还可以有其它的形式,如χ

2、 t、 F 等,其分布规律也可以是多样的,如χ2分布、 t 分布、 F分布等。

2、抽样分布:样本统计量的概率分布。

3、假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,按照“小概率原理”作出拒绝或接受假设H0的判断,因为是基于小概率原理作出的推断,不能作出对假设H0的无偏差推断,只能判断总体间的差异是否显著,但已能满足生物学研究,或生产实践中对总体推断的需要。常用的假设检验方法有u—检验法、t—检验法、X2检验法、F—检验法,秩和检验等。

6、小概率原理:小概率事件在一次观测中可以认为基本上不会发生,如果一次观测就发生了小概率事件,我们就认为这个现象是不合理的。

7、大数定律:随着样本容量n的增加,一个总体X的随机样本的平均数与总体的期望值的偏差小于任

给定的(很小的)数的概率将趋近于1。

8、中心极限定理:无论一个总体的分布如何,只要它有有限的方差,那么当样本的容量n相当大时,样本平均数将近似地服从正态分布。

二、问题:

1、简单阐述统计量(举例)

答:由样本信息(资料)计算,或构造的用以估计总体参数,或反映总体取值规律的特征量,通过随机抽样研究总体时,研究的目的不同、观察的角度不同,抽样方式会不同,抽样结果的表示形式也不同,我们将数量化的抽样结果统称为样本统计量,简称统计量。因抽样的随机性,样本统计量也是随机变量,最基本的统计量是按一定样本容量进行抽样的样本平均数和样本方差。样本平均数统计量表示按一定样本容量从一总体中进行随机抽样,所有可能的样本平均数取值;样本方差统计量则表示按一定样本容量从一总体中进行随机抽样,所有可能的样本方差取值。统计量还可以有其它的形式,如、标准差、相关系数、χ2、 t、 F 等,其分布规律也可以是多样的,如χ2分布、 t 分布、 F分布等。

2、显著性检验中,最重要的三个抽样分布是什么?它们各自的基本特征是什么?

答:显著性检验中,最重要的三个抽样分布是x2分布、t分布、F分布,均为从正态总体中进行随机抽样的样本统计量的概率分布。

x2分布的基本特征:分布在一象限内,呈正偏态,随着自由度的变化而形成一簇分布形态,且随着自由度的增加而由正偏态分布趋于正态分布。平均取值和方差依自由度而变化,平均数等于自由度,方差等于二倍自由度。

t分布:为一簇平均取值为零,方差大于1的正态分布,且随着自由度的增加而趋于标准正态分布。

F分布:F 分布在一象限内,呈正偏态,随着两个自由度的的增大,趋近于正态分布。一般情况下,F分布的均值接近1,方差一般都小于 1,且随两自由度的增大越来越小。

3、大数定律告诉我们什么?

答:大数定律:随着样本容量n的增加,一个总体X的随机样本的平均数与总体的期望值的偏差小于任给定的(很小的)数的概率将趋近于1。

这个定律告诉我们:不管随机变量总体的分布如何,只要样本的容量充分大,样本平均数一般来说总能够与总体的期望值相当接近。

4、中心极限定理告诉我们什么?

答:中心极限定理:无论一个总体的分布如何,只要它有有限的方差,那么当样本的容量n相当大时,样本平均数将近似地服从正态分布。

这个定律告诉我们:对于来自任何具有有限方差和期望值的总体的随机样本的平均值,只要样本的容量足够大,就可以认为它近似地服从期望值为μ,方差为σ2/2的正态分布。

5、简述正态分布在生物统计中的重要性。

答:在生物统计的理论与实践中正态分布占有重要的地位,之所以如此,一方面在于许多生物现象所形成的随机变量的总体都相当好地接近于正态分布。另一方面,由关正态分布的理论研究已经比较成熟,使我们能够比较容易地实现对正态总体从样本到总体的推断。正因为如此,生物统计中的大量理论和方法都是以正态总体及其抽样分布为基础展开的。

6、在生物统计上最基本的问题是由样本观测值对总体的某些特征进行,为什么将这一推断称为统计推断?

答:由于样本的随机性,样本观测值不可避免地会出现抽样误差,这样一来,利用样本观测值来推断总体时与通常的数学推理就不大一样,一般这种推断没有一个百分之百肯定的结论,是在一定概率下成立的推断;且因抽样结果的随机性,重复抽样可能会有不同的结果,总是带有随机的特点,因此称这类推断为统计推断,以区别于数学推理。

7、统计推断原理:统计推断即假设检验,是数理统计学中根据一定假设条件由样本推断总体的一种方法,其基本的原理和方法是利用了反证法、小概率原理和抽样分布等完成推断。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,

按照“小概率原理”作出拒绝或接受假设H0的判断,因为是基于小概率原理作出的推断,不能作出对假设H0的无偏差推断,只能判断总体间的差异是否显著,但已能满足生物学研究,或生产实践中对总体推断的需要。常用的假设检验方法有u—检验法、t—检验法、X2检验法、F—检验法,秩和检验等。

8、统计推断步骤:

统计推断是指利用样本信息对未知总体的取值规律做出推断,

1、首先,对未知总体的取值规律做出结果相反的两种假设,即零假设和备择假设。通常是根据待解答的问题,选择总体的某种参数作为假设对象,即对总体参数的确定,能够回答待解决的问题。

2、第二步是根据待推断的参数,在零假设成立的前提下,选择、或构造一个样本统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;依样本统计量的要求进行一次抽样,并根据抽样结果计算出一次样本统计量值。

3、第三步,是将一次抽样结果的样本统计量值,放在零假设成立前提下的已知抽样分布中进行检验,依小概率原理,判断抽样结果的合理性。

4、第四步,根据抽样结果的合理性,对原假设进行推断,即对零假设和备择假设做出选择,从而完成对总体参数的确定,进而能够回答待解决的问题。

7、统计推断时,对无效假设H o有什么要求?

答:首先必须与我们要分析的问题紧密地联系在一起,将来无论是拒绝这个假设还是不拒绝这个假设都可能成为我们所讨论的问题的答案。其次,所做的假设也必须有利于我们构成和计算某个统计量,且在假设H0成立时,其分布为已知,这样一来,我们就可以根据统计量的分布规律来判别观测值出现的概率。

8、简述假设检验的两类错误

答:在做统计推断时,由于是基于“小概率事件在一次观测中不会发生”这样一个认识来拒绝原来的假设的,因此,推断结果必然在一定概率上可能是错误的。

可能把原本正确的假设否定了,我们称这样的错误为第一类错误;如果假设H o是错误的,但在推断时我们却不能否定它,称之为第二类错误。

只要用抽样的方法进行判断,不管怎样选择否定域,总是要犯错误的,而且当样本的容量给定以后,否定域越小,犯第一类错误的概率越小;犯第二类错误的可能性就越大。反之,假设的否定域越大,犯第一类错误的可能性越大,犯第二类错误的可能性就越小。

9、用于估计总体参数的样本均值和方差的理想标准是什么?

答:由于抽样指标是一个随机变量,随着抽取的样本不同,便有不同的估计值,因此,要判断一种估计量的好环,仅从某一次试验的结果来衡量是不够的,而应从多次重复试验中,看这种估计量是否在某种意义上最接近于被估计参数的真值。一般地说,用抽样指标估计总体指标应该有无偏性、有效性和相合性(一致性)三项基本要求或标准:

1、无偏性:是指由样本推断总体时样本估计值不受系统误差的约束程度,在待估总体参数的真值附近摆动,对待估总体参数的真值无偏倚。从分析测试的观点看,无偏性意味着测定的准确度。

2、有效性:是指由样本推断总体时样本估计值不受随机误差的约束程度,作为优良估计量的方差应该比其他估计量的方差小,通俗地讲就是重复性好。从分析测试的观点看,有效性意味着测定的精确度。

3、相合性(一致性):大样本准则,即在样本大小趋于无穷时的优良性准则。如果样本容量越大估计值越接近真值,那么这种估计量是相合估计量,即当样本容量充分大时,抽样指标也充分地靠近总体指标。

三、填空题:

1、用于估计总体参数的样本均值和方差的理想标准是无偏性和有效性。

2、若X ~N(μ,σ2),从该总体中按容量为n抽取样本,则样本x~N(μ,σ2/2)

第五章、t检验

一、基本概念:

1、T检验:亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料,通过两样本平均数之间差异推断两个未知总体均数差异显著性的检验。

2、接受域和否定域:用来判断是否接受原假设H0的取值区间,能够接受原假设H0的取值区间称为接受域,能够否定原假设H0的取值区间称为接受域。

3、单尾检验和双尾检验:否定域位于取值分布的某一侧时(或左尾,或右尾),称为单尾检验;否定域位于取值分布的两侧时(左尾和右尾各一),称为双尾检验。

4、方差齐性检验:从统计上检验各方差在给定的显著性水平下是否齐性(一致性)(差异不显著)。

检验方差齐性的方法有很多(c2-检验法,F-检验法,巴特莱检验法,科克伦检验法,哈特利检验法等),生物统计学最常用的方法是F-检验法。

二、简答题:

1、成组数据平均数的t检验与配对数据平均数的t检验有什么联系和区别?

答:成组数据平均数的t检验与配对数据平均数的t检验都是检验两个样本平均数所属总体平均数是否相等的假设检验方法,但实验设计的原理和方法不同。当试验单元的初始条件的一致性容易控制时,通常采用成组设计,此时,样本均数的差异可以真实反映处理效应;当试验单元的初始条件的一致性难以控制时,宜选用采取了局部控制的配对设计,此时处理效应可以通过配对数据的差值得到真实反映。

成组数据资料的特点是指两个样本的各个变量是从各自总体中抽取的,两个样本之间的变量没有任何关联,即两个抽样样本彼此独立。这样,不论两样本的容量是否相同,所得数据皆为成组数据。两组数据以组平均数进行比较,来检验其差异的显著性。

配对数据的比较要求两样本间配偶成对,每一对除随机地给予不同处理外,其它试验条件应尽量一致。配对数据是对各对数据差值的平均差值进行检验。

配对数据较之成组数据,由于同一配对内两个供试单位的试验条件非常接近,而不同配对间的条件差异又可以通过各个配对差数予以消除,因而,可以控制试验误差,具有较高的精确度。而且,在进行假设检验时,不必考虑两样本的总体方差是否相同,只需假设两样本的总体差数μd=μ1-μ2=0。2、在t检验时,单尾检验和双尾检验应用时有什么区别?

答:如果总体平均数μ可能大于μ0,也可能小于μ0,备择假设H A为μ≠μ0,在样本平均数的抽样分布中,否定区(域)位于分布的两尾,称为双尾检验。

如果已经知道μ不可能小于μ0,备择假设H A应为μ>μ0,在样本平均数的抽样分布中,否定区(域)位只能有一个,相应的检验也只能考虑一侧的概率,这种具有左尾和右尾一个否定区(域)的检验叫单位检验。

3、简要说明单样本频率的假设检验的定义,举出一个实例(不作检验)。

答:利用一个来自二点总体的样本频率与某一理论频率的差异对二点总体的基本概率做出推断。

或答:检验一个样本百分数与已知的二项总体百分数差异是否显著的检验方法。

举例:有一批蔬菜种子的平均发芽率p0=0.85,现随机抽取500粒,用种衣剂进行浸种处理,结果有445粒发芽,试验种衣剂对种子发芽率有无效。

(或其它例子)

4、要检验两个来自二点总体的样本频率p1的p2差异,应采用什么方法,举出一个实例(不作检验)。

答:应采用两个样本频率的假设t检验进行检验。

举例:某养猪场第一年养猪225头,死亡23头;第二年养猪368头,死亡28头。试检验这两年猪的死亡率是否有显著差异?

(或其它例子)

三、填空题:

1、对平均数作检验时:

⑴总体σ2未知,或小样本时,样本呈t分布,检验单个样本与总体的差异或两个样本间的差异,作t检验。

⑵总体σ2已知,或大样本时,样本呈正态分布,检验单个样本与总体的差异,或检验两个大样本间平均数的差异,作U检验。

2、当样本容量n<30,且总体方差σ2未知时,就无法使用U检验法对样本平均数进行假设检验,这时,要检验样本与指定总体的平均数或两样本平均数间的差异显著性,就必须使用t检验法。

第六章、x2检验

一、基本概念:

拟合优度、拟合优度检验、理论频数、独立性检验

1、拟合优度:指观察到的样本表现与某种理论模型吻合的程度。

2、拟合优度检验:对观察的样本表现与所选某种理论模型的拟合程度作推断判决。

或答:对观察到的样本各结果的实测频数与按某种理论分布进行分配的理论频数的拟合程度作出判断,以推断样本所在总体的概率分布是否与某种理论分布相吻合。

3、理论频数:样本假如按照按某种理论分布进行分配时的频数。

4、独立性检验:利用两种随机现象同时发生时的样本表现,检验两种随机现象是否相互独立。

或答:考察两种分类(分组)方法是否相互独立的检验。

第七章、方差分析

一、基本概念:

处理效应、试验指标、试验因素、因素水平、试验处理、试验单位、重复、固定因素、随机因素、固定模型、随机模型、混合模型、主效应、交互作用、多重比较、方差分析

1、处理效应:在一个多处理试验中,因为因素处理的不同而引起的各组观测值的不同,称为处理效应或条件变异。

2、试验指标(experimental index):为衡量试验结果的好坏和处理效应的高低,在实验中具体测定的性状或观测的项目称为试验指标。常用的试验指标有:身高、体重、日增重、酶活性、DNA含量等等。

3、试验因素(experimental factor):试验中所研究的影响试验指标的因素叫试验因素。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素对试验指标的影响时,则称为两因素或多因素试验。

4、因素水平(level of factor): 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如研究3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平。

5、试验处理(treatment): 事先设计好的实施在实验单位上的具体项目就叫试验处理。如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体饲喂哪一种饲料。

6、试验单位(experimental unit ): 在实验中能接受不同试验处理的独立的试验载体叫试验单位。一只小白鼠,一条鱼,一定面积的小麦等都可以作为实验单位。

7、重复(repetition): 在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。

8、固定因素:是指因素的水平可以严格地人为控制,水平固定后它的效应值也是固定的,试验重复时可以得到相同的结果,对单个或多个固定因素作用的方差分析应采用固定模型。

9、随机因素:是指因素的水平是从总体全部水平中随机抽取的样本,水平不能严格人为控制,在水平确定之后其效应值并不固定,重复试验时也很难得出相同的结果,这类试验通过样本对所属总体作出推断时应采用随机模型。

10、固定模型:方差分析数学模型之一,是指各个处理的效应值是固定的,各个处理的平均效应是一个

常量,且各个处理的效应值之和为零。得出的结论只适合固定因素的这几个处理水平上。

11、随机模型:方差分析数学模型之一,是指各个处理的效应值不是固定的数值,而是由随机因素所引起的效应。各个处理的效应值是一个随机变量,是从期望均值为0,方差为σ2的正态总体中得到的随机变量。得出的结论可以推广到随机因素的所有处理水平上。

12、混合模型:在多因素试验中,若既有固定因素,又有随机因素存在时,方差分析所采用的模型称为混合模型。

13、主效应:方差分析中,各试验因素的相对独立作用称为该因素的主效应。

14、交互作用:方差分析中,某一因素在另一因素的不同水平上所产生的效应不同,称两因素间存在交互作用。

15、多重比较:要明确不同处理平均数两两间差异的显著性,每个处理的平均数都要与其它的处理进行比较,这种差异显著性的检验就叫多重比较。

16、方差分析:是检验单因素或多因素多水平(处理)效应值间平均数差异,以及各因素间的交互作用的统计方法。它是对因素总体处理效应的显著性检验,在总体效应差异显著的前提下,因素内水平间一对一的比较应采用多重比较。

二、问题

1、方差分析的基本思想

答:是将测量数据的总变异按照变异原因不同分解为处理效应和试验误差,并作出其数量估计。

通过方差比较以确定两种原因在总变异中所占的重要程度,如果处理效应和试验误差相差不大,说明试验处理对指标影响不大,如果二者相差较大,处理效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。

2、方差分析的步骤

答:⑴先作零假设和备择假设,设定显著性水平.

⑵根据实验设计,确定(各)因素是固定因素还是随机因素,以选取事宜所数学模型.

⑶将样本数据的总平方和与自由度分解为各变异因素的平方和与自由度.

⑷列方差分析表进行F检验,以弄清各变异因素在总变异中的重要程度

⑸依据设定的显著性水平,接受零假设或备择假设

⑹对作用显著的因素各处理平均数进行多重比较

⑺根据因素类型和显著性检验结果,作出正确的结论. 固定因素的结论只限于所设计的那几个水平,随机因素的结论适用于实验水平来源的总体所有水平。

3、我们学过的多重比较方法有几种?在显著性尺度和适用性上有什么差别?

答:我们学过的三种多重比较方法中,在样本数M=2时,LSD法、SSR法和q检验法的显著性尺度是相同的。当M≥3时,三种方法的显著性尺度便不相同,LSD法最低,SSR法次之,q检验法最高。因此,在实际应用中,对于差异性要求较高的试验应该使用q检验法,一般试验可用SSR检验法,试验中各个处理平均数皆与对照比较的可用LSD检验法

4、方差分析中,F检验对于多重比较有什么意义?

答:方差分析中,F检验用于判断引起各平均数之间的差异主要是实验误差效应还是处理效应,只有确定通过F检验判断引起各平均数之间的差异主要是处理效应时,基于试验目的,各平均数的多重比较才有意义,才能真实地反映处理效应造成的总体之间的差异。

三、填空题:

1、方差分析是对各因素总体处理效应的显著性检验,各因素内水平间一对一的比较方法是多重比较。

2、在总体处理效应差异显著的前提下,需要进行多重比较的分析。

3、最小显著差数法的实质是两个平均数相比较的t 检验法。

第八章、直线回归与相关

一、基本概念:

1、回归系数:回归分析中度量依变量对自变量的相依程度的指标,它反映当自变量每变化一个单位时,依变量所期望的变化量。

2、相关系数:是指由于回归因素所引起的变异与总变异之比的平方根。

3、决定系数:是相关系数的平方值。定义为由x不同引起的y变数平方和占y变数总平方和的比率。

二、问题:

1、什么是回归分析与相关分析?

答:生物科学研究中,常常需要同时研究两个或两个以上变数之间的协同变异关系,必须把这些变数放在一起进行研究,目的是寻找它们之间所存在的变异规律性。

当一个变量的变化受另一个或几个变量的影响,存在着明显的因果关系时,如仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的影响,子代的体高受亲本体高的影响,对这样的协同变异关系的定量描述和分析,着重于建立函数式,即建立由自变量x来预测依变量y的回归方程,以确定当给自变数为某一值时依变数所期望的变化量,实现由自变量预测依变量,并对回归方程的有效性进行检验,我们将这样的统计分析称之为回归分析。

当两个或几个变量协同变异的变量之间分不清明显的因果关系时,称之为平行关系,对呈平行关系的协同变异关系的定量描述和分析,着重于变量间联系的密切程度,或相互影响的程度,通常用相关系数和决定系数来定量描述,并对相关系数和决定系数进行有效性检验,我们将这样的统计分析称之为相关分析。

2、什么是回归模型及回归分析?

答:回归模型是指在研究的两个变数中,其中一个变数x是自变数,它是固定的,是试验时预先确定的,没有误差或误差很小,而另一个变数y则是因变数,它不仅随着x的变化而变化,而且有随机误差。

回归模型除有自变数和依变数的区别外,尚具有预测的特征,即具有由x的数量变化预测y的数量变化的作用。在统计分析上就是要建立由x来预测y的回归方程,并确定当给自变数为某一值时依变数将会在什么范围内变化。对回归模型资料的这种分析就称为回归分析。

3、什么是相关模型及相关分析?

答:相关模型是指在研究的两个变数是平行变化关系,皆具有随机误差,分不清谁是自变数,谁是依变数。所以相关模型的特征是仅表示两个变数的协同变异,不具有预测性质。

对相关模型资料的分析叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。

4、相关系数与决定系数有什么区别?

答:相关系数r既可表示变数间的相关程度,也可表示变数间的相关性质;而决定系数只能表示变数间的相关程度,而不能表示变数间的相关性质。应用决定系数,可以避免对相关系数所表示的相关程度作过分夸张的解释。

5、回归系数的显著性检验对回归方程、相关系数、决定系数有什么意义?

答:回归方程、相关系数、决定系数均是有样本信息构造的关于总体参数的估计量,因为试验误差的存在,难以毫无偏差地反映变量之间的是否存在协同变异关系,回归系数的显著性检验可以判断由样本信息构造的反映协同变异的定量指标回归系数、相关系数和决定系数反映的主要是试验误差效应,还是真正的协同变异关系。因回归系数的检验与相关系数的检验有等效性,故回归系数的显著性检验可以反映回归方程、相关系数、决定系数是否有意义。

三、填空题:

1、直线回归关系中,x是没有误差的固定变数,至少和y比较起来x的误差是小到可以忽略的;而y 则是随机变数。

2、直线回归关系中,任一x上都有一个y总体,它是呈正态分布的。

3、回归分析的目的是要建立由自变数变化来预测依变数变化的回归方程。

回归分析的内容一般包括回归方程的确定和回归关系的显著性检验。

4、相关分析的目的是要了解变数间变异的密切程度和性质。

5、一元相关分析的内容包括相关系数的计算和相关关系的显著性检验。

第九章、非参数检验

一、基本概念:

1、非参数检验:又称为任意分布检验(distribution-free test),它不考虑研究对象总体分布具体形式,也不对总体参数进行统计推断,如平均数、标准差等。而是利用样本数据之间的大小比较及大小顺序,对样本及其所属总体作差别检验,即检验样本所代表的总体分布形式是否一致。

二、问题:

1、什么是参数检验和非参数检验

答:非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。

2、非参数检验的优缺点有哪些?

非参数检验的优点:

①适用范围广,不论样本来自的总体分布形式如何,都可适用;

②某些非参数检验方法计算简便,研究者在急需获得初步统计结果时可采用;

③易于理解和掌握;

④可用于不便精确测量的资料或等级资料。

非参数检验的缺点:

①对符合用参数检验的资料,如用非参数检验,会丢失信息,导致检验效率下降,犯第Ⅱ类错误

的可能性比参数检验大。

②虽然许多非参数检验计算简便,但有些问题的计算仍显繁冗。

2、我们学过的非参数检验有哪些?相对于参数检验,非参数检验有哪些特点?

答:我们学过的非参数检验有符号检验、游程检验、秩和检验和秩相关检验。

相对于参数检验,非参数检验的特点有:

⑴不是针对总体参数进行的;

⑵不必考虑总体分布类型;

⑶在使用样本信息上仅依靠观察值的相对大小或大小次序即可进行,因而方法简便易行;

⑷缺点是,最后加工出来的信息结论稍粗糙。

3、由两个小样本观测资料推断两个样本所在总体的总体水平是否有差异时,除了t检验法外,还可以使用何种检验方法进行统计推断。它们相对于t检验法有哪些特点?

答:还可以使用符号检验、游程检验和秩和检验等非参数检验法。

相对于t检验法,这些非参数检验法的特点有:

⑴不是针对总体参数进行的;

⑵不必考虑总体分布类型;

⑶在使用样本信息上仅依靠观察值的相对大小或大小次序即可进行,因而方法简便易行;

⑷缺点是,最后加工出来的信息结论稍粗糙。

第十章、试验设计

一、基本概念:

1、重复(举例):重复就是将一个基本试验重复做一次或几次。例如,测定不同年龄组正常人的血红蛋白含量的试验,在每一年龄组内测定一人,即为一个基本试验。若将这个基本试验重做5次,即每一年龄组,抽取5人测定,则称该试验有5次重复。

2、随机化:随机化是指试验材料的配置和处理的顺序都是随机确定的。用随机排列与重复结合,试验就能提供无偏的试验误差估计值。

3、局部控制:局部控制就是分区域分时间地控制非试验因素,使对试验处理的影响除试验因素不一致外,其余条件尽量一致,其作用也是为了降低试验误差。

4、完全随机设计 (Complete randomization) :又称成组设计,采用完全随机化的方法将同质的受试对象分配到各处理组,然后观察、比较各组的实验效应。是用随机化的方式来控制误差变异,试验单位的差异在因为随机化在各组均数之间达到最小。缺点是试验误差极易受到极大值或极小值的影响,只有试验单位的初始条件容易控制时,实验结果才会精确。

5、随机区组设计(Randomized block design )(Block randomization):亦称完全随机区组设计(random complete block dsign )。这种设计的特点是根据“局部控制”的原则,分离出由无关变量引起的变异,其要点是要做到区组内尽量同质,区组内各处理都独立的随机排列,区组间的差异作为独立因素进行分析,使得实验结果的差异更好地反映不同处理的影响。

6、拉丁方设计(Latin square design )是利用拉丁方巧妙安排三个无交互作用因素的试验设计方法,在更多的情况下是用来实现局部控制的试验设计方法,使研究人员得以在统计上控制两个不相互作用的外部变量(非处理因子)并且操纵自变量(处理因子)。每个外部变量(非处理因子)或分区变量(非处理因子)被划分为一个相等数目的区组或水平,自变量(处理因子)也同样被分为相同数目的水平。

7、正交试验设计(Orthogonal experimental design) :是研究多因素多水平的一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,代表性点的数量因因素的数量和水平的数量不同而不同,但是确定的,并被制成固定的正交表形式,这些有代表性的点具备了“均匀分散,齐整可比”的特点, 即在考察某一因素,如A 因素各水平的差异时,A 因素各水平对应观测值的均数受到其他因素的影响是均等的,因而能够反映A 因素不同水平间的差异。正交试验设计的关键在与试验因素的安排,通常,在不考虑交互作用的情况下,可以自由的将各个因素安排在正交表的各列,只要不在同一列安排两个因素即可(否则会出现混杂)。但是当要考虑交互作用时,就会受到一定的限制,如果任意安排,将会导致交互效应与其它效应混杂的情况。

因素所在列是随意的,但是一旦安排完成,试验方案即确定,之后的试验以及后续分析将根据这以安排进行,不能再改变。

在完成试验收集完数据后,将要进行的是方差分析,只有F 检验显著时,表明引起某一因素不同水平之间样本均数差异的主要原因是处理效应时,样本均数的多重比较才有意义。

二、问题:

1、设置重复有什么作用(主要作用)?

答:最主要的作用是估计试验误差,试验误差是客观存在的,但只能由n 个同一基本试验处理间的差异来进行估计,若没有重复,每一基本试验处理就只有一个数值,则无从求得差异,也就无法估计误差。 设置重复的另一个主要作用是降低试验误差,因而也可以提高试验的效度。从n S

S x =可知,重

复多,则误差小,若有四次重复的试验,其误差将只有一个重复的同类试验的一半。

2、一般来说,生物科学的试验过程可归纳为的DECA 四个阶段是指什么?

答:D 是设计;E 是试验;C 是检查;A 是分析。

3、试验设计四个阶段中“设计”阶段的要点是什么?

答:明确试验的目的性,研究设计的周密性,回答五个W 和一个H :why,为何干?(必要性); what,

干什么?(目的);where,何处干?(期限);who,谁来干?(方法)。

4、试验设计四个阶段中“设计”阶段的步骤与要求是什么?

答:明确目的,把目的深刻化、典型化、具体化。进行设计,确定合理的方案,使因素的影响尽量不被其他变量掩盖,使试验便于统计分析与估计误差。

5、试验设计四个阶段中“试验”阶段的要点是什么?

答:注意条件的一致性,确保操作的正确性,注意个M:Man,人,操作者;Material,材料;Method,方法;Management,管理。

6、试验设计四个阶段中“试验”阶段的步骤与要求是什么?

答:进行试验,避免差错,尽量使试验不受偏差影响。

三、填空题:

1、用随机排列与重复结合,试验就能提供无偏的试验误差估计值

2、随机排列的方法可用抽签法或利用随机数字表等方法确定。

3、采用重复、随机化和局部控制三个基本原则而作出的试验设计,配合适当的统计分析,就既能准确地估计试验处理效应,又能获得无偏的、最小的试验误差估计,对于所要进行的各试验处理间的比较才能作出可靠的结论。

4、一般来说,生物科学的试验过程可归纳为的DECA四个阶段是指、、

答:D是设计;E是试验;C是检查;A是分析。

5、一个试验要想获得事半功倍的最佳试验结果,必须有一个较为优秀的试验设计,一个优秀的试验设计必须遵循重复、随机化和局部控制这三大原则,从而才能最大限度地降低试验误差和真正做到无偏地估计试验误差,最终达到提高试验效度的目的。

6、试验的最基本功能是比较出各试验处理间有无显著差异。

7、从试验处理的多少可以将试验设计成两种和两种以上处理的比较试验两大类。

8、两种处理的试验设计有成组设计和成对设计两种,它们最常用的统计分析方法是成组t检验和成对t 检验。

9、多个处理的试验设计虽复杂,但其基本原理都一样,从试验控制(局部控制)的角度看,有完全随机化试验和随机区组试验两大类,它们实际上也是成组设计和成对设计的发展。

生物统计学重要知识点

生物统计学重要知识点 (说明:下列知识点为考试内容,没涉及的不需要复习。注意加粗的部分为重中之重,一定要弄懂。大家要进行有条理性的复习,望大家考出好成绩!) 第一章概论(容易出填空题和名词解释) 1、生物统计学的目的、内容、作用及三个发展阶段 2、生物统计学的基本特点 3、会解释总体、个体、样本、样本容量、变量、参数、统计数、效应和互作 4、会区分误差(随机误差和系统误差)与错误以及产生的原因 5、会区分准确度和精确度 第二章试验资料的整理与特征数的计算(容易出填空和名词解释) 1、随机抽样必须满足的两个条件 2、能看懂次数分布表和次数分布图,会计算全距、组数、组距、组限和组中值 3、会求平均数(算数、加权和几何)、中位数、众数,算术平均数的重要特性 4、会求极差、方差、标准差和变异系数,理解标准差的性质 第三章概率与概率分布(选择、填空和计算) 1、理解事件、频率及概率,事件的相互关系,加法定理和乘法定理的运用 2、概率密度函数曲线的特点和大数定律 3、二项分布、泊松分布和正态分布的概率函数和标准分布图像特征,会计算概率值 4、理解分位数的概念,弄清什么时候用单尾,什么时候用双尾 5、样本平均数差数的分布 第四章统计推断(计算) 1、无效假设和备择假设、显著水平、双尾检验和单尾检验、假设检验的两类错误,会根据 小概率原理做出是否接受无效假设的判断 2、总体方差已知和未知情况下如何进行U检验 3、一个样本平均数的t检验(例4.5) 成组数据平均数比较的t检验(例4.6和4.7) 4、一个样本频率的假设检验(例4.11),知道连续性矫正 5、参数的区间估计(置信区间)和点估计

生物统计学考试复习题库

生物统计学各章题目 一 填空 1.变量按其性质可以分为(连续)变量和(非连续)变量。 2.样本统计数是总体(参数)的估计值。 3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。 4.生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。 5.生物统计学的发展过程经历了(古典记录统计学)、(近代描述统计学)和(现代推断统计学)3个阶段。 6.生物学研究中,一般将样本容量(n ≥30)称为大样本。 7.试验误差可以分为(随机误差)和(系统误差)两类。 判断 1.对于有限总体不必用统计推断方法。(×) 2.资料的精确性高,其准确性也一定高。(×) 3.在试验设计中,随机误差只能减小,而不能完全消除。(∨) 4.统计学上的试验误差,通常指随机误差。(∨) 二 填空 1.资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。 2. 直方图适合于表示(连续变量)资料的次数分布。 3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。 4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)。 5.样本标准差的计算公式s=( )。 判断题 1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。(×) 122 --∑∑n n x x )(

2. 条形图和多边形图均适合于表示计数资料的次数分布。(×) 3. 离均差平方和为最小。(∨) 4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。(∨) 5. 变异系数是样本变量的绝对变异量。(×) 单项选择 1. 下列变量中属于非连续性变量的是( C ). A. 身高 B.体重 C.血型 D.血压 2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成( A )图来表示. A. 条形 B.直方 C.多边形 D.折线 3. 关于平均数,下列说法正确的是( B ). A. 正态分布的算术平均数和几何平均数相等. B. 正态分布的算术平均数和中位数相等. C. 正态分布的中位数和几何平均数相等. D. 正态分布的算术平均数、中位数、几何平均数均相等。 4. 如果对各观测值加上一个常数a ,其标准差( D )。 A. 扩大√a 倍 B.扩大a 倍 C.扩大a 2倍 D.不变 5. 比较大学生和幼儿园孩子身高的变异度,应采用的指标是( C )。 A. 标准差 B.方差 C.变异系数 D.平均数 三 填空 1.如果事件A 和事件B 为独立事件,则事件A 与事件B 同时发生的概率P (AB )= P (A )?P (B )。 2.二项分布的形状是由( n )和( p )两个参数决定的。 3.正态分布曲线上,( μ )确定曲线在x 轴上的中心位置,( σ )确定曲线的展开程度。 4.样本平均数的标准误 =( )。 5.t 分布曲线与正态分布曲线相比,顶部偏( 低 ),尾部偏( 高 )。 n /σx σ

生物统计学考试题及答案

重庆西南大学 2012 至 2013 学年度第 2 期 生物统计学 试题(A ) 试题使用对象: 2011 级 专业(本科) 命题人: 考试用时 120 分钟 答题方式采用: 闭卷 说明:1、答题请使用黑色或蓝色的钢笔、圆珠笔在答题纸上书写工整. 2、考生应在答题纸上答题,在此卷上答题作废. 一:判断题;(每小题1分,共10分 ) 1、正确无效假设的错误为统计假设测验的第一类错误。( ) 2、标准差为5,B 群体的标准差为12,B 群体的变异一定大于A 群体。( ) 3、一差异”是指仅允许处理不同,其它非处理因素都应保持不变。( ) 4、30位学生中有男生16位、女生14位,可推断该班男女生比例符合1∶1 (已知84.321,05.0=χ)。 ( ) 5、固定模型中所得的结论仅在于推断关于特定的处理,而随机模型中试验结论则将用于推断处理的总体。( ) 6、率百分数资料进行方差分析前,应该对资料数据作反正弦转换。( ) 7、比较前,应该先作F 测验。 ( ) 8、验中,测验统计假设H 00:μμ≥ ,对H A :μμ<0 时,显著水平为5%,则测验的αu 值为1.96( ) 9、行回归系数假设测验后,若接受H o :β=0,则表明X 、Y 两变数无相关关系。 ( ) 10、株高的平均数和标准差为30150±=±s y (厘米),果穗长的平均数和标准差为s y ±1030±=(厘米),可认为该玉米的株高性状比果穗性状变异大。 ( ) 二:选择题;(每小题2分,共10分 ) 1分别从总体方差为4和12的总体中抽取容量为4的样本,样本平均数分别为3和2,在95%置信度下总体平均数差数的置信区间为( )。 A 、[-9.32,11.32] B 、[-4.16,6.16]

生物统计学复习重点137030032

主要统计符号注解
编号 1 2 3 4 5 6 7 8 9 11 12 13 符号 注解 希腊字母符号 统计检验的显著水平,一般 α 取 0.05 或 0.01 总体标准差。用拉丁字母 S 表示样本标准差 总体方差。用拉丁字母 S2 表示样本方差(均方) 样本平均数抽样总体方差 标准误 (样本平均数抽样总体的标准差, 表示平均数抽样误差的大小) S x 。 为标本标准误,是平均数抽样误差的估计值 总体平均数。用拉丁字母 x 表示样本平均数 卡平方值 经连续性矫正的卡平方值 自由度 df 为显著水平为 α 时的卡平方临界值 随机误差;重复内分组设计的参试材料误差 线性模型中的处理效应 表示从第 1 个观测值 xi 累加到第 n 个,观测值 xn,当
i
α
σ σ2
2 σx σx
μ χ2 χ c2 2 χ α ,df
ε τ
n
n
∑x
i=1
∑x
i =1
在意义上已明确
i
时,可简写为 ∑ x 。 ∑ 为求和符号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
T N n SS MS S S2 H0 HA SE DF CV CK O E F LSD LSR x~N(μ, 2) ( ,σ p,q , x~B(n,p) ( , ) a b r c f t u
x
d
d
k
拉丁字母符号 观测值总和 有限总体的总观测值数目 样本的观测值数目或样本容量(样本含量) 平方和 均方 样本标准差,用以估计总体标准差 σ 标准方差(均方) ,用以估计总体方差 σ2 无效假设 备择假设 标准误 自由度,自由度具体数值用 df 表示,如 df=8 变异系数 对照 观测次数 理论次数 F 统计数,F0.05 、F0.01 分别为 0.05、0.01 的临界值 最小显著差数(least significant difference) ( ) 最小显著极差(least significant ranges) 随机变量 x 服从参数 μ 和 σ 的正态分布,μ 为总体平均数,σ 为总体标准差 二项总体成数 p+q =1 随机变量 x 服从参数 n 和 p 的二项分布,n 为试验次数, p 为理论概率 直线回归方程中样本的回归截距 直线回归方程中标本回归系数 样本相关系数;独立性检验中相依表的行数 独立性检验中相依表的列数 观测次数 t 分布的统计数 u 正态分布的统计数;正态标准离差 样本平均数,用以估计总体平均数 μ 成对观测值的差数 成对观测值的差数的平均数 样本数或处理数
第 1 页 共 14 页

生物统计学期末考试题

生物统计学期末考试题 一名词解释(每题2分,共10分) 1.生物统计学期末考试题 2.样本:从总体中抽出的若干个体所构成的集合称为样本 3.方差:用样本容量n来除离均差平方和,得到的平方和,称为方差 4.标准差:方差的平方根就是标准差 5.标准误:即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度, 反映的是样本均数之间的变异。 6.变异系数:将样本标准差除以样本平均数,得出的百分比就是变异系数 7.抽样:通常按相等的时间间隔对信号抽取样值的过程。 8.总体参数:所谓总体参数是指总体中对某变量的概括性描述。 9.样本统计量:样本统计量的概念很宽泛(譬如样本均值、样本中位数、样本方差等等),到现在 为止,不是所有的样本统计量和总体分布的关系都能被确认,只是常见的一些统计量和总体分布之间 的关系已经被证明了。 10.正态分布:若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布, 正态分布又名 高斯分布 11.假设测验:又称显著性检验,就是根据总体的理论分布和小概率原理,对未知或不完全知道的总 体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该 接受的那种假设的推断。 12.方差分析:又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。 13.小概率原理:一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不可能发生的,但 在多次重复试验中几乎是必然发生的,数学上称之小概率原理。 15.决定系数:决定系数定义为相关系数r的平方 16.随机误差:在实际相同条件下,多次测量同一量值时,其绝对值和符号无法预计的测量误差。 17.系统误差:它是在一定的测量条件下,对同一个被测尺寸进行多次重复测量时,误差值的大小和 符号(正值或负值)保持不变;或者在条件变化时,按一定规律变化的误差 二. 判断题(每题2分,共10分) 1. 在正态分布N(μ ;σ)中,如果σ相等而μ不等,则曲线平移, ( ) 2. 如果两个玉米品种的植株高度的平均数相同,我们可以认为这两个玉米品种是来自同一总体() 3. 当我们说两个处理平均数有显著差异时,则我们有99%的把握肯定它们来自不同总体. 4小概率原理是指小概率事件在一次试验中可以认为不可能发生() 5 激素处理水稻种子具有增产效应,现在在5个试验区内种植经过高、中、低三种剂量的激素处理的水稻种此试验称为三处理五重复试验() 6.系统误差是不可避免的,并且可以用来计算试验精度。() 7.精确度就是指观察值与真值之间的差异。() 8. 实验设计的三个基本原则是重复、随机、局部控制。() 9. 正交试验设计就是从全部组合的处理中随机选取部分组合进行试验。() 10.如果回归方程Y=3+1.5X的R2=0.64,则表明Y的总变异80%是X造成。() 三. 简答题(每题5分共20分) 1. 完全随机试验设计与随机区组试验设计有什么不同? 2. 什么是小概率原理?在统计推断中有何 作用? 3. 什么是多重比较中的FISHER氏保护测验?4. 样本的方差计算中,为什么要离均差平方和 除以n-1而不是除以n? 5. 如果两个变量X和Y的相关系数小于0.5,是否它们就没有显著相关性? 6. 单尾测验与双尾测验有何异同?

统计学考试要点整理

2010级3班整理生物统计学基础知识整理 生物统计学整理 第一部分名词解释本文档仅供参考,仍有不足,有许多名词没有交待,需自己补充。本资料与课本,课后习题册搭配使用效果更好,有疑问联系大正 1生物统计学:是一门探讨如何从事生物学实验研究的设计,取样,分析,资料整理与推 论的科学.是数理统计在生物学研究中的应用,它是应用数理统计的 原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科, 属于应用统计学的一个分支。 2总体:统计学研究的全部对象叫做总体,分为无限总体和有限总体。 3个体:构成总体的每个成员称为个体。 4样本:总体的一部分称为样本 5样本含量:样本内包含的个体数目称为样本含量 6抽样:从总体中获得样本的过程。 7连续性数据:与某种标准做比较所得到的数据称为连续型数据,又称为度量数据 8离散型数据:由记录不同类别个体的数目所得到的数据,称为离散型数据 9变量的方法:对连续性数据进行分析的方法,通常称为变量的方法 10属性的方法:对离散型数据进行分析的方法 11对于数据的变异程度,经常使用的度量方法有三中,1 范围或称为极差 2 平均离差 3 标准离差或称为标准差 12概率论:研究偶然现象本身规律性的科学 13统计学:基于实际观测结果,利用概率论得出的规律,揭示偶然性中所寄寓的必然性 的科学 14随机实验:在我们做第一次观测时,并不能准确得知下一次的结果,这样的实验叫做随机实验 随机误差:试验过程中,由于各种无法控制的随机因素所引起统计量与参数之间的偏差,称之为随机误差。 15基本事件:试验的每一最基本结果用小写拉丁字母表示

2.什么叫总体?什么叫样本?为什么要抽样?怎样抽样? 1)总体:统计学研究的全部对象叫做总体,分为无限总体和有限总体。 2)样本:总体的一部分称为样本 3)从总体中获得样本的过程称为抽样,抽样的目的是希望通过对样本的 研究,推断其总体。生物统计学中往往总体数目是无限个,为方便研究总 体特征需要抽样。 4)从总体中抽取样本时,总体中的每一个个体被抽中的机会必须都一样,不能带有偏见,我们得到的样本应该是该市总体的一部分,需要进行随机 抽样。随机抽样的方法很多,例如抽签,拈阄等。最好方法是使用随机数 字表进行抽样。 5)随即数字表抽样步骤:第一步,闭上眼睛用铅笔在随机数字表上任意 点上一点,假若点到奇数,就用第一页表;假若点到偶数,就用第二页表。 第二步,在选定的那一页上,在点一次,决定从那个字开始。决定开始以 后进行读书(例如,总体有 4728 个个体,那就四位数字为一节读下去,

(完整word版)生物统计学复习资料(整理).docx

生物统计学复习资料 第一章 1.生物统计学的基本作用: 1)提供整理和描述数据资料的科学方法,确定某些性状和特征的数量特征。 2)判断试验结果的可靠性 3)提供由样本推断总体的方法 4)提供试验设计的一些重要原则 3.总体:具有相同性质的个体所组成的集合 4.个体:组成整体的基本单元 5.样本:从总体中抽出的若干个体所构成的集合 6.变量:相同性质的事物间表现差异性的某项特征。按其性质分为连续变量和非连续变量。变量可以是定量的,也可以是定性的。 7.连续变量:表示在变量范围内可抽出某一范围的所有值 8.非连续变量:也称离散型变量,表示在变量数列中,仅能取得固定数值,并且通常是整数。 9.常数:是不能给予不同数值的变量,它代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。 10.参数:对总体特征的度量 11.统计数:由测定样本的全部重复观测值算得的描述样本的特征的数。 12.效应:试验因素相对独立的作用 13.误差:是试验中不可控因素所引起的观测值偏离真值的差异 14.随机误差:由于试验中许多无法控制的偶然因素所造成的试验结果与真实结 果之间的差异,不可避免。 15.系统误差:由于试验处理以外的其他条件明显不一致所产生的带有倾向性或 定向性的偏差,可避免。 16.错误:是指在试验过程中,人为因素所引起的差错。 17.准确性:在调查或试验中某一试验指标或性状的观测值与真实值接近程度 18.精确性:指调查或试验中同一试验指标或性状的重复观测值彼此接近程度的 大小。 第二章 1.次数分布:在不同区间内变量出现的次数所构成的分布。 2.资料根据生物的形状特性,可分为数量性状和质量性状

生物统计学期末考试试题A

漳州师范学院 生物系_____________专业_____级本科_______班 《生物统计学》课程期末考试卷(A) (2011—2012学年度第一学期) 学号___________姓名________考试时间:2011-12-29 一、名词解释(6×2) 1统计数: 2小概率原理: 3无偏估计: 4准确性: 5纳伪错误: 6方差: 二、判断题:请在下列正确的题目后面打“√”,错误的打“×”。(12×1) 1 t分布曲线的平均数与中位数相等(√) 2众数是总体中出现最多个体的次数。(×) 3 正态分布曲线形状与样本容量n无关(√) 4 假设检验显著水平越高,检验效果越好(×) 5 样本频率假设检验如果需要连续性矫正时,矫正系数=0. 5(×) 6 样本标准差是总体标准差的无偏估计(×) 7计算相关系数的两个变量都是随机变量(√) 8 试验因素的任一水平就是一个处理(×) 9 在同一显著水平下,双尾检验的临界正态离差大于单位检验(√) 10 LSD检验方法实质上就是t检验(×) 11对多个样本平均数仍可采用t测验进行两两独立比较。(×)

12假设测验结果或犯α错误或犯β错误。( × ) 三、选择题(18×2) 1、某学生某门课成绩为75分,则其中的变量为[ ] A. 某学生 B. 某门课成绩 C. 75分 D. 某学生的成绩 2、算术平均数的重要特性之一是离均差之和[ ] A 、最小 B 、最大 C 、等于零 D 、接近零 3、在回归直线y=a+bx 中,若b <0,则x 与y 之间的相关系数[ ] A. r=0 B. r=1 C. 0<r <1 D. -1<r <0 4、假定我国和美国的居民年龄的方差相同。现在各自用重复抽方 法抽取本国人口的1%计算平均年龄,则平均年龄的标准误 [ ] A.两者相等 B.前者比后者大 C 前者比后者小 D.不能确定大小 5、1-α是[ ] A.置信限 B.置信区间 C.置信距 D 置信水平 6、在一组数据中,如果一个变数10的离均差是2,那么该组数据的平均数是[ ] A 、12 B 、10 C 、8 D 、2 7、两个二项成数的差异显著性一般用[ ]测验。 A 、t B 、F C 、u D 、卡方测验 8、测验回归截距的显著性时,()/a t a s α=-遵循自由度为[ ] 的学生氏分布。 A 、n -1 B 、n -2 C 、n -m -1 D 、n 9、对一批大麦种子做发芽试验,抽样1000粒,得发芽种子870粒,若规定发芽率达90%为合格,测验这批种子是否合格的差异显著性为[ ]。 A 、不显著 B 、显著 C 、极显著 D 、不好确定 10设容量为16人的简单随机样本,平均完成工作需时13分钟。 已知总体标准差为3分钟。若想对完成工作所需时间总体构 造一个90%置信区间,则[ ] A 应用标准正态概率表查出u 值 B.应用t 分布表查出t 值 C.应用卡方分布表查出卡方值 D.应用F 分布表查出F 值

生物统计学期末复习题

统计选择题 1,由于(1,研究对象本身的性质)造成我们所遇到的各种统计数据的不齐性。 2,研究某一品种小麦株高,因为该品种小麦是个极大的群体,其数量甚至于是个天文数字,该体属于(4,无限总体) 3,从总体中(2,随机抽出)一部分个体称为样本。 4,用随机抽样方法从总体中获得一个样本的过程称为(3,抽样) 5,身高,体重,年龄这一类数据属于(3,连续型数据;1,度量数据) 6,每10个中男性人数,每亩麦田中杂草株数,喷洒农药后每100只害虫中死虫数等,这一类数据属于(1,离散型数据;2,计数数据) 7,把频数按其组值的顺序排列起来,称为(3,频数分布) 8,以组值作为一个边,相应的频数为另一个边,做成的连续矩形图称为(2,直方图)9,绘制(4,多边形图)的方法是在坐标平面内点上各点(中值,频数),以线段连接各点,最高和最低非零频数点与相邻零频数点相连。 10,累积频数图是根据(3,累积频数表)直接绘出的。 11,样本数据总和除以样本含量,称为(算数平均数 12,已知样本平方和为360,样本含量为10,以下4种结果中(2,6.0)是正确的标准差。 13,概率的古典定义是(2,基本事件数与事件总数之比) 14,下面第(2,概率是事物所固有的特性) 15,对于事件A和B,P(A∪B)等于(2,P(AB)) 16,对于事件A和事件B,P(A|B)等于(P(AB)/P(B)) 17,对于任意事件A和B,P(AB)等于(P(B)P(B|A)) 18,下述(3随机试验中所输入的变量)项称为随机变量 19,关于连续型随机变量,有以下4种提法,其中(1,可取某一区间内的任何数值)20,总体平均数可以用以下4种符号中的一种表示,它是(2,μ) 21,样本标准差可以用以下4种符号中的一种表示,它是(1,s) 22,在养鱼场中,A鱼塘的面积占10%,A鱼塘中鱼的发病率为1%,问从养鱼场中任意捕捞一条鱼,它既是A鱼塘,又是生病的鱼的概率是(4,0.003) 23,以下4点是描述连续型随机变量特征的,其中(2,f(x)=lim △x→0P(x

生物统计学考试试卷及答案

考试轮次:2017-2018学年第一学期期末考试试卷编号 考试课程:[120770] 生物统计与实验设计命题负责人曾汉元 适用对象:生物与食品工程学院生物科学专业2015级审查人签字 考核方式:上机考试试卷类型:A卷时量:150分钟总分:100分 注意:答案中要求保留必要的计算和推理过程,全部答案保存为一个Word文档,文件名 为学号最后两位数+姓名。考试结束后不要关机。提交答卷后,请到主机看一下是否提交成功。第1题12分,第3题5分,第10题13分,其余的题各10分。 1、下表为某大学96位男生的体重测定结果(单位:kg),请根据资料分别计算以下指标:(1)算术平均数;(2)几何平均数;(3)中位数;(4)众数;(5)极差;(6)方差;(7)标准差;(8)变异系数;(9)标准误。(10) 绘制各体重分布柱形图。 66 69 64 65 64 66 70 64 59 67 66 66 60 66 65 61 61 66 67 68 62 63 70 65 64 66 68 64 63 60 60 66 65 61 61 66 59 66 65 63 58 66 66 68 64 65 71 61 62 69 70 68 65 63 66 65 67 66 74 64 70 64 59 67 66 66 60 66 65 61 61 66 67 68 62 63 70 65 64 66 68 64 63 60 60 66 65 61 61 66 59 66 65 63 58 66 2、已知1000株水稻的株高服从正态分布N(97,3 2),求: (1)株高在94cm以上的概率? (2)株高在90~99cm之间的概率? (3)株高在多少cm之间的中间概率占全体的99%? 3.已知某批30个小麦样品的平均蛋白质含量为14.5%,σ=2.50%,试进行95%置信度下的蛋白质含量的区间估计和点估计。 4、有一大麦杂交组合,F2代的芒性状表型有钩芒、长芒和短芒三种,观察计得其株数依次分别为348、11 5、157,试检验其比率是否符合9:3:4的理论比率。 5、某医院用某种中药治疗7例再生障碍性贫血患者,现将血红蛋白含量(g/L)变化的数据列在下面,假定资料满足各种假设测验所要求的前提条件,问:治疗前后之间的差别有无显著性意义? 患者编号 1 2 3 4 5 6 7 治疗前血红蛋白含量65 75 50 76 65 72 68 治疗后血红蛋白含量82 112 125 85 80 105 128

生物统计学期末复习题库及答案

第一章 填空 1.变量按其性质可以分为(连续)变量和(非连续)变量。 2.样本统计数是总体(参数)的估计值。 3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。 4.生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。 5.生物统计学的发展过程经历了(古典记录统计学)、(近代描述统计学)和(现代推断统计学)3个阶段。 6.生物学研究中,一般将样本容量(n ≥30)称为大样本。 7.试验误差可以分为(随机误差)和(系统误差)两类。 判断 1.对于有限总体不必用统计推断方法。(×) 2.资料的精确性高,其准确性也一定高。(×) 3.在试验设计中,随机误差只能减小,而不能完全消除。(∨) 4.统计学上的试验误差,通常指随机误差。(∨) 第二章 填空 1.资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。 2. 直方图适合于表示(连续变量)资料的次数分布。 3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。 4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)。 5.样本标准差的计算公式s=( )。 判断题 1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。(×) 2. 条形图和多边形图均适合于表示计数资料的次数分布。(×) 3. 离均差平方和为最小。(∨) 4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。(∨) 5. 变异系数是样本变量的绝对变异量。(×) 单项选择 1. 下列变量中属于非连续性变量的是( C ). A. 身高 B.体重 C.血型 D.血压 2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成( A )图来表示. A. 条形 B.直方 C.多边形 D.折线 3. 关于平均数,下列说法正确的是( B ). A. 正态分布的算术平均数和几何平均数相等. B. 正态分布的算术平均数和中位数相等. C. 正态分布的中位数和几何平均数相等. D. 正态分布的算术平均数、中位数、几何平均数均相等。 4. 如果对各观测值加上一个常数a ,其标准差( D )。 A. 扩大√a 倍 B.扩大a 倍 C.扩大a 2倍 D.不变 5. 比较大学生和幼儿园孩子身高的变异度,应采用的指标是( C )。 A. 标准差 B.方差 C.变异系数 D.平均数 第三章 12 2--∑∑n n x x )(

《生物统计学-2019》复习题

《生物统计学》复习题 1.变量之间的相关关系主要有两大类:(因果关系),(平行关系) 2.在统计学中,常见平均数主要有(算术平均数)、(几何平均数) 3.样本标准差的计算公式( 1 ) (2 --= ∑n X X S ) 4.小概率事件原理是指(某事件发生的概率很小,人为的认为不会发生) 5.在分析变量之间的关系时,一个变量X 确定,Y 是随着X 变化而变化,两变量呈因果关系,则X 称为(自变量),Y 称为(因变量) ADCAA BABCB DADBB ADBCB 1、下列数值属于参数的是: A 、总体平均数 B 、自变量 C 、依变量 D 、样本平均数 2、 下面一组数据中属于计量资料的是 A 、产品合格数 B 、抽样的样品数 C 、病人的治愈数 D 、产品的合格率 3、在一组数据中,如果一个变数10的离均差是2,那么该组数据的平均数是 A 、12 B 、10 C 、8 D 、2 4、变异系数是衡量样本资料 程度的一个统计量。 A 、变异 B 、同一 C 、集中 D 、分布 5、方差分析适合于, 数据资料的均数假设检验。 A 、两组以上 B 、两组 C 、一组 D 、任何 6、在t 检验时,如果t = t 0、01 ,此差异是: A 、显著水平 B 、极显著水平 C 、无显著差异 D 、没法判断 7、 生物统计中t 检验常用来检验 A 、两均数差异比较 B 、两个数差异比较 C 、两总体差异比较 D 、多组数据差异比较 8、平均数是反映数据资料 性的代表值。 A 、变异性 B 、集中性 C 、差异性 D 、独立性 9、在假设检验中,是以 为前提。 A 、 肯定假设 B 、备择假设 C 、 无效假设 D 、有效假设 10、抽取样本的基本首要原则是 A 、统一性原则 B 、随机性原则 C 、完全性原则 D 、重复性原则 11、统计学研究的事件属于 事件。 A 、不可能事件 B 、必然事件 C 、小概率事件 D 、随机事件 12、下列属于大样本的是 A 、40 B 、30 C 、20 D 、10 13、一组数据有9个样本,其样本标准差是0.96,该组数据的标本标准误(差)是 A 、0.11 B 、8.64 C 、2.88 D 、0.32 14、在假设检验中,计算的统计量与事件发生的概率之间存在的关系是 。 A 、正比关系 B 、反比关系 C 、加减关系 D 、没有关系 15、在方差分析中,已知总自由度是15,组间自由度是3,组内自由度是 A 、18 B 、12 C 、10 D 、5 16、已知数据资料有10对数据,并呈线性回归关系,它的总自由度、回归自由度和残差自由度分别是 A 、9、1和8 B 、1、8和9 C 、8、1和9 D 、 9、8和1 18、下列那种措施是减少统计误差的主要方法。 A 、提高准确度 B 、提高精确度 C 、减少样本容量 D 、增加样本容量 19、相关系数显著性检验常用的方法是

生物统计学 复习资料

目录 计算部分 (1) 第一章 (1) 第二章 (2) 第三章 (5) 第四章 (7) 第五章 (9) 第六章 (9) 第八章 (12) 第十章 (13) 操作部分 (14) 一、T test (14) 1、One-sample T Test (14) 2、Independent T test (14) 3、paired-samples T Test (15) 二、ANOV A (15) 1、One-Way ANOV A (15) 2、Univariate (16) 三、Correlate and Regression (16) 1、Correlate (16) 2、Regression (17)

生物统计学 计算部分 第一章 1、次数分布表 统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表: 表2-3 50枚受精种蛋出雏天数的次数分布表 2、求全距、组距、组中值 全距:资料中最大值与最小值之差,又称为极差(range ),用R 表示,即 R=Max(x)-Min(x) 本例 R =65.0-37.0=28.0(kg ) 组距:每组最大值与最小值之差(即全距和组数的比值)记为 i 。分组时要求各组的组距相等。 组距(i)=全距/组数 本例 i =28.0/10≈3.0 组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限-1/2组距 3、平均数、标准差、变异系数计算 平均数: (直接法) (加权法)(组中值*频数) 样本标准差: n x n x x x x n i i n ∑ ==+++=1 21 ∑ ∑∑ ∑ = =++++++===f fx f x f f f f x f x f x f x k i i k i i i k k k 11 212211

《生物统计学》期末考试试卷

《生物统计学》期末考试试卷 一 单项选择(每题3分,共21分) 1.设总体服从),(2 σμN ,其中μ未知,当检验0H :220σσ=,A H :220σσ≠时,应选 择统计量________。 A. 2 (1)n S σ- B. 2 20(1)n S σ- X X 2.设123,,X X X 是总体2 ( , )N μσ的样本,μ已知,2 σ未知,则下面不是统计量的是_____。 A. 123X X X +- B. 41i i X μ=-∑ C. 2 1X σ+ D. 4 2 1 i i X =∑ 3.设随机变量~(0,1)X N ,X 的分布函数为()x Φ,则( 2)P X >的值为_______。 A. ()212-Φ???? B. ()221Φ- C. ()22-Φ D. ()122-Φ 4.假设每升饮水中的大肠杆菌数服从参数为μ的泊松分布,则每升饮水中有3个大肠杆菌的概率是________。 A.63e μ μ- B.36e μ μ- C.36e μ μ- D. 316 e μ μ- 5.在假设检验中,显著性水平α的意义是_______。 A. 原假设0H 成立,经检验不能拒绝的概率 B. 原假设0H 不成立,经检验不能拒绝的概率 C. 原假设0H 成立,经检验被拒绝的概率 D. 原假设0H 不成立,经检验被拒绝的概率 6.单侧检验比双侧检验的效率高的原因是________。 A .单侧检验只检验一侧 B .单侧检验利用了另一侧是不可能的这一已知条件 C .单侧检验计算工作量比双侧检验小一半 D. 在同条件下双侧检验所需的样本容量比单侧检验高一倍 7.比较身高和体重两组数据变异程度的大小应采用_____。 A .样本平均数 B. 样本方差 C. 样本标准差 D. 变异系数

生物统计学复习资料-17页精选文档

第一章 1.生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科。属于应用统计学的一个分支。是一门应用数学。 2.统计学(Statistics)是把数学的语言引入具体的科学领域,将所研究的问题抽象为数学问题的过程, 是收集、分析、列示和解释数据的一门科学。 3.生物统计学是研究生命过程中以样本推断总体的一门学科。 4.生物统计学的基本类容: 试验设计:如何合理地进行调查或试验设计 统计分析:如何科学地整理、分析所收集来的具有变异的资料,揭示出隐藏其内部的规律性。 5.生物统计学的基本作用: 提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。 运用显著检验,判断试验结果的可靠性或可行性。 提供由样本推断总体的方法。 ④提供试验设计的的一些重要原则。 6.常用的统计学术语: 一.总体与样本 具有相同性质的个体所组成的集合称为总体;总体有分为有限总体和无限总体。 组成总体的基本单元称为个体 从总体中抽出若干个体所构成的集合称为样本(sample);(总体中的一部分) 构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小,

样本容量常记为n。一般在物学研究中,通常n<30的样本叫小样本,n ≥30的样本叫大样本。 二、参数与统计数 描述总体特征的数量称为参数,也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差; 描述样本特征的数量称为统计数,也称统计量。常用英文字母表示统计数,例如用X-表示样本平均数,用S表示样本标准差。 三、变量与常数 变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。 常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。 变量包括定量变量和定性变量,定性变量又可分为连续变量(可以有任何小数出现)和非连续变量(只有整数出现)。 四、效应与互作 通过施加试验处理,引起试验差异的作用称为效应。效应有正效应与负效应之分。 互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。 五、误差与错误 效应 随机误差,抽样误差,偶然误差 变异 误差系统误差,片面误差

生物统计学期末复习资料(推荐文档)

第一章概论 1.1什么事生物统计学?生物统计学的主要内容和作用是什么? 答:生物统计学(biostatistics)是用数理统计的原理和方法来分析和解释生物界各种现象和实验调查资料,是研究生命过程中以样本来推断总体的一门学科。 生物统计学主要包括实验设计和统计分析两答部分的内容。其基本作用表现在以下四个方面:a.提供整理和描述数据资料的科学方法;确定某些性状和特性的数量特征;b.判断实验结果的可靠性;c.提供由样本推断总体的方法;d.提供实验设计的一些重要原则。 1.2解释以下概念:总体、个体、样本、样本容量、变量、参数、统计数、效应、互作、实验误差。 答:总体(populatian)是具有相同性质的个体所组成的集合,是研究对象的全体。 个体(individual)是组成总体的基本单元。 样本(sample)是从总体中抽出的若干个个体所构成的集合。 样本容量(sample size)是指样本个体的数目。 变量(variable)是相同性质的事物间表现差异性的某种特征。 参数(parameter)是描述总体特征的数量。 统计数(statistic是由样本计算所得的数值,)是描述样本特征的数量。 效应(effection)试验因素相对独立的作用称为该因素的主效应,简称效应。 互作(interaction)是指两个或两个以上处理因素间的相互作用产生的效应。 实验误差(experimental error)是指实验中不可控因素所引起的观测值偏离真值的差异,可以分为随机误差和系统误差。 1.3随机误差和系统误差有何区别? 答:随机误差(random)也称抽样误差或偶然误差,他是有实验中许多无法控制的偶然因素所造成的实验结果与真实结果之间产生的差异,是不可避免的。随机误差可以通过增加抽样或试验次数降低随机误差,但不能完全消除随机误差。 系统误差(systematic)也称为片面误差,是由于实验处理以外的其他条件明显不一致所差生的倾向性的或定向性的偏差。系统误差主要有一些相对固定的因素引起,在某种程度上是可控制的,只要试验工作做得精细,在试验过程中是可以避免的。 1.4准确性与精确性有何区别? 答:准确性(accuracy)也称为准确度,指在调查或实验中某一实验指标或性状的观测值与其真值接近的程度。 精确性(precision)也称精确度,指调查或实验中同一实验指标或性状的重复观测值彼此接近程度的大小。 准确性是说明测定值堆真值符合程度的大小,用统计数接近参数真值的程度来衡量。精确性是反映多次测定值的变异程度,用样本间的各个变量间变异程度的大小来衡量。 第二章试验资料整理与特征数的计算 2.3平均数与标准差在统计分析中有什么作用?它们各有哪些特性? 答:平均数(mean)的用处:①平均数指出了一组数据资料内变量的中心位置,标志着资料所

关于生物统计学考试复习题库

生物统计学各章题目 一 填空 1.变量按其性质可以分为(连续)变量和(非连续)变量。 2.样本统计数是总体(参数)的估计值。 3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。 4.生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。 5.生物统计学的发展过程经历了(古典记录统计学)、(近代描述统计学)和(现代推断统计学)3个阶段。 6.生物学研究中,一般将样本容量(n ≥30)称为大样本。 7.试验误差可以分为(随机误差)和(系统误差)两类。 判断 1.对于有限总体不必用统计推断方法。(×) 2.资料的精确性高,其准确性也一定高。(×) 3.在试验设计中,随机误差只能减小,而不能完全消除。(∨) 4.统计学上的试验误差,通常指随机误差。(∨) 二 填空 1.资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。 2. 直方图适合于表示(连续变量)资料的次数分布。 3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。 4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)。 5.样本标准差的计算公式s=( )。 判断题 1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。(×) 2. 条形图和多边形图均适合于表示计数资料的次数分布。(×) 3. 离均差平方和为最小。(∨) 4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。(∨) 5. 变异系数是样本变量的绝对变异量。(×) 单项选择 1. 下列变量中属于非连续性变量的是( C ). A. 身高 B.体重 C.血型 D.血压 2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成( A )图来表示. A. 条形 B.直方 C.多边形 D.折线 3. 关于平均数,下列说法正确的是( B ). 12 2--∑∑n n x x )(

生物统计学(自理重点)

生物统计学复习资料(70%) 填空:10题×1’=10’选择:5题×1’=5’ 名词解释:5题×2’=10’ 判断:5题×1’=5’ 简答:3题×5’=15’ 统计推断:4题10’+10’+10’+20’=50’ 第1章绪论 生物统计学:是研究收集、整理、分析和解释生物科学试验数据的科学,是统计学原理在生物学研究领域的应用。 生物统计学的主要内容 生物统计学包括试验数据的获取、整理和分析等相关内容,具体来说,包括试验或调查设计、数据的整理(描述统计学)、概率论基础(统计理论基础)、统计推断方法(推断统计学)等内容。 调查设计:是指整个调查计划的制订,包括调查研究的目的、对象与范围,调查项目及调查表内容,抽样方法的选取,抽样单位和抽样数量的确定,数据处理方法,调查组织工作,调查报告撰写等内容。 试验设计:是指试验单位的选取、生物学重复数的确定及试验单位的分组等。 生物统计学发展简史 (1)古典记录统计学 (2)近代描述统计学 (3)近代推断统计学 总体:是研究对象的全体。 个体:是总体中的一个研究单位。 样本:是从总体中抽取的用于代表总体的一部分个体。 样本容量记为n,通常把n≤30的样本称为小样本,n>30的样本称为大样本。(判断区别)随机抽样:是指总体中的每一个个体都有同等的被抽取的机会组成样本。 参数:由总体计算的特征数。 统计数:由样本计算的特征数。 准确性:也叫准确度,是指在试验中某一试验指标的观测值与其真值接近的程度。 精确性:也叫精确度,是指同一试验指标的重复观测值彼此接近的程度。 随机误差:是由于无法控制的内在和外在的偶然因素所造成的,是客观存在的,在实验中,即使十分小心也难以消除。 系统误差:也叫片面误差,是由试验材料的初始条件不同或测量仪器不准等引起的倾向性或定向性偏差。 (小题)误差怎么控制? (小题)随机误差可完全避免(×) (小题)减小统计误差的方法是(B) A、提高准确度 B、提高精确度 C、减少样本容量 D、增加样本容量

相关文档
最新文档