生物统计学复习题
(完整word版)生物统计学期末复习题库及答案.docx

第一章填空1.变量按其性质可以分为(连续)变量和(非连续)变量。
2.样本统计数是总体(参数)的估计值。
3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。
4.生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。
5.生物统计学的发展过程经历了(古典记录统计学)、(近代描述统计学)和(现代推断统计学)3 个阶段。
6.生物学研究中,一般将样本容量(n≥30)称为大样本。
7.试验误差可以分为(随机误差)和(系统误差)两类。
判断1.对于有限总体不必用统计推断方法。
(×)2.资料的精确性高,其准确性也一定高。
(×)3.在试验设计中,随机误差只能减小,而不能完全消除。
(∨ )4.统计学上的试验误差,通常指随机误差。
(∨ )第二章填空1.资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。
2.直方图适合于表示(连续变量)资料的次数分布。
3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。
4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)。
5.样本标准差的计算公式 s=(x 2 (x) 2 n )。
判断题n11.计数资料也称连续性变量资料 ,计量资料也称非连续性变量资料。
(×)2.条形图和多边形图均适合于表示计数资料的次数分布。
(×)3.离均差平方和为最小。
(∨)4.资料中出现最多的那个观测值或最多一组的中点值 ,称为众数。
(∨ )5.变异系数是样本变量的绝对变异量。
(×)单项选择1.下列变量中属于非连续性变量的是 ( C ).A.身高B.体重C.血型D.血压2.对某鱼塘不同年龄鱼的尾数进行统计分析 ,可做成 ( A )图来表示 .A.条形B.直方C.多边形D.折线3.关于平均数 ,下列说法正确的是 ( B ).A.正态分布的算术平均数和几何平均数相等 .B.正态分布的算术平均数和中位数相等 .C.正态分布的中位数和几何平均数相等 .D.正态分布的算术平均数、中位数、几何平均数均相等。
《生物统计学》复习题及答案

《生物统计学》复习题一、 填空题(每空1分,共10分)1.变量之间的相关关系主要有两大类:( 因果关系),(平行关系 )2.在统计学中,常见平均数主要有(算术平均数)、(几何平均数 )、(调和平均数)3.样本标准差的计算公式( 1)(2--=∑n X X S )4.小概率事件原理是指(某事件发生的概率很小,人为的认为不会发生 )5.在标准正态分布中,P (-1≤u ≤1)=(0。
6826 ) (已知随机变量1的临界值为0.1587)6.在分析变量之间的关系时,一个变量X 确定,Y 是随着X 变化而变化,两变量呈因果关系,则X 称为(自变量),Y 称为(依变量)二、 单项选择题(每小题1分,共20分)1、下列数值属于参数的是:A 、总体平均数B 、自变量C 、依变量D 、样本平均数2、 下面一组数据中属于计量资料的是A 、产品合格数B 、抽样的样品数C 、病人的治愈数D 、产品的合格率3、在一组数据中,如果一个变数10的离均差是2,那么该组数据的平均数是A 、12B 、10C 、8D 、2 4、变异系数是衡量样本资料 程度的一个统计量。
A 、变异B 、同一C 、集中D 、分布5、方差分析适合于,数据资料的均数假设检验。
A、两组以上B、两组C、一组D、任何,此差异是:6、在t 检验时,如果t = t0、01A、显著水平B、极显著水平C、无显著差异D、没法判断7、生物统计中t检验常用来检验A、两均数差异比较B、两个数差异比较C、两总体差异比较D、多组数据差异比较8、平均数是反映数据资料性的代表值。
A、变异性B、集中性C、差异性D、独立性9、在假设检验中,是以为前提。
A、肯定假设B、备择假设C、原假设D、有效假设10、抽取样本的基本首要原则是A、统一性原则B、随机性原则C、完全性原则D、重复性原则11、统计学研究的事件属于事件。
A、不可能事件B、必然事件C、小概率事件D、随机事件12、下列属于大样本的是A、40B、30C、20D、1013、一组数据有9个样本,其样本标准差是0.96,该组数据的标本标准误(差)是A、0.11B、8.64C、2.88D、0.3214、在假设检验中,计算的统计量与事件发生的概率之间存在的关系是。
《生物统计学》复习资料

《生物统计学》复习资料一、填空题1.变量之间的相关关系主要有两大类:(正相关)和(负相关)。
2.试验误差可以分为(随机误差)和(系统误差)两类。
3.样本标准差的计算公式( )。
解析:4.方差分析必须满足(正态性)、(方差齐性)和可加性3个基本假定。
5.在假设检验中,如果检验样本间差异是否极显著,则显著水平a取值为(0.05)。
6.在分析变量之间的关系时,一个变量X确定,Y是随着X变化而变化,两变量呈因果关系,则X称为(自变量),Y称为(因变量)。
二、单项选择题1.抽取样本的基本首要原则是(B)A、统一性原则B、随机性原则C、完全性原则D、重复性原则2.如果对各观测值加上一个常数a,其标准差(D)A、扩天√a倍B、扩大a倍C、扩大a²倍D、不变3.在一组数据中,其中一个数据9的离均差是3,那么该组数据的平均数是(B)A、12B、10C、6D、34.平均数是反映数据资料(B)0的代表值。
A、变异性B、集中性C、差异性D、独立性5.方差分析适合于(A)数据资料的均数假设检验。
A、两组以上B、两组C、一组D、任何6.在假设检验中,是以(A)为前提。
A、肯定假设B、备择假设C、无效假设D、有效假设7.统计学研究的事件属于(D)事件。
A、不可能事件B、必然事件C、小概率事件D、随机事件8.下列属于大样本的是(A)。
A、40B、25C、20D、109.在方差分析中,已知总自由度是15,组间自由度是3,组内自由度是(B)A、18B、12C、10D、510.已知数据资料有10对数据,并呈线性回归关系,它的总自由度、回归自由度和残差自由度分别是(C)A、9、1和8B、1、8和9C、8、1和9D、9、8和1三、判断题(正确的打√,错误的打×。
)1.对于有限总体不必用统计推断方法。
(×)2. 资料的精确性高,其准确性也一定高。
(×)3. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。
生物统计学期末复习题库

第一章填空1.变量按其性质可以分为( )变量和( )变量。
2.样本统计数是总体( )的估计值。
3.生物统计学是研究生命过程中以样本来推断()的一门学科。
4.生物统计学的基本内容包括()和()两大部分。
5.生物统计学的发展过程经历了()、()和()3个阶段。
6.生物学研究中,一般将样本容量()称为大样本。
7.试验误差可以分为()和()两类。
判断1.对于有限总体不必用统计推断方法。
()2.资料的精确性高,其准确性也一定高。
()3.在试验设计中,随机误差只能减小,而不能完全消除。
()4.统计学上的试验误差,通常指随机误差。
()第二章填空1.资料按生物的性状特征可分为()变量和()变量。
2. 直方图适合于表示()资料的次数分布。
3.变量的分布具有两个明显基本特征,即()和()。
4.反映变量集中性的特征数是(),反映变量离散性的特征数是()。
5.样本标准差的计算公式s=( )。
判断题1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。
()2. 条形图和多边形图均适合于表示计数资料的次数分布。
()3. 离均差平方和为最小。
()4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。
()5. 变异系数是样本变量的绝对变异量。
()单项选择1.下列变量中属于非连续性变量的是().A.身高B.体重C.血型D.血压2.对某鱼塘不同年龄鱼的尾数进行统计分析,可做成()图来表示.A.条形B.直方C.多边形D.折线3. 关于平均数,下列说法正确的是().A.正态分布的算术平均数和几何平均数相等.B.正态分布的算术平均数和中位数相等.C.正态分布的中位数和几何平均数相等.D.正态分布的算术平均数、中位数、几何平均数均相等。
122--∑∑n n x x )(4. 如果对各观测值加上一个常数a ,其标准差( )。
A.扩大a 倍B.扩大a 倍C.扩大a 2倍D.不变5. 比较大学生和幼儿园孩子身高的变异度,应采用的指标是( )。
生物统计学考试复习题库

生物统计学各章题目1 .变量按其性质可以分为(连续)变量和(非连续)变量。
2 .样本统计数是总体(参数)的估计值。
3 .生物统计学是研究生命过程中以样本来推断(总体)的一门学科。
4 .生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。
5 .生物统计学的发展过程经历了(古典记录统计学) 、(近代描述统计学)和(现代推断统计学)6 .生物学研究中,一般将样本容量(n A 30)称为大样本。
7 .试验误差可以分为(随机误差)和(系统误差)两类。
判断1. 对于有限总体不必用统计推断方法。
(X )2 .资料的精确性高,其准确性也一定高。
(X )3 .在试验设计中,随机误差只能减小,而不能完全消除。
(V )4 .统计学上的试验误差,通常指随机误差。
(V ) 1. 资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。
2. 直方图适合于表示(连续变量)资料的次数分布。
3 .变量的分布具有两个明显基本特征,即(集中性)和(离散性) 。
4 .反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。
(X )2. 条形图和多边形图均适合于表示计数资料的次数分布。
(X ) 3. 离均差平方和为最小。
(V )4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。
(V )5. 变异系数是样本变量的绝对变异量。
(X )单项选择1.下列变量中属于非连续性变量的是 (C ). A. 身高B.体重C.血型D.血压 2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成(A )图来表示. A. 条形B.直方C.多边形D.折线 3. 关于平均数,下列说法正确的是(B ).A. 正态分布的算术平均数和几何平均数相等 .B. 正态分布的算术平均数和中位数相等 .C. 正态分布的中位数和几何平均数相等 .D. 正态分布的算术平均数、中位数、几何平均数均相等。
生物统计学复习题

生物统计学复习题生物统计学复习题《生物统计学》复习题1.下表是6种溶液及对照组的雌激素活度鉴定,指标是小鼠子宫重量。
计算各个平均数,做方差分析。
若差异是显著的,则进一步进行多重比较。
鼠号 1 2 3 4溶液种类对照89.9 93.8 88.4 112.6I 84.4 116.0 84.0 68.6II 64.4 79.8 88.0 69.4III 75.2 62.4 62.4 73.8IV 88.4 90.2 73.2 87.8V 56.4 83.2 90.4 85.6VI 65.6 79.4 65.6 70.22. 用两种不同药物治疗某疾病,服用A药物的30人中有18人痊愈,服用B药物的30人中有25人痊愈。
问两种药物的疗效有无显著差异?若6人服用A药痊愈5人,6人服用B药痊愈3人,结果又怎样?3. 调查每天出生的10名新生儿中体重超过3kg的人数,共调查120d。
每天的10名新生儿中,体重超过3kg的人数可能有11种情况,结果如下表所示。
试推断所列数据是否服从二项分布。
4. 某地区发现,在896名14岁以下的儿童中有52%男孩。
用0.95的置信水平估计这群儿童的性别比是否合理?5. 作为生产药物的原料的失效率,若在5%以下还可以使用,若超过5%则不能再使用。
从这批药物中随机抽取30包,经检验分析,其中有5包是失效的。
问这批药物是否还可以用?6. 一种农药的杀虫率为90%。
在一次试验中,要求对总体的估计不超过2%的范围。
问以0.95置信水平计算,至少需要多大的样本才能满足要求?7. 为了判断一种新的治疗高血压药物的疗效是否显著,选取20名患者做药效实验。
首先测量每人的血压值,然后服药,经过一段时间的遏制了后,再测其血压值,结果如下(舒张压/mmHg)。
问这种新药治疗高血压是否有效?8. 给幼鼠喂以不同的饲料,研究每日钙的留存量(mg)是否有显著不同,以两种方式设计本实验。
第一种方式:同一鼠先后喂予不同的饲料鼠号1 2 3 4 5 6 7 8 9A饲料33.1 33.1 26.8 36.3 39.5 30.9 33.4 31.5 28.6 B饲料36.7 28.8 35.1 35.2 43.8 25.7 36.5 35.9 28.7生物统计学复习题第二种方式:甲组12只喂A饲料,乙组9只喂B饲料甲组(A)29.7 26.7 28.9 31.1 33.1 26.8 36.3 39.5 30.9 33.4 31.5 28.6 乙组(B)28.7 28.3 29.3 32.2 31.1 30.0 36.2 36.8 30.0试以0.05的显著性水平,检验每种方式中两种不同饲料钙的存留量差异是否显著。
生物统计学考试复习试题库完整
生物统计学各章题目一填空1.变量按其性质可以分为〔连续〕变量和〔非连续〕变量。
2.样本统计数是总体〔参数〕的估计值。
3.生物统计学是研究生命过程中以样本来推断〔总体〕的一门学科。
4.生物统计学的基本内容包括〔试验设计〕和〔统计分析〕两大部分。
5.生物统计学的发展过程经历了〔古典记录统计学〕、〔近代描述统计学〕和〔现代推断统计学〕3个阶段。
6.生物学研究中,一般将样本容量〔n≥30〕称为大样本。
7.试验误差可以分为〔随机误差〕和〔系统误差〕两类。
判断1.对于有限总体不必用统计推断方法。
〔×〕2.资料的精确性高,其准确性也一定高。
〔×〕3.在试验设计中,随机误差只能减小,而不能完全消除。
〔∨〕4.统计学上的试验误差,通常指随机误差。
〔∨〕二填空1.资料按生物的性状特征可分为〔数量性状资料〕变量和〔质量性状资料〕变量。
2. 直方图适合于表示〔连续变量〕资料的次数分布。
3.变量的分布具有两个明显基本特征,即〔集中性〕和〔离散性〕。
4.反映变量集中性的特征数是〔平均数〕,反映变量离散性的特征数是〔变异数〕。
5.样本标准差的计算公式s=〔 〕。
判断题1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。
〔×〕2. 条形图和多边形图均适合于表示计数资料的次数分布。
〔×〕3. 离均差平方和为最小。
〔∨〕4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。
〔∨〕5. 变异系数是样本变量的绝对变异量。
〔×〕单项选择1. 下列变量中属于非连续性变量的是< C >.A. 身高B.体重C.血型D.血压2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成< A >图来表示.A. 条形B.直方C.多边形D.折线3. 关于平均数,下列说法正确的是< B >.A.正态分布的算术平均数和几何平均数相等. B.正态分布的算术平均数和中位数相等. C.正态分布的中位数和几何平均数相等. D. 正态分布的算术平均数、中位数、几何平均数均相等。
生物统计学期末复习题库及答案
第八章 可用个体间的( 相似程度 )和( 差异程度 )来表示亲疏程度。
2. 关于泊松分布参数 λ 错误的说法是 ( C ). A. μ =λ B. σ2=λ C. σ =λ D. λ=np 3. 设 x 服从 N(225,25),现以 n=100 抽样,其标准误为( B )。 A. 1.5 B. 0.5 C. 0.25 D. 2.25 4. 正态分布曲线由参数 μ和σ 决定 , μ 值相同时 , σ取( D )时正态曲线展开程 度最大 ,曲线最矮宽 .
5.在进行区间估计时, α越小,则据和成对数据的假设检验都是采用 t 检验的方法。(R)
7.在同一显著水平下,双尾检验的临界正态离差大于单尾检验。 (R)
三、单选
1.两样本平均数进行比较时,分别取以下检验水平,以 (A)所对应的犯第二类错
误的概率最小。
第三章
填空 1.如果事件 A 和事件 B 为独立事件,则事件 A 与事件 B 同时发生的概率 P(AB ) = P(A)?P( B)。 2.二项分布的形状是由( n )和( p )两个参数决定的。 3.正态分布曲线上, ( μ )确定曲线在 x 轴上的中心位置,( σ )确定曲线 的展开程度。 4.样本平均数的标准误 x =( / n )。 5.事件 B 发生条件下事件 A 发生的条件概率记为 P(A/B), 计算公式:P(AB)/P(B) 判断题 1.事件 A 的发生和事件 B 的发生毫无关系, 则事件 A 和事件 B 为互斥事件。(× ) 2.二项分布函数 Cnxpxqn-x 恰好是二项式( p+q)n 展开式的第 x 项,故称二项分 布。( × )
4.进行平均数的区间估计时, (B)。
A.n 越大,区间越大,估计的精确性越小。
B.n 越大,区间越小,估计的精确性越大。
生物统计学复习题
一、名称解释1、样本:从总体中随机抽取的部分个体总体:所需研究的对象的全部个体构成的集合2、参数:描述总体特征的数值统计量:描述样本特征的数值3、准确性:观测值或估计值与真实值的接近程度精确性:对同一对象的重复观测值或估计值彼此之间的接近程度4、概率:用来度量每一事件出现的可能性大小的数字特征频率:在n次试验中,事件A出现的次数与试验总数的比值5、标准差:反映资料离散程度的统计量标准误:样本平均数的标准差,反映抽样误差大小二、简答题1、什么是配对资料?它和非配对资料的主要区别?如果将配对资料用非配对资料的检验方法来检验会出现什么情况?①概念:先将参加试验的个体照配对原则量量配对,再将每一对子内的两个个体独立随机地分配到两个处理组中。
配对的原则是:同一对子内的两个个体的初始条件应尽可能一致,但不同对子间的个体的初始条件允许有差异。
②区别:一是在于试验材料的不同,二是检验的方法上的不同③配对的关键就是能够做到个体之间一对一的关系,其核心指标是两个个体指标的差值,而成组设计做不到个体一一对应的关系2、什么是双侧检验和单侧检验?有什么区别?各自在什么情况下使用?①双侧检验:假设检验的否定域分别位于检验统计量抽样分布的两个尾部单侧检验:假设检验的否定域在检验统计量抽样分布的一侧②区别:在相同的显著水平下,单侧检验否定域临界值的绝对值小于双侧检验否定域临界值的绝对值,因此检验的灵敏度更高。
③在尽可能的情况下使用单侧检验,但一定要有充分的依据,能够事先排除一种可能性。
3、什么是Ⅰ型错误和Ⅱ型错误?如何才能降低它们发生的概率?①Ⅰ型错误:当原假设实际上是正确的,而依据某一样本作出拒绝原假设的判断,这就将正确的假设误认为是错误的,我们将这种“以真为假”的错误称为…Ⅱ型错误:当原假设实际上是错误的,而依据某一样本作出接受原假设的判断,也就是将错误的假设误认为是正确的,我们将这种“以假为真”的错误称为…②Ⅰ型错误:选择相对小的显著水平Ⅱ型错误:增大样本含量4、简述假设检验的步骤:①提出假设②构造并计算检验统计量③确定否定域④对假设进行统计推断5、什么是抽样分布?常见的抽样分布有哪些?各是如何定义的?它们彼此间有什么联系?①概念:从总体中随机抽取一定量的样本,由样本计算各种统计量,进而所得的概率分布称为抽样分布②常见的抽样分布:卡方分布、t分布、F分布、正态分布6、简述集中趋势与离散趋势的特征有哪些?(1)集中趋势:算术平均数几何平均数中位数众数调和平均数(2)离散趋势方差标准差范围(极差)平均绝对离差变异系数。
生物统计学复习的题目
生物统计学复习题一、名词解释交互作用:表示当两种或几种因素水平同时作用时的效果较单一水平因素作用的效果加强或者减弱的作用。
当因素间的互作效应为零时,称该因素间无交互作用,此时的因素是相互独立的因素。
回归系数:回归分析中度量依变量对自变量的相依程度的指标,它反映当自变量每变化一个单位时,依变量所期望的变化量。
整群抽样:就是将总体划分为若干个小群体,再随机抽取部分小群体组成样本。
F检验:即统计假设的显著性检验,用于推断处理间的差异是否存在。
在计算F值时,以被检验因素的均方(即处理间均方S t2)作分子,以误差均方(即处理内均方S e2)作分母。
(没找到)无效假设:不管样本是否真的属于总体A,都首先假设是,即假定“X与μ间的差异源自误差,并非本质差异”,这就是无效假设,记H0。
相关变量:统计学把存在关联但并非确定的数量关系称为相关关系, 把存在相关关系的变量称为相关变量。
决定系数:是变量X引起Y变异的回归平方和占Y变异总平方和的比率,为相关系数r的平方。
取值范围:0~1。
独立变量:一个量改变不会引起除因变量以外的其他量的改变,则称这个量为独立变量。
相关系数:就是两变量离均差乘积和平均数的标准化值。
分层抽样:又叫分类抽样。
先按某种特征将总体分为若干个层次 (strata),在每一层内随机抽取亚层,直到最后一层对观察单位随机抽样。
(比如资源调查中按片区→地区→局部区域等分成若干个地域层次。
)单位组:(相当于一个区组) 在盆栽和动物试验中,为随机分配到各个处理而挑选出来的尽可能一致的一组试验单位。
不同单位组可分别安排在有条件差异的场所。
随机样本:在抽样过程中, 通过一定的方法和条件控制, 尽可能确保总体中的每一个体都有同等的机会被抽到, 这样的抽样方法叫随机抽样 (random sampling)。
通过随机抽样所得到的样本叫随机样本, 通常简称样本。
概率抽样:又叫随机抽样,就是调查研究对象的总体中每个部分都有被抽中的相同几率,是一种完全依照机会均等的原则进行的等概率抽样。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物统计学复习题work Information Technology Company.2020YEAR生物统计学考试总结第一章生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。
内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等生物统计学的作用:1. 提供整理、描述数据资料的科学方法并确定其特征2. 判断试验结果的可靠性3. 提供由样本推断总体的方法4. 试验设计的原则相关概念:1.总体:研究对象的全体,是具有相同性质的个体所组成的集合2.个体:组成总体的基本单元3.样本:由总体中抽出的若干个体所构成的集合 n >30 大样本; n <30 小样本4.参数:描述总体特征的数量5.统计数:描述样本特征的数量由于总体一般很大,有时候甚至不可能取得,所以总体参数一般不可能计算出来,而采用样本统计数来估计总体的参数6..效应:由因素而引起试验差异的作用7. 互作:两个或两个以上处理因素间的相互作用产生的效应 生物统计学的研究包括了两个过程: 1. 从总体抽取样本的过程——抽样过程2. 从样本的统计数到总体参数的过程——统计推断过程第二章1.算术平均数:是所有观察值的和除以观察的个数平均数(AVERAGE )特性:(1)样本中各观测值与平均数之差-离均差-的总和等于零(2)样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值离均差的平方和小,即离均差平方和最小2.中位数:将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为中位数,以Md 表示以外的任何数值为设x a3.众数:在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数,以M o 表示4.几何平均数:资料中有n 个观测值,其乘积开n 次方所得的数值,以G 表示。
5.极差(全距):样本数据资料中最大观测值与最小观测值的差值R =max{x 1,x 2,…,x n} — mix{x 1,x 2,…,x n} 6.样本方差:总体方差:用n -1代替n 作,可以避免偏小估计,从而实现样本方差对总体方差的无偏估计 在统计上,自由度(df =n -1 )是指样本内独立而能自由变动的观测值的个数 在计算其他统计数时,如果受到k 个条件的限制,则其自由度为n -k 7.样本标准差:总体标准差:(1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大 (2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a ,其标准差不变;如果乘以或除以一个常数a ,则标准差扩大或者缩小a 倍 STDEV: 基于给定样本的标准偏差STDEVP :基于给定样本总体的标准偏差8变异系数(CV ):样本标准差除以样本的平均数,得到百分比(1)变异系数是样本变量的相对变量,是不带单位的纯数 (2)用变异系数可以比较不同样本相对变异程度的大小第三章概率的计算法则:(1)乘法定理:如果A 和B 为独立事件,则事件A 和B 同时发生的概率等于各自事件的概率的乘积(2)加法定理:互斥事件A 和B 的和的概率等于事件A 和事件B 的概率之和加法定理推理1:如果A1、A2、…An 为n 个互斥事件,则其和事件的概率为: P (A 1+A 2…A n )=P (A 1)+P (A 2)+…+P (A n )加法定理:如果A 和B 是任何两件事件,则概率分布:(1)离散型随机变量的概率分布 变量(x )x 1 x 2 x 3 … x n)()()(B P A P B A P ⨯=•)()()(B P A P B A P +=+)()()()(B A P B P A P B A P •-+=+概率(P ) p 1 p 2 p 3 … p n离散随机变量的方差(2)连续型随机变量的概率分布 连续型随机变量的概率分布1. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值2. 它取任何一个特定的值的概率都等于03. 不能列出每一个值及其相应的概率4. 通常研究它取某一区间值的概率5. 用数学函数的形式和分布函数的形式来描述概率密度函数:(1)设X 为一连续型随机变量,x 为任意实数,X 的概率密度函数记为f(x),它满足条件 (2) ,f (x )不是概率几种常见的概率分布:(适用范围,尾函数,自由度)1. 二项分布的概率函数 记作B (n ,p )或者B (n ,π)(1)每次试验只有两个对立结果,分布记为A 与 ,它们出现的概率分布为p 与q (q =1-p )(2)试验具有重复性和独立性 二项式分布的概率累积函数:若随机变量x 服从二项式分布,则有二项分布的总体平均数为二项分布的总体标准差为:二项成数(百分数)分布的平均数:()⎰=≤≤22)(21x x dx x f x x x P ∑==-=Ri i i x X P x 122)()(μσA ∑==np x p x i i x )(μ()npq x p x i ix =-=∑2)(μσ∑==ix x P x F 0)()(p nnpn xp ===μμ二项成数(百分数)分布的标准差: B(n , p )BINOMDISTx number_s 实验成功次数 n trials 独立实验次数 p probability_s一次实验中成功的概率cumulativeTrue:False: 例:假设年龄60~64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛(注:1986年,60~64岁的男性老人第二年的死亡率约为0.02)解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。
注:通常是把概率值为0.05或者更小的概率事件识别为异常(稀有事件)。
由于至少5人死亡的概率是0.05,可见100人中至少死亡5人是稍微有点异常,但不是很异常。
如果至少死亡10人,那么概率是3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。
2. 泊松分布二项式分布中,如果p 值很小而n 值很大( p<0.1 和np<5 ),则泊松分布式中: 为参数, 泊松分布的平均数、方差、标准差!)(x e x P xλλ-=λ,...2,1,0,==x np λλσλμ==2例:假如我们研究乳腺癌的遗传敏感性。
我们发现,母亲曾患有乳腺癌的1000名40~49岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。
试问乳腺癌有没有敏感性?解:如果用二项分布,则n =1000,p =1/1000,解:如果用泊松分布,则n =1000,p =1/1000, 则平均值 =1 则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性3. 正态分布(高斯分布)为总体平均数, 为总体标准差正态分布的特征1. 当 时,f (x )有最大值2. 当 的绝对值相等的时候,f (x )值也相等3. 当 的绝对值越大,f (x )值就越小,但永远不等于04. 正态分布曲线完全由函数 和来决定 ),(2σμN μσμ=x μ-x σμ-x μσσμ±=x5. 正态分布曲线在 处各有一个拐点6. 正态分布求和为0 NORMDISTxi X 函数值的区间点 Mean 算术平均值 Standard_dev 标准差cumulativeTrue: 累积False:概率密度函数值标准正态分布:NORMSDISTxi Z标准正态分布的区间点NORMSINVu probability正态分布概率,介于0~1之间,含0,14. t 分布:是小样本分布,小样本分布一般是指n <30。
t 分布适用于当总体标准差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等 P45TDIST :返回自由度为n 的t 分布在x 点处的单尾或者双尾概率。
TINV : 返回自由度为n 的t 分布的双尾概率分布函数的反函数. TINV1,02==σμσμ-=x u注意:1)TINV 返回 t 值,P (|X | > t ) = probability ,即P (|X | > t ) = P (X < -t or X > t )2)单尾 t 值可通过用两倍概率替换概率而求得 eg :如果概率为 0.05 而自由度为 10 , 双尾值由 TINV(0.05,10) 计算得到2.28139;而同样概率和自由度的单尾值由 TINV(2*0.05,10) 计算得到 1.812462。
5.卡方分布 P45Probability 双尾学生 t 分布的概率Degrees_freedom 自由度6.F分布1、概率抽样:根据已知的概率选取样本简单随机抽样:完全随机地抽选样本分层抽样:总体分成不同的“层”,然后在每一层内进行抽样整群抽样:将一组被调查者(群)作为一个抽样单位等距抽样:在样本框中每隔一定距离抽选一个被调查者2、非概率抽样:不是完全按随机原则选取样本非随机抽样:由调查人员自由选取被调查者判断抽样:通过某些条件过滤来选择被调查者3、配额抽样:选择一群特定数目、满足特定条件的被调查者抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布1.所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布2.是一种理论概率分布3.随机变量是样本统计量——样本均值, 样本比例等4 结果来自容量相同的所有可能样本(符号)样本平均数的基本性质:(1)样本均值的均值(数学期望)等于总体均值μμ=x定义: 一个参数 θ的估计量是θˆ ,如果θθ=)ˆ(E ,则称θˆ 是θ 的无偏估计(2)样本均值的方差等于总体方差的1/n nx22σσ=(3)样本平均数的标准误差的定义(4)当总体服从正态分布N~(μ, σ2 )时,来自该总体的所有容量为n 的样本的均值 也服从正态分布, 的数学期望为μ,方差为σ2/n 。
即 ~N (μ, σ2/n )X X X中心极限定理:设从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布两个独立样本平均数差数的分布P44第四章假设检验:又称显著性检验:根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断。