医学统计重点
医学统计学重点重点知识总结

医学统计学重点一.选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为µ1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与ɑ的关系,ɑ是人为规定的,它们之间没有关系; P值↑,ɑ↑(×)4.方差分析自由度v的计算,v总=n-1;v组间=组数(k)-1;v组间=v总-v组间5.理论秩和(n(n+1)/2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(×);有95%的总体参数在该区间内(×);该区间包含95%的总体参数(x);该区间有95%的可能包含总体参数。
(x);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(×);回归系数↑,相关系数↑(×);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-α的可信区间,又称置信区间。
3.P值:拒绝H0时所冒的风险(或“作出拒绝H0 而接受H1 ”结论时冒了P风险)4.ɑ(第一类错误):H0真实时被拒绝(或H0真实时,拒绝H0,接受H1)5.β(第二类错误):H0不真实时不拒绝(或H0不真实时,不拒绝H0)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异; 引进回归方程后, Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围。
医学统计学考试重点整理

一、基本概念1.总体与样本总体:所有同质观察单位某种观察值(即变量值)的全体样本:是总体中抽取部分观察单位的观察值的集合2.普查与抽样调查普查:就是全面调查,即调查目标总体中全部观察对象抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查3.参数与统计量参数:总体的某些数值特征统计量:根据样本算得的某些数值特征4.Ⅰ型与Ⅱ型错误假设检验的结论真实情况拒绝H0不拒绝H0H0正确Ⅰ型错误(ɑ)推断正确(1−ɑ)H0不正确推断正确(1−β) Ⅱ型错误(β)Ⅰ型错误(ɑ错误):H0为真时却被拒绝,弃真错误Ⅱ型错误(β错误): H0为假时却被接受,取伪错误5.随机化原则与安慰剂对照随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。
(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上)安慰剂对照:是一种常用的对照方法。
安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。
(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。
安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应)6.误差与标准误(区分率与均数)㈠均数抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。
标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n㈡样本率率的抽样误差:样本率p和总体率π的差异率的标准误:样本率的标准差,公式为σp=√π(1-π)/n7。
方差分析方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本均数所代表总体均数是否有差别的一种统计学方法。
医学统计学重点概要

第一章 绪论总体:根据研究目的确定的同质的所有观察单位某种变量值的集合。
总体包括有限总体和无限总体。
样本:从总体中随机抽取的部分观察单位,其实测值的集合。
获取样本仅仅是手段,通过样本信息来推断总体特性才是研究的目的。
资料的类型计量资料、计数资料和等级资料。
误差包括随机误差、系统误差和非系统误差。
抽样误差:由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。
概率:是描述随机事件发生可能性大小的一个度量。
取值范围0≤P ≤1。
小概率事件:表示在一次实验或观察中该事件发生的可能性很小,可以认为很可能不发生。
P ≤0.05或P ≤0.01。
医学统计学的步骤:设计、收集资料、整理资料和分析资料。
统计分析包括:统计描述和统计推断。
统计推断包括:参数估计和假设检验。
第二章计量资料的统计描述频数表和频数分布图的用途:(1)描述频数分布的类型,以便选择相应的统计指标和分析方法。
对称分布:集中位置在中间,左右两侧頻数基本对称。
偏态分布:正、负偏态分布正偏态集中位置偏向值小一侧,负偏态反之。
(2)描述頻数分布的特征;(3)便于发现资料中的可疑值;(4)便于进一步计算统计指标和进行统计分析。
计量资料集中趋势包括算术均数、几何均数和中位数。
算术均数:直接法(样本小):n x x ∑=;頻数表法(样本大)x =nfx ∑ 几何均数:直接法:)lg (lg 1n x G ∑-=;頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==(常用于等比资料或对数正态分布资料)中位数:直接法:n 为奇数2/)1(+=n x M ,n 为偶数2/)(12/2/++=n n x x M ;頻数表法:∑-⨯+=)%50(L M M f n f iL M 。
中位数的应用注意事项:可用于各种分布资料,不受极端值的影响,主要用于(1)偏态分布资料(2)端点无确切值的资料(3)分布不明确的资料。
医学统计学重点总结

综合练习
三类资料
(1) 定量资料(quantitative data) 以定量值表达每个观察单位的某项观察指标, 如血脂、心率等。 特点:
① 各观察单位间只有量的差别; ② 数据间有连续性。
三类资料
(2) 定性资料(qualitative data) 以定性方式表达每个观察单位的某项观察指标, 如血型、性别等。 特点:
举例 血型(A、B、O、AB) 人群中某病发生与否(发生、不发生)
描述指标: 相对数
率 构成比 相对比
常用相对数(1)
率(rate),又称频率指标,说明某现 象发生的频率和强度。(强度相对数)
率 = 可 实 能 际 发 发 生 生 某 某 现 现 象 象 的 的 观 观 察 察 单 单 位 位 总 数 数 比 例 基 数
比 A B
四格表(fourfold table)的概念
a
b
c
d
这四个格子的频数是整个表的基本数据,其 余数据都是从这四个基本数据推算出来的,这 种资料称为四格表资料。
2检验的基本思想
如果H0假设成立,则实际频数( actual
frequency)与理论频数应该比较接近。
如果实际频数与理论频数相差较大,超出了
区别
r 没有单位,b有单位;所以,相关系数与单位无 关,回归系数与单位有关;
相关表示相互关系;回归表示依存关系; 对资料的要求不同:
当X和Y都是随机的,可以进行相关和回归分析; 当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析
;
实验研究的基本要素
处理因素:作用于受试对象,要求在实验过 程中观察其处理的因素
两样本比较的秩和检验(基本原理) Wilcoxon符号秩和检验(基本原理)
医学统计学重点知识点

<<医学统计学>>1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。
2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。
3. 同质:影响研究指标的主要因素易控制的因素基本上相同。
4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。
样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为--5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。
6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。
原因:失访/退出/终止(研究时限已到而终止观察)。
7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。
X2反应实现了实际频数与理论频数的吻合程度。
如果检验假设成立,则A-T一般不大,X2应很小,即出现大X2值概率很小。
即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。
若P>a则没有理由拒绝H0。
8. X2用途:(1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x列表)。
B两变量之间有无相互关系。
C频数分布的拟合优度检验(判断次样本是否来自某种分布)。
(2)某些分布可用X2近似。
(3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。
9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。
10. 假设检验中P,a,b(倍他)的关系及统计学意义:a:检验水准,即显着性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。
医学统计学重点

医学统计学重点说明:本重点仅供参考:不能包括所有选择题考题,名词和简答可信度高,计算题熟练运算过程;同时自己要清楚各种检验方法的基本思想,重点程度与星号数量相关)一、名词解释1、★★★医学统计学:用概率论和数理统计方法研究医学事件的群体特征的一门方法。
2、★总体:根据研究目的确定的同质的研究对象的全体(集合)。
3、样本:从总体中随机抽取的部分研究对象。
4、随机:总体中每个个体有同等的机会进入样本。
5、系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。
6、随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。
7、★★抽样误差:由于抽样原因造成的样本指标与总体指标之间的差,或者是样本指标与样本指标之间的差。
8、准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(9、可靠度(reliabiliy)——也称精密度(precision)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响。
10、★★★小概率事件:一般常将p ≤ 0.05或p ≤ 0.01称为小概率事件,表示某事件发生的可能性很小。
通俗讲一次抽样是不可能发生的事件。
11、★★正态分布定:又称高斯分布,是一条中间高,两头低,左右完全对称地下降,但永远不与横轴相交的钟形曲线。
12、★★医学参考值范围:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。
最常用的是95%参考值范围。
13、★★标准误:用于反映均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。
14、★95%的可信区间:如果从同一总体中重复抽取100个独立样本,将可能有95个可信区间包括总体均数,有5个可信区间未包括总体均数。
二、填空题1、★医学统计学工作基本步骤:统计设计;收集资料.;整理资料;分析资料2、★统计分析包括:统计描述、统计推断3、频数分布的两个重要特征:集中趋势和离散趋势4、正态分布的两个参数:均数;标准差。
医学统计学重点重点知识总结

医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
医学统计学重点官方版

一:基本概念:1.参数:反映总体的统计指标。
2. 统计量:反映样本的统计指标称为统计量。
3. 概率:描述随机事件发生的可能性的大小的一个量度4.小概率事件:把p小于等于0.05或小于等于0.01的随机事件。
资料类型:计量资料,计数资料,等级资料。
医学统计的基本步骤:研究设计,收集资料,整理资料,分析资料,结果报告与结论表达。
二:变量分布:1.正态分布:指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。
特征:(1)正态分布曲线是单峰,对称,钟形曲线,X=μ时曲线达到最高峰。
(2)正态曲线有两个参数,总体均数μ和总体标准差σ,μ越大曲线右移,越小左移,故称位置参数,σ越小曲线越瘦高,越大曲线越矮胖,故称形状参数。
(3)正态分布曲线下的面积分布具有一定的规律。
P80页。
应用:(1)质量控制(2)是统计学的理论基础(3)制定医学参考值范围制定医学参考值范围:包括绝大多数正常人的人体形态功能和代谢反应等各种生理生化指标的波动范围,是作为判定某项指标正常与否的参考标准。
方法:确定正常人对象的范围,统一测量标准,确定分组,样本含量确定,确定参考值范围的但双侧,确定百分界值,医学参考值范围的估计。
2.二项分布特征:(1)二项分布的图形:当π=0.5时图形对称,π≠0.5时,图形呈偏态,且当n的含量增大时,图形趋于对称。
(2)二项分布的均数与标准差:μ=n π;σ²=nπ(1-π);σ=根号下nπ(1-π)(3)二项分布的正态近似:当n无限增大时越趋近于正态分布。
应用:对立性,独立性,重复性三:统计分析:㈠1.统计描述:图表和指标(1)图表:频数分布图分为正偏态和负偏态,长尾向右侧延伸为正偏态,向左侧延伸为负偏态。
频数分布的特点:集中趋势和离散趋势。
(2)指标:分为计数指标和计量指标。
计数指标:相对数。
应用相对数的注意事项:①计算相对数时分母不宜太小②观测单位数不等的几个率不能直接想加求其合计率③资料对比时注意可比性④资料分析时不能以构成比代替率⑤考虑存在抽样误差计量指标:1.集中趋势:①算数均数χ:适用于对称分布资料,特别是正态或近似正态分布的计量资料。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以下是今天早上老师画的重点内容,谨供大家参考。
可能会有不足或遗漏之处,望大家指出。
祝大家顺利通过统计考试!!——By 陈虹统计考试通知1月15日,8:30-10:30 ,纸考(记得带2B铅笔),70道选择题,仿执医考试题型,如果不放心的话,也可以带上计算机。
我们和一临的考场是605,606,801,802,805。
考场的具体安排老师还没拿到,如果拿到的话,我会尽快通知大家;如果没有的话,就麻烦大家考试当天早点到考场,到时候名单会贴在各考场的门上。
频数表的用途:1、揭示计量资料的分布特征2、描述计量资料的集中趋势和离散趋势3、便于发现某些特大或特小的可疑值算术均数适合描述对称分布资料的集中位置(平均水平)几何均数适合描述资料呈倍数关系或对数正态分布(正偏态分布)中位数适合描述大部分观测值比较集中,少数观测值偏向一侧或资料分布情况不清楚或数据的最大值(最小值)无准确测量数据极差参考性指标可以用来说明传染病、食物中毒的最短、最长潜伏期缺点:1、除了最大和最小值外,不能反映组内其他数据的变异度2、样本量越大,抽到较大或较小变量值的可能性就越大,因而极差可能越大,故样本量悬殊时,不宜比较其极差。
3、即使样本量不变,极差的抽样误差亦较大,即不够稳定。
变异系数当两组资料单位不同,或单位相同,均数相差较大时,不能直接用标准差比较它们的变异程度,此时需用变异系数进行比较。
应用相对数时应注意的问题:P591、应用相对数对比分析时,要考虑资料是否具有可比性。
2、计算相对数时,分母不宜过小。
3、对观察例数不等的几个率,不能直接相加求其平均值。
4、不能以构成比代替强度相对数。
统计表的结构:P60-611、标题2、标目3、线条4、数字两条基本原则:1、简单明了2、主语与宾语要划分清楚条图绘制要点:1、图中各直条要有同一基线,尺度必须从“0”开始,否则会改变直条间的比例关系。
2、直条排列顺序由高到低。
3、各条的宽度要一致,直条间的空隙要相等,直条间的空隙一般不要大于条宽。
4、尽量避免用折断或回转的直条。
绘制圆图时应注意:1、各扇形应按大小或自然顺序自时钟12点处开始顺时针方向排列。
2、各扇形内要注明简单的文章和百分比。
直方图的绘制要点:1、纵轴应从“0”点开始,横轴可不。
2、直方图中各矩形之间可划直线隔开,也可不。
3、当各组的组距不等时,不能直接用各组频数绘图,而应将频数除以组距作高度在作图,否则会给人以错误的印象。
二项分布的适用条件:1、每次试验只会发生两种对立的可能结果之一。
2、每次试验产生某种结果的概率固定不变。
3、重复试验是相互独立的。
掌握P78 公式5-27Poisson分布的性质:P801、数学期望与方差相等。
即E(X)=λ,V(X)=λ。
2、可加性。
服从Poisson分布的m个相互独立的随机变量X1,X2,……,Xm,它们之和也服从Poisson分布,且其均数为这m个随机变量的均数之和。
Poisson分布与二项分布、正态分布的关系:P801、对于n很大,π很小的二项分布资料,当δ2x =nπ(1-π)与Ux =nπ比较接近时,二项分布b(n,π)近似λ=nπ的Poisson分布。
2、当λ增大时,Poisson分布渐近正态分布。
一般而言,λ大于或等于20时,Poisson分布资料可作为正态分布处理。
正态分布的特征:P871、正态曲线位于直角坐标系上方,以x=u为中心,左右完全对称,两端以x轴为渐近线。
2、见书本3、正态分布有两个参数:位置参数u和形态参数σ。
若固定σ,μ值变小,曲线则沿x轴向左平移,μ值变大,曲线则沿x轴向右平移,形状均不变;若固定μ,σ值变小,曲线则变陡峭,σ值变大,曲线则变平坦。
4、正态曲线下的面积分布有一定的规律,欲求其一定区间的面积,可通过公式6-2正态分布曲线下的面积分布规律为:1、x轴与正态曲线所夹面积恒等于1或100%;2、区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
要会查正态分布的界值表。
正常人的概念:并不是指机体任何器官、任何组织的形态和机能都正常的健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。
参考值范围的意义:参考值范围是指绝大多数正常人的某指标值都在一定的范围内,这个绝大多数习惯上包括正常人的90%,95%,99%等,其中最常用的是95%。
如果某指标参考值百分界限采用95%,则在参考值范围之外的正常人尚有5%。
对于双侧界值,在下侧和上侧界值之外各有2.5%;对于单侧界值,在下侧或上侧界值之外各有5%。
看一下P99 图6-10 的X2分布曲线和P100 图6-11的F 分布图。
χ2分布的形状依赖于自由度v 的大小:①当自由度v≤2时,χ2曲线呈“L”型;②随着v的增加,χ2 曲线逐渐趋于对称;③当自由度v →∞时,χ2曲线逼近于正态曲线。
参数估计的基本方法:先得到统计量X(均数)和S,用X(均数)和S对未知参数σ和μ作出统计推断。
统计推断的基本问题有两类:1、参数估计;2、假设检验。
统计量的标准差称为标准误(SE),是反映样本均数抽样误差大小的指标。
掌握P106 公式7-4可信区间的涵义:从总体中做随机抽样,对于含量为n的每个样本而言,都可以算得一个区间。
以95%的可信区间为例,意味着在同一个总体中作100次重复抽样,可得100个可信区间,平均有95个可信区间包含总体均数u(估计正确),只有5个可信区间不包含总体均数u(估计不正确),或对于某一区间而言,它包含总体均数u的可能性为95%,而不包括总体均数u的可能性仅为5%。
因此在实际应用中,以这种方法估计总体均数犯错误的概率仅为5%。
可信区间应注意的问题:1、在进行区间估计时,总体均数u是一个固定的参数,而由样本量计算出的可信区间是变化的,即每次抽样所得的区间是不同的。
因此,不能说总体均数μ以1-α的可信度落在可信区间内,而是可信区间以1-α的可信度包含总体均数μ。
2、在可信区间未计算出来前,可以说区间X±t0.05/2,v Sx以95%的可能性包含了总体均数μ;但可信区间一经计算出来,它要么包含μ,要么不包含μ,不存在95%的概率问题。
然而,对于一个实际问题,人们有理由相信已计算的可信区间包含了μ,否则就失去了统计推断的意义。
标准差 VS 标准误内容 SD SE性质表示个体变异大小统计量的标准差,表示抽样误差大小控制方法个体变异或自然变异,增大样本含量可减少不可通过统计方法来控制。
用途求参考值范围求可信区间参考值与可信区间的区别,详见课件《抽样误差与参数估计》掌握P108 公式7-7两类错误:当H0为真时,假设检验结论拒绝H O接受H1,这类错误称为第一类错误或Ⅰ型错误,亦称假阳性错误。
用α表示。
当真实情况为H0不成立而H1成立时,假设检验结论不拒绝H0反而拒绝H1,这类错误称为第二类错误或Ⅱ型错误,亦称假阴性错误。
用β表示。
α愈小,β愈大;相反,α愈大,β愈小。
若要同时减小Ⅰ型错误α和Ⅱ型错误β,唯一的方法就是增加样本量n。
1-β称为检验效能或检验功效,也称把握度。
如果本应做双侧检验而误用了单侧检验,容易犯Ⅰ型错误,即假阳性错误。
P值的含义:P值是指由H0规定的总体中进行随机抽样,所观察到的等于及大于(或等于及小于)现有样本统计量的概率,P值越小,当前的实验结果越“不利于”接受H0 。
α为检验水准。
X2检验请看下P136 例9-1 独立四格表;P140 例9-3 配对四格表;P141 例9-4 多个样本率的比较;P142 例9-5 RxC构成比的比较;P143例9-6 多组构成比的比较。
四格表资料χ2检验公式选择条件:n≥40, T≥5,不校正的理论或专用公式;n≥40, 1≤T<5,校正公式;n<40 或 T<1,直接计算概率。
χ2连续性校正仅用于ν=1的四格表资料,当ν >1时,一般不作校正。
行×列表资料χ2检验应用条件:行×列表中各格的理论频数不应小于1,并且1≤ T<5的格子数不宜超过格子总数的1/5。
否则可能产生偏性。
处理方法有三种:1、增大样本含量以达到增大理论频数的目的。
只是有些研究无法增大样本含量,如同一批号试剂已用完等。
2、根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。
这样做会损失信息及损害样本的随机性。
3、改用双向无序R×C表的Fisher确切概率法。
Fisher确切概率法的适用条件:1、当四格表资料中出现n<40;2、或有一个格的理论数T<1 ;3、或用与书本公式9-1和公式9-11计算出χ2值后所得的概率P ≈α时。
t检验的适用条件:1、当样本量较小时,理论上要求样本为来自正态分布总体的随机样本。
2、当两小样本均数比较时,要求两总体方差相等(方差齐性)。
请看下P154 例10-2 配对t检验;P155 例10-3 独立t检验方差分析的基本思想:根据变异来源将变异分解,考察每一部分对总体作用的大小。
请看下P162 例11-1 one-way;P167 例11-3 two-way 。
方差分析的应用条件:1、各组样本是相互独立的随机样本且来自正态总体。
2、各组总体方差相等,即方差齐性。
若各处理组的均数差别无统计学意义,则不需要作进一步的统计处理,但当方差分析结果为P<α时,只说明k个处理组总体均数不相同或不全相同,不能说明各组总体均数都有差别。
如果要分析哪两组间均数有差别,需进行多个均数间的两两比较。
进行线性回归分析的注意事项1、在进行直线回归分析之前,应绘制散点图。
只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。
2、做回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果关系,那么应该以“因”的变量为X,以“果”的变量为Y。
如果无此关系,应以易于测定,较为稳定或变异较小者为X3、在回归分析中,因变量是随机变量,自变量既可以是随机变量(Ⅱ型回归模型,两个变量应该都服从正态分布),也可以是给定的量(Ⅰ型回归模型,与每个X取值相对应的变量Y 必须服从正态分布),如果数据不符合要求,在进行回归分析前,须先进行变量变换。
4、回归方程建立后必须做假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。
5、使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时自变量的取值范围外。
6、在线性回归分析时,要注意远离群体的离群值对回归效果的影响。
7、做回归分析时,要注意两变量间关系是否存在实际意义。
不能将无依存关系的现象作回归分析。
两变量间存在直线关系时,不一定表明彼此之间就存在因果关系,有可能是依存关系,或仅仅是表面上的伴随关系。