医学统计学重点总结

合集下载

医学统计学重点重点知识总结

医学统计学重点重点知识总结

医学统计学重点一.选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为µ1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与ɑ的关系,ɑ是人为规定的,它们之间没有关系; P值↑,ɑ↑(×)4.方差分析自由度v的计算,v总=n-1;v组间=组数(k)-1;v组间=v总-v组间5.理论秩和(n(n+1)/2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(×);有95%的总体参数在该区间内(×);该区间包含95%的总体参数(x);该区间有95%的可能包含总体参数。

(x);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(×);回归系数↑,相关系数↑(×);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围。

这个范围称作可信度为1-α的可信区间,又称置信区间。

3.P值:拒绝H0时所冒的风险(或“作出拒绝H0 而接受H1 ”结论时冒了P风险)4.ɑ(第一类错误):H0真实时被拒绝(或H0真实时,拒绝H0,接受H1)5.β(第二类错误):H0不真实时不拒绝(或H0不真实时,不拒绝H0)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异; 引进回归方程后, Y方面的变异。

三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。

分辨一个样本是否属于某特定总体等。

区间估计(可信区间):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围。

医学统计学重点总结

医学统计学重点总结
医学统计学
综合练习
三类资料
(1) 定量资料(quantitative data) 以定量值表达每个观察单位的某项观察指标, 如血脂、心率等。 特点:
① 各观察单位间只有量的差别; ② 数据间有连续性。
三类资料
(2) 定性资料(qualitative data) 以定性方式表达每个观察单位的某项观察指标, 如血型、性别等。 特点:
举例 血型(A、B、O、AB) 人群中某病发生与否(发生、不发生)
描述指标: 相对数
率 构成比 相对比
常用相对数(1)
率(rate),又称频率指标,说明某现 象发生的频率和强度。(强度相对数)
率 = 可 实 能 际 发 发 生 生 某 某 现 现 象 象 的 的 观 观 察 察 单 单 位 位 总 数 数 比 例 基 数
比 A B
四格表(fourfold table)的概念
a
b
c
d
这四个格子的频数是整个表的基本数据,其 余数据都是从这四个基本数据推算出来的,这 种资料称为四格表资料。
2检验的基本思想
如果H0假设成立,则实际频数( actual
frequency)与理论频数应该比较接近。
如果实际频数与理论频数相差较大,超出了
区别
r 没有单位,b有单位;所以,相关系数与单位无 关,回归系数与单位有关;
相关表示相互关系;回归表示依存关系; 对资料的要求不同:
当X和Y都是随机的,可以进行相关和回归分析; 当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析

实验研究的基本要素
处理因素:作用于受试对象,要求在实验过 程中观察其处理的因素
两样本比较的秩和检验(基本原理) Wilcoxon符号秩和检验(基本原理)

医科大学医学统计学重点知识总结

医科大学医学统计学重点知识总结

第一章绪论1、统计学的定义:统计学研究数据的收集、整理、分析的一门学科。

医学统计学:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理、方法,研究医学资料的搜集、整理、分析和推断的一门科学。

2、医学统计研究三个步骤:研究设计、资料分析、结论3、(必考的)几个概念:(1)同质:性质相同异质:性质不同观察单位间的同质性是进行研究的前提同质是相对的(不同研究中或同一研究中不同观察指标对观察对象的同质性的要求不同)(2)个体变异:同质个体间的差异。

变异的两个方面:不同观察单位(个体)间的差别;同一个体在不同阶段的差别(重复测量)个体变异是普遍存在的;个体变异是有规律的。

注意:由于个体变异的存在,同质个体指标的取值会存在差异!(例:体温波动)(3)总体:按研究目的所确定的同质研究对象的全体。

有限总体:有时间、空间的概念,观察单位有限无限总体:无时间、空间的概念(例:某种治疗措施的效果,就包括接受这种治疗措施的所有病人过去、现在、未来,因而观察单位无限)(4)个体:组成总体的基本单位。

样本:从研究总体中随机抽取具有代表性的部分观察单位随机性的三个体现:抽样随机、分组随机、试验顺序随机(5)随机变量:观察对象个体的特征或测量的结果观察结果在一定范围内以一定的概率分布随机取值的变量,表示随机现象。

在一定条件下,并不总是出现相同结果变量值:个体观察指标具体取值(6)总体参数:总体的统计指标或特征值固有的、不变的,但往往是未知的(7)样本统计量:由样本所算出的统计指标或特征值已知的,且随着试验的不同而不同,但分布是有规律的(8)样本含量:样本中包含个体的数量(9)频率f=m/n,f的值随n的增大接近常数p,概率P(A)=p即:频率为一变量,是样本统计量;概率为常数,是一总体参数小概率事件:概率小于等于0.05小概率原理:小概率事件在一次试验中是不会发生的(10)抽样误差:两个表现:样本统计量与总体参数间的差别;不同样本统计量间的差别两个原因:个体变异;抽样过程抽样误差不可避免,但是有规律。

医学统计学重点

医学统计学重点

医学统计学重点说明:本重点仅供参考:不能包括所有选择题考题,名词和简答可信度高,计算题熟练运算过程;同时自己要清楚各种检验方法的基本思想,重点程度与星号数量相关)一、名词解释1、★★★医学统计学:用概率论和数理统计方法研究医学事件的群体特征的一门方法。

2、★总体:根据研究目的确定的同质的研究对象的全体(集合)。

3、样本:从总体中随机抽取的部分研究对象。

4、随机:总体中每个个体有同等的机会进入样本。

5、系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。

6、随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。

7、★★抽样误差:由于抽样原因造成的样本指标与总体指标之间的差,或者是样本指标与样本指标之间的差。

8、准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(9、可靠度(reliabiliy)——也称精密度(precision)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响。

10、★★★小概率事件:一般常将p ≤ 0.05或p ≤ 0.01称为小概率事件,表示某事件发生的可能性很小。

通俗讲一次抽样是不可能发生的事件。

11、★★正态分布定:又称高斯分布,是一条中间高,两头低,左右完全对称地下降,但永远不与横轴相交的钟形曲线。

12、★★医学参考值范围:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。

最常用的是95%参考值范围。

13、★★标准误:用于反映均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。

14、★95%的可信区间:如果从同一总体中重复抽取100个独立样本,将可能有95个可信区间包括总体均数,有5个可信区间未包括总体均数。

二、填空题1、★医学统计学工作基本步骤:统计设计;收集资料.;整理资料;分析资料2、★统计分析包括:统计描述、统计推断3、频数分布的两个重要特征:集中趋势和离散趋势4、正态分布的两个参数:均数;标准差。

医学统计学 重点知识总结

医学统计学 重点知识总结

名词解释1、一类错误:拒绝了实际上成立的Ho,这类“弃真”的错误称为I型错误或第一类错误。

2、参数和统计量:这些总体的统计指标或特征值称为参数。

由样本所算出的统计指标或特征值称为统计量。

3、变异系数:亦称离散系数,为标准差与均数之比,常用百分数表示。

4、P值:即概率,反映某一事件发生的可能性大小。

5、检验效能:1-β称为检验效能或把握度,即两总体却有差别,按α水准能发现它们有差别的能力。

简答题1、描述数值变量资料(统计资料)的集中程度有哪些指标,有何运用条件?算数均数:单峰对称分布的资料几何均数:对数变换后的单峰对称的资料中位数:偏态分布,分布不明资料,有不确定值的资料。

百分位数:当样本含量较少时不宜用靠近俩端的百分位数来估计频数分布范围。

2、实验研究的基本要素和基本原则是什么?基本要素:处理因素、受试对象和实验效应。

基本原则:对照原则、随机化原则和重复原则大题1、(1)变量资料(2)成组t检验对立性正态性方差齐性(3)HO:μ1=μ2,新药与常规药物的疗效相同H1:μ1≠μ2,新药与常规药物的疗效不同α=0.05T=1.0195V=n1+n2-2=18(2)t<t0.05,18 ,p>0.05,按a=0.05水准,不拒绝H0,差别无统计学意义。

结论:t检验结果表明,故尚不能认为新药与常规药物的疗效相同。

2、(1)T=13×17/47=4.7(2)x2 检验(3)X2>X2(0.05,1),p<0.05,按a=0.05水准,拒绝H0,接受H1,差别有统计学意义。

结论:x2检验结果表明,乙疗法比甲疗法好。

3、(1)成组设计两样本比较的秩和检验(2)实验组秩次:13、11.5、8.5、14、15.5、15.5、17、18对照组秩次:1、2、4、3、5、6、8.5、7、10、11.5(3)H0:两组局部温热的疗效总体分布相同H1:两组局部温热的疗效总体分布不同4(1)Ho:ρ=0,即母体内时间与体重无线性相关关系H1:ρ≠0,即母体内时间与体重有线性相关关系α=0.05F>5.23,拒绝HO,接受H1,相关系数有统计学意义。

医学统计学重点重点知识总结

医学统计学重点重点知识总结

医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。

(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。

这个范围称作可信度为1-a的可信区间,又称置信区间。

3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。

三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。

分辨一个样本是否属于某特定总体等。

区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。

医学统计学重点整理汇总

医学统计学重点整理汇总

医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。

样本:从总体中随机抽取部分个体的某个变量值的集合。

总体参数:刻画总体特征的指标,简称参数。

是固定不变的常数,一般未知。

统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。

抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。

频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。

称m/n为事件A在n次试验中出现的频率或相对频率。

概率:频率所稳定的常数称为概率。

统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。

统计推断:包括参数估计和假设检验。

用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。

用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。

2.样本特点:足够的样本含量、可靠性、代表性。

3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。

是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。

每个个体都能观察到一个观察指标的数值,有度量衡单位。

(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。

包括二分类资料和多分类资料。

二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。

多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。

4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。

第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。

3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。

医学统计学重点总结

医学统计学重点总结

第一章绪论一、名词解释1.设计(design):根据研究的问题与目的,从统计学的角度对各步提前做出的周密计划和安排。

2.收集资料(data collection):获得研究所需要的原始数据的过程。

3.整理资料(data storing):对收集到的原始资料进行归类整理汇总的过程。

4.分析资料(data analysis):对整理的资料进行统计分析,获取资料中有关信息的过程。

5.总体(population):根据研究目的确定的,所有同质研究对象某一(组)指标值的集合6.样本(sample):从总体中随机抽取的,数量足够的能代表总体特征的部分研究对象某一(组)指标值的集合。

7.参数(parameter):描述总体特征的指标称为参数。

8.变异(variation):对同质研究对象某指标值得波动性称为变异。

9.误差(error):观测值与真实值之差。

10.变量(variable):描述研究对象某种特征的指标。

11.资料(data):变量全部或部分测量值构成资料12.计量资料(measurement data):每个研究对象的变量值为一数值,表现出有量的大小,由这样一组研究对象定量观测值所构成的资料为计量资料。

13.计数资料(enumeration data):每个研究对象的变量值为互不相同的属性之一,由这样一组研究对象定性变量值组成的资料为技术资料。

14.等级资料(ranked data):每个研究对象变量值为互不相容的属性之一,且这些属性间有程度的递进或递减关系,有这样一组研究对象变量值组成的资料为等级资料。

15.过失误差:由科研工作者的失误或过错造成的误差。

16.系统误差(systematic error):在收集资料的过程中,由于研究者或被研究者、仪器设备、检测用材料、检测方法、环境条件等原因,造成观测结果偏大或偏小,称作系统误差。

17.随机误差(random error):在没有过失误差和系统误差的条件下仍存在大量偶然无法消除的不确定因素所引起的误差为随机误差。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

医学统计学第一章 医学统计中的基本概念1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。

2 资料的类型:计量资料(数值变量),计数资料(无序分类),等变异(variation):在同质的基础上被观察个体的差异。

级分组资料(有序分类)。

3 同质(homogeneity):对研究指标有影响的非实验因素相同。

4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。

样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。

5 参数(parameter):总体的设计指标称为参数。

统计量(statistic):样本的统计指标称为统计量。

6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。

7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。

第二章 集中趋势的统计描述一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 Xnxn X X X n ∑=+⋯++=21(二)加权法(针对频数表)nfx nx f f f X k k ∑=+++= (21)二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度,血清凝集效价,细菌计数,某些物质浓度等)G=nn X X X ⋯21 为了计算方便,常改用对数的形式计算,即=G lg 1-(nX ∑lg )对于频数表资料,可用公式 G=lg1-(nx f ∑lg )三 中位数(M)与百分位数中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+(MLf f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。

百分位数:用符号X P 表示,x 即百分位公式:x P =L+(xLf f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数第三章 变异程度的统计描述1.衡量、变异程度的指标有:极差,四分位数间距,方差,标准差,变异系数。

2.极差(range)也称全距,即观察值中最大值与最小值之差,用符号R 表示。

3.四分位数间距(quartile)用符号Q 表示,可以通过计算百分位数75P 与25P 之差得到,即Q=2575P P -,适用于偏态分布资料,特别就是末端没有确定数据的资料(常与中位数一起用)。

4.方差(varience)适用于正态分布,标准差就是将方差取平方根,反映一组观察值的离5.散程度,标准差小,离散程度小,均数代表性好(方差与标准差常与均数一起用)。

6.变异系数(coefficient of variation,CV)常用于度量衡单位不同或均数相差悬殊的两组资料的变异程度,其计算公式为:CV=XS%100⨯(CV 可能大于1,等于1,小于1;S 为标准差,X 为均数)7.正态分布的主要特征:1)正态分布以均值μ为中心,左右对称;2)曲线下面积集中在以均值μ为中心的部分,越远离中心,曲线越接近X 轴,曲线下面积越小;3)正态曲线下的面积分布有一定规律;4)正态分布完全由参数μ与σ决定,μ就是位置参数,σ就是变异参数,σ越大,表示数据分布越分散。

8.标准正态分布(standard normal distribution)就是均数为0、标准差为1的正态分布,表示为N(μ,σ2)9.对任何参数μ与σ的正态分布,都可以通过一个简单的变量变换成标准正态分布,即μ=X-μ σ10.医学参考值范围(reference value range)传统上称作正常值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。

习惯上就是包含95%的参照总体的范围。

1.抽样误差(sampling error) :在抽样的过程中由于个体差异造成的样本统计量与总体参数之间的差异。

2. 标准误 (standard error):样本均数中用来衡量抽样误差的大小用符号σx 表示,计算公式为σ-x =nσ(标准误小于原始测量值的标准差,标准误越小说明估计越精确,因此可以用标准误表示抽样误差的大小)实际工作中标准差 σ往往未知,因而通常用样本标准差S 代替σ,求得样本均数 准误估计值S -x ,计算公式为 S -x =nS(当n →无穷,S →σ,S -x →0)3 95%的可信区间的计算:x (μ,σ2x) 1) σ已知,可信区间=-x ±1、96σx2)σ未知,n 为小样本:x ±tx v S ⋅),2/05.0(3)σ未知,n 为大样本:X S x 96.1± T 变换μ变换N (0,1)3、t 分布曲线的形态变化与自由度v=n-1有关。

4、假设实验的基本步骤:1)建立假设与确定检验标准 包括无效假设(符号为H 0)与备择假设(符号为H 1)【H 1就是在H 0成立证据不足的情况下而被接受的假设,有双侧与单侧两种情况,未作说明时,选用的均就是双侧检验】 检验标准用α表示,一般取α=0、5或α=0、01、 2)选择检验方法与计算检验统计量 3)确定P 值与作出统计推断结论【结论:P>α,不拒绝H 0,差别无统计学意义,还不能认为两总体均数不等;P<α,拒绝H 0,接受H 1,差别有统计学意义,结论就是两总体均数不相等】 第五章 t 检验 1、t 检验的应用条件要求样本来自正态分布总体,两样本均数比较时,还要求两总体方差相同,即具有方差齐性。

2配对样本均数t检验公式:t=--dS d =nS d d-自由度:ν = 对子数 - 1 3 t 检验统计量u 值的计算公式:4、假设检验中两类错误:第一类错误(Type I Error)”弃真”原假设为真,而拒绝了它;第一类错误记为 a,称为检验水准第二类错误(Type II Error)”存伪” 222121212121n s n s XX s X X u X X +-=-=-原假设为假时却接受了它;第二类错误的概率记为 b第五章 方差分析1.与前面讲过的假设检验不同的就是用于比较两个或两个以上均数的差别。

2.总变异SS 总、组间变异SS 组间与组内变异SS 组内之间关系: SS 总= SS 组内+ SS 组间 ν总= ν组内+ ν组间 3、第七章 相对数及其应用 1.率 (rate)—— 表示某种现象发生的频率与强度,通常以百分率(%)、千分率(‰)、万分率(/万)、十万分率(/10万)表示。

率=有可能数某事物或现象发生的所际概率某事物或现象发生的实×比例基数2、构成比(constituent ratio):表示某一事物各组成部分所占的比重或分布的情况.构成比通常以100%为比例基数、计算公式:构成比=观察单位总数同一事物各组成部分的位数某一组成部分的观察单×100%特点:各组成部分的构成比之与为100% 某一部分比重增大,则其它部分相应减少。

3.相对比(relative ratio)就是两个有关指标之比,用以描述两者的对比水平,常用R 表示 R=A 指标/B 指标 A>B 结果多用倍数表示; A<B 结果多用百分数表示两指标互不包含,可以就是相对数,绝对数,平均数,可以性质不同,不一定有相同的量纲4.应用相对数时的注意事项:1)不要把构成比与率相混淆2)使用相对数时分母不宜过小3)注意资料的可比性4)要考虑存在抽样误差5.标准构成的选取:1)另外选取一个包含比较各组(如各地区)的有代表性的、较稳定的、数量较大的构成为标准。

如世界的、全国的、全省的数据为标准构成2)取比较各组的各层例数的合计为标准构成。

3)从比较的各组中任选其一的构成作为标准构成。

6.率的标准化的注意事项:1)、标准不同得到的标化值不同,但得出的结论就是一致的、2)、标化后的数值不再反映实际水平,只能表明相互比较资料间的相对水平。

3)、两组率各分组对应的率有明显交叉时,则不能用标准化率进行比较、4)、两样本标准化率存在抽样误差。

比较两样本的标准化率应该做假设检验。

7.率的标准误(样本率为P ,总体率为π):8、正态近似法的条件:当n 足够大,且nP 与n(1-P)均大于5时,P 的分布 接近正态分布,可用公式来求总体率的可信区间:(P-u 2a S P ,P+u 2a S P )第八章 χ2检验1. χ2检验常用于检验两个或多个率(或构成比)之间差别就是否有统计学意义,可用于检验配对计数资料差异有无统计学意义及两种属性或特征之间就是否有关系,还可做频数分布资料拟合优度检验。

2. 四格表专用公式(a bc d完全随机设计方差分析表变异来源 SS ν MS F 总变异 )(或总1)(22--∑∑N S X X ij ji 1-N组 间 (处理组间)2)(X X n i i i-∑ 1-k 组间组间νSS 组内组间MS MS组内(误差) 组间总SS SS - k N - 组内组内νSSnP P Sn PP )1()1(-=-=ππσ3对于四格表资料,通常规定为:(1)当n ≥40且所有的T ≥ 5时,用检验的基本公式或四格表的专用公式;(2)当n ≥ 40 但有1≤T <5时,用四格表资料的校正公式;(3)当n <40,或T <1时,用四格表资料的Fisher 确切 概率法。

4 行×列表资料的χ2检验: 自由度:ν=(行数-1)(列数-1)5 注意事项:(1)不能有1/5的理论频数小于5,或有理论频数小于1。

(2)行×列表检验有统计学意义,并不等于任意两组之间都有统计学意义,要继续做两两比较。

(3)在实际应用中,对于行×列表资料要根据其分类类型与研究目的用恰当的检验方法,行×列表资料的卡方检验与分类变量的顺序无关。

第十章 线性相关与回归1线性相关分析(linear correlation analysis):研究两个服从正态分布的随机变量间有无直线相关关系,关系的方向及关系的密切程度。

2 线性相关系数r 没有测量单位,其数值在-1与1之间,相关系数的绝对值 愈接近1,相关愈密切;相关系数愈接近0时,相关愈不密切。

自由度:ν=n-23 线性相关的步骤:1)绘制散点图2)求相关系数r3)假设检验(H 0:ρ=0)或查找b 界值表4)得出结论4 线性回归(linear regression):用直线回归方程来描述两个变量X 与Y 数量上依存关系的一种统计分析方法。

5 线性回归的步骤:1)绘制散点图2)作方程3)假设检验:t b 检验、方差分析、t r =t b (X,Yj 均服从正态分布) 6线性回归方程:∧Y =a+bX,b 称为回归系数,b 与r 的符号一致,b 的统计学意义:X 每增加(减少)一个单位,Y 平均改变b 个单位,自变量既可以就是随机变量(Ⅱ型回归模型,两个变量都服从正态分布),也可以就是给定的量(Ⅰ型回归模型)。

相关文档
最新文档