卫生统计学知识点汇总
医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华)一.概论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。
2,医学统计学的主要内容:1)统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。
A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。
3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。
3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A,搜集材料的原则及时、准确、完整B,统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分类变量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
流行病与卫生统计学基本知识

估算样本量
资料收集与随访:随访的方法、内容、时间间隔、观 察终点及随访者
基线资料和随访资料:问卷调查、体格检查和实验室 检查
随访周期:每年1次
分析指标
超重组、肥胖组和对照组的可比性及资料的可靠性分 析
计算两组的糖尿病的发病率、病死率和年发病率等指 标
计算超重或肥胖与糖尿病的关联强度
① 构成比例:是自身构成的部分与全体的比值。代表随机 抽样,抽取到某种成分的概率。
② 发生(频率)比例:在其内发生某变化的部分与全体的 比值。反映在一定时间内,发生某种变化者占全体的比 例。
无量纲,取值范围在[0,1]。
3.率(rate): 在某一确定人群中某事件发生的频率。 有量纲,可以取任何值,不一定在[0,1]
目标人群 未患某研究
疾病
代表 性样 本
暴露组 非暴露组
队列研究的结构模式图
结局(疾病)
Yes No Yes
No
时间顺序
过去
现在
回顾性收集已有的历史资料 历史性队列
将来
回顾性收集已有的历史资料
继续前瞻性收集资料
双向性队列
前瞻性收集资料
前瞻性队列
队列研究类型示意图
特点
❖ 观察法 ❖ 设立对照 ❖ 由因到果,符合时间顺序 ❖ 确证暴露和结局因果关系 ❖ 追踪两组间的发病或死亡率差异
应用
❖ 表示某确诊疾病的死亡概率 ❖可反映该疾病的严重程度 ❖反映医疗水平和诊断能力 ❖通常多用于急性传染病,较少用于慢性病
生存率
指接受某种治疗的病人或患某病的人
中,经若干年随访(通常为1、3、 5 年) 后,尚存活的病人数所占的比例。
生存率
随访满n年尚存活的病例数 随访满n年的病例数
卫生统计学名词解释

卫生统计学名词解释一、基础概念1.总体(Population):在一定时空范围内同质的所有观察单位或个体的集合。
2.样本(Sample):从总体中随机抽取的一部分观察单位的集合。
3.变量(Variable):观察单位的基本特征或特性,可以分为定量变量和定性变量。
4.总体参数(Population Parameter):描述总体特征的概括性数值,如总体均数、总体率等。
5.样本统计量(Sample Statistic):描述样本特征的数值,如样本均数、样本率等。
二、资料类型与搜集方法1.计数资料(Count Data):通过计数或分类得到的资料,一般用相对数(率)表示。
2.计量资料(Measure Data):通过测量得到的数值资料,一般用均数、中位数等表示。
3.等级资料(Ordinal Data):具有一定顺序或等级的资料,一般用等级或有序分类表示。
4.调查法(Survey Method):通过问卷、访谈等方式收集资料的方法,常用于大样本调查。
5.实验法(Experimental Method):通过实验设计、随机分组等方式收集资料的方法,常用于实验研究。
6.观察法(Observational Method):通过观察记录收集资料的方法,常用于临床观察、生态学研究等。
7.纵向研究(Longitudinal Study):对同一组观察单位在不同时间点进行重复观察的方法,可获取纵向数据。
8.横向研究(Cross-sectional Study):在某一时间点对不同组观察单位进行同时观察的方法,可获取横截面数据。
9.随机抽样(Random Sampling):按照随机原则从总体中抽取样本的方法,保证每个观察单位被抽中的概率相等。
10.系统抽样(Systematic Sampling):按照某种规则或顺序从总体中抽取样本的方法,如每隔一定数量的观察单位抽取一个样本。
三、卫生统计学方法1.描述性统计(Descriptive Statistics):通过对数据进行整理、归类、简化和表示,描述数据的基本特征和分布情况。
(完整版)医学统计学重点总结

1.简述总体和样本的定义,并且举例说明。
总体是研究目的确定的所有同质观察单位的全体。
样品是从研究总体中抽取部分有代表性的观察单位。
2.简述参数和统计量的定义,并且举例说明。
描述总体特征的指标称为参数,描述样本特征的指标称为统计量。
3.变量的类型有哪几种?举例说明各种类型变量有什么特点。
①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的高低。
②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。
③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺序上的差异。
4.请举例说明一种类型的变量如何变换为另一种类型的变量。
定量数据>有序数据>定性数据--------------->5.请简述什么是小概率事件?概率是描述事件发生可能性大小的度量,P 0.05事件称为小概率事件。
≤6.举例说明什么是配对设计。
配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。
①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。
7.非参数假设检验适合什么类型数据进行分析?①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。
8.简述P 25 P 50 P 75的统计学意义。
(条件:明显偏态且不能转化为正态或近似对称;一端或两端无确定数值;分布情况未知)用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。
9.直条图、直方图、圆饼图的使用条件是什么?直条图:各自独立的统计指标的数值大小和他们之间的对比;直方图:连续变量频数分布情况;圆饼图:全体中各部分所占的比例。
10.统计分析包括哪两个方面的内容?为什么要进行统计推断?统计描述和统计分析;统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。
医学统计学知识点总结

医学统计学知识点总结医学统计学1. 对定量资料进⾏统计描述时,如何选择适宜的指标?定量资料统计描述常⽤的统计指标及其适⽤场合描述内容指标意义适⽤场合平均⽔平均数个体的平均值对称分布⼏何均数平均倍数取对数后对称分布中位数位次居中的观察值①⾮对称分布;②半定量资料;③末端开⼝资料;④分布不明众数频数最多的观察值不拘分布形式,概略分析调和均数基于倒数变换的平均值正偏峰分布资料变异度全距观察值取值范围不拘分布形式,概略分析标准差(⽅差)观察值平均离开均数的程度对称分布,特别是正态分布资料四分位数间距居中半数观察值的全距①⾮对称分布;②半定量资料;③末端开⼝资料;④分布不明变异系数标准差与均数的相对⽐①不同量纲的变量间⽐较;②量纲相同但数量级相差悬殊的变量间⽐较定性资料:阳性事件的概率,概率分布,强度和相对⽐。
2. 应⽤相对数时应注意哪些问题?答:(1)防⽌概念混淆相对数的计算是两部分观察结果的⽐值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。
(2)计算相对数时分母不宜过⼩样本量较⼩时以直接报告绝对数为宜。
(3)观察单位数不等的⼏个相对数,不能直接相加求其平均⽔平。
(4)相对数间的⽐较须注意可⽐性,有时需分组讨论或计算标准化率。
3. 常⽤统计图有哪些?分别适⽤于什么分析⽬的?常⽤统计图的适⽤资料及实施⽅法图形适⽤资料实施⽅法条图组间数量对⽐⽤直条⾼度表⽰数量⼤⼩直⽅图定量资料的分布⽤直条的⾯积表⽰各组段的频数或频率百分条图构成⽐⽤直条分段的长度表⽰全体中各部分的构成⽐饼图构成⽐⽤圆饼的扇形⾯积表⽰全体中各部分的构成⽐线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表⽰两现象间的相关关系箱式图定量资料取值范围⽤箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布⽤茎表⽰组段的设置情形,叶⽚为个体值,叶长为频数第3章概率分布(连续随机变量的正态分布;离散随机变量的⼆项分布及Poisson分布)1. 服从⼆项分布及Poisson分布的条件分别是什么?⼆项分布成⽴的条件:①每次试验只能是互斥的两个结果之⼀;②每次试验的条件不变;③各次试验独⽴。
卫生统计学重点笔记

医师资历测验蓝宝书-预防医学医学统计学办法第一节根本概念和根本步调(异常重要)一.统计工作的根本步调设计(最症结.决议成败).汇集材料.整顿材料.剖析材料.总体:依据研讨目标决议的同质研讨对象的全部,确实地说,是性质雷同的所有不雅察单位某一变量值的聚集.总体的指标为参数.现实工作中,经常是从总体中随机抽取必定命量的个别,作为样本,用样本信息来揣摸总体特点.样本的指标为统计量.因为总体中消失个别变异,抽样研讨中所抽取的样本,只包含总体中一部分个别,这种由抽样引起的差别称为抽样误差.抽样误差愈小,用样本揣摸总体的精确度愈高;反之,其精确度愈低.小概率事宜.二.变量的分类变量:不雅察单位的特点,分数值变量和分类变量.第二节数值变量数据的统计描写(重要考点)一.描写计量材料的分散趋向的指标有1.均数均数是算术均数的简称,实用于正态或近似正态散布.2.几何均数实用于等比材料,尤其是对数正态散布的计量材料.对数正态散布即原始数据呈偏态散布,经对数变换后(用原始数据的对数值lgX代替X)屈服正态散布,不雅察值不克不及为0,同时有正和负.3.中位数一组按大小次序分列的不雅察值中位次居中的数值.可用于描写任何散布,特殊是偏态散布材料的分散地位,以及散布不明或散布末尾无肯定命据材料的中间地位.不克不及求均数和几何均数,但可求中位数.百分位数是个界值,将全部不雅察值分为两部分,有X%比小,剩下的比大,可用于盘算正常值规模.二.描写计量材料的离散趋向的指标1.全距和四分位数间距.2.方差和尺度差最为经常运用,适于正态散布,既斟酌了离均差(不雅察值和总体均数之差),又斟酌了不雅察值个数,方差使本来的单位变成了平方,所以开方为尺度差.均为数值越小,不雅察值的变异度越小.3.变异系数多组间单位不合或均数相差较大的情形.变异系数盘算公式为:CV=s/X×100%,公式中s为样本尺度差,X为样本均数.三.尺度差的运用暗示不雅察值的变异程度(或离散程度).在两组(或几组)材料均数邻近.器量单位雷同的前提下,尺度差大,暗示不雅察值的变异度大,即各不雅察值离均数较远,均数的代表性较差;反之,暗示各不雅察值多分散在均数四周,均数的代表性较好.(常考!)四.医学参考值的盘算办法,单双侧问题,医学为95%医学参考值是斧正常人体或动物体的各类心理常数,因为消失变异,各类数据不但因人而异,并且统一小我还会随机体表里情形的转变而转变,因而须要肯定其摇动的规模,即正常值规模.医学参考值的盘算公式:①正态散布材料95%医学参考值:X±1.96s(双侧);X X-1.645s(单侧),s为尺度差.②百分位数法P和P(双侧);P5或P95(单侧).第三节数值变量数据的统计揣摸(重要考点)一.尺度误,尺度误与尺度差和样本含量的关系尺度差和尺度误的差别.样本尺度误等于样本尺度差除以根号下样本含量.尺度误与尺度差成正比;与样本含量的平方根成反比.是以.为削减抽样误差,应尽可能包管足够大的样本含量.样本尺度差与样本尺度误是既有接洽又有区此外两个统计量,二者的接洽是公式:二者的差别在于:样本尺度差是反应样本中各不雅测值X1,X2,……,X n变异程度大小的一个指标,它的大小说清楚明了对该样本代表性的强弱.样本尺度误是样本平均数1,2,……的尺度差,它是抽样误差的估量值,其大小说清楚明了样本间变异程度的大小及精确性的高下.(控制!)二.t散布和尺度正态u散布关系均以0为中间阁下两侧完整对称的散布,只是t散布曲线顶端较u散布低,两头翘.(v逐渐增大,t散布逐渐逼近u散布).正态散布的特色:①以均数为中间阁下两侧完整对称散布;②两个参数,均数u(地位参数)和s(变异参数);③对称均数的两正面积相等.三.总体均数的估量样本统计量推算总体均数有两个重要方面:区间估量和假设磨练.样本均数估量总体均数称点估量.总体均数区间估量(可托区间)的概念:按必定的可托度估量未知总体均数地点规模.其统计上习习用95%(或99%)可托区间暗示总体均数μ有95%(或99%)的可能在某一规模.可托区间的两个要素,一为精确度,反应在可托度1-α的大小,即区间包含总体均数的概率大小,当然愈接近1愈好;二是精度,反应在区间的长度,当然长度愈小愈好.在样本例数肯定的情形下,二者是抵触的,须要统筹.总体均数可托区间的盘算办法:1.当n小按t散布的道理用式盘算可托区间为:X±tαv S X/2,2.当n足够大因n足够大时,t散布逼近μ散布,按正态散布道理.用式估量可托区间为:X±μα/2SX可托区间与医学参考值规模的差别:二者的意义和算法不合.四.假设磨练的步调1.树立假设:H0(无效,两样本代表的总体均数雷同),H1(备择,两样本来自不合总体),当谢绝H0就接收H1,不谢绝就不接收H1.2.肯定明显性程度:区分精确率和小概率事宜的尺度,平日取α=0.05.3.盘算统计量:依据材料类型和剖析目标选择恰当的公式盘算.4.肯定概率P值:将盘算得到的t值或u值查界值表得到P 值和α值比较.5.做出揣摸结论.|t|值.P值与统计结论五.两均数的假设磨练(常考!)1.样本均数与总体均数比较 u磨练和t磨练用于样本均数与总体均数的比较.理论上请求样本来自正态散布总体现实中,只要样本例数n较大,或n小但总体尺度差σ已知,就选用u磨练.n 较小且σ未知时,用于t磨练.两样本均数比较时还请求两总体方差等.以算得的统计量t,按表所示关系作断定.2.配对材料的比较在医学研讨中,经常运用配对设计.配对设计重要有四种情形:①统一受试对象处理前后的数据;②统一受试对象两个部位的数据;③统一样品用两种办法(仪器等)磨练的成果;④配对的两个受试对象分离接收两种处理后的数据.情形①的目标是揣摸其处理有无感化;情形②.③.④的目标是揣摸两种处理(办法等)的成果有无不同.v=对子数-1;如处理前后或两法无不同,则其差数d的总体均数应为0,可看作样本均数d和总体均数0的比较.d为差数的均数;d S 为差数均数的尺度误,S d 为差数的尺度差;n 为对子数.因盘算的统计量是t,按表所示关系作断定.3.完整随机设计的两样本均数的比较 亦称成组比较.目标是揣摸两样本各自代表的总体均数μ1与μ2是否相等.依据样本含量n 的大小,分u 磨练与t 磨练.t 磨练用于两样本含量n 1.n 2较小时,且请求两总体方差相等,即方差齐.若被磨练的两样本方差相差明显则需用t ′磨练.u 磨练:两样本量足够大,n>50.21X X S -=)(21212C n n n n S + v =(n 1-1)+(n 2-1)=n 1+n 2-2 式中21X X S -,为两样本均数之差的尺度误,Sc 2为归并估量方差(combined estimate variance ).算得的统计量为t,按表所示关系做出断定.4.Ⅰ型错误和Ⅱ型错误 弃真,谢绝精确的H 0为Ⅰ型错误α暗示,若明显性程度α定为0.05,则犯Ⅰ型错误的概率0.05;接收错误的H 0为Ⅱ型错误,概率用β暗示,β值的大小很难确实估量.当样本含量一准时,两者反比,增大n,当α一准时,可削减β.1-β称为磨练效能或掌控度,其统计意义是若两总体确有不同,按α水准能检出其差此外才能.客不雅现实谢绝H 0 不谢绝H 0H 0成立 Ⅰ型错误(α) 揣摸精确1-αH 0不成立揣摸精确(1-β) Ⅱ型错误(β)5.假设磨练留意事项 包管组间可比性;依据研讨目标.材料类型和设计类型选用恰当的磨练办法,熟习各类磨练办法的运用前提;“明显与否”是统计学术语,为“有无统计学意义”,不克不及懂得为“不同是不是大”;结论不克不及绝对化.第四节 分类变量材料的统计描写(一般考点)相对数是两个有接洽关系事物数据之比.经常运用的相对数指标有构成比.率.相比较等.一.构成比暗示事物内部各个构成部分所占的比重,平日以100为例基数,故又称为百分比.其公式如下: 构成比=个体数总和事物内部各构成部分的的个体数事物内部某一构成部分×100% 该式可用符号表达如下: 构成比=⋯⋯+++C B A A ×100% 构成比有两个特色:(1)各构成部分的相对数之和为100%.(2)某一部分所占比重增大,其他部分会响应地削减.二.率用以解释某种现象产生的频率或强度,故又称频率指标,以100,1000,10000或100000为比例基数(K )均可,原则上以成果至少保存一位整数为宜,其盘算公式为:率和构成比不合之处:率的大小仅取决于某种现象的产生数和可能产生该现象的总数,不受其他指标的影响,并且各率之和一般不为1. 率=可能发生某现象的总数某现象实际发生例数×K 该式亦可用符号表达如下 阳性率=)()()(-+++A A A ×K (若算阴性率则分子为A (-))式中A (+)为阳性人数,A (-)为阴性人数.三.相比较暗示有关事物指标之比较,常以百分数和倍数暗示,其公式为:相比较:甲指标/乙指标(或×100%)或用符号暗示为:A/B ×K四.留意事项①构成比和率的不合,不克不及以比代率;②盘算相对数时,不雅察例数不宜过小;③率的比较留意可比性,特殊是混淆身分的问题,有的话,可用尺度化法和分层剖析清除;④不雅察单位不合的几个率的平均率不等于几个率的算术均数;⑤样本率或构成比的比较应做假设磨练.第五节 分类变量材料的统计揣摸(异常重要)一.率的抽样误差用抽样办法进行研讨时,必定消失抽样误差.率的抽样误差大小可用率的尺度误来暗示,盘算公式如下:σp=n π)π(1+式中:σp为率的尺度误,π为总体阳性率,n为样本含量.因为现实工作中很难知道总体阳性率π,故一般采取样本率P来代替,而上式就变成S p=n P)P(1-二.总体率的可托区间因为样本率与总体率之间消失着抽样误差,所以也需依据样本率来推算总体率地点的规模,依据样本含量n和样本率P的大小不合,分离采取下列两种办法:(一)正态近似法(常考!)当样本含量n足够大,且样本率P和(1-P)均不太小,如nP 或n(1-P)均≥5时,样本率的散布近似正态散布.则总体率的可托区间可由下列公式估量:总体率(π)的95%可托区间:p±p总体率(π)的99%可托区间:p±p(二)查表法当样本含量n较小,如n≤50,特殊是P接近0或1时,则按二项散布道理肯定总体率的可托区间,其盘算较繁,读者可依据样本含量n和阳性数x参照专用统计学介绍的二项散布中95%可托限表.三.u磨练(异常重要!)当样本含量n 足够大,且样本率P 和(1-P )均不太小,如nP 或n (1-P )均≥5时,样本率的散布近似正态散布.样本率和总体率之间.两个样本率之间差别的断定可用u 磨练.1.样本率和总体率的比较公式 u=|P-π|/σP =|P-π|/n π)/π(1-;2.两样本率比较公式 u=|P 1-P 2|/Sp 1-P 2=|P 1-P 2|/)1/)(1/(121n n p p c c +-也可用χ2磨练,两者相等.四.χ2磨练(异常重要!)可用于两个及两个以上率或构成比的比较;两分类变量相干关系剖析.其数据构成,必定是互相对峙的两组数据,四格表材料自由度v 永久=1.四格表χ2磨练各类公式实用前提,n>40且每个格子T>5,可用根本公式或专用公式,不必校订.根本公式:χ2=∑(A-T )2/T专用公式:χ2=∑(ad-bc )2n/(a+b )(c+d )(a+c )(b+d )只要有一个格子T 在1~5之间,需校订.校订公式:根本公式:χ2=∑(|A-T |-0.5)2/T专用公式:χ2=∑(|ad-bc |-n/2)2n/(a+b )(c+d )(a+c )(b+d )n<40或T<1,用确实概率法.五.行×列表χ2磨练当行数或列数超出2时,称为行×列表.行×列表χ2磨练是对多个样本率(或构成比)的磨练.实用前提:一般以为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数.1.当理论数太小可采纳下列办法处理①增长样本含量以增大理论数;②删去上述理论数太小的行和列;③将太小理论数地点组与性质邻近的组归并,使从新盘算的理论数增大.因为后两法可能会损掉信息,伤害样本的随机性,不合的归并方法有可能影响揣摸结论,故不宜作通例办法.别的,不克不及把不合性质的现实数归并,如研讨血型时,不克不及把不合的血型材料归并.2.如磨练成果谢绝磨练假设,只能以为各总体率或总体构成比之间总的来说有不同,但不克不及解释它们彼此之间都有不同,或某两者间有不同.3.关于单向有序行列表的统计处理在比较遍地理组的效应有无不同时,宜用秩和磨练法,如作χ2磨练只解释遍地理组的效应在构成比上有无差别.六.配对计数材料的χ2磨练统一样品用两种办法处理,不雅察阳性和阴性个数.断定两种处理办法是否雷同.当b+c>40时,χ2=(b-c)2/b+c;b+c<40时,校订公式:χ2=(|b-c|-1)2/b+c第六节直线相干和回归(一般考点)一.直线相干剖析的用处.相干系数及其意义相干剖析是研讨事物或现象之间有无关系.关系的偏向和亲密程度.相干系数:是定量暗示两个变量(X,Y)之间线性关系的偏向和亲密程度的指标,用r暗示,r=lxy/lxxlxy,其值在-1至+1间,r 没有单位.r呈正值,两变量间呈正相干,即两者的变更趋向是同向的,r=1时为完整正相干;如r呈负值,两变量呈负相干,即两者的变更趋向是反向的,r=-1时为完整负相干.r的绝对值越接近1,两变量间线性相干越亲密;越接近于0,相干越不亲密.当r=0时,解释X和Y两个变量之间无直线关系.二.直线回归剖析的感化.回归系数及其意义直线回归剖析的义务在于找出两个变量有依存关系的直线方程,以肯定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小.这个方程称为直线回归方程,据此方程描写的直线就是回归直线.直线同归方程式的一般表达式Y=a+bX式中a为回归直线在Y轴上的截距,即a>0暗示直线与Y轴的交点在原点上方,<0在原点下方,a=0过原点.b为样本回归系数,即回归直线的斜率,暗示当X变动一个单位时,Y平均变动b个单位.b>0:暗示Y随X增大而增大b<0:暗示Y随X增大而削减b=0:暗示Y不随X变更而变更第七节统计表和统计图(重要考点)一.统计表原则:构造简略.层次分明.内容安插合理.重点凸起.数据精确.1.标题简洁表达表的中间内容,地位在表的上方.2.标目有横标和纵标目,横标目平日位于表内左侧;纵标目列在表内上方,其表达成果与主辞呼应.3.线条力图简洁,一般为三线表.4.用阿拉伯数暗示,如很多据或暂缺材料,也可用“-”或“…”来暗示.5.备注一般不列入表内,解释在表下.内容分列:一般按事物产生频率大小次序来分列,比较光鲜,重点凸起.二.统计图1.线图(line diagram)(常考!)材料性质:实用于持续变量材料.剖析目标:用线段的起落表达某事物的动态(差值)变更.2.半对数线图(semilogarithmic line graph)材料性质:实用于持续变量材料.剖析目标:用线段的起落表达事物的成长速度变更趋向.3.直方图(histogram)材料性质:实用于数值变量,持续性材料的频数表材料.剖析目标:直方图是以直方面积表达各组段的频数或频率.4.直条图(bar chart)材料性质:实用于彼此自力的材料.剖析目标:直条图是用等宽直条的和长短来暗示各统计量的大小,进行比较.5.百分条图(percentchart)材料性质:构成比.剖析目标:用长条各段的长度(面积)表达内部构成比.6.圆形图(circulargraph)(常考!)材料性质:构成比.剖析目标:用圆的扇形面积表达内部构成比.7.散点图(scatterdiagram)材料性质:双变量材料.剖析目标:用点的密集度和趋向表达两变量间的相干关系.8.统计地图(statistical map)材料性质:地区性材料.剖析目标:用不合纹线或色彩代表指标高下,解释地域散布.。
医学统计学知识点总结
知识点1.统计学是应用概率论和数理统计的基本原理和方法,研究数据的搜集、整理、分析、表达和解释的一门学科。
2.医学统计学是应用统计学的基本原理和方法,研究医学及其有关领域数据信息的搜集、整理、分析、表达和解释的一门学科。
3.统计软件包是对资料进行各种统计处理分析的一系列程序的组合。
4.统计工作的基本步骤:研究设计、搜集资料、整理资料和分析资料。
5.科研结果的好坏取决于研究设计的好坏,研究设计是统计工作中的基础和关键,决定着整个统计工作的成败。
6.统计分析包括统计描述和统计推断。
统计描述是对已知的样本(或总体)的分布情况或特征值进行分析表述;统计推断是根据已知的样本信息来推断未知的总体。
7.医学原始资料的类型有:计量资料、计数资料、等级资料。
8.计量资料是用定量的方法对每一个观察单位的某项指标进行测定所得的资料。
9.计数资料是把观察单位按某种属性(性质)或类别进行分组,清点各组观察单位数所得资料。
10.等级资料是把观察单位按属性程度或等级顺序分组,清点各组观察单位数所得资料。
各属性之间有程度的差别。
等级资料的等级顺序不能任意颠倒。
11.同质:是指所研究的观察对象具有某些相同的性质或特征。
12.变异:是同质个体的某项指标之间的差异,即个体变异或个体差异性。
13.总体是根据研究目的确定的同质研究对象的总体。
样本是总体中具有代表性的一部分个体。
14.抽样研究是通过从总体中随机抽取样本,对样本信息进行分析,从而推断总体的研究方法。
抽样误差是由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异,其根源在于总体中的个体存在变异性,只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
15.统计学的主要任务是进行统计推断,包括参数估计和假设检验。
16.概率是某随机事件发生可能性大小(或机会大小)的数值度量。
概率的取值为0≤P≤1。
小概率事件是指P≤0.05的随机事件。
17.频数表和频数分布图的用途:(1)揭示计量资料的分布类型。
医学统计学复习重点
医学统计学复习重点统计设计:调查设计、实验设计第一章绪论1.基本概念:总体——根据研究目的确定,所有同质观察单位某种观察值的全体。
样本——总体中抽取的一部分具有代表性的个体组成的集合。
参数-—刻画总体特征的统计指标。
一般用希腊字母表示μ、σ、π统计量—-刻画样本特征的统计指标.抽取的样本不同,统计量会变化;一般用拉丁字母或英文字母表示、S、p抽样误差:个体变异所致,抽样研究中样本信息与总体特征间的差异。
抽样误差是不可避免的。
属于随机误差,无方向性,重复抽样可以呈现一定的规律性。
小概率事件P≤0。
052.*统计工作的四个步骤:设计、收集资料、整理资料、分析资料。
(用工作实例解释)第二章调查研究设计第三章实验研究设计1.调查研究(观察性研究):特点:无人为施加处理因素调查研究的分类:按调查涉及的对象划分:全面调查(普查)、抽样调查、典型调查注意:收集的资料要有可比性*随机抽样方法(做统计推断有意义):单纯随机抽样、系统抽样、分层抽样、整群抽样非随机抽样方法(不能做统计推断,可能有偏差):偶遇抽样、判断抽样、滚雪球抽样等2.实验研究特点:与调查研究最本质的区别:根据研究目的主动施加干预措施实验设计的三个基本要素:受试对象、处理因素、实验效应实验设计的基本原则:对照原则、随机化原则、重复原则第四章定量资料的统计描述第五章定性资料的统计描述1.定量资料(1)定量资料——*频数分布表、直方图、箱式图—-判断分布类型——(2)描述离散趋势的统计指标:✓极差R=最大值—最小值、✓四分位数间距Q:常用于描述*偏态分布资料的离散趋势、一端或两端无确切值的资料、分布不明确资料✓方差(总体、样本S2)&标准差(、S):*正态或近似正态分布✓变异系数(3)(4)正态分布及其应用:**制定医学参考值范围步骤:判断分布类型-—正态分布-—*双侧95%参考值范围:±1.96S、单侧95%参考值范围:下限为—1。
64S、上限为+1。
医学统计学知识点
第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
抽样误差主要来源于个体的变异。
卫生统计学复习资料
卫⽣统计学复习资料2007级预防⾏政班卫⽣统计学复习资料第三节统计⼯作的基本步骤统计设计收集资料整理资料分析资料⼀、统计设计1、调查设计2、实验设计(详见第⼗三章)⼆、收集资料资料来源(1)统计报表(2)⽇常医疗⼯作原始记录和报告卡(3)专题调查三、整理资料1.⽬的将收集的原始资料系统化、条理化,便于进⼀步计算和分析2.整理分组⽅式(1)性质分组(2)数量分组三、分析资料1、统计描述2、统计推断第四节统计图表⼀、统计表1、统计表的作⽤代替冗长的⽂字叙述,便于计算、分析和对⽐。
2、统计表的结构1)标题2)标⽬横标⽬(主语):说明表各横⾏数字的涵义,通常列在表的左侧纵标⽬(谓语):说明表各纵栏数字的涵义主语和谓语连贯起来能读成⼀句完整⽽通顺的话3、统计表的种类:1)简单表:只按单⼀变量分组2)组合表:按两个或两个以上变量分组某地1980年男、⼥HBsAg阳性率━━━━━━━━━━━━━━━━性别调查数阳性数阳性率(%)────────────────男4234 303 7.16⼥4530 181 4.00──────────────合计8764 484 5.52━━━━━━━━━━━━━━━━4、列表原则:重点突出,简单明了;主谓分明,层次分明5、统计表的基本要求:1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上⽅。
常见的缺点:过于简略,甚⾄不写标题;或过于繁琐;或标题不确切。
2)标⽬:⽂字简明扼要,有单位的标⽬要注明单位。
常见的缺点:标⽬过多,层次不清3)线条:不宜过多,除上⾯的顶线,下⾯的底线,纵标⽬与合计之间的横线外,其余线条⼀般均省去。
表的左上⾓不宜有斜线。
4)数字:A、数字⼀律⽤阿拉伯数字表⽰B、同⼀指标的⼩数位数应⼀致,位次对齐C、表内不宜留空格,暂缺或未记录,⽤“…”表⽰,⽆数字,⽤“—”表⽰,数字为0,填写0D、绝对数太⼩⽽⽆法计算指标,则⽤“…”代替。
5)备注:⼀般不列⼊表内,必要时可⽤“*”号标出,写在表的下⾯。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 第一讲 绪论总体:是研究目的所确定的所有同质个体某指标实际值的集合;或说, 总体是根据研究目的确定的所有同质观察对象的全体。 样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。 样本含量:样本所包含个体或个体值的个数。 抽样(Sampling) :从总体中抽取有代表性的一部分样本的过程,称为抽样。 抽样研究:从确定的同质总体中随机抽取部分样本进行观察,用样本信息来推断总体特征,该研究方法叫抽样研究。 统计推断:样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。 同质(homogeneity):指研究对象在一定范畴的各种可能影响主要观察指标的其它因素处于相同或非常相似的情况,即把具有相同性质的观察单位简称为同质的(homogeneous),否则称为异质的(heterogeneous) 。 变异(variation):同质基础上的各观察单位间的差异 参数:根据总体变量值统计计算出来,描述总体特征的统计指标。 统计量:根据样本个体值统计计算出来,描述特征的统计指标。 变量:变异性表现为取值上的大小就是变量。通常把观察单位的观察指标称为变量。如身高、体重等 变量值:观察单位 的观察值 叫变量值,如身高 118cm,体重26kg 等。 误差:为观察值(X)与实际值(μ)之差。 抽样误差(sampling error) :由抽样造成的样本统计量和总体参数的差别、以及样本统计量之间的差别称为抽样误差。 随机事件(Radom event):随机试验中可能出现的各种结果,叫随机事件。即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定,又称偶然事件。 概率(Probability):描述随机事件发生的可能性大小的一种度量,常用P 表示。 小概率事件:当随机事件A的概率P(A)≤,习惯上,当=0.05时,就称A为小概率事件;其统计学意义是小
概率事件在一次随机试验中不可能发生。 频率(Frequency):在n次试验中,若事件A发生的次数为m,则:
m称为事件A在n次试验中的频数,fn(A)称为事件A在n次试验中发生的频率。 统计描述:用统计指标、统计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述 统计推断:指用样本信息推断总体特征,包括参数估计和假设检验。
第二讲:数值变量的统计描述 一、频数表与频数分布图 (一)基本概念: 频数( frequency ):指在一个抽样资料中,某变量值出现的次数。 频数分布表(frequency distribution table):将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。 频数分布图(frequency distribution figure) :根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。
nmAAfn试验的总次数发生的次数事件)( 2
(二)连续型变量频数表的编制方法: ⒈ 求全距(Range,简记R ):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。 2. 定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。 原则:(1)“组段”数一般为10-15个; (2)“组距”一般为R/10取整; (3)为计算方便根据组距采取取整数方法 3.写组段:即将全距分为若干段的过程。 原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ; (2)每组段均用下限值加 “~ ”表示,最终组段同时注明上下限。 4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资料。 (三)频数表的用途: 1.揭示频数的分布特征:集中趋势与离散趋势结合能全面反映频数的分布特征 2.揭示频数的分布类型 对称分布 : 集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。 正偏 : 集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。 负偏 : 集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。 3.便于发现某些特大或特小的可疑值。 4. 样本含量足够大时,以频率作为概率的估计值。 5.作为陈述资料的形式。 二、集中趋势的指标 集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。 注意:1.同质的事物或现象才能求平均数 2.应根据资料分布状态选用适当的均数。 算术均数 : 单峰对称分布 包括 几何均数 : 对数正态分布 中位数、百分位数 : 偏态分布 (一) 算术平均数(arithmetic mean) ● 使用条件:数据分布比较均匀呈正态分布或近似正态分布。 ● 样本均数用符号:X 表示 ● 总体均数用符号:μ表示 ● 计算方法有两种:直接法(小样本)和加权法(大样本) (1)直接法: 举例: 某地10名18岁健康男大学生身高为(cm): 168.7, 178.4, 170.0, 170.4, 172.1, 167.6, 172.4, 170.7, 177.3, 169.7 求平均身高?
➢ 适用范围:小样本资料,n<30 ➢ 方法:将观察值X1、X2、X3、……、Xn直接相加,再除以观察值的个数n。 ➢ 公式:
10 X ) ( 171.7
cm
7 169. 4 178. 168.7
nXnXXXXnin121 3
(2)加权法: ➢ 适用范围:大样本含量的分组资料或频数表资料。 ➢ 方法:计算各组段的组中值 Xi与其频数f i的乘积和Σf x,然后除以总频数Σf。 ➢ 公式:
举例: 用加权法计算某市8岁男童身高平均数(表3.1 )
①计算各组段的组中值xi、fxi和Σfx 第1组段:
② 用加权法计算该组身高值的均值 (二) 几何均数(geometric mean, G) ● 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。 ● 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。 ● 表示符号:G ● 计算方法:直接法和加权法 (1)直接法: ➢ 适用范围:小样本资料 ➢ 方法:将n个观察值(X1,X2,3,……Xn)直接相乘再开n次方。 ➢ 公式:
用对数形式表示为:
117.5 1
2 119 116
2
上限 下限
x
nfXfffXfXfXfXkkk
212211
) ( 05 . 130 100 13055.cm n fX X nnXXXG21
)lg(lg)lg...lglg(lg1211nXnXXXGn 4
举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。
或 G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5) =lg-1((0+1+2+3+4)/5) =lg-12 =100 即:平均滴度为1:100;较好地代表了观察值的平均水平。 (2)加权法: 适用范围:大样本含量的分组资料或频数表资料。 公式:
举例:有95名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见下表,试求平均滴度(例3.3)。
G=lg-1 (Σf lgX/Σf )=lg-1(145.0948/95) =33.68 即95名易感儿童接种疫苗一个月后,血凝抑制抗体的 平均滴度为1:33.68。
计算几何均数(G )注意事项: (1)观察值不能为0; (2)观察值不能同时有正有负; (3)同一组资料求得的几何均数小于算术均数。 练习: 1.有8份血清的抗体效价分别为:1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。 将各抗体效价的倒数代入公式:
所以血清的抗体平均为1:56.57
1001000010001001015G=
G=lg-1 (Σf lgX/Σf ) 表3.4 95名儿童的血凝抑制抗体平均滴度计算(加权法) 抗体滴度 ① 滴度倒数 ② 频数 ③ lgX ④ f·lgX ⑤=③×④ 1: 4 4 4 0.6021 2.4084 1: 8 8 9 0.9031 8.1279 1:16 16 16 1.2041 19.2656 1:32 32 34 1.5051 51.1734 1:64 64 18 1.8062 32.5116 1:128 128 8 2.1072 16.8576 1:256 256 5 2.4082 12.0410 ≥1:512 512 1 2.7093 2.7093 合计 95 145.0948
57.56)752575.1(lg]8/)640lg10lg5[(lglg11G