医学统计学重点终极笔记

医学统计学重点终极笔记
医学统计学重点终极笔记

Medical Statistics

【Introduction】

医学统计工作的内容

⒈实验设计:最关键、最重要

⒉收集资料:最基础

[原始资料] 实验数据,现场调查资料,医疗卫生工作记录、报告、报表

质量控制:精度和偏倚

⒊整理资料:资料的逻辑、一致性检查,原始数据的加工(频数分布表)

⒋分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断

资料的类型

⑴计量资料:定量方法测定数值大小所得的资料

⑵计数资料:按性质或类别分组,然后计数

⑶等级分组资料:具有计数资料的特性,又有半定量的性质(“+ , -”表示)

变异:不同个体在相同环境下,对外界环境因素发生的不同反应,即个体差异

总体:同质的个体所构成的全体。

[同质性,大量性,差异性]

样本:从总体中抽取部分个体的过程称为抽样,所抽得的部分是样本。

样本包含的个体数目称为样本含量

样本的特征:⑴代表性

⑵随机性

⑶可靠性

*抽样的要求:代表性,随机性,可靠性,可比性

完全随机设计:将受试对象随机分配到各处理组或对照组中,或分别从不同总体中随机抽样进行研究。可为两样本或多样本得比较,但样本含量不宜相差太大。

随机区组设计:也称配伍设计,是配对设计的扩展。配对设计的每一“对子”中的受试对象分别随机分到两个处理组中,而配伍组设计中的每个“配伍组”,包含多个受试对象,

要将它们分别随机分到各处理组中。

误差:泛指观测值与真实值之差,以及样本统计量与总体参数之差

⑴系统误差:在收集资料过程中,由于仪器调整、试剂校验、医生对疗效的掌握等因素,造成

观察结果倾向性的偏大活偏小。要尽量查明原因,必须克服。

⑵随机测量误差:在收集资料过程中,即使系统误差已经避免,由于各种偶然因素的影响造成

对同一对象多次测定的结果不完全一致。譬如操作员技术、电压、环境温度的差异。

没有固定的倾向,时高时低;应采取措施加以控制。

⑶抽样误差:由抽样不同引起的样本均数与总体均数之间的差异。原因是个体之间存在变异,

抽样时只能抽取总体的一部分作为样本。

不可避免,要用统计方法进行正确分析。

概率:描写某一事件发生可能性大小的一个度量。

频率:样本实际发生率

小概率事件:P<=0.05(差别有统计学意义)或P<=0.01(差别有高度统计意义)的事件

变量:观察单位的某些特征

变量值:观察、测定的结果

【集中趋势的统计描述】

频数表(计量资料):同时列出观察指标的可能取值区间及各区间的频数

集中趋势:变量值的集中位置

离散趋势:变量值围绕集中位置的分散情况

平均数:描述一组观察值集中位置或平均水平的统计指标。常作为一组数据的代表值用于分析或进行组间比较。

[适用条件]:对称分布或偏度不大的资料,尤其适合正态分布

算术均数():简称均数,说明一组观察值平均水平或集中趋势(描述计量资料)

几何均数(G):描述观察值间按倍数关系变化的资料的平均水平,如滴度、浓度、血清效价、细菌计数。

中位数(M):观察值按从小到大排列时,居于中心位置的数值。

n为奇数时,M=第(n+1)/2项

n为偶数时,M=第n/2项和第(n/2+1)项的平均值

[适用条件]:分布明显呈偏态;频数分布的一端或两端无确切值

百分位数(P):在一组数据中找到一个数值Px,全部观察值的x%小于Px。

P25, P75描述资料的离散程度

P2.5, P97.5规定医学95%的参考值范围

【变异程度的统计描述】

极差(R):即全距,观察值中最大值与最小值之差。不适用于开口资料

四分位数间距(Q):一组观察值按大小排序后,分成四个数目相等的段落,每段观察值占总例数的25%,去掉两端含有极端数值的25%,取中间50%的数据范围即为Q。(适

用于偏态分布&开口资料)

[Q=P75 - P25] Q越大,则数据变异越大

平均偏差:各观察值偏离平均数的平均差距。即各观察值与均数之差的绝对值之和的平均。

离均差平方和:通过取平方避免正负抵消

方差:离均差平方和再取平均,分母用自由度v=n-1代替

*自由度(v):在所有的n个离均差平方项中,只有n-1个是独立的。

标准差(S):将方差取平方根,还原为与原始观察值单位相同的变异量度

(反映样本值的离散程度)

标准差变异系数(CV):均数相差较大或单位不同的几组观察值的变异程度的比较(百分数,可能大于1)

正态分布曲线下的面积

横轴:f=2.58, 1.96, 1, 0(居中) 对应99%, 95%, 68.3%

单侧,f=2.33,1,645, 1, 0

正态分布的特征

均数处最高,以均数为中心,两端对称

中心μ对应的f(x)最大;x越远离μ,f(x)越趋近于0,但不会为0

永远不与x轴相交的钟型曲线

有两个参数:均数——位置参数;标准差——形状(变异度)参数

正态曲线下的面积分布有一定规律

正态分布具有可加性

标准正态分布:均数μ=0,标准差σ=1的正态分布。

转化公式:

☆适用条件总结:①样本标准差正态,对数正态

②变异系数单位不同或均数相差较大

③四分位数间距偏态

医学参考范围:也称正常值范围,正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各数据的波动范围。

(习惯上是包含95%参照总体的范围)

制定方法

[单侧] [双侧]

参考范围对应的百分位数(Px=) 5 , 95; 1 , 99 2.5 , 97.5; 0.5 , 99.5

参考范围对应的正态分布区间(f=) 1.65; 2.33 1.96; 2.58

[]

【抽样误差与假设检验】

抽样误差:由抽样造成的样本均数和总体均数的差异。是不可避免的

☆中心极限定理:在样本含量n很大(>=50)的情况下,无论原始测量变量服从什么分布,的抽样分布都近似服从正态分布N(μ,)

标准误:反映样本均数间变异的标准差。

(反映样本均数间的离散程度,也反映样本均数与总体均数的差异)

理论值

估计值

参数估计:由样本统计量估计总体参数。

点估计:使用单一的数值直接作为总体参数的估计值。如用估计相应的μ

(未考虑抽样误差的影响)

区间估计:按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。

可信度:事先给定的概率1-α(通常取0.95或0.99);计算得到的是可信区间

95%可信区间(,)

假设检验:即显著性检验,是统计推断的重要内容,比较总体参数之间有无差别。

首先对所需比较的总体提出一个无差别假设,然后通过样本数据去推断是否拒绝这一

假设。

基本步骤:⑴建立假设和确定检验水准

⑵选择检验方法和计算检验计量

⑶确定P值,作出统计推断

无效假设:H0,指需要检验的假设,如**值治疗前后无差别

即H0:μd=0

通常与我们要验证的结论相反,是计算检验统计量和P值的依据

备择假设:是在H0成立证据不足的情况下而被接受的假设

即H1:μd≠0

双侧检验:无论正或负方向的误差,若显著超出检验水准则拒绝H0

单侧检验:仅在正方向或负方向误差超出规定的水准时拒绝H0

P值:假设检验下结论的主要依据,是指在原假设成立的条件下,观察到的样本差别是由于机遇所致的概率。

P>0.05 不显著

0.01

P<=0.01 非常显著

【t检验】

单样本的t检验

配对样本均数t检验:受试对象依特征配对,随机分别分配到两个实验组

两独立样本均数t检验:两总体服从正态分布,且总体方差齐

方差齐性:两独立样本的总体方差

方差不齐时两样本均数的t’检验

方差齐性检验

(P>0.05,可认为总体方差齐)

t’检验

u检验:总体标准差已知,或样本量较大时,样本均数与总体均数的比较

t检验中的注意事项

⒈样本资料必须能代表相应总体

⒉t检验以正态分布为基础;非正态数据尝试变换为正态,或用非参数检验

⒊完全随机设计的两样本均数比较,要求两组方差齐

⒋对同一资料作单侧检验更容易获得显著结果

⒌假设检验用于推断总体均数间是否相同;可信区间用于估计总体均数所在范围

☆假设检验中的两类错误

第一类错误:当为真时,拒绝接受。又称假阳性错误,,阳性指两者总体参数有差异。检验水准α是预先规定的犯错概率的最大值

第二类错误:当为假时,不拒绝。又称假阴性错误。概率大小用β表示,只取单侧,一般未知。可证,α越大β越小,α越小β越大。增大样本含量可同时减小两类错误。

【方差分析】

方差分析:将全部观测值的总变异按影响因素分为相应的若干部分变异,在此基础上,计算假设检验的统计量F值,实现对总体均数是否有差别的推断。

条件:来自于正态分布总体,且总体方差相等的k个样本均数的比较(k>=3)

完全随机设计:又称单因素方差分析,将实验对象随机分配到不同处理组的单因素设计方法。只考虑一个处理因素

总变异:n个观测值的离均差平方和

组间变异:组内均值与总均值之差的平方和

组内变异:组内各个观测值与本组内均值之差的平方和

(反映各组内样本的随机波动)

完全随机设计的方差分析表(自由度)

F=

随机区组设计:又称配伍组设计,先将受试对象按条件相同或相近组成m个区组,每个区组中有k个受试对象,再将其随机地分到k个处理组中。

(属于无重复数据的两因素方差分析)

随机区组设计的方差分析表(自由度)

【相对数及其应用】

相对数:比较分析现象间的发展关系。把基数化作相等,便于比较

*绝对数:研究事物现象的基本资料

构成比

相对比

☆相对数使用的注意事项

⒈构成比只能说明某事物内部各组成部分的比重和分布,不能说明该事物某一部分发生的强度和概率。

⒉分母过小时相对数不稳定

⒊用以比较的资料应是同质的

⒋要考虑存在的抽样误差,对总体进行推断时应作统计学检验

率的标准化:为了比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成(年龄、性别、工龄、病程长短等)的影响。

标准构成:⑴选取有代表性、较稳定、数量较大的人群构成为标准

⑵选择相互比较的各组例数合计为标准构成

⑶从比较的各组中任选其一作为标准构成

死亡率:某地某年每1000人中的死亡率

年龄别死亡率:某地某年龄组每1000人口中的死亡数

死因别死亡率:某年每10万人中,由于患某疾病死亡的人数

死因构成:相对死亡比,某种死因引起的死亡人数占总死亡人数的百分比

发病率:某一时期内特定人群中患某病新病例的频率

患病率:某一时点某人群中患某病的频率(可大于100%)

病死率:某期间内,某病患者因某病死亡的频率

治愈率:接受治疗的病人中治愈的频率

【检验】

检验:英国统计学家Peason提出的一种用途广泛的假设检验方法。该检验以分布为理论依据,可以推断两个(或多个)总体率以及构成比之间有无差异。

四格表资料的检验

理论频数

四格表资料检验专用公式

四格表检验校正公式

通常规则:①n40且所有的T5 基本公式(或专用公式)

②n40但有1T<5 校正公式

③n<40,或T<1 Fisher确切概率法

配对四格表资料的检验

观察结果的四种情况:①A+, B+ [a]

②A+, B- [b]

③A-, B+ [c]

④A-, B- [d]

公式:㈠, =1 (b + c) 40

㈡, =1 (b + c) < 40

行列表资料的检验

专用公式:, =(行数- 1)(列数- 1)

条件:⑴1

⑵与分类变量的顺序无关

⑶对于有序的RC表资料不宜用检验

【非参数检验】

非参数检验:不考虑总体的参数和总体的分布类型,对总体的分布或分布位置进行检验的方法。适用于:⑴总体分布为偏态或分布未知的计量资料

⑵等级资料

⑶个别数据偏大,或数据的某一端无确定数值

⑷各组离散程度相差悬殊,即各总体方差不齐

特点:⑴适用范围广,不限方差齐性、变量类型、样本量

⑵损失了部分信息,检验效率低

⑶极度偏态,犯第二类错误的概率较大

编秩次,求秩和

①依差值绝对值,

两样本比较的秩和检验

Wilcoxon Mann-Whitney test

△相同资料较多时(等级资料),采用校正公式

多个样本比较的秩和检验

H检验

【线性相关与回归】

相关系数:说明具有直线关系的两个变量间相关密切程度和相关方向的统计量

l XY表示X与Y的离均差平方和;相关系数r没有测量单位,-1<=r<=1

线性相关分析的注意事项

⒈首先绘制散点图,若呈直线趋势,再计算相关系数和作假设检验判断相关关系

⒉两变量都服从正态分布

⒊相关系数仅是样本相关系数,不能直接估计总体

⒋相关系数不能描述因果关系

线性回归

回归系数

应用:①分析两个变量之间是否存在线性依存关系

②利用回归方程对因变量Y进行估计

③利用回归方程进行统计控制

线性回归分析的注意事项

⒈两个内在有联系的变量,回归分析才有意义

⒉若存在依存因果的关系,则原因变量设为X,结果变量设为Y

⒊因变量是服从正态分布的随机变量;自变量可随机,可给定

⒋不要把估计范围扩大到建立方程时的自变量取值范围之外

线性相关与回归的区别

⒈相关系数的计算只适用于两个变量都服从正态分布的情形;

回归分析中,因变量随机,自变量随机(Ⅰ型回归模型,两个变量都服从正态);或是给定的量(Ⅱ型,每个X取值对应的变量Y服从正态分布)

⒉线性相关表示两个变量间的相互关系,是双向的;

回归反映两个变量之间的依存关系,是单向的

线性相关与回归的联系

⒈同一资料进行相关与回归分析,相关系数r与回归方程中的b正负号相同

⒉同一样本的r与b的假设检验是等价的

⒊相关与回归可以互相解释

确定系数:,越接近1,回归效果越好

*

等级相关(Spearman)

的假设检验

确定P值:⑴n50时,由等级相关系数界值表确定

⑵n>50时,可查r界值表,自由度=n-2

【统计表与统计图】

统计表

结构:标题,标目(横、纵),线条,数字,备注

三横线表:顶线,中间线,底线(标题,标目,数据)

统计图

结构:标题,图域,标目,图例,刻度

直条图[纵坐标从0开始]

单式

复式

构成图

百分比条图

线图:线段的升降表示指标的连续变化趋势。<变化速度>

适用于描述一个变量随另一个变量的变化趋势

☆半对数线图:主要数据随分组变量变化的趋势[相对数指标] <发展趋势>

两组数据相差大时,表示发展速度

直方图:用直条矩形面积代表各组频数,各矩形面积的总和代表频数之和。

表示连续变量频数分布的情况[纵轴刻度必须从0开始]

箱图:用于比较两组或多组资料的集中趋势和离散趋势。

中间的横线表示中位数

长度表示四分位数间距

两端分别是P75和P25

散点图:用点的密集程度和变化趋势来表示两指标之间的直线相关关系。

数值变量:其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。如身高(cm)、体重(kg)、血压(mmHg kPa)、脉搏(次/min)和白细胞计数(×10 9 /L)等。这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料。

《教育统计学》超详细知识点及重点笔记

华东师大心理统计学大纲 教材:《教育统计学》 第一章绪论 第一节什么是统计学和心理统计学 一、什么是统计学 统计学是研究统计原理和方法的科学。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。 统计学分为两大类。一类是数理统计学。它主要是以概率论为基础,对统计数据数量关系的模式加以解释,对统计原理和方法给予数学的证明。它是数学的一个分支。另一类是应用统计学。它是数理统计原理和方法在各个领域中的应用,如数理统计的原理和方法应用到工业领域,称为工业统计学;应用到医学领域,称为医学统计学;应用到心理学领域,称为心理统计学,等等。应用统计学是与研究对象密切结合的各科专门统计学。 二、统计学和心理统计学的内容 统计学和心理统计学的研究内容,从不同角度来分,可以分为不同的类型。从具体应用的角度来分,可以分成描述统计,推断统计和实验设计三部分。 1.描述统计 对已获得的数据进行整理、概括,显示其分布特征的统计方法,称为描述统计。 2.推断统计 根据样本所提供的信息,运用概率的理论进行分析、论证,在一定可靠程度上,对总体分布特征进行估计、推测,这种统计方法称为推断统计。推断统计的内容包括总体参数估计和假设检验两部分。 3.实验设计 实验者为了揭示试验中自变量和因变量的关系,在实验之前所制定的实验计划,称为实验设计。其中包括选择怎样的抽样方式;如何计算样本容量;确定怎样的实验对照形式;如何实现实验组和对照组的等组化;如何安排实验因素和如何控制无关因素;用什么统计方法处理及分析实验结果,等等。 以上三部分内容,不是截然分开,而是相互联系的。 第二节统计学中的几个基本概念 一、随机变量 具有以下三个特性的现象,成为随机变量。第一,一次试验有多中可能结果,其所有可能结果是已知的;第二,试验之前不能预料哪一种结果会出现;第三,在相同的条件下可以重复试验。随机现象的每一种结果叫做一个随机事件。我们把能表示随机现象各种结果的变量称为随机变量。统计处理的变量都是随机变量。 二、总体和样本 总体是我们所研究的具有共同特性的个体的总和。总体中的每个单位成为个体。样本是从总体中抽取的作为观察对象的一部分个体。当总体所包含的个数有限时,这一总体称为有限总体。而总体所包含的个数无限时,则称为无限总体。样本中包含的个体数目称为样本的容量,一般用n来表示。一般来说,样本中个体数目大于30称为大样本,等于或小于30称为小样本。在对数据进行处理时,大样本和小样本所用的统计方法不一定相同。 三、统计量和参数

医学统计学分析计算题_与解析

第二单元 计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指 标 性 别 例 数 均 数 标准差 标准值* 红细胞数/1012 ·L -1 男 360 4.66 0.58 4.84 女 255 4.18 0.29 4.33 血红蛋白/g ·L -1 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数0.29 100%100% 6.94%4.18 S CV X = ?=?= 女性血红蛋白含量的变异系数10.2 100%100%8.67%117.6 S CV X =?=?= 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误X S 来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误0.031 X S = ==(1210/L ) 男性血红蛋白含量的标准误0.374 X S = ==(g/L )

女性红细胞数的标准误0.018X S = ==(1210/L ) 女性血红蛋白含量的标准误0.639X S = ==(g/L ) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。σ未知,但n 足够大 ,故总体均数的区间估计按 (/2/2X X X u S X u S αα-+ , )计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)1210/L 。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)1210/L 。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H 0:12μμ=,即该地健康成年男、女血红蛋白含量均数无差别 H 1:12μμ≠,即该地健康成年男、女血红蛋白含量均数有差别 0.05α= 2) 计算检验统计量 22.829X X u === 3) 确定P 值,作出统计推断 查t 界值表(ν=∞时)得P <0.001,按0.05α=水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u 检验。 1) 男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 H 0:0μμ=,即该地男性红细胞数的均数等于标准值

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H 不拒绝H

H 正确Ⅰ型错误(ɑ) 0 推断正确(1?ɑ) 不正确推断正确(1?β) H Ⅱ型错误(β) 为真时却被拒绝,弃真错误 Ⅰ型错误(ɑ错误): H 为假时却被接受,取伪错误 Ⅱ型错误(β错误): H 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同 等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的 可比性,避免造成偏倚。(意义: ①是提高组间均衡性的重要设计方法;②避免有意 扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上)安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数)

㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示 =S/√n 为S x ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n 7.方差分析 方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本均数所代表总体均数是否有差别的一种统计学方法。 (方差分析的基本思想:把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义) 二、问题 1.集中趋势与离散趋势描述的常用指标、适用范围与优缺点 ㈠描述集中趋势的常用指标:

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学学习笔记

医学统计学学习笔记 第一章绪论 冉美岭康复0931班学号0926043120 1、医学统计学:是运用数理统计、概率论的原理和方法于医学科研和实践,研究医学资料和信息的收集、整理和分析的一门应用科学。统计方法的两个特点:用数量反映质量,利用样本推断总体。 2、医学统计学的意义:为了预防疾病,研究病因,促进健康,必须运用医学统计学方法透过偶然现象来探其规律性,得出科学推断。 3、总体:是根据研究目的所确定的同质的研究对象的全体。 4、样本:是根据随机的原则从总体中抽出有代表性的一部分观察单位。 5、描述总体特征的有关指标称为参数:如总体平均数、总体标准差、总体率等。 6、反映样本特征的有关指标称为统计量:如样本均数、样本标准差、样本率等。 7、抽样误差是不可避免的,一般来说,样本越大则抽样误差越小,越和总体的情况相接近,用样本推断总体的精确度越高,反之亦然。 8、随机化:是抽样研究和抽样分配时十分重要的原则。具有代表性、随机性、独立性、可比性。 9、概率:是描述某事件发生的可能性大小的一个量度。 10、医学统计资料的类型:①计量资料:是对每个观察单位用定量方法测定某项指标量的大小,一般有度量衡单位。②计数资料:是将观

察单位按某种属性或类别分组,所得各组的观察单位数,没有度量衡单位。③等级资料:是将观察单位按某种属性的不同程度分组,所得各组的观察单位数。 11、医学统计工作的基本步骤:①统计设计②搜集资料③整理资料④分析资料 第二章计量资料的统计描述 1、计量资料的统计描述分为两个方面:集中趋势、离散趋势 2、频数表:是一种统计表:即同时列出观察值的可能取值及其出现的频数。 3、频数表的编制步骤:①计算全距R=X max—X min ②确定拟分组数(k)和组距(i),根据全 距的大小和组段数来计算组距i= R K ③划分组段:划分组段的基本要求是第一个组段应包括最小值,最后一个组段应包括最大值。各组段只包含下限值但不包含上限值,故在列组段时只列出下限值,不列出上限值,但最后一个组段要依据具体情况进行封口,即要同时列出下限值和上限值。④画记并列出频数表 4、可以根据各组段的频数绘制直方图,即频数分布图。从图中可以看出①对称分布:频数集中位置在正中,左右两侧频数分布大体对称②偏态分布:集中位置偏向一侧,频数分布不对称(又分为正偏态分布、负偏态分布) 5、描述计量资料集中趋势的统计指标常用有平均数,分为三种:算

医学统计学重点图表总结

描述内容 指 标 意 义 适 用 场 合 平均水平 均 数 个体的平均值 对称分布 几何均数 平均倍数 取对数后对称分布 中 位 数 位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料 变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析 标 准 差 (方 差) 观察值平均离开均数的程度 对称分布,特别是正态分布资料 四分位数间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 变异系数 标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图 形 适 用 资 料 实 施 方 法 条 图 组间数量对比 用直条高度表示数量大小 直 方 图 定量资料的分布 用直条的面积表示各组段的频数或频率 百分条图 构成比 用直条分段的长度表示全体中各部分的构成比 饼 图 构成比 用圆饼的扇形面积表示全体中各部分的构成比 线 图 定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系 半对数线图 定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范 围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97.5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99.5 P 1 P 99

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

2017年人民大学统计学生物医学统计学考研参考书

2017年人民大学统计学生物医学统计学考研参考书 统计学:生物医学统计学 风险管理与精算学: 《概率论》,李贤平,高等教育出版社 《数理统计基础》,陆璇,清华大学出版社 《概率论与数理统计》,茆诗松、周纪芗,中国统计出版社 《应用回归分析》,何晓群等编,中国人民大学出版社 《统计学》,贾俊平等编,中国人民大学出版社 概率论与数理统计: 《数学分析》上、下册复旦大学数学系陈传璋、金福临等编高等教育出版社《高等代数》北京大学出版社 《概率论》李贤平高等教育出版社 《数理统计基础》陆璇清华大学出版社 《概率论与数理统计》茆诗松、周纪芗中国统计出版社 流行病与卫生统计学: 《流行病学》詹思延人民卫生出版社 《卫生统计学》方积乾、徐勇勇、陈峰编人民卫生出版社 (专业学位)应用统计: 《统计学》第四版贾俊平中国人民大学出版社配套习题 《应用回归分析》何晓群等编中国人民大学出版社 《多元回归分析》何晓群等编中国人民大学出版社 《抽样技术》金勇进等编中国人民大学出版社 《时间序列分析》易丹辉中国人民大学出版社 《概率论与数理统计》第三版刘次华高等教育出版社配套习题 2017年新祥旭考研全程复习计划

一、英语全程规划 基础阶段(3月-6月) 1.学习目标:完成至少1轮的单词背诵,巩固语法基础 2.阶段重点:英语单词、语法 3.复习建议: (1)英语每天抽空背背单词,建议时长0.5-1h;不管是用单词软件还是传统词书,不管是用词根词缀还是死记硬背,最重要的是每天都背。积累到某一天时,你会发现好多文章都看得懂了。 (2)英语基础不牢的童鞋,应该花点时间复习语法。语法知识能帮助你在读文章和翻译时更加流畅、对文章意思把握得更准确。 (3)多看看新闻,关注时事热点。近年来的英语作文和阅读都是涉及到热点话题的。 (4)不建议大家在这个阶段做习题集。 强化阶段(7月-10月) 1.学习目标:熟读并详细分析近10年真题 2.阶段重点:真题真题真题,重点是阅读 3.复习建议: (1)单词记忆每天进行,不间断。 (2)定时做真题阅读,做完后详细分析。 ①利用早上整段的时间做真题(作文可以不写),不要查单词,完全自己做,然后对答案,之后看一下答案分析。 ②每天分析2-3篇,分析包括:第一遍分析正确选项,第二遍分析错误选项的设置,第三遍在原位中找对应的句子,是每个选项对应的句子哟,分析为什么这样出题,第四遍,了解文章的背景,作者的情感。 ③此阶段不建议专门建立单词笔记本,重要的单词在分析时顺便查一下就好。 ④时间比较充足的童鞋可以全文翻译阅读原文。 (3)完成阅读后,用同样的方法完型、翻译和新题型。完型和新题型这两类题型不用全文

医学统计学分析题

五、分析应用题(4题,共40分) 1、为观察某病西医治疗及中西医结合治疗的疗效, 单纯型用西医治疗, 疑难型用中西医结合治疗, 疗效如下: 某病西医治疗及中西医结合治疗疗效比较 疗法例数治愈数治愈率(%) 西医治疗 70 50 74.29 中西医治疗 60 22 36.67 X2 =5.29 0.05>P>0.01, 西医治疗的疗效较好。你认为如何?请说出理由(6分) 1、答:结论不可信(2分);因为在设计分组上不科学,两组间不具有可比性(4分)。 2、24名志愿者完全随机地分成两组,接受降胆固醇试验。甲组为特殊饮食组,乙组为药物处理组,受试者在试验前后各测量一次血清胆固醇(mmol/L),数据如下表, 甲组乙组 受试者试验前试验后受试者试验前试验后 1 6.11 6.00 1 6.90 6.93 2 6.81 6.8 3 2 6.40 6.35 3 6.48 6.49 3 6.48 6.41 4 7.59 7.28 4 7.00 7.10 5 6.42 6.30 5 6.53 6.41 6 6.94 6.64 6 6.70 6.68 7 9.17 8.42 7 9.10 9.05 8 7.33 7.00 8 7.31 6.83 9 6.94 6.58 9 6.96 6.91 10 7.67 7.22 10 6.81 6.73 11 8.15 6.57 11 8.16 7.65 12 6.60 6.17 12 6.98 6.52 (1)欲分析两种治疗方法是否有效,采用何种统计分析方法?(6分) (2)欲判断两种降血清胆固醇措施效果是否相当,又采用何种统计分析方法?(6分) 2、答:(1)欲分析两种治疗方法是否有效,可用治疗前后比较,属配对设计(2分),应用配对t检验(3分)。(2)如判断两种方法的效果有无差别,则属成组设计(2分),应用两样本均数比较的t检验(3分)。 3、检验血磷含量有甲、乙两种方法,其中,乙法具有快速、简便等优点。现用甲、乙两法检测相同的血液样品,所得结果如下表。 样本号 1 2 3 4 5 6 7 乙法 2.74 0.54 1.20 5.00 3.85 1.82 6.51 甲法 4.49 1.21 2.13 7.52 5.81 3.35 9.61 问:⑴若要判断能否用乙法推算甲法,又用何统计方法?(6分) ⑵欲比较甲乙两法检出血磷是否相同,用何统计方法?(6分) 3、答:(1)根据题意,应用回归分析(6分) (2)这是配对设计计量资料(2分),应用配对t检验(4分) 4、某单位对常住本市5年以上,从未接触过铅作业,也未服过含铅药物或其它重金属,饮用自来水,无肝、肾疾患及贫血,近日未使用利尿剂的健康成年,用乙酸乙酰法测24小时尿δ-ALA的结果如下,欲制定其95%正常值范围。请问:用何种估计方法?说出理由并给出计算公式。(10分) δ-ALA 0.5- 1.0- 1.5- 2.0- 2.5- 3.0- 3.5- 4.0 -4.5- 5.0-5.5 合计

医学统计学重点要点

医学统计学重点 第一章绪论 1.基本概念: 总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。 样本:从总体中随机抽取部分个体的某个变量值的集合。 总体参数:刻画总体特征的指标,简称参数。是固定不变的常数,一般未知。 统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。 抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。 频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。 概率:频率所稳定的常数称为概率。 统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。 统计推断:包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。 2.样本特点:足够的样本含量、可靠性、代表性。 3.资料类型: (1)定量资料:又称计量资料、数值变量或尺度资料。是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。每个个体都能观察到一个观察指标的数值,有度量衡单位。 (2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料) ①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由 各分组标志及其频数构成。包括二分类资料和多分类资料。 二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。 多分类:将观察对象按多种互斥的属性分类 ②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单 位的个数所得的资料。 4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

(完整word版)医学统计学 重点 终极笔记

Medical Statistics 【Introduction】 医学统计工作的内容 ⒈实验设计:最关键、最重要 ⒉收集资料:最基础 [原始资料] 实验数据,现场调查资料,医疗卫生工作记录、报告、报表 质量控制:精度和偏倚 ⒊整理资料:资料的逻辑、一致性检查,原始数据的加工(频数分布表) ⒋分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 资料的类型 ⑴计量资料:定量方法测定数值大小所得的资料 ⑵计数资料:按性质或类别分组,然后计数 ⑶等级分组资料:具有计数资料的特性,又有半定量的性质(“+ , -”表示) 变异:不同个体在相同环境下,对外界环境因素发生的不同反应,即个体差异 总体:同质的个体所构成的全体。 [同质性,大量性,差异性] 样本:从总体中抽取部分个体的过程称为抽样,所抽得的部分是样本。 样本包含的个体数目称为样本含量 样本的特征:⑴代表性 ⑵随机性 ⑶可靠性 *抽样的要求:代表性,随机性,可靠性,可比性 完全随机设计:将受试对象随机分配到各处理组或对照组中,或分别从不同总体中随机抽样进行研究。可为两样本或多样本得比较,但样本含量 不宜相差太大。 随机区组设计:也称配伍设计,是配对设计的扩展。配对设计的每一“对子”中的受试对象分别随机分到两个处理组中,而配伍组设计中的每个 “配伍组”,包含多个受试对象,要将它们分别随机分到各处理 组中。 误差:泛指观测值与真实值之差,以及样本统计量与总体参数之差 ⑴系统误差:在收集资料过程中,由于仪器调整、试剂校验、医生对疗效的掌 握等因素,造成观察结果倾向性的偏大活偏小。要尽量查明原因,必须克服。 ⑵随机测量误差:在收集资料过程中,即使系统误差已经避免,由于各种偶然 因素的影响造成对同一对象多次测定的结果不完全一致。譬如操作员技术、电压、环境温度的差异。 没有固定的倾向,时高时低;应采取措施加以控制。

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

课堂笔记——医学统计学

第一章医学统计中的基本概念 一、医学统计工作的内容:实验设计(experiment design)、收集资料(collecting data)、整理资料(sorting data)和分析资料(analyzing data) 二、变异:医学研究的对象是有机的生命体,其功能十分复杂,不同的个体在相同的条件下,对外界环境因素可以发生不同的反应,这种现象称为个体差异或称为变异 三、总体(population)和样本(sample):总体是同质的个体所构成的全体。从总体中抽取部分个体的过程称为抽样,所抽的部分称为样本,在一个样本里含有的个体数可以不同,样本包含的个体数目称为样本容量。 四、样本的特性:代表性(representation)——要求样本能够充分反应总体的特征;随机性(randomization)——需要保证总体中的每个个体都有相同的几率被抽做样本;可靠性(reliability)——实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度;可比性(comparability)——指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。 五、误差:①系统误差(system error)②③ 六、概率(probability):是描述某一件事发生的可能性大小的一个量度。习惯将P≤0.05或P≤0.01的事件称为小概率事件 第二章集中趋势的统计描述 一、频数表(frequency table):①概念:一种格式的统计表,即同时列出观察指标的可能取值区间及其在各区间内出现的频数。由于这种资料的表达方式较完整地体现了观察值的分布规律,所以也称为频数分布表。②制作图标的步骤:确定组数、确定组距、确定组段、对各组段计数及手工编制划记表。 二、直方图(histogram):①概念:直方图是以垂直条段代表频数分布的一种图形,条段的高度代表各组的频数,由纵轴标度;各组的组限由横轴标度,条段的宽度表示组距。②用途:作为陈述资料的形式,可以代替原始资料,便于进一步分析;便于观察数据的分布类型;便于发现资料中某些远离群体的特大或特小的可疑值;当样本含量比较大时,可用各组段的频数作为概率的估计值。 三、平均数(average):是描述一组观察值集中位置或平均水平的统计指标,它常作为一组数据的代表值用于分析和进行组间的比较。 平均数优点缺点使用数据 算术平均数考虑每个观察值受到极值影响适用于正态或近似对称分布的资料 几何平均数取对数后正态或者 对称资料的描述不能有0或负数观 察值 对数正态分布或者取对数后呈对 称分布的资料 中位数稳定不利于进一步计算偏态分布两端无确定值Measures of Central Tendency:Mean and Median One of the most important numerical measures is a measure of center-a measure along the horizontal axis that location or center of the distribution.

医学统计学案例分析报告.doc

医学统计学案例分析评述 医学期刊论著:《口岸出入境人员预防接种统计分析》 【题目】口岸出入境人员预防接种统计分析 【研究目标】对口岸出入境人员的预防接种情况进行统计分析,为各种跨国传染性疾病的预防提供参考数据。 【研究人群】2010 年1 月--2012 年5 月口岸接受预防接种的出入境人员6870 位,其基本资料如下:男3678 人,女3021 人;年龄在3-79 岁之 间,平均年龄45.6 岁。经免疫前检查和询问,研究对象均无严重 的疾病,且无接种疫苗过敏史及禁忌症。 【资料类型】本资料是计数资料。 (1)原文:研究对象:选择我处2010 年1 月-2011 年4 月,2011 年5 月-2012 年5月两个时间段6870 位出入境人员,将其按公务人员、船员、劳 务人员、留学人员、旅游探亲及商务等进行分组。 (2)问题:①文献中未明确“我处”的具体含义,没有明确研究对象的来源。 ②文献中未提及“6870 位出入境人员”是如何产生的,即是普查, 还是抽样调查?如果是抽样调查,未明确抽样的方法,是如何应用 随机抽样的方法选择这6870 位研究对象的? 【统计方法】 (1)本论著未明确使用了何种统计学方法,我们组认为:首先应对资料进行正态性检验和方差齐性检验,若满足正态、方差齐,选择χ2检验,否则应选用秩和检验。 一篇论文结论的正确与否,需根据该篇论文所选用的检验方法和检验结果进行判断。如果没有检验方法或检验方法不合理,就无法知道检验结果是否出错,也就无法对结论进行准确判断。 (2)文献尽管在“1.4 统计学处理”中提及了“使用SPSSl5.2 软件进行统计学分析”,注明所采用的统计软件,但方法中未注明统计推断方法,没有明确

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学复习笔记

统计 1.统计工作步骤:研究设计、收集资料、整理资料、分析资料。 2.定量资料:以定量值表达每个观察单位的某项观察指标,如血脂、心率等,各观察值间只有量的差别,有连续性。 3.定性资料:以定性方式表达每个观察单位的某项观察指标,如血型、性别等,各观察值间有质的区别,无连续性。 4.等级资料:以等级方式表达每个观察单位的某项观察指标,如疗效等级,各观察值间有质的区别,无数值大小 5.总体:是指按照研究目的所确定的研究对象中所有观察单位某项指标取值的集合。分为有限和无限两种。 6.样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。7.同质性:同一总体或其样本的观察单位在取值方面必须有相同的性质,称为同质性。8.描述某总体特征的指标称为参数;描述样本特征的指标称为统计量。 9.概率:是指随机事件发生的可能性的大小的一个度量,常用P表示,其小于等于0.05时称为小概率事件。 10.变异:是以具有统治性的观察单位为载体,某项观察指标在其观察单位之间现实的差别。包括同质事物间的、不同观察单位间的、同一单位不同阶段的差别。 11.整理数据最有效的形式是频数分布,根据频数分布可以初步判断指标分布的特征是集中趋势还是离散趋势,发现某些特大或特小的可疑值,揭示资料分布类型,便于资料进一步分析。 12.频数分布分为对称分布和非对称分布,非对称分布又称为偏态分布,包括正偏态(大——小)和负偏态(小——大)。 13.集中趋势指标:1)算术均数(Xbar),最适合单峰对称资料;2)几何均数(G),如抗体滴度、细菌计数,应用于等比数列、对数数列;3)中位数(M)和百分位数,适用于偏态分布、开口资料、分布不明资料。 14.离散趋势指标:1)全距(R),又称极差,极差大说明变异度大;2)四分位间距;3)方差和标准差(s),标准差大离散程度大,及波动明显;4)变异系数CV=标准差/均数,可应用于单位不同的两组资料或均数相差悬殊的两组资料。 15.数据集中,变异度小则均数代表性好;否则反之。常用均数和标准差描述正态分布资料;用中位数和四分位间距描述偏态分布资料。 16.相对数作用:1)表示事物出现的频率;2)便于比较。常用的相对数有:率、构成比、相对比。 17.率和构成比的区别和联系: 率构成比 概念发生的强度或频率各组成部分所占的比重 强调点随机发生的事件各部分的构成 资料获得较难容易 特点不一定合计为1 18.正态分布:以均数为中心,成对称钟形分布,均数是位置参数,均数越大向右移; 标准差是形态参数,标准差越大越矮胖。用于定量资料。 19.标准正态分布:N(0,1) 20.二项分布用于定性资料,当给定样本含量n时,形态取决于π,当π=0.5时分布

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t 检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可 用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。 下面是本人简单总结的常用方法的选择,可供读者参考。如有引用本图者,请注明引自《医学案例统计分析与SAS应用》一书,谢谢。

相关文档
最新文档