医学统计学体会与建议

医学统计学体会与建议
医学统计学体会与建议

医学统计学体会与建议

统计学个人心得

12级会计7班 321xx244 谢翠欣

在学习统计学之前,谈起统计我脑袋中就浮现出计数,一大堆枯燥的数字,还有一长串的数学计算式。在我眼中,统计学是一门非常枯燥非常单调的学科,它不像数学那样强调严密的推理和逻辑,而是仅仅需要搜集原始资料,套用数学公式而已,我甚至不是很喜欢这门课程。但是经过一个学期的学习,我对统计学有了全新的认识。我开始意识到统计学在学术研究中,在公司决策中,在国家制定方针政策时??在社会生活的各个方面都发挥着重要作用,我开始了解到统计学是一个理论联系实际的学科,非常具有实践性,统计的原始资料全部实际生活。统计学也是一种成熟的学科,它有它独立而完备的理论体系,它是相当科学的,它是以数学作为它的基本工具,但它有比数学更有实际用途,它可以对生活中大量的无序的数据进行分析,找出它们的规律,从而为研究、决策提供基本的依据,它是其他学科的一切理论的基础和。

期末,老师布置了分组调查问题的任务,我们小组分工地完成了大学生男女婚恋观的差异,通过一整套的调查流程,从问卷设计、寻

找答卷人、调查结果对比以及综合分析,带着问题去寻找答案并得出结论,是一件很意义的事情。

因为要考试,所以花几天时间,整体复习了一遍统计学,准确的来说是从第一页开始较为仔细的阅读了一遍《统计学》这本教科书。随后统计为我打开了另一扇窗,让我得以从不同的视角重新思考这门让我痛苦了一个学期的课程。至此统计学不再仅仅是一些无数抽象公式的代名词,而是一门理论联系实际,工作活动中不可或缺的一门重要科学。

总论和统计数据的内容比较简单,引出概念,复习以往学习过的知识。理论上来说假设检验与方差分析的内容要难于抽样估计。但是个人觉得《抽样估计的行文并不像假设检验》那么好理解。统计学这本书喜欢先向学生介绍很多概念和公式,再将公式引用到例子中来解决问题。然而在介绍公式的同时,学生往往不了解这些公式真正的意义和使用方法,单纯的死记硬背效率颇低。拿抽样估计来说,计算抽样平均误差的公式之多,方法之众,让同学们的脑袋混沌了好久。大家私下交流,混沌的原因在于不知道这些公式 __,只将条件带入相应的公式计算答案的方法是以前没有经历过的,需要一段时间的适应过程。相关与回归分析同样吸引人。因为之前我片面的认为相关关系没有确切的规律可循,更不容说计算出事物的内在联系了。然而科学证明,不但相关系数可以计算出来,回归方程也可以用来做分析预测。

我想起了一句话:任何学科脱离了统计都将不是科学。只有统计能仅凭现象就能分析归纳出事务的内在联系,给我们呈现出一个更明朗的世界。

时间序列分析在我看来是和我的专业---会计联系最紧密的知识。运用所学到的知识可以分析出公司销售额的各种增长情况,公司的销售额有什么样的季节变化规律,还能建立一个模型对未来的财务情况做出预测。

这么快一个学期统计学的学习就结束了,我才刚刚了解统计学,我知道统计学知识还能运用到店铺开设选址等等的问题上,这是我比较感兴趣的,所以我以后还要继续深入了解统计学,并且运用它服务生活。

统计学学习心得

经过这一个学期对统计学的学习,深刻地了解到统计学和我们的生活息息相关,我们每一天都会遇到大量的统计问题,无论是走在大街上还是坐在电脑前我们都会接触到大量新闻和大众媒体在统计数

字上的表现,如最近炒的很热的加多宝,它的广告语是:全国每卖出十罐凉茶,有七罐是加多宝。我们且不理会这句话的真假,我们单从这句话来看很明显的就是极大地运用了统计数字来表现其产品的销

量大。还有我们去菜市场买菜的话,也会粗略地对一个菜的价格进行一个统计,就是会走几个菜摊子,对同一个菜的价格进行询问,然后对这些价格进行比较,最后得到一个比较平均的价格,进而在自己认为比较合理的价格范围进行采购。可见统计学与我们的生活已经是密不可分的了。

在学习统计学的教学过程中,很多例子也是我们生活中常见的例子,比如说学生的身高,体重等等,我们在学习中学习分析这些从生活中得来的数据,并经过统计得出合理的结论。这对于我们学生来说就大大提高了我们学习的兴趣,对于老师老说更是提高了课堂的效率。为了得出结论我们经历了收集数据,数据、描述数据和分析数据这些过程,并能利用结论进行合理预测和判断,这就培育了我们用数学的眼光来看待生活,用数学的思维思考生活,可以说这也是一种对于理智的培养,统计学的思维、原则和方法都可以帮助我们自己走出思维误区,更重要的是,还可以让我们识破充斥于广告、网络、媒体报道和专家言论中的误导甚至谎言,尽可能避免被他人忽悠。老师推荐我们看过一本书叫《统计数学会说谎》,这里面就有一个有趣的例子:用平均数来掩盖异常值。一个富翁走入一家坐满了穷人的酒吧,酒吧里人均收入将迅速提升,但每个穷人并没有因此致富。这就是最典型的平均数算法,掩盖了贫富悬殊被拉大到危险地步的事实。除了《统计数学会说谎》这本书里的这个例子,其实我们生活中还有很多这样的例子,如:在报纸上我们经常看到,劳动者平均工资相比过去有了

大幅度增长,但却只强调了这个平均工资的增长,却对通货膨胀和加班这些因素只字不提。我们如果在学习中培养了统计学的思维原则和方法,相信我们能看到很多除了数字以外的其他的东西,从而认清事物的本质。

学习统计学,我们不仅要学习统计学中的这种思维,我们还应该掌握统计学中的各种软件的应用,如:EXCEL、SPSS。因为统计的很多分析都要靠软件来完成,特别是在当今迎来的大数据时代,只有掌握统计学工具,才能做到分析和利用数据。能否应用统计学及时从海量数据中发现潜在需求,是企业能否准确把握创新机遇而赢得竞争的关键。例如我们统计书上209页10.1的这道练习题:一家电器公司的管理人员认为,每个月的销售额是广告费用的函数,并想通过广告费用对销售额做出估计。下面是相关数据:

现在我们来看一下这道题的第(2)问:用月销售额作因变量,电视广告费用和报纸广告费用作自变量,建立估计的回归方程,并说明回归系数的意义。从这道题上我们可以知道,我们用肉眼看表格上的数据,不借助软件进行计算,我们是很难得到方程的回归系数的,更别说说明意义了。这时我们就要借助SPSS或者EXCEL这些软件对表格上的数据进行分析,而且很快得出结论:

这时我们就可以得出得到这个回归方程:

y=83.230+2.290x1+1.301x2。而且我们可以很快说出回归系数的意义:电视广告费用增加1万元,月销售额将增加2.29万元,报纸广告费

用增加1万元,月销售额增加1.301万元。这就说明了广告的效果明显比报纸的效果要好得多,从而可以调整广告费用和报纸费用的比例,为企业赢得更高的销售额。这个例子就充分说明了掌握数据分析软件的重要性了:

有效的分析数据是提高工作以及发展效率的关键。

所以学习统计学绝对是让人受益匪浅的,对于我们现在的大学生

而言掌握统计学的基本理论和方法,能熟练地运用常用的统计软件分析数据,有助于我们利用手中的数据对负责的问题做出明智合理的决策,对以后我们走出校园,走向社会,或者进入企事业单位和经济管理部门从事统计调查,信息管理,数据分析等工作都是大有益处的。所以,在这里感谢老师这个学期以来对我们在统计学上的教导,以及和我们分享的一些书籍。

卫生综合复习经验谈之医学统计学(一)

卫生综合五大科目中流行病学是最难复习的,而医学统计学是最基础的,只有学好医学统计,才能更深入的理解流行病学。这些话有些夸张,但医学统计学的基础地位却是毋庸置疑的。

医学统计学是一门工具学科,它是数理统计学在医学领域的具体应用。复习医学统计学的关键在于领会每一种统计学方法的原理,训练统计学思维;无论公式、定理背诵的多么熟练,spss软件操作的多么流畅,如果统计原理弄不清楚,那么还是相当于没学会统计学。去年旁听的一次研究生答辩会上,某同学选取某医院某科室xx年2月至xx年9月就诊的所有患者作为研究对象,按照医保类型、家庭经济状况等进行分组,采用t检验以及方差分析等方法,比较各组之间的差异,分析软件使用的是spss13.0,各组间默认正态、等方差。

大家觉得这个分析思路有没有问题?是不是很完备?方法应用的也符合统计学规范?表面上看来的确如此,实际情况呢?这个分析思路从根本上来讲就是立不住的。有一句话,叫做“无抽样,无检验”。上面的课题设计中,研究对象是某时间段内所有患者,这属于普查的一种,既然是普查就不存在抽样的问题,不抽样就没有假设检验的什么事了。

假设检验是用来干什么的?为什么要用假设检验?其目的是为了用样本去推断总体,看一看样本的特性是否适用于总体。如果一个研

究的研究对象本身就选用了总体,那么还用假设检验做什么?类似的例子,说透了可能大家都明白,但是在实际操作中却有很多人犯这种错误,根源还是没有透彻的理解统计学的原理和思路。

医学统计学说白了,包括两大部分,一是统计描述,二是统计推断;统计描述包括定量资料的描述和定性资料的描述;统计推断包括区间估计和假设检验,统计推断也涵盖定性和定量两种,但以定量资料为主。统计描述中的核心概念,均数、方差、变异系数、四分位数、率、构成比;统计推断中的核心知识点,t检验、单因素方差分析、卡方检验、二项分布和泊松分布、相关、回归。把握住这些核心知识点,其实医学统计学的复习已经完成了大半了

(二)

医学统计学复习中首先接触到的概念是总体和样本,这两个概念

希望大家能够认真领会,虽然不会考察名词解释,但却是统计的基础所在。所要研究的对象的全体称为总体,包括有限总体和无限总体;无论是对于有限总体和无限总体,在实际研究中,我们或者受到资金、时间、技术等的限制,不能将所有的研究对象逐一研究,这就需要从总体中按照一定的方法抽取一部分对象进行研究,这一部分能够代表总体的研究对象就是样本。统计学中绝大多数的研究都属于抽样研究。这是我对于总体和样本的理解,希望和大家共同探讨。

接下来讲统计描述,首先是定量资料的统计描述,或者说是数值

变量的统计描述。变量描述的二要素是集中趋势和离散趋势,就集中趋势而言,常用的指标是平均数,正态分布变量使用算数平均数,对数正态分布的变量使用几何平均数,偏态分布的变量使用中位数;就离散趋势而言,正态分布变量使用方差或者标准差,非正态分布变量使用四分位数间距,对于没有单位或者均数与标准差相差较大的变量,其离散趋势常用变异系数表示。

定性资料的统计描述,重点掌握率、构成比的概念,常犯的错误

是以构成比代替率;教材中应用相对数的注意事项重点看一下;率的标准化是个比较重要的知识点,掌握标准化的目的、原理,两种标准化率的计算方法,使用标准化率的注意事项;动态数列的概念,常用的动态数列分析指标。

二项分布和泊松分布掌握一下,尤其是两者与正态分布的关系,

在何种条件下二项分布和泊松分布能够近似看做正态分布,教材中相关计算的例题看一下。

下一次开始分享统计推断的知识点。

(三)

上一次统计学和大家分享了统计描述的一些内容,今天我们来回顾一下统计推断的相关内容。统计推断我将从参数估计和假设检验两个部

分来进行概述,可能大家看的教材不同,这一部分的组织结构也有差异,但我还是觉得分成这两部分比较容易理解。

参数估计,首先区分两个概念,什么是参数,什么是统计量。统计量是针对样本而言的,参数是针对总体而言的,以中国所有的6岁儿童为总体,以随机抽取的10000名6岁儿童为样本,前者的身高均值称为参数,后者的平均身高称为统计量。

由于总体的无限性,或者不可及等其他原因,参数无法直接获得,只能由统计量通过一定的方法来估计参数,这就是参数估计。参数估计有两种方法,一是点估计,二是区间估计。点估计属于较为粗糙的估计,它的原理很简单,直接以统计量的数值作为参数的数值。区间估计则是将统计量与标准误,得出一个具有较大置信度的包含参数的范围,这个范围称为参数的置信区间。

这一块内容,可能置信区间的概念比较难以理解,教材上一般这样阐述,以95%的置信区间为例,重复100次抽样,每次抽取的样本

量都是n,每个样本都按照“均数±1.96*标准误”构建置信区间,

这样就有100个置信区间出来,其中95个置信区间包含总体均数,5个置信区间不包含总体均数。大家耐心的领会一下吧。

看到上面置信区间的计算公式,有没有觉得和参考值范围很相像?这是经常会混淆的两个概念,因此区分置信区间与参考值范围也是本章

的一个重点;捎带着区分一下标准差与标准误这两个概念吧,也

是常常考察的东西。

罗嗦了这么多参数估计,下面进入假设检验。假设检验的目的、

核心原理希望大家能领悟;好像前面我已经提过了,就是什么时候需要假设检验,什么时候不需要假设检验,这个要搞搞清楚。不要看到数据就检验,看到p<0.05就欢喜。p值的概念或者说内涵重点把握,还有检验水准,也就是α的内涵,α与p的区别和联系,这些小知识点多思考一下。假设检验的基本步骤,无效假设和备选假设的设定,也需要看一下。

第一种假设检验方法,t检验,首先知道进行t检验的前提条件,即正态性、方差齐,不满足这两个条件就不能做t检验。t检验的三种方法,单样本t检验、两独立样本t检验和配对t检验,怎么计算

不是重点,重点是要学会识别资料,什么样的资料可以用单样本t检验,什么样的资料可以用两独立样本t检验,什么样的资料可以用配对t检验;掌握了这些,t检验就算是过关了。

(四)

上次讲到t检验,这次我们继续回顾其他的假设检验方法,当然

以服从正态分布且方差齐的数据为前提,非正态或者方差不齐的数据,其假设检验要使用非参数方法,即秩和检验;秩和检验不是我们复习的重点,至少在考研过程中极少考察秩和检验。

内容仅供参考

医学统计学案例分析 (1)

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学案例分析(1) 案例分析四格表确切概率法【例 1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将 27 例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表 1-4。 经检验,得连续性校正 2 =3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。 表 1-4 两种药物治疗急性心肌梗塞的疗效比较药物中药西药合计有效 12(9.33) 6(8.67)无效 2(4.67) 7(4.33)合计 14 13 27 有效率(%) 85.7 46.2 66.7 18 9 【问题 1-5】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27 例患者随机分配到中药组和西药组,属于完全随机设计方案。 (3) 患者总例数 n=27<40,该医师用 2 检验是不正确的。 当 n<40 或 T<1时,不宜计算 2 值,需采用四格表确切概率法(exact probabilities in 22 table)直接计算概率案例分析-卡方检验(一)【例 1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取 140 例胃炎患者分成中药组和西药组,结果中药组治疗 80 例,有效 64 例,西药组治疗 60例,有效 35 例。 1 / 5

医学统计学分析计算题_与解析

第二单元 计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指 标 性 别 例 数 均 数 标准差 标准值* 红细胞数/1012 ·L -1 男 360 4.66 0.58 4.84 女 255 4.18 0.29 4.33 血红蛋白/g ·L -1 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数0.29 100%100% 6.94%4.18 S CV X = ?=?= 女性血红蛋白含量的变异系数10.2 100%100%8.67%117.6 S CV X =?=?= 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误X S 来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误0.031 X S = ==(1210/L ) 男性血红蛋白含量的标准误0.374 X S = ==(g/L )

女性红细胞数的标准误0.018X S = ==(1210/L ) 女性血红蛋白含量的标准误0.639X S = ==(g/L ) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。σ未知,但n 足够大 ,故总体均数的区间估计按 (/2/2X X X u S X u S αα-+ , )计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)1210/L 。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)1210/L 。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H 0:12μμ=,即该地健康成年男、女血红蛋白含量均数无差别 H 1:12μμ≠,即该地健康成年男、女血红蛋白含量均数有差别 0.05α= 2) 计算检验统计量 22.829X X u === 3) 确定P 值,作出统计推断 查t 界值表(ν=∞时)得P <0.001,按0.05α=水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u 检验。 1) 男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 H 0:0μμ=,即该地男性红细胞数的均数等于标准值

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学试题与答案

医学统计学试题及答案 习题 《医学统计学》第二版(五年制临床医学等本科生用) (一)单项选择题 1.观察单位为研究中的( d )。 A.样本 B. 全部对象 C.影响因素 D. 个体 2.总体是由( c )。 A.个体组成 B. 研究对象组成 C.同质个体组成 D. 研究指标组成 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。

医学统计学分析计算题-答案

第二单元 计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指 标 性 别 例 数 均 数 标准差 标准值* 红细胞数/1012·L -1 男 360 4.66 0.58 4.84 女 255 4.18 0.29 4.33 血红蛋白/g ·L -1 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数0.29 100%100% 6.94%4.18 S CV X = ?=?= 女性血红蛋白含量的变异系数10.2 100%100%8.67%117.6 S CV X =?=?= 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误X S 来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误0.031 X S = ==(1210/L ) 男性血红蛋白含量的标准误0.374 X S = ==(g/L )

女性红细胞数的标准误0.018X S = ==(1210/L ) 女性血红蛋白含量的标准误0.639X S = ==(g/L ) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。σ未知,但n 足够大 ,故总体均数的区间估计按 (/2/2X X X u S X u S αα-+ , )计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)1210/L 。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)1210/L 。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H 0:12μμ=,即该地健康成年男、女血红蛋白含量均数无差别 H 1:12μμ≠,即该地健康成年男、女血红蛋白含量均数有差别 0.05α= 2) 计算检验统计量 22.829X X u === 3) 确定P 值,作出统计推断 查t 界值表(ν=∞时)得P <0.001,按0.05α=水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u 检验。 1) 男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 H 0:0μμ=,即该地男性红细胞数的均数等于标准值

医学统计学案例分析(1)

案例分析—四格表确切概率法 【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。 表1-4 两种药物治疗急性心肌梗塞的疗效比较 药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7 西药 6(8.67)7(4.33)1346.2 合计1892766.7【问题1-5】 (1)这是什么资料? (2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么? 【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。 (3) 患者总例数n=27<40,该医师用χ2检验是不正确的。当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率 案例分析-卡方检验(一) 【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2.848,P=0.005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。

【问题1-1】 (1)这是什么资料?(2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法?【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。(3) 该医师统计方法不正确。因为成组t检验用于推断两个总体均数有无差别,适用于正态或近似正态分布的计量资料,不能用于计数资料的比较。(4) 该资料的目的是通过比较两样本率来推断它们分别代表的两个总体率有无差别,应用四格表资料的 X2检验(chi-square test)。 【例1-2】 2003年某医院用中药和西药治疗非典病人40人,结果见表1-1。 表1-1 中药和西药治疗非典病人有效率的比较 药物有效无效合计有效率(%) 中药西药14(11.2) 2 (4.8) 14(16.8) 10 (7.2) 28 12 50.0 16.7 步骤如下: 1.建立检验假设,确定检验水准 H 0:两药的有效率相等,即π 1 =π 2 H 1:两药的有效率不等,即π 1 ≠π 2 2.计算检验统计量值 (1) 计算理论频数根据公式计算理论频数,填入表7-2的括号内。 (2) 计算χ2值 具体计算略。

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学分析计算题_答案与解析

WORD 文档下载可编辑 第二单元计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指标性别例数均数标准差标准值* 红细胞数/1012·L -1男360 4.66 0.58 4.84 女255 4.18 0.29 4.33 血红蛋白/g·L -1男360 134.5 7.1 140.2 女255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1 解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一 致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数CV S 100% X S 0.29 4.18 100% 6.94% 10.2 女性血红蛋白含量的变异系数CV 100% 100% 8.67% X 117.6

由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误S X 来表示,由表 4 计算各项指标的标准误。 男性红细胞数的标准误S X S 0.58 0.031 ( 1012 /L ) n 360 S 男性血红蛋白含量的标准误S X n 7.1 360 0.374 (g/L ) 女性红细胞数的标准误S X S 0.29 0.018 ( 1012 /L) n 255 女性血红蛋白含量的标准误S X S 10.2 0.639 (g/L ) n 255 (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100 ,可视为大样本。未知,但n 足够大,故总体均数的区间估计按( X u / 2S X, X u / 2 S X)计算。 该地男性红细胞数总体均数的95% 可信区间为: (4.66 -1.96 ×0.031 , 4.66 +1.96 ×0.031) ,即(4.60 , 4.72) 1012 /L。 该地女性红细胞数总体均数的95% 可信区间为: (4.18 -1.96 ×0.018 , 4.18 +1.96 ×0.018) ,即(4.14 , 4.22) 1012 /L。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H0: 1 2 ,即该地健康成年男、女血红蛋白含量均数无差别 H1: 1 2 ,即该地健康成年男、女血红蛋白含量均数有差别 0.05 2) 计算检验统计量

医学统计学分析题

五、分析应用题(4题,共40分) 1、为观察某病西医治疗及中西医结合治疗的疗效, 单纯型用西医治疗, 疑难型用中西医结合治疗, 疗效如下: 某病西医治疗及中西医结合治疗疗效比较 疗法例数治愈数治愈率(%) 西医治疗 70 50 74.29 中西医治疗 60 22 36.67 X2 =5.29 0.05>P>0.01, 西医治疗的疗效较好。你认为如何?请说出理由(6分) 1、答:结论不可信(2分);因为在设计分组上不科学,两组间不具有可比性(4分)。 2、24名志愿者完全随机地分成两组,接受降胆固醇试验。甲组为特殊饮食组,乙组为药物处理组,受试者在试验前后各测量一次血清胆固醇(mmol/L),数据如下表, 甲组乙组 受试者试验前试验后受试者试验前试验后 1 6.11 6.00 1 6.90 6.93 2 6.81 6.8 3 2 6.40 6.35 3 6.48 6.49 3 6.48 6.41 4 7.59 7.28 4 7.00 7.10 5 6.42 6.30 5 6.53 6.41 6 6.94 6.64 6 6.70 6.68 7 9.17 8.42 7 9.10 9.05 8 7.33 7.00 8 7.31 6.83 9 6.94 6.58 9 6.96 6.91 10 7.67 7.22 10 6.81 6.73 11 8.15 6.57 11 8.16 7.65 12 6.60 6.17 12 6.98 6.52 (1)欲分析两种治疗方法是否有效,采用何种统计分析方法?(6分) (2)欲判断两种降血清胆固醇措施效果是否相当,又采用何种统计分析方法?(6分) 2、答:(1)欲分析两种治疗方法是否有效,可用治疗前后比较,属配对设计(2分),应用配对t检验(3分)。(2)如判断两种方法的效果有无差别,则属成组设计(2分),应用两样本均数比较的t检验(3分)。 3、检验血磷含量有甲、乙两种方法,其中,乙法具有快速、简便等优点。现用甲、乙两法检测相同的血液样品,所得结果如下表。 样本号 1 2 3 4 5 6 7 乙法 2.74 0.54 1.20 5.00 3.85 1.82 6.51 甲法 4.49 1.21 2.13 7.52 5.81 3.35 9.61 问:⑴若要判断能否用乙法推算甲法,又用何统计方法?(6分) ⑵欲比较甲乙两法检出血磷是否相同,用何统计方法?(6分) 3、答:(1)根据题意,应用回归分析(6分) (2)这是配对设计计量资料(2分),应用配对t检验(4分) 4、某单位对常住本市5年以上,从未接触过铅作业,也未服过含铅药物或其它重金属,饮用自来水,无肝、肾疾患及贫血,近日未使用利尿剂的健康成年,用乙酸乙酰法测24小时尿δ-ALA的结果如下,欲制定其95%正常值范围。请问:用何种估计方法?说出理由并给出计算公式。(10分) δ-ALA 0.5- 1.0- 1.5- 2.0- 2.5- 3.0- 3.5- 4.0 -4.5- 5.0-5.5 合计

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学案例分析

案例分析—四格表确切概率法 【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。 表1-4 两种药物治疗急性心肌梗塞的疗效比较 药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7 西药6(8.67)7(4.33)1346.2 合计1892766.7【问题1-5】 (1)这是什么资料? (2)该资料属于何种设计方案? (3) 该医师统计方法是否正确?为什么? 【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。(3) 患者总例数n=27<40,该医师用χ2检验是不正确的。当n<40或T<1 时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率 案例分析-卡方检验(一) 【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2.848,P=0.005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。

【问题1-1】 (1)这是什么资料?(2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法? 【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。(3) 该医师统计方法不正确。因为成组t检验用于推断两个总体均数有无差别,适用于正态或近似正态分布的计量资料,不能用于计数资料的比较。(4) 该资料的目的是通过比较两样本率来推断它们分别代表的两个总体率有无差别,应用四格表资料的检验(chi-square test)。 【例1-2】 2003年某医院用中药和西药治疗非典病人40人,结果见 表1-1。 表1-1 中药和西药治疗非典病人有效率的比较 药物有效无效合计有效率(%) 中药西药14(11.2) 2 (4.8) 14(16.8) 10(7.2) 28 12 50.0 16.7 步骤如下: 1.建立检验假设,确定检验水准 H 0:两药的有效率相等,即π 1 =π 2 H 1:两药的有效率不等,即π 1 ≠π 2 2.计算检验统计量值 (1) 计算理论频数根据公式计算理论频数,填入表7-2的括号内。 (2) 计算χ2值

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学分析计算题答案

第二单元计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指标性别例数均数标准差标准值* 红细胞数/1012·L-1男360 4.66 0.58 4.84 女255 4.18 0.29 4.33 血红蛋白/g·L-1男360 134.5 7.1 140.2 女255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV)比较二者的变异程度。 女性红细胞数的变异系数 女性血红蛋白含量的变异系数 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误(/L) 男性血红蛋白含量的标准误(g/L)

女性红细胞数的标准误(/L) 女性血红蛋白含量的标准误(g/L) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。未知,但足够大,故总体均数的区间估计按()计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)/L。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)/L。 (4) 两成组大样本均数的比较,用u检验。 1) 建立检验假设,确定检验水准 H0:,即该地健康成年男、女血红蛋白含量均数无差别 H1:,即该地健康成年男、女血红蛋白含量均数有差别 2) 计算检验统计量 3) 确定P值,作出统计推断 查t界值表(ν=∞时)得P<0.001,按水准,拒绝H0,接受H1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u检验。 1) 男性红细胞数与标准值的比较 ①建立检验假设,确定检验水准 H0:,即该地男性红细胞数的均数等于标准值

医学统计学案例分析报告.doc

医学统计学案例分析评述 医学期刊论著:《口岸出入境人员预防接种统计分析》 【题目】口岸出入境人员预防接种统计分析 【研究目标】对口岸出入境人员的预防接种情况进行统计分析,为各种跨国传染性疾病的预防提供参考数据。 【研究人群】2010 年1 月--2012 年5 月口岸接受预防接种的出入境人员6870 位,其基本资料如下:男3678 人,女3021 人;年龄在3-79 岁之 间,平均年龄45.6 岁。经免疫前检查和询问,研究对象均无严重 的疾病,且无接种疫苗过敏史及禁忌症。 【资料类型】本资料是计数资料。 (1)原文:研究对象:选择我处2010 年1 月-2011 年4 月,2011 年5 月-2012 年5月两个时间段6870 位出入境人员,将其按公务人员、船员、劳 务人员、留学人员、旅游探亲及商务等进行分组。 (2)问题:①文献中未明确“我处”的具体含义,没有明确研究对象的来源。 ②文献中未提及“6870 位出入境人员”是如何产生的,即是普查, 还是抽样调查?如果是抽样调查,未明确抽样的方法,是如何应用 随机抽样的方法选择这6870 位研究对象的? 【统计方法】 (1)本论著未明确使用了何种统计学方法,我们组认为:首先应对资料进行正态性检验和方差齐性检验,若满足正态、方差齐,选择χ2检验,否则应选用秩和检验。 一篇论文结论的正确与否,需根据该篇论文所选用的检验方法和检验结果进行判断。如果没有检验方法或检验方法不合理,就无法知道检验结果是否出错,也就无法对结论进行准确判断。 (2)文献尽管在“1.4 统计学处理”中提及了“使用SPSSl5.2 软件进行统计学分析”,注明所采用的统计软件,但方法中未注明统计推断方法,没有明确

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t 检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可 用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。 下面是本人简单总结的常用方法的选择,可供读者参考。如有引用本图者,请注明引自《医学案例统计分析与SAS应用》一书,谢谢。

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

医学统计学重点总结

1.简述总体和样本的定义,并且举例说明。 总体是研究目的确定的所有同质观察单位的全体。样品是从研究总体中抽取部分有代表性的观察单位。 2.简述参数和统计量的定义,并且举例说明。 描述总体特征的指标称为参数,描述样本特征的指标称为统计量。 3.变量的类型有哪几种?举例说明各种类型变量有什么特点。 ①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的 高低。 ②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。 ③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺 序上的差异。 4.请举例说明一种类型的变量如何变换为另一种类型的变量。定量数据>有序数据>定性数据 ---------------> 5.请简述什么是小概率事件? 概率是描述事件发生可能性大小的度量,P0.05事件称为小概率事件。 6.举例说明什么是配对设计。 配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。 7.非参数假设检验适合什么类型数据进行分析? ①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。 8.简述P 25 P 50 P 75 的统计学意义。(条件:明显偏态且不能转化为正态或近似对称;一端或两端无 确定数值;分布情况未知) 用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。 9.直条图、直方图、圆饼图的使用条件是什么? 直条图:各自独立的统计指标的数值大小和他们之间的对比; 直方图:连续变量频数分布情况; 圆饼图:全体中各部分所占的比例。 10.统计分析包括哪两个方面的内容?为什么要进行统计推断? 统计描述和统计分析; 统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。统计推断指由样本数据的特征推断总体特征的方法,包括参数估计(点估计和区间估计)和假设检验(判断随机波动引起差别的概率大小)。 统计推断是通过样本推断总体的统计方法/根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特征。总体是通过总体分布的数量特征即参数 (如方差) 来反映的。很多时候并不知道总体的参数,只能由样本统计量推断获得。 11.定量数据如何进行统计描述?请举例说明。通过具体数值反应高低水平。 12.定性数据如何进行统计描述?请举例说明。根据类别或属性的不同分类。 13.简述均数的抽样误差及率的抽样误差。 由抽样造成的样本统计量与总体参数的差异称为抽样误差,样本均数不等于总体均数μ,总体率参数π不等于样本率p。 14.简述正态分布和标准正态分布的关系。 (μ=0,)关系:标准正态分布是正态分布的一种,具有正态分布的所有特征。所有 正态分布都可以通过Z分数公式转换成标准正态分布。 区别:正态分布的平均数为μ,标准差为σ;不同的正态分布可能有不同的μ值和d值,正态分布曲线形态因此不同。标准正态分布平均数μ=0,标准差σ=1,μ和σ都是固定值;标准正态分布曲线形态固定。

相关文档
最新文档