医学统计学——数值变量资料的统计描述

合集下载

医学统计学的基本内容

医学统计学的基本内容

医学统计学的基本内容第一章医学统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。

2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。

3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。

第二节、统计学的几个重要概念一(资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。

一般有度量衡单位,每个对象之间有量的区别。

2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。

每个对象之间没有量的差异,只有质的不同。

3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。

注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。

二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。

2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。

从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。

四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。

亦称偶然事件。

五、概率描述随机事件发生可能性大小的数值,记作,,其取值范围0?P?1,一般用小数表示。

,,0,事件不可能发生必然事件(随机事件的特例);,,1,事件必然发生;,?0,事件发生的可能性愈小;,?1,事件发生的可能性愈大六、小概率事件习惯上将,?0.05或,?0.01 的随机事件称小概率事件。

表示某事件发生的可能性很小。

七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。

医学统计学计数资料的统计描述(一)

医学统计学计数资料的统计描述(一)

医学统计学计数资料的统计描述(一)医学统计学计数资料的统计描述计数资料是医学研究中常见的数据类型,例如统计某种疾病的患病人数、治愈人数等。

如何对这些数据进行科学统计描述,成为了医学研究不可避免的问题。

一、计数资料的基本概念计数资料是指由离散数据组成的一种数据类型,这些数据仅取有限个数值,如某类疾病的患病人数(自然数)或治愈人数(非负整数)。

计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述极为重要。

二、计数资料的统计描述1. 频数频数是指计数资料中各取值出现的次数,常以小写字母n表示。

例如患病人数为0的样本数为n0,患病人数为1的样本数为n1,以此类推。

2. 频率频率是指频数与总样本数的比值,常以小写字母f表示。

例如患病人数为0的频率为f0=n0/n,患病人数为1的频率为f1=n1/n,以此类推。

频率可以体现每个取值在样本中的分布情况,是比较常用的统计指标,其和为1。

3. 百分比百分比是指频数与总样本数的比值乘以100,常以百分号表示。

例如患病人数为0的百分比为f0×100%,患病人数为1的百分比为f1×100%,以此类推。

4. 累计频率累计频率是指某一取值及其以下所有取值的频率之和,常以小写字母F 表示。

例如患病人数小于等于3的累计频率为F3=f0+f1+f2+f3。

累计频率可以体现小于等于某个取值的样本在总样本中所占比例。

三、总结计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述有益于研究者更加深入地了解样本的分布情况,进而提出相应的研究假设。

频数、频率、百分比和累计频率是计数资料的常用统计指标,可分析每个取值在样本中的分布情况和各个取值间的差异。

在实际研究中,研究者应根据实际情况选择合适的统计方法进行分析,以期得到更为科学的结论。

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华)一.概论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。

2,医学统计学的主要内容:1)统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。

A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。

3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。

3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。

2)搜集材料A,搜集材料的原则及时、准确、完整B,统计资料的来源医学领域的统计资料的来源主要有三个方面。

一是统计报表,二是经常性工作记录,三是专题调查或专题实验。

C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。

变异(variation):同质基础上的各观察单位间的差异。

变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。

变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分类变量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。

医药统计学 第一章 数据的描述与整理

医药统计学 第一章 数据的描述与整理

统计工作的五个步骤紧密相连、不可分割,任何一
步的缺陷,都将影响整个研究结果。
目前,应用广泛,成为医药学研究、疾病防治、卫 生事业管理等多方面的重要手段、工具之一,即成 为方法论。
医药数理统计学(Mathematical statistics of
medicine): 应用概率论与数理统计学的原理与方法研究医 药学以及卫生服务领域中数据的收集、整理、分析 和解释的一门科学。
一.数据分布集中趋势的描述
频数分布表、图显示的集中趋势和离散程度较 粗略,而计算其各指标则是准确、定量描述其 分布特征。
集中趋势指标:平均数,反映观察值的集中位 置或平均水平,即观察值的典型水平或代表值。 描述一组同质观察值的平均水平或中心位置的 常用指标有均数、中位数、众数、几何均数等。
平均水平指标
数分布大致对称。特殊的对称分布为正态分布 (normal distribution)。
eg:体重、身高等生理、生化检测结果等。
偏态分布:频数分布不对称,集中位置偏向一侧。
40 人 数 30 20 10 0 124 132 140 148 身高(cm)
对称分布
156
164
eg:
.236364
Fraction
国际标准通用的统计分析软件,但操作略为繁琐。 (二)SPSS(社会科学统计软件) 全称Statistical Package for Social Science,是当前 最流行,应用最广泛的专业统计分析软件,操作
方便。
(三)EXCEL(电子表格软件) 可进行基本的统计分析。操作简便。
频数分布的特征:
医药统计学
一.基 本 概 念
概率论(probability):是研究随机现象数量规律的 数学学科。

《医学统计学》统计描述 (1)

《医学统计学》统计描述  (1)

2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。

《医学统计学》复习资料

《医学统计学》复习资料

统计学概述一、统计学的意义统计学是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。

统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。

二、统计学的基本概念(一)同质与变异同质是指被研究指标的影响因素相同。

变异是同质基础上的观察单位(亦称为个体)之间的差异。

(二)总体与样本总体是指根据研究目的确定的同质观察单位的全体。

样本从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合。

(三)变量与变量值变量:确定总体后,研究者应对每个观察单位的某些特征进行测量或观察,这种特征称为变量,如:身高、体重等。

变量值:变量的测得值。

如身高150cm,体重50Kg等。

(四)参数与统计量参数是指总体特征的统计指标。

如某地健康成年男性的平均血红蛋白值。

统计量是指样本特征的统计指标。

如从某地健康成年男性中抽取一部分人的平均血红蛋白值。

(五)误差误差泛指测量值与真实值之差。

根据误差的性质和来源,统计工作中产生的误差主要有三种类型,即系统误差、随机测量误差、抽样误差。

1.系统误差:测量结果有倾向性。

查明原因,可以避免。

特点:①测量结果有倾向性。

如仪器、试剂、判定标准等。

②查明原因,可以避免。

2.随机测量误差:收集资料的过程中,即使避免了系统误差,但由于各种偶然因素造成的测量值与真实值不完全一致,这种误差称为随机测量误差。

特点:①随机误差没有大小和方向。

②不可避免。

3.抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。

特点:变异是绝对的,抽样误差不可避免。

原因:个体之间的差异;抽样时只能抽取总体中的一部分作为样本。

(六)概率(P)概率是描述某随机事件发生可能性大小的量值,常用符号P表示。

随机事件的概率在0~1之间,即0≤P≤1。

小概率事件:P≤0.05或P≤0.01的事件。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

医学统计知识点整理

医学统计知识点整理

医学统计学知识点整理第一节统计学中基本概念一、同质与变异同质:统计研究中,给观察单位规定一些相同的因素情况。

如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。

变异:同质的基础上个体间的差异。

“同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的μ.δ.πX.S.p1.2.变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。

一、数值变量资料又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。

表现为数值大小,带有度、量、衡单位。

如身高(cm)、体重(kg)、血红蛋白(g)等。

二、无序分类变量资料又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。

分类:二分类:+ -;有效,无效;多分类:ABO血型系统特点:没有度量衡单位,多为间断性资料【例题单选】某地A、B、O、AB血型人数分布的数据资料是( )A.定量资料B.计量资料C.计数资料D.等级资料分组统计描述:是利用统计指标、统计表和统计图相结合来描述样本资料的数量特征及分布规律。

统计推断:是使用样本信息来推断总体特征。

统计推断包括区间估计和假设检验。

第四节统计表与统计图★一、统计表统计表的基本结构与要求标题:高度概括表的主要内容,时间、地点、研究内容,位于表的上方,居中摆放,左侧加表的序号。

标目:横标目和纵标目。

线条:通常采用三线表和四线表的形式。

没有竖线或斜线。

数字:表内数字一律用阿拉伯数字。

同一指标,小数位数应一致,位次对齐。

无数字用“—”表示。

暂缺用“…”表示。

“0”为确切值。

备注:位于表的下面,通常是对表内数字的注解和说明,必要时可以用“*”等标出。

一张统计表的备注不宜太多。

二、制表原则1.(7理分布。

【例题填空】描述某地十年间结核病死亡率的变化趋势宜绘制_________图。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
40~
189
297
24.69
50~
234
531
44.14
60~
386
917
76.23
70~
286
1203
100.00
8
病例数
频数
人数
25
正态分布:中间高、
20
两边低、左右对称
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
﹡表示符号: 总体均数 (μ) 样本均数 (x )
﹡应 用: 对称分布资料,尤其是正态或近似正 态分布资料
﹡计算方法:
直接法 x=
1+ 2+……+ n n
=

n
加权法 x=
f 1x1 + f 2x2 + ……+f kxk f 1 +f 2+……+f k
Σ:求和符号,读成sigma
∑ fx =f
12
55~58岁健康成人空腹血糖均数和标准差的计算表(加权法)
= lg–1
∑f lgx
14
n
n
几何均数(geometric mean)
XG n X1X2 Xn
lg
XG
1 n
(lg
X1
lg
X2
lg
Xn)
lg X n
X G lg 1
lg X n
lg 表示以10为底的对数;
几何均数:变量 对数值的算术均 数的反对数。
2
• 对一组研究对象进行观察,某变量或指标 (如肺活量)数值出现的次数被称为频数 (frequency);
• 可以将各变量值及其出现的频数编制频 数分布表(frequency distribution table);
• 用来反映各变量值与其频数之间的关系, 并观察资料的分布类型
3
一、频数分布(Distribution of frenquency)表与频数分布图
22
正正正正正
25
正正正正 |
21
正正正 | |
17
正||||
9
||||
4
|
1
合计
——
130
6
﹡偏态正分偏布态分布
238名正常人发汞值(μg/g)
发汞值 (1) 0.3~ 0.7~ 1.1~ 1.5~ 1.9~ 2.3~ 2.7~ 3.1~ 3.5~ 3.9~
频数 (2) 20 66 60 48 18 16 6 1 0 3
血清甘油三酯( m m o l / L )
图2-1 160名正常成年女子的血清甘油三酯的频数分布图
正偏态分布:长尾向右延伸;负偏态分布:长尾向左延伸
18
25
16
14
20
12Βιβλιοθήκη 10158 10
6
4 2 0
12 24 36 48 60 72 84 96 108 120 潜伏期(h)
5
0 0 5 10 15 20 25 30 35 40 45 50 肌红蛋白含量(ug/mL)
累计频数 (3) 20 86 146 194 212 228 234 235 235 238
累计频率(%) (4)=(3)/238
8.4 36.1 61.3 81.5 89.1 95.8 98.3 98.7 98.7 100.0 7
负偏态分布
某地某年恶性肿瘤死亡数
年龄组(岁) 死亡人数 累计频数 累计频率(%)
* 对称分布(正态分布或近似正态分布)
某地区130名正常成年男子红细胞数(1012/L)的频数分布
红细胞数
划记
频数
3.70~ 3.90~ 4.10~ 4.30~ 4.50~ 4.70~ 4.90~ 5.10~ 5.30~ 5.50~ 5.70~5.90
T
2
||||
4
正||||
9
正正正 |
16
正正正正 T
图2-2 59名链球菌咽喉炎患者的潜伏期(h)
图2-3 101名正常人的血清肌红蛋白含量 9
❖ 频数分布类型:
①对称分布或近似正态分布:即频数集中位置(或高 峰)在正中,两侧频数分布大致对称;
②偏态分布:即集中位置偏向一侧,频数分布不对称。
若频数集中位置偏向数值小的一侧,为正偏态分布; 若频数集中位置偏向数值大的一侧,为负偏态分布。
—— 频数分布表的编制
﹡找全距
R=最大值 - 最小值
﹡定组距
i =全距 / 组数
﹡写组段
第一组组段包括最小值
最后一组组段包括最大值
﹡划 记 各组段的观察单位数(频数)
4
——频数分布的用途:
(1)频数分布的特征描述 ﹡集中趋势:变量值集中分布的位置 ﹡离散趋势:变量值围绕集中位置的
分布情况
(2) 频数分布的类型 ﹡ 对称分布——正态或近似正态分布 ﹡ 非对称分布 ——偏态分布
不同类型的分布,应采用相应描述指标和统计分 析方法。
医学院 预防医学教研室 2020/10/13
10
二、集中趋势(Central tendency) 指标
平均数(average)常用于描述一组计量 变量值的集中趋势,是反映同质资料的平 均水平或集中位置的特征值。
均数
常用平均数 几何均数
中位数
11
1. 算术均数(均数,mean)
5.40~5.60 4
5.5
11.1
11.2 32.8 98.9 108.0 117.5 98.0 61.2 53.0 22.0
41.07
45.63 134.48 425.27 486.00 552.25 480.20 312.12 280.90 121.00
合计 132(Σf)
614.2(ΣfX) 2878.92 (ΣfX2) 13
——常用平均数
2. 几何均数 (geometric mean)
﹡表示符号: (G)
﹡应 用: 变量值呈倍数关系;对数正态分布资料。 ﹡计算方法:
直接法 G = n √ x1 ·x2 … xn
G = lg–1 lgx1+lgx2+…+lgxn = lg–1 ∑ lgx
n
n
加权法
G = lg–1
f1lgx1+f2lgx2+…+fklgxk
数值变量资料
(计量资料) 统计描述(Descriptive Statistics)
医学院 预防医学教研室 2020/10/13
1
数值变量资料的统计描述
➢ 频数表与频数分布 ➢平均指标:算术均数、几何均数、中位数 ➢变异指标:极差、百分位数与四分位间距
方差、标准差、变异系数
➢正态分布及其应用
医学院 预防医学教研室 2020/10/13
相关文档
最新文档