【精品】定量资料的统计描述定量资料的统计描述通过调查或

合集下载

定量资料的统计描述解析

定量资料的统计描述解析
定量资料的统计描述
第一节 频数分布表与频数分布图
统计描述是统计分析的最基本内容,也 是统计分析的重要一部分.在统计学中经常 用统计指标和统计图表来揭示和反映原始 资料的数量特征和信息.
频数分布表
➢ 用于反映各变量(观察单位的某种特征)值及其 相应频数之间关系的一类表格,我们称之为频 数表.这里频数指对一种变量在多个观察单位 中进行多次观察,其中某一变量值重复出现的 次数.
数表法两种。
(1)直接法 当观察例数 n 不大时,此法常用。
先将观察值按大小顺序排列,选用下列公式
求 M。
当 n 为奇数时
为偶数时
M=
X
n 2
X
n 1 2
2
例 某病患者 8 人的潜伏期(天)分别为 2,3,3,4,7,8, 10,18,求它们的中位数。
本例 n=8 为偶数,将 8 人潜伏期从小到大排列,用公式算 得
➢ 不同的资料类型编制频数表难易程度不同,其 中计数资料和等级资料比较简单,而计量资料 相对较繁杂些.
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频 数表本身也具有统计描述的作用.
编制频数表的步骤
一般 8- 15 之间
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用
符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
N
xi 2
2 i1
N
n
xi
X
2
S 2 i1
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示,

【统计学】04 第二章 定量资料的统计描述

【统计学】04 第二章 定量资料的统计描述

频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X

定量资料的统计描述

定量资料的统计描述

例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。

三、定量资料的统计描述 管理统计学 课件

三、定量资料的统计描述 管理统计学 课件

12
10
8
工 人6 数
4
2
0
1
2
3
10
11
12
图2—6 日产量的条形图
4
5
13
14
日产量(件)
日产量的累计次数分布图
累 35
计 30
工 人
25
数 20
15
10
5
0
110
121
132
143
向上累计 向下累计
154 日产量(件)
图2—7 日产量的累计次数分布图
(二)组距式分布数列
• 组距分组是将全部变量值依次划分为若 干个区间,每一区间作为一组。
∴确定组距为1;
• ③确定组限
各组的上限(Upper limit)
各组的下限(Low limit)
(一般地,最低组的下限应小于最小的 变量值,最高组的上限应大于最大的变 量值。)
本例中,最低组的下限确定为2,最高 组的上限确定为9。
(若相邻组的上下限重叠,必须遵循 “上限不在内”的原则。)
• ④根据分组,整理频数分布表
• 组距分组适用于连续型变量,或离散型 变量的变量值较多的情况。
• 组距分组形成组距式分配数列。
例4 以下数据是某一周50个销售人员 获得的订单金额(单位:1000元)
6.0 5.9 3.5 2.9 8.7 7.9 7.1 5.0 5.2 3.9 3.7 6.1 5.8 4.1 5.8 6.4 3.8 4.9 5.7 5.5 6.9 4.0 4.8 5.1 4.3 5.4 6.8 5.9 6.9 5.4 2.4 4.9 7.2 4.2 6.2 5.8 3.8 6.2 5.7 6.8 3.4 5.0 5.2 5.3 3.0 3.6 3.8 5.8 4.9 3.7

02 定量资料的统计描述

02 定量资料的统计描述

2. 频数表的编制


求极差 R=Xmax-Xmin
划分组段 统计各组段内的数据频数
频率与累计频率
表1. 100名HIV阳性男子年龄的频数分布表
年龄 (岁) 频数 频率(%)
25~
28~ 31~ 34~ 37~ 40~
9
21 18 19 13 12
9.0
21.0 18.0 19.0 13.0 12.0
1.算术均数(均数)Mean

计算:

x1 x 2 x n 直接法(小样本): x n
加权法(大样本,频数表资料):
fx x f
应用:用于对称分布,特别是正态分 布资料的集中趋势描述。
算术均数

当资料呈正态分布时,均数位于分 布的中心。
每个观察值都加一个常数a,则均数 为原均数加常数a;每个观察值都乘 以一个常数b,则均数为原均数的b 倍。


百分位数 percentiles
百分位数是一种位置指标,它是指把数据从
小到大排列后处于第X百分位置的数值。它
把数据分为两部分,有X%的数据小于PX,
有1-X%的数据大于PX。中位数即第50百分 位数。
iX 公式:PX LX (n X % f L ) fX
式中符号的意义同中位数所用公式,只是把 中位数改为第X百分位数。

均数
3.中位数 Median


定义:将一组观察值从小到大排序后居 于中间位置的那个数值 计算 n X n ) ( 1) 2 (2) 2
当n为奇数时:
离散型变量
MX
n1 ( ) 2
中位数的计算

连续型变量:

定量资料统计描述课件

定量资料统计描述课件

数值型数据的分布形态描述
偏态与峰态
描述数据分布的不对称性 和尖锐程度。
正态分布
一种常见的连续概率分布 ,特点是钟形曲线,平均 数、中位数和众数相等。
分布函数
描述数据落在某个区间的 概率。
05
分类数据的统计描述
频数分布表与频数分布图
频数分布表
将分类数据按照某一分类标准进行分组,并统计每一组的频 数。
数据。
实验法
通过实验设计和实验操作获取 数据,适用于需要获取数据,适 用于自然状态下的数据收集。
文献法
通过查阅文献资料获取数据, 适用于历史数据和无法直接获
取的数据。
数据整理的步骤
数据清洗
去除无效、异常和缺失数据, 确保数据质量。
数据转换
将数据转换为统一格式,便于 后续处理和分析。
列联表
将两个分类变量交叉分组,并对每个 单元格中的观察单位数进行统计,形 成列联表,可以用来分析两个分类变 量之间的关系。
06
定量资料统计描述的应用实

实例一:人口普查数据统计描述
总结词
人口普查数据是典型的定量资料,统计描述方法在人口普查数据中应用广泛,用于描述人口数量、性别比例、年 龄结构等基本情况。
统计描述的基本原则
课程安排
第二章:定量资料的收集与整理 定量资料的收集方法
定量资料的整理原则
课程安排
第三章:数值变量统计描述 数值变量的集中趋势描述
数值变量的离散趋势描述
课程安排
第四章:分类变量统计描述 分类变量的频数分布描述 分类变量的相对数描述
课程安排
第五章:统计图表在描述中的应用 常用统计图形的选择与绘制
中心位置。
离散趋势指标

定量资料的统计描述

定量资料的统计描述
一、基本概念
总体与样本 变量 误差 概率
二、资料和统计分析
资料的两种类型
定量资料(计量资料) 定性资料(分类资料) 连续 离散 二项分类 多项分类
无序
有序(等级)
根据变量取值特点,计量资料分为:
连续性资料:变量值可以在实数轴上连续变
动。如红细胞数、身高、体重。
定量资料统计描述过程:
定量 资料 统计 描述
一、Descriptives过程
进行一般性的统计描述(统计指标) 适用于服从正态分布的定量资料 特殊功能:可对原变量进行标准正态 变换N(0,1)
Descriptives过程:
标准 正态 变换: Z+?
峰度系数、 偏度系数
二、Frequencies过程
涉及的统计指标比Descriptives过程全 面,可产生详细的频数表,并给出常用统 计图。 更适用于对分类资料以及不服从正态分 布的连续性变量进行描述。
Frequencies过程:
产生 频数 表
Frequencies过程:
正态 曲线
三、Explore 过程(探索性分析)
三个过程中功能最强大,对变量的描 述统计更深入详尽; 适用于对资料的性质、分布特点完全 不清楚时; 特殊功能:茎叶图、箱式图
2.Descriptive Statistic
3.Descriptives
optins
几何均数的计算
教材P45 例4.4 数据录入 分析过程
对数转换:Transform Compute
生成 新变 量lgx
Transform
Compute:
函数 组
练习
课后习题P394 第3题

第二章定量资料的统计描述


1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=

i
Xi n
=

n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

定量资料的统计描述定量资料的统计描述通过调查或 资料内容仅供您学习参考,如有不当之处,请联系改正或者删除

资料内容仅供您学习参考,如有不当之处,请联系改正或者删除2 第四章 定量资料的统计描述 通过调查或实验收集到资料之后,需要对资料进行统计分析。统计分析包括统计描述和统计推断两个方面的内容。统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。本章介绍定量资料(quantitative data)的统计描述。

第一节 频数分布表与频数分布图 一、频数分布表 从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统计不同组别内的观察值个数。不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。不同类型的定量变量可以制作不同分组形式的频数表。 (一) 离散型定量变量的频数表 例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。 本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。将各组的频数除以总频数所得的值称为频率,见第(3)栏。某组的累计频数是该组与前面各组频数之和,见第(4)栏。显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。

表4.1 2005年某市102名高中男生引体向上完成次数的频数分布 完成次数 频数f 频率(%) 累计频数 累计频率(%) (1) (2) (3) (4) (5) 资料内容仅供您学习参考,如有不当之处,请联系改正或者删除 资料内容仅供您学习参考,如有不当之处,请联系改正或者删除3 2 3 2.94 3 2.94 3 7 6.86 10 9.80 4 16 15.69 26 25.49 5 33 32.35 59 57.84 6 24 23.53 83 81.37 7 14 13.73 97 95.10 8 4 3.92 101 99.02 9 1 0.98 102 100.00 合计 102 100.00 — —

(二) 连续型定量变量的频数表 例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。 1.706 1.326 1.632 1.876 2.161 1.684 1.533 1.175 1.867 1.676 2.091 1.847 1.213 1.277 0.989 2.235 1.665 1.289 1.724 1.548 1.608 1.890 1.733 1.796 1.203 1.736 1.450 1.633 1.555 1.352 1.832 1.444 1.737 1.459 1.450 1.782 1.555 1.634 1.508 2.343 1.509 1.745 1.953 1.744 1.695 1.707 1.901 1.825 1.597 2.338 1.708 1.711 1.856 1.644 1.716 1.978 1.534 1.900 1.595 1.646 1.905 1.610 1.614 1.422 2.301 2.127 1.348 1.317 1.062 1.830 1.980 1.570 1.495 1.864 2.170 2.000 1.705 1.863 1.424 2.022 2.068 1.576 1.833 1.659 2.212 1.399 2.128 1.543 1.562 1.382 1.291 1.796 1.647 1.415 1.873 0.996 1.936 1.526 1.424 1.589 1.670 1.056 1.969 1.481 2.406 2.123 1.988 1.512 1.030 1.886 1.930 1.725 1.374 1.654 1.663 1.438 1.645 1.214 1.184 1.735

“肺活量”是连续型定量变量,需要按变量的取值范围划分成几个区间,每个区间称为一个组段,用各组段与对应的频数列表,即得到频数表。 编制连续型定量变量频数表的过程为: 1. 求全距(range):全距又称为极差,是全部数据中最大值与最小值之差,用符号R表示,本例的全距 2.4060.9891.417(L)R 2. 划分组段 确定组数:分组的目的是反映数据分布的特征,因此组数应适中。若组数太多,数据的分布过于分散,难以显示出频数分布的规律性,并有可能出现某些组内频数为0的情况;若组数过少,可能丢失重要的细节信息,不能充分体现资料的分布特征。组数的多少与观察值的个数n有关,一般当观察值的资料内容仅供您学习参考,如有不当之处,请联系改正或者删除 资料内容仅供您学习参考,如有不当之处,请联系改正或者删除4 个数n 在50以下时可分5到8组,n在50以上时可分9到15组,实际运用时应根据分析的要求,灵活确定组数。本例n为120,拟分11组。 确定组距:等距分组时,/R组距组数,为便于计算,组距可适当取整。本例1.417/110.129组距,故可取0.130为组距。 确定各组段的上下限:确定组数和组距后,要使每一个观察值都有组可归,同时又要使每一个观察值只能归属于某一组,这就要求合理地设置各组段的上下限。每个组段的起点称为该组的下限(lower limit),终点称为该组的上限(upper limit),上限=下限+组距。在确定第一个组段时,其下限可取一个小于最小观察值的数,例如,本例取0.980为第一组下限,加上组距0.130即为第二组下限,依次类推,直到最末一组。为表示各组段均为半开半闭区间(下限为闭区间,上限为开区间),除最末一组外,一般只写出下限。 3. 统计各组段频数:采用计算机汇总或用手工划记法,得到各组段内的观察值个数即频数,划记时为避免重复计数,对于刚好等于某一组段上限的观察值要算在下一组段内。将各组段与相应频数列表,如表4.2的第(1)、(2)栏,即得到频数表。

表4.2 2005年某市120名9岁男孩肺活量(L)频数分布 组段 频数( f ) 频率(%) 累计频数 累计频率(%) (1) (2) (3) (4) (5) 0.980~ 5 4.17 5 4.17 1.110~ 5 4.17 10 8.33 1.240~ 7 5.83 17 14.17 1.370~ 14 11.67 31 25.83 1.500~ 19 15.83 50 41.67 1.630~ 29 24.17 79 65.83 1.760~ 15 12.50 94 78.33 1.890~ 12 10.00 106 88.33 2.020~ 6 5.00 112 93.33 2.150~ 4 3.33 116 96.67 2.280~2.410 4 3.33 120 100.00 合计 120 100.00 — —

一般采用等距分组,但某些情况下,采用不等距分组更能反映现象的本质和特点。例如,进行人群疾病研究的年龄分组,为客观反映婴儿、幼儿和成年人疾病发生情况的特点,应采用不等距分组,可采取1岁以下按月分组,1~9岁按岁分组,10岁以后按每5岁或10岁分组等。 资料内容仅供您学习参考,如有不当之处,请联系改正或者删除 资料内容仅供您学习参考,如有不当之处,请联系改正或者删除5 二、频数分布图 用图形的方法能够直观形象地表达频数分布的信息,并可与频数表互为补充。连续型定量变量的频数表可绘制成直方图。一般情况下,绘图时以横轴表示观察变量(组距),以纵轴表示频数。用表4.2资料绘制的直方图如图4.1所示。

图4.1 2005年某市120名9岁男孩肺活量频数分布 频数分布表和频数分布图的主要用途是: 1. 揭示频数分布的特征 从频数分布表和频数分布图可以看出频数分布的两个重要特征:集中趋势(central tendency)和离散趋势(dispersion tendency)。集中趋势是指一组数据向某一个位置聚集或集中的倾向,离散程度则反映的是一组数据的分散性或变异度,即各个数据离开集中位置的程度。如从表4.2和图4.1可见120名9岁男孩的肺活量大多数集中在中央部分,即中等肺活量者居多;从中央部分到两侧的频数分布逐渐减少,即少数人具有较大或较小的肺活量,则表现了肺活量分布的离散趋势。 2. 揭示频数分布的类型 根据频数分布的特征可以将资料的分布分成对称型和不对称型两种类型。对称型的分布是指集中位置在中间,左右两侧的频数大致对称的分布,如表4.2和图4.1所示。不对称型的分布是指频数分布不对称,集中位置偏向一侧,有时也称之为偏态分布。若集中位置偏向数值小的一侧(左侧),称为正偏态(positive skew),如图4.2所示;若集中位置偏向数值大的一侧(右侧),称为负偏态(negative skew),如图4.3所示。用频数分布表和频数分布图揭示频数分布的类型和特征,便于选用适当的统计方法。

相关文档
最新文档