数值变量的描述性统计

合集下载

几种描述性统计分分析的SAS过程

几种描述性统计分分析的SAS过程描述性统计是统计学中的一种方法，用于总结和描述数据集的主要特征。

它有助于了解数据的整体分布、偏差和离散性等。

SAS（统计分析系统）是一种流行的统计软件，具有丰富的分析功能。

以下是几种常用的SAS过程，用于执行描述性统计分析。

1.PROCMEANS：PROCMEANS是一种计算统计指标的SAS过程，包括均值、总和、最小值、最大值、标准差等。

可以使用该过程对数值变量进行描述性统计，并在输出中显示这些统计指标。

可以通过指定多个变量和分组变量来计算针对不同子组的统计指标。

该过程还可以生成频数和百分比。

2.PROCFREQ：PROCFREQ是一种用于计算分类变量频数和百分比的SAS过程。

它可以计算每个类别的频数，并使用该信息生成频数表。

该过程还可以计算两个或更多分类变量之间的交叉频数表，并计算出每个类别的百分比。

3.PROCUNIVARIATE：PROCUNIVARIATE是一种用于执行单变量分析的SAS过程。

它可以计算变量的均值、标准差、峰度、偏度等统计指标。

该过程可以绘制直方图、箱线图、正态检验图和PP图等，以帮助理解数据的分布特征。

还可以执行分位数分析、离散度分析和异常值识别等。

4.PROCCORR：PROCCORR是一种用于计算变量之间相关性的SAS过程。

它可以计算变量间的皮尔逊相关系数，并使用协方差矩阵和相关系数矩阵来描述变量之间的线性关系。

该过程还可以绘制散点图矩阵和相关系数图，以直观地显示变量之间的关系。

5.PROCGLM：PROCGLM是一种用于执行多因素方差分析的SAS过程。

它可以根据自变量的水平和交互作用来分解因变量的方差，并进行显著性检验。

该过程可以计算组间差异的F值和p值，并生成方差分析表。

PROCGLM还支持使用协变量进行调整的方差分析，以控制对方差的影响。

以上是几种常用的SAS过程，用于执行描述性统计分析。

每个过程都有各自的功能和输出，可以根据数据和分析需求选择合适的过程。

第二章数值型变量的统计描述

1
例：某公司五名职员的薪水分别是： 10，100，1000，10000，100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一：分析资料
分析资料：计算有关指标，反映数据的综合特征，阐明事物内在联系和规律（1）统计描述(descriptive statistics)：指用统计
指标、统计表、统计图等方法，对资料的数量特征及其分布规律进行测定和描述。
（2）统计推断(inferential statistics)：指如何根
n 2 n 1 2
2
求:中位数
第1组数：1、4、 3、 2、 3 第2组数： 3、 2、1、 3 第3组数：1、2、 1、 2
（2）频数表法：
适用于样本例数较大的资料（百分位数法）
步骤： ①从小到大计算累计频数和累计频数； ②确定中位数和百分位数所在组段；
③计算中位数M和百分位数PX
i Px＝ L n x % f L fx
考考你： BUN组段(1)
BUN组段(2)
2.00～2.40 2.40～2.80 2.80～3.20 3.20～3.60
BUN组段(3)
2.00～ 2.40～ 2.80～ 3.20～3.60
2.00～2.30
2.40～2.70 2.80～3.10 3.20～3.50
4、列表划记（数频数）：统计各组段内的
例2-3
二、几何均数（geometric mean）

stata函数

stata函数Stata是一种用于统计分析和数据管理的软件，拥有强大的数据分析能力和丰富的函数库。

本文将介绍一些常用的Stata函数及其使用方法，帮助读者更好地理解和使用Stata进行数据分析。

1. summarize函数summarize函数用于对数值型变量进行描述性统计分析，包括计算变量的均值、标准差、最小值、最大值等。

例如，对于一个名为"income"的变量，可以使用以下命令进行描述性统计分析：summarize income该函数的输出结果包括均值、标准差、最小值、最大值、缺失值个数等信息。

2. generate函数generate函数用于创建新的变量，并对其赋值。

例如，可以使用以下命令创建一个新的变量"age_squared"，并将"age"的平方赋值给它：generate age_squared = age^2该函数可以根据已有的变量进行计算，并将结果保存为新的变量。

3. sort函数sort函数用于对数据集按照指定变量进行排序。

例如，可以使用以下命令对数据集按照"age"变量进行升序排序：sort age该函数可以方便地对数据集进行排序，便于后续的数据分析操作。

4. merge函数merge函数用于将两个数据集按照指定变量进行合并。

例如，假设有两个数据集分别为"dataset1"和"dataset2"，并且它们都有一个名为"ID"的变量，可以使用以下命令将两个数据集按照"ID"变量进行合并：merge dataset1 dataset2 using ID该函数可以将两个数据集中的相同"ID"值的观测合并到一起，方便进行分析和比较。

5. regress函数regress函数用于进行线性回归分析。

例如，可以使用以下命令对一个因变量"y"和两个自变量"x1"和"x2"进行线性回归分析：regress y x1 x2该函数可以得到回归系数、截距、残差等回归结果，并进行显著性检验和拟合优度分析。

数值变量资料的统计描述（论文资料）

数值变量资料的统计描述11．表示血清学滴度资料平均水平最常计算 BA算术均数 B几何均数 C中位数 D全距 E率12．某计量资料的分布性质未明，要计算集中趋势指标，宜选择 CA XB GC MD SE CV13．各观察值均加（或减）同一数后：BA均数不变，标准差改变 B均数改变，标准差不变C两者均不变 D两者均改变 E以上均不对14．某厂发生食物中毒，9名患者潜伏期分别为：16、2、6、3、30、2、lO、2、24+(小时)，问该食物中毒的平均潜伏期为多少小时？ CA 5B 5．5C 6D lOE 1215．比较12岁男孩和18岁男子身高变异程度大小，宜采用的指标是：DA全距 B标准差 C方差 D变异系数 E极差16．下列哪个公式可用于估计医学95％正常值范围 AA X±1.96SB X±1.96SXC μ±1.96SXD μ±t0.05,υSXE X±2.58S17．标准差越大的意义，下列认识中错误的是 BA观察个体之间变异越大 B观察个体之间变异越小C样本的抽样误差可能越大 D样本对总体的代表性可能越差E以上均不对18．正态分布是以 EA t值为中心的频数分布B 参数为中心的频数分布C 变量为中心的频数分布D 观察例数为中心的频数分布 E均数为中心的频数分布19．确定正常人的某项指标的正常范围时，调查对象是 BA从未患过病的人 B排除影响研究指标的疾病和因素的人C只患过轻微疾病，但不影响被研究指标的人D排除了患过某病或接触过某因素的人 E以上都不是20．均数与标准差之间的关系是 EA标准差越大，均数代表性越大 B标准差越小，均数代表性越小C均数越大，标准差越小 D均数越大，标准差越大E标准差越小，均数代表性越大11、常用平均数如下，除了：EA、均数B、几何均数C、中位数D、众数E、全距12、变异指标如下，除了：EA、全距B、标准差C、变异系数D、四分位数间距E、中位数13、某数值变量资料的分布性质未明，要计算集中趋势指标，下列适宜的指标是：CA、XB、GC、MD、SE、CV14、各观察值均加（或减）同一数后：BA、均数不变，标准差改变B、均数改变，标准差不变C、两者均不变D、两者均改变E、以上均不对15、某厂发生食物中毒，9名患者潜伏期分别为：16、2、6、3、30、2、lO、2、24+(小时)，问该食物中毒的平均潜伏期为多少小时：CA、5B、5.5C、6D、lOE、1216、比较12岁男孩和18岁男子身高变异程度大小，宜采用的指标是：DA、全距B、标准差C、方差D、变异系数E、极差17、表示血清学滴度资料平均水平最常计算: BA、算术均数B、几何均数C、中位数D、全距E、率18、标准差越大的意义，下列认识中错误的是：BA、观察个体之间变异越大B、观察个体之间变异越小C、样本的抽样误差可能越大D、样本对总体的代表性可能越差E、以上均不对19、均数与标准差适用于：AA、正态分布的资料B、偏态分布C、正偏态分布D、负偏态分布E、不对称分布20、正态分布是以：EA.t值为中心的频数分布B.参数为中心的频数分布C.变量为中心的频数分布D.观察例数为中心的频数分布E.均数为中心的频数分布1.标准正态分布曲线的特征是：BA． =0 =0 B． =0 =1 C． =1 =0D． =0 =不确定 E． =1 =不确定2.描述计量资料的主要统计指标是：AA.平均数B.相对数C.t值D.标准误E.概率3、一群7岁男孩身高标准差为5cm，体重标准差为3kg，则二者变异程度比较：DA、身高变异大于体重B、身高变异小于体重C、身高变异等于体重D、无法比较E、身高变异不等于体重4、随机抽取某市12名男孩，测得其体重均值为3.2公斤，标准差为0.5公斤，则总体均数95%可信区间的公式是：CA、3.2±t0.05.11 ×0.5B、3.2 ±t0.05.12 ×0.5/C、3.2 ±t0.05.11 ×0.5/D、3.2±1.96×0.5/E、3.2 ±2.58×0.5/5. 某组资料共5例, X2=190, X=30, 则均数和标准差分别是 DA.6 和 1.29B.6.33 和 2.5C.38 和 6.78D.6 和 1.58 E 6和2.56．以下指标中那一项可用来描述计量资料离散程度。

数值变量资料的统计描述知识介绍

描述性统计量表格
包括均值、中位数、众数、标准差、变异系数等统计量，用于描述数值变量的集中趋势和离散趋势。
图形描述
直方图
通过直方图可以直观地展示数值变量取值的分布情况，包括频数和频率。
箱线图
通过箱线图可以展示数值变量的最小值、下四分位数、中位数、上四分位数和最大值，以及异常值的情况。
文字描述
众数
总结词
众数是数据中出现次数最多的数值。
详细描述
众数是一组数据中出现次数最多的数值。在统计学中，众数用于描述数据的分布特征，特别是当数据中出现多个众数时，说明数据存在多个峰值，此时数据的分布可能是多峰的。众数在市场调研、人口统计等领域有广泛应用。
03
数值变量的离散程度描述
方差
方差是衡量数值变量离散程度的重要指标，它表示各个数值与平均数的偏差的平方的平均值。
回归分析
01
回归分析
通过建立一个或多个自变量与因变量之间的数学模型，来描述变量之间的因果关系。
Байду номын сангаас
02
回归分析的种类
03
回归分析的应用
线性回归、多项式回归、逻辑回归等。
预测、解释和调控因变量的变化趋势。
协方差分析
协方差分析
用于比较两组数值变量的总体均值是否存在显著差异，同时考虑变量的共同变异。
正态分布
总结词
正态分布是最常见的连续型概率分布，其特征是钟形曲线，对称轴为均值所在直线。
VS
详细描述
正态分布适用于许多自然现象的概率分布，如人的身高、考试分数等。其概率密度函数曲线呈钟形，对称轴为均值所在直线，即曲线关于均值所在直线对称。在正态分布中，约68%的数据落在均值的1个标准差范围内，约95%的数据落在均值的2 个标准差范围内。

数值变量资料的统计描述

第一章数值变量资料的统计描述统计描述(statistical description）即利用原始数据，选择适宜的统计指标及统计图表，简明准确地探察数据的分布类型和数量特征，以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。

统计指标（statistical index)是表示数据分布特征的一个或一组数值，是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。

因为很多参数分析方法都要求样本数据来自某种已知分布的总体，否则，就应对数据实施合适的数据转换，或者采用非参数分析方法。

对频数表及频数图进行分析是描述性统计学分析的基本内容，也是表达或探索数据分布特征的基本手段.一、频数分布1．频数分布（frequency distribution）的概念频数（frequency）是相同观察值或观察结果出现的次数；分布（distribution）指随着随机变量取值的变化，其相应的概率变化的规律性。

频数分布即观察值(变量值)按大小分组，各个组段内观察值个数（频数）的分布,它是了解数据分布形态特征与规律的基础.2．频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置.（2）离散趋势(tendency of dispersion）：指一组变量值的分散倾向。

3．频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。

又可分为正态分布（normal distribution)和非正态分布(non-normal distribution）.⑵偏态分布：是集中位置偏倚、两侧频数的分布不对称的频数分布，可分为两类：①正偏态:亦称右偏态，特点是峰偏左，此时均数与众数之差为正值，长尾向右侧（即观察值较大一端）伸延；②负偏态：亦称左偏态，特点为峰偏右，此时均数与众数之差为负值，长尾向左侧（即观察值较小一端）伸延。

数值变量资料的统计描述

频数，f 组中值，X
2
76
4
78
11
80
13
82
22
84
19
86
15
88
9
90
4
92
1
94
100
fX 152 312 880 1066 1848 1634 1320 810 368 94 8484
fX2 11552 24336 70400 87412 155232 140524 116160 72900 33856 8836 721208
190 302
S甲
5 1.58(毫米 / 小时) 5 1
乙组：n=5，X=2+4+6+8+10=30
X2= 22+42+62+82+102 =220
220 302
S乙
5 3.16(毫米/ 小时) 5 1
某地100名2岁健康男童身高标准差计算
身高组段 75~ 77~ 79~ 81~ 83~ 85~ 87~ 89~ 91~ 93~95 合计
89~
9
90
810
91~
4
92
93~95
1
94
合计
100（ ∑ f）
368 94
8484（∑fX）
X 2 76 4 78 1180 194 84.8(cm) 100
均数的应用：
适用于对称分布资料，因为这时均数位于分布的中心，最能反映分布的集中趋势。
对于正态分布资料，均数更有其重要作用。
频数分布
直方图
频数表的用途
• 揭示资料的分布特征和分布类型; 频数分布的两个重要特征：

数值变量资料的统计描述

538.06
fX2
(5)= (2)×(3) 2
20.10 37.07 114.70 198.98 346.74 521.67 401.03 313.27 227.53 148.21 106.92 57.67
2493.89
N＝∑f .
红细胞数
40
30
20
Frequency
10
Std. Dev = .45
可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
.
几何均数（geometric mean）
G n X1X2 Xn
lgG
1 n
(lg
X1
lg
X2
lg Xn)
lg X n
Glg1 lg X
n lg 表示以10为底的对数；
几何均数：变量对数值的算术均数的反对数。
lg1表示以10为底的反对数 X 0，为正值
（3）列出组段：第一组段的下限略小于最小值，最后一个组段上限必须包含最大值。
（4）划记计数：用划记法将所有数据归纳到各组段，得到各组段的频数。
.
138名成年女子的红细胞数(×1012/L)频数分布
组段
(1) 3.07～ 3.27～ 3.47～ 3.67～ 3.87～ 4.07～ 4.27～ 4.47～ 4.67～ 4.87～ 5.07～ 5.27～5.47
.
算术均数
算术均数：简称均数（mean）可用于反映一组呈对称分布的变量
值在数量上的平均水平或者说是集中位置的特征值。
.
1、计算方法
（1）直接计算法
公式： XX1X2 Xn X
n
n
举例：试计算4，4，4，6，6，8，8，8，10的均数？

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00
频数
二、频数分布图
30
25 20
15 10
5 0
56～ 59～ 62～ 65～ 68～ 71～ 74～ 77～ 80～83～85 脉搏（次/分）
图 2-1 130 名正常成年男子脉搏的频数分布
转氨酶含量
12～ 15～ 18～ 21～ 24～ 27～ 30～ 33～ 36～ 39～ 42～45
人数
2 9 14 23 19 14 11 9 7 4 3
2）左偏态分布（负偏态分布）：
左侧的组段数多于右侧的组段数，频数向左侧拖尾。
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血清肌红蛋白（μg / m L）
表2－1数据的频数分布特征： ①数据变异（离散）的范围在57~84 （次/分） ②数据集中（平均）的组段在68~73 （次/分）
之间，尤以组段的人数71~（次/分）最多。且上下组段的频数分布基本对称。
3．便于发现一些特大或特小的可疑值
组段
频数 f
(1)
(2)
2.30～
1
• 2.60～ 2.90～
频数表的编制步骤
• （1）求极差（range）：即最大值与最小值之差，又称为全距。R＝84 – 57 =27(次/分)
• （2）决定分组组数、组距：根据研究目的和样本含量n 确定分组组数，通常分为10～15个组。组距=极差/组数，为方便计，组距为极差的十分之一, 再略加调整。
27/10=2.7 ≈3
第一讲计量资料的统计描述
第一节第二节第三节第四节第五节
频数分布集中趋势的描述离散趋势的描述正态分布医学参考值范围的制定
第一节频数分布
一、频数分布表（frequency table）
例2-1 测得130名健康成年男子脉搏资料(次/分)如下，试编制频数表和观察频数分布情况。
75 76 72 69 66 72 57 68 71 72 69 72 73 82 80 82 67 69 73 64 74 58 70 64 60 77 66 77 64 67 76 75 75 71 65 62 76 72 71 60 67 75 75 73 79 66 69 79 78 70 72 70 72 78 72 67 72 80 68 70 61 70 73 72 71 81 70 66 75 71 63 77 74 76 68 65 77 69 77 75 79 64 79 73 76 61 80 64 69 70 73 69 68 65 70 69 66 81 63 64 80 74 78 76 84 66 70 73 60 76 82 73 64 65 73 73 63 80 68 76 70 79 77 64 70 66 69 73 78 76
0 0
3.20～
0
3.50～
17
3.80～
20
4.10～
17
4.40～
12
4.70～
9
5.00～
0
5.30～
0
5.60～5.90
8
合计
101
4．便于进一步做统计分析和处理
第二节集中趋势的描述
统计上使用平均数（average）这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:
算术均数（均数）（mean）几何均数（geometric mean）中位数（median）与百分位数（percentile）众数（mode）
图 2-3 101 名正常人血清肌红蛋白的频数分布
人数
表2-3 101名正常人的血清肌红蛋白含量分布
肌红蛋白含量 g/mL
0～ 5～ 10～ 15～ 20～ 25～ 30～ 35～ 40～ 45～50
人数
2 3 7 9 10 22 23 14 9 2
2．描述频数分布的特征
• （3）列出组段：第一组段的下限略小于最小值，最后一个组段上限必须包含最大值。56~ 59~ …… 80~ 83~85
• （4）划记计数：用划记法将所有数据归纳到各组段，得到各组段的频数。
表2-1 130名健康成年男子脉搏(次/分)的频数分布表
脉搏组段
(1) 56～ 59～ 62～ 65～ 68～ 71～ 74～ 77～ 80～ 83～85
（2）偏态分布：
1）右偏态分布（正偏态分布）：右侧的组段数多于左侧的组段数，频数向右侧拖尾。
25 20 15 10
5 0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶（mmol/L）
图2-2 115名正常成年女子血清转氨酶的频数分布
人数பைடு நூலகம்
表2-2 115名正常成年女子血清转氨酶（mmol/L）含量分布
一、算术均数
算术均数：简称均数（mean）可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置的特征值。
1、计算方法
（1）直接计算法公式： X X1 X 2 n
频数
是否为对称分布？
45 40 35 30 25 20 15 10
5 0
2.45 3.05 3.65 4.25 4.85 5.45 6.10
变量
频数
是否为对称分布？
50 45 40 35 30 25 20 15 10 5 0
2.45 3.05 3.65 4.25 4.85 5.45 6.10
变量
合计
频数， f 相对频数（%）
(3)
(4)= (3)/N
2
1.54
5
3.85
12
9.23
15
11.54
25
19.23
26
20.00
19
14.62
15
11.54
10
7.69
1
0.77
130 N＝∑f
累积频数
(5)=(3)↓
2 7 19 34 59 85 104 119 129 130
累积相对频数
(6)=(5)/N
三、频数表和频数分布图用途
1．描述频数分布的类型
（对称分布、偏态分布） 25
频数
20
（1）对称分布：若 15 各组段的频数以中 10
心位置左右两侧大 5
体对称，就认为该资料是对称分布
0 2.45 3.05 3.65 4.25 4.85 5.45 6.10
血清总胆固醇（mmol/L）
图 2 - 1 101 名正常成年女子血清总胆固醇的频数分布