第四讲 描述性统计

合集下载

统计学第4章数据特征的描述

统计学第4章数据特征的描述
优缺点
极差计算简单,但容易受到极端值的影响,不能全面 反映数据的离散程度。
四分位差
定义
四分位差是第三四分位数与第 一四分位数之差,用于反映中
间50%数据的离散程度。
计算方法
四分位差 = 第三四分位数 第一四分位数
优缺点
四分位差能够避免极端值的影 响,更稳健地反映数据的离散
程度,但计算相对复杂。
方差与标准差
统计学第4章数据特征 的描述
https://
REPORTING
• 数据特征描述概述 • 集中趋势的度量 • 离散程度的度量 • 偏态与峰态的度量 • 数据特征描述在统计分析中的应用 • 数据特征描述的注意事项
目录
PART 01
数据特征描述概述
REPORTING
WENKU DESIGN
数据特征描述在推断性统计中的应用
参数估计 假设检验 方差分析 相关与回归分析
基于样本数据特征,对总体参数进行估计,如点估计和区间估 计。
通过比较样本数据与理论分布或两组样本数据之间的差异,对 总体分布或总体参数进行假设检验。
研究不同因素对总体变异的影响程度,通过比较不同组间的差 异,分析因素对总体变异的贡献。
定义
方差是每个数据与全体数据平均数之方根,用于衡量数据的波动大小。
计算方法
方差 = Σ(xi - x̄)² / n,标准差 = √方差
优缺点
方差和标准差能够全面反映数据的离散程度,且计算相对简单,但容易受到极端值的影响。同时,方差 和标准差都是基于均值的度量,对于非对称分布的数据可能不够准确。
适用范围
适用于数值型数据,且数据之间可能 存在极端异常值的情况。
特点
中位数不受极端值影响,对于存在极 端异常值的数据集,中位数能够更好 地反映数据的集中趋势。

第四讲.SPSS之数据描述

第四讲.SPSS之数据描述
第四讲:SPSS之数据描述
同济大学社会学系 2011年
本讲内容
各种变量的描述及在SPSS中的实现 SPSS统计图表 多分类变量的统计描述 对变量分布的检验 列联表交叉分析
各种变量的描述及在SPSS中的实现
集中趋势
在一组统计数据中,往往用其中一个数值来 代表本组数据的平均状况。
不同类型变量的集中趋势数值表示方法不同。 定类变量一般用众值(mode)来表示它的 集中趋势,定序变量用中位值(median), 定距变量和定比变量用平均值来表示 (mean)。
% within 受访者性别
116.0 2.0%
1077.0 18.3%

2030 2261.2 71.6%
2671 2439.8 87.3%
4701 4701.0 79.8%
T otal 2835
2835.0 100.0%
3059 3059.0 100.0%
5894 5894.0 100.0%
卡方检验结果
多分类变量即是问卷中的多选题。根据固定选或不 定选的差异,在定义多分类变量时方法稍有差异。
在固定选的多分类变量定义中,主要是累计所有可 能的取值,累积的范围是该变量的所有编码。
在不定选的多分类变量定义中,主要是累计被访者 选中的变量(编码是1的部分)。
新定义的多分类变量,不能保存,关闭数据库之后 会丢失相关信息。下次分析时需重新定义。
小结
描述性分析主要是对单维数据进行的初步统 计分析,方便研究者对数据收集的质量做总 体的了解和判断,为未来分析做准备。
列联交叉分析涉及二维或以上变量之间的相 关分析,具有一定的解释功能,具有一定的 推论性。
练习
根据自己的分析目的和要求,输出各个变量 的频次分析结果;

第四讲分类变量的统计描述率的标准误

第四讲分类变量的统计描述率的标准误

累积频数:各类别的累积 数量
标准误的概念
标准误的定义
标准误是描述样本统计量分布的离散程度的一个指标。 它用于衡量样本均值与总体均值之间的差异程度。 标准误越小,样本均值与总体均值之间的差异越小,反之则越大。 标准误的计算公式为:标准误 = 总体标准差 / 样本量的平方根。
标准误的计算方法
定义:标准误是 衡量样本统计量 与总体参数之间 差异的指标
标准误的实例分析
实例数据介绍
数据来源:某大型超市的销售数据 数据规模:包含数百万条销售记录 数据特征:包括商品名称、销售数量、价格等字段 数据分析方法:使用分类变量的统计描述率计算标准误
计算标准误
定义:标准误是 描述样本统计量 变异程度的指标, 反映样本统计量 与总体参数之间
的差距。
计算公式:标准 误 = 标准差 / 样本量的平方根。
众数:出现次数最 多的数值
变异系数:衡量数 据离散程度的相对 指标,计算公式为 标准差/平均数
率的抽样分布
分类变量率的标准误
标准误的计算方法
定义:标准误是衡 量样本统计量与总 体参数之间差异的 指标
计算公式:标准误 = 标准差 / 样本量 的平方根
作用:用于估计总 体参数的精度和可 靠性
与标准差的区别: 标准差衡量数据本 身的离散程度,而 标准误衡量样本统 计量与总体参数的 接近程度
YOUR LOGO
分类变量的统计 描述率的标准误
,a click to unlimited possibilities
汇报人:
汇报时间:20X-XX-XX
添加目录标题
分类变量率的统 计描述
分类变量的统计 描述
分类变量率的标 准误
标准误的概念

社会实践中的统计数据分析方法

社会实践中的统计数据分析方法

社会实践中的统计数据分析方法统计学作为一门科学,广泛应用于社会实践中的各个领域。

它通过收集、整理和分析数据,帮助我们了解现象背后的规律,并为决策提供依据。

在本文中,我们将探讨社会实践中的统计数据分析方法。

一、数据收集与整理在进行统计数据分析之前,首先需要进行数据的收集与整理。

数据的收集可以通过问卷调查、实地观察、实验研究等方式进行。

在选择数据收集方法时,需要根据研究目的和数据的可行性进行合理选择。

而数据的整理则是将收集到的数据进行分类、筛选、清洗和归档,以便后续的分析工作。

二、描述性统计分析描述性统计分析是对数据进行总结和描述的方法。

它通过计算数据的中心趋势(如均值、中位数、众数)、离散程度(如标准差、极差)和数据的分布情况(如频数分布、百分位数)等指标,来描述数据的特征。

描述性统计分析可以帮助我们了解数据的基本情况,为后续的推断性统计分析提供参考。

三、推断性统计分析推断性统计分析是基于样本数据对总体进行推断的方法。

它通过对样本数据进行抽样分析,得出关于总体的概率推断。

常见的推断性统计分析方法包括假设检验和置信区间估计。

假设检验通过对样本数据进行假设检验,判断总体参数是否符合某种假设;置信区间估计则是通过对样本数据进行分析,给出总体参数的一个区间估计,以反映估计结果的不确定性。

四、相关性分析相关性分析是研究两个或多个变量之间关系的方法。

它通过计算相关系数来衡量变量之间的相关程度。

常见的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。

相关性分析可以帮助我们了解变量之间的相关性质,从而为决策提供依据。

五、回归分析回归分析是研究因果关系的方法。

它通过建立统计模型,分析自变量对因变量的影响程度。

回归分析可以帮助我们预测和解释变量之间的关系,并从中找出影响因素。

常见的回归分析方法包括线性回归、逻辑回归和多元回归等。

六、时间序列分析时间序列分析是研究时间上变化的方法。

它通过对时间序列数据进行建模和分析,揭示数据随时间变化的规律。

spss软件应用——第四讲

spss软件应用——第四讲
频数分析
计算各种常用的描述指标 特色是产生频数表 对分类资料和定量资料都适用
描述分析
一般性的统计描述 适用于服从正态分布的定量资料
27
统计描述的模块
探索分析
用于对数据分布状况不清时的探索性分析 功能极为强大
交叉表
完成分类资料和等级资料的统计描述 完成分类资料各种各样“常规”的统计检验
比率
用于两个连续变量计算相对比指标,很少用
针对某种分布进行进一步的特征描述,主要是用于正 态分布 偏度系数Skewness 正态峰 正偏态 负偏态 峰度系数Kurtosis 正态峰 平阔峰 尖峭峰
离群值与极端值列表
34
频率分析
统计量
输出的百分位数
描述集中趋势 描述离散趋势 描述分布特征
四分位数(Quartiles)、每隔指定百分位输出当前百分位数 (Cut points for equal groups)、或直接指定某个百分位数 (Percentiles)
4
统计图的分类
统计图的分类方法有许多种,但和统计学体系 最为贴近的分类方法是首先按照其呈现变量的 数量,从而可以将统计图大致分为单变量图、 双变量图、多变量图等,随后再根据相应变量 的测量尺度进行更细的区分。
5
单变量图
分类变量
50
Educational Level
2.32% 17 12.45% 16 11.18% 8
Frequency Valid American European Japanese Total Missing Total System 253 73 79 405 1 406 Percent 62.3 18.0 19.5 99.8 .2 100.0 Valid Percent 62.5 18.0 19.5 100.0 Cumulative Percent 62.5 80.5 100.0

第四讲-比较均值

第四讲-比较均值


同一受试对象处理前后的数据,例如服用某种药物 前和服用之后的血压变化; 同一受试对象两个部位的数据, 同一样本用两种方法测量的数据; 配对的两个受试对象分别接受两种处理后的数据。
两配对样本T检验的前提条件


两样本应是配对的。即受试对象的年龄、性别、 体重等非处理因素都相同或相似; 两个样本所来自的总体应服从正态分布(大样 本情况下,T检验较为稳健)
两类错误


“小概率事件在一次试验中几乎不会发生” ,但是小 概率事件并非是不可能发生,只是其发生的概率很小, 并不能完全排斥其发生的可能性。 因而假设检验有可能犯两类错误:


第一类错误:原假设正确,而错误地拒绝了它,即“拒真” 的错误,其发生的概率为犯第一类错误的概率。 第二类错误:原假设不正确,而错误地没有拒绝它,即“受 伪”错误,其发生的概率为犯第二类错误的概率。

在“层1的1”框中,yrsscale; 单击【下一张】,把position变量选入“层2的2”框 中。
两因素的均值分析报告
Anova和Eta

由于均值过程只对第一层的自变量进行方差分 析和线性相关检验,因此两个因素或者两个以 上因素的均值分析过程的方差分析结果和单因 素一样。不同的是描述性统计量,多因素的描 述性统计量是对于各个交叉组别进行统计。
单样本T检验

选择【分析】→【比较均值】→【单样本T检 验】
单样本T检验结果
机器号 t 1 刹车片直径(mm) -.533 2 刹车片直径(mm) 5.336 3 刹车片直径(mm) -.655 4 刹车片直径(mm) -2.613 5 刹车片直径(mm) 1.847 6 刹车片直径(mm) 1.134 7 刹车片直径(mm) 2.650 8 刹车片直径(mm) -1.713 15 15 15 15 15 15 15 15 df Sig.(双侧) .602 .000 .522 .020 .085 .274 .018 .107 均值差值 -.0014858 .0142629 -.0017174 -.0045649 .0042486 .0024516 .0061813 -.0033014 差分的 95%置信区间 下限 -.007413 .008566 -.007302 -.008289 -.000655 -.002154 .001210 -.007409 上限 .004459 .019960 .003868 -.000841 .009152 .007058 .011153 .000806

计数资料的基本统计分析方法

计数资料的基本统计分析方法

某药物治疗效果
药名
甲药 乙药 丙药 合计
治疗人数
150 200 300 650
治愈人数
120 150 180 450
治愈率(%) 80.00 75.00 60.00 69.23
2021/3/3 第三军医大学卫生统计学教研室 Department of Health Statistics ,TMMU 3
计数资料的统计描述 Statistical Description
2021/3/3 第三军医大学卫生统计学教研室 Department of Health Statistics ,TMMU 4
一. 相对数指标的意义
绝对数指标(absolute number):是统计分组汇总后小计或总 计的绝对数,用以反映事物在一定条件下的规模和水平。
检查时发现的某病现患病例数
某病患病率=
病率= 该时期新发生的某病病例数
×比例基数
一定时期内可能发生某病的平均人口数
例如:甲型H1N1
2021/3/3 第三军医大学卫生统计学教研室 Department of Health Statistics ,TMMU 8
某病治愈率= 治愈某病病人数 ×比例基数 该病受治病人数
率(强度相对数或频率):它是一定时期或一定范围内某现象
的实际发生二数与. 可几能种发生常该用现的象的相总对数之数比,反映某一现
象发生的频率或强度。
率=可某能现发象生的该实现际象发的 生 比总数 例数基数
率常以百分率(%)、千分率(‰)、万分率(1/万)、 十万分率(1/10万)等比例基数表示。
2021/3/3 第三军医大学卫生统计学教研室 Department of Health Statistics ,TMMU 7

第四讲:统计图的典型例题

第四讲:统计图的典型例题

【例1】2009年中央卷在2008年8月8日致24日奥运会器件,北京市的空气质量不仅天天达标,而且有10天达到一级,全面兑现了对奥运会空气质量的承诺。

下图是2008年1-8月北京市大气质量检测情况,图中一、二、三、四级是空气质量等级,一级空气质量最好,一级和二级都是质量达标天气。

2008年北京市的空气质量控制目标是全年达标天数累计达256天。

2008年1-8月北京市天气质量检测情况121、1-8月空气合格天数超过20天的月份有多少个()A.4B.5C.6D.7【苏索朱建国解析】122、1-8月间,月平均空气质量合格天数约为多少天()A.22B.24C.26D.28【苏索朱建国解析】123、若将空气质量达标任务平均分配到各月,截至8月末,全年256天空气质量达标的计划完成情况是()A.完成进度较慢B.完成进度正常C.完成进度提前D.无法判断【苏索朱建国解析】124、第二季度与第一季度相比,空气达标天数的比重()A.上升了3.3%B.下降了3.3%C.上升了12%D.下降了12%【苏索朱建国解析】125、下列关于2008年1-8月间北京空气质量的描述,不正确的是()A.3-5月的空气质量较差B.各月份空气质量相差不大C.8月是空气质量最好的一个月D.有一个月的空气质量达标天数少于15天【苏索朱建国解析】【例2】2008年江苏B卷2006年全国各省(区、市)地下水水质变化趋势151.由上图可看出,2006年水质没有变化的省(区、市)有A.2个B.5个C.4个D.6个【苏索朱建国解析】152.上图中,2006年水质恶化的监测点多于水质好转的监测点的省(区、市)有A.18个B.19个C.12个D.15个【苏索朱建国解析】153.下列省(区、市)中水质恶化率与好转率之比约为30%的是A.山西B.广东C.云南D.重庆【苏索朱建国解析】154.下列说法中正确的是A.2006年各直辖市的水质均保持良好B.2006年水质恶化率最高的省(区、市),其水质好转率相应最低C.总体上2006年全国水质全面好转趋势明显D.以上说法都不对【苏索朱建国解析155.2006年水质好转率高于30% 的省(区、市)份数与水质恶化率低于30%的省(区、市)份数之比为A.4∶11 B.2∶13 C.4∶9 D.2∶5【苏索朱建国解析】【例3】2007年中央1998年世界啤酒消费量 2004年世界啤酒消费量单位:十亿升136.从1998 年到2004 年,美洲地区啤酒销售量占世界啤酒消费总量的比重:A.下降了3 个百分点心.B.下降量2个百分点C.下降了1 个百分点D.上升了l 个百分点【苏索朱建国解析】137.1998 年至2004 年啤酒消费量增长最快的两个地区,其啤酒销售量2004 年占世界啤酒消费量的比重约是:A.20.8%B.35.0 %C. 42.0 % D . 62.4 %【苏索朱建国解析】138.与亚洲相比,整个欧洲的啤酒消费量:A.绝对量多于亚洲,2004年相对于1998 年的增长快于亚洲B.绝对量多于亚洲,2004年相对于1998 年的增长慢于亚洲C.绝对量少于亚洲,2004年相对于1998 年的增长快于亚洲D.绝对量少于亚洲,2004年相对于1998 年的增长慢于亚洲【苏索朱建国解析】139.关于啤酒销售量,下列说法错误的是A.六年来世界啤酒消费总量的增长超过了10%B.北美洲和西欧啤酒销售量的差距在六年间缩小了C.亚洲的啤酒消费量始终占到了世界啤酒消费量的四分之一D.无论是啤酒消费绝对量还是占世界啤酒消费总量的比重,北美都有所增长。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 但极差也通常被视为对变异性的一个非常 笼统的测量量。
12
变异性量数一:极差(range)
• 极差是对变异性的最笼统的测量。极差是 通过数据分布中的最大值减去最小值而得 到的。 • 比如,一组数据为: 98,86,77,56,48 那么,98-48=50。极差就是50。
13
变异性量数二: 标准差(standard deviation)
1、均值就像跷跷板上的支点。均值就是中心点,也 就是,均值的一边的所有数值等于均值另一边的所 有数值; 2、尤其需要注意的是,均值对极值很敏感。极值会 使均值向一方或另一方倾斜,也使得均值对数据组 的代表性减弱,同时作为集中趋势量数的有效性减 弱。
6
集中趋势量数二:中位数(median)
• 中位数也是描述一组数据集中程度的统计 量数。中位数被定义为一系列数据的中点。 在这一数据点左边和右边,各有50%的数据。
• 如果你的数据集中有一个或多个均值,中位数相 对其他集中趋势量数来说能更好地代表数据集的 中心值。甚至,比均值更好。 • 就是由于此原因,特定的社会和经济指标(大多 数与收入相关)的分析,经常会使用中位数作为 集中趋势量数组,例如“美国家庭平均收入的中 位数是……,”而不是使用均值来概括收入。总 是存在太多的极值改变或者明显地扭曲一个数据 组或者数据分布的中心点。
2
17
• 前面的例子中的标准差是1.76,那么1.762就 是3.11。所以,方差就是3.11。
• 一般来说,在描述性统计中,很少会提到 方差,而经常被提到的是标准差。为什么 呢?因为,标准差与原数据的单位是一样 的,而方差的单位是以平方形式存在的。
18
偏度(skewnesቤተ መጻሕፍቲ ባይዱ)与峰度(kurtosis)
26
不同学校类型“学生对学校基础设 施满意度”的茎叶图比较
27
正态性检验与Q-Q图
公立中学和私立中学的“学生对学校基础设施的满意度” 都没有通过正态性检验,但私立中学在“Kolmogorov”检 验上却通过了。尽管定量研究中一般要求变量需要满足正 态分布,但大部分的变量的分布情况却无法达到正态性, 所以这一要求不是非常严格,只要基本满足正态分布就可 以了。
3
频数(frequency)
• 频数是指同一个观测值在一组数据中出现 的次数。
4
集中趋势量数一:均值(mean)
• 均值是最常见的集中趋势量数的统计形式。
X X n
X X n 78 83 93 84 .7 3
5
• 均值只是表示一组数据集中趋势的一个统计 量,还有其他形式的统计量可供使用。 • 还需要注意的两点:
• 偏度是对数据分布对称性缺失或者分布不均衡的测量; • 峰度是对数据集中或分散程度的测量。
19
利用SPSS来进行描述性统计
• SPSS软件中的Analyze下的Descriptive Statistics→Frequency命令提供了比较完整的描述性统计 的指令,并能得出较全面的统计信息。 • 打开数据文件4-01,这是一个“中学生学校生活质量满 意度调查”的统计数据文件。现在的问题是: • 1.对于“对学校基础设施的满意度”这个变量(实际上 是一个调查维度,根据变量8、9、10、11、12、13、 14、15求出),进行描述性统计(要求算出频数、平 均数、中位数、众数、极差、标准差、方差),同时, 对这个变量做出一个直方图(带有正态分布曲线)。 • 2. 分别就公立中学的学生以及私立中学的学生,在 “对学校基础设施的满意度”这个变量上进行描述性 统计,能否在统计的基础上,给出自己的一些分析呢?
23
箱图(boxplot)
24
公立、私立学校的学生“对学校基 础设施满意度”的箱图比较
• 由此可见,一是私立中学的满意度普遍较高;二是私立中学的满意度 比较集中,离散程度不大。 25
茎叶图(stem-and-leaf plot)
• 茎叶图的排列方式和频数表非常相似,不 过改成了整数位合在一起,称为茎;将小 数位单独列出,称为叶; • 茎叶图可以非常直观地看出数据的分布范 围及形态,在国外非常流行。
5个美国家庭的收入数据 135 456美元 25 500美元 32 456美元 54 365美元 37 668美元 5 个美国家庭的收入数据(排序后) 135 456美元 54 365美元 37 668美元 32 456美元 25 500美元
很明显,中位数为37668美元,均值为57089美元。
7
• 中位数对极值不敏感而均值却对极值非常敏感;
10
• 从更精确地视角说,变异性(也叫离散度) 可被看作是对不同数值之间的差异性的测 量。 • 如果把变异性看作是每个数值和一个特定 值的差异程度可能更精确(而且也许更容 易)。那么,你认为哪一个“数值”可能 被作为那个“特定值”呢?
11
• 通常情况下这个“特定值”就是均值,也 就是说,变异性成为测量数据组中每一个 数值与均值的差异性的量数。 • 由此,就引出了两个最为重要的变异性量 数——标准差和方差。
20
问题二的解答
公立中学的描述性统计
私立中学的描述性统计
21
公立中学的直方图
偏度Skewness=0.137 峰度Kurtosis=1.762
私立中学的直方图
偏度Skewness=0.138 峰度Kurtosis=2.286
22
其他一些更高级的描述性统计
• • • • 箱图(boxplot); 茎叶图(stem-and-leaf plot); Q-Q正态概率图与去势Q-Q正态概率图; 正态性检验(nomality test);
8
集中趋势量数三:众数(mode)
• 众数也是表达一组数据集中趋势的统计量 数,它是指在一组数据中出现次数最多的 数值。
专业 次数或频次
心理学 教育学 化学 英语
9 6 2 2
众数是出现次数最多的数值,在这个例子中就是心理学。很多人容易犯的错 误就是,选择9为众数。
9
变异性量数(measures of variability)
第四讲 描述性统计
1
描述性统计的概念
• 所谓描述性统计(descriptive statistics),就 是对所收集的数据的整理、描述、汇总和 解释。 • 通常,与描述性统计相对应的概念是推断 性统计(inferential statistics)。
2
描述性统计的几个关键统计量
• 频数(frequency); • 集中趋势量数(measures of central tendency); 1、均值(mean); 2、中位数(median); 3、众数(mode); • 变异性量数(measures of variability); 1、极差(range); 2、标准差(standard deviation); 3、方差(variance);
28
公立、私立中学的Q-Q图比较
图中的直线为正态分布的标准线,如果数据呈正态分布,则图中的数据 点应和理论直线基本重合。显然,私立中学的数据点正态分布的拟合性 更好,私立中学的分布更趋向正态分布。
29
公立、私立中学的去势Q-Q图比较
去势Q-Q图可以更加仔细地表达出正态性情况。该图反映的是按正态分布计算 的理论值和实际值之差的分布情况。如果数据服从正态分布,则数据点应较为 均匀地分布在Y=0这条直线上下。通过对比可知,私立中学更接近正态分布。
• 变异性反映了一组数据的数值之间的不同。 • 我门先看下三两组数据,来体会一下什么 是变异性。 组一: 7, 6, 3, 3, 1 组二: 3, 4, 4, 5, 4 组三: 4, 4, 4, 4, 4
三组数据的平均值都是4,但我们可以直观地感受到,第 一组数据的变异程度最大,第二组的变异性稍小,第三组 数据的数值之间没有差异。
s
(X X )
n 1
2
15
从一个例子看标准差的计算
共有10个值,所以样本规模为10-1=9。用28除以9,则 28/9=3.11。 计算3.11的平方根,结果是1.76。这就是这10个数值的标准 16 差(sd)。
变异性量数三:方差
• 方差其实是标准差的平方,用公式表示就 是:
s
2
(X X ) n 1
30
如何通过SPSS操作?
• 点击SPSS软件中的Analyze下的Descriptive Statistics→Explore命令。
31
• 在Plots按钮下,要注意点击Normality plots with tests复选框。
32
小结
• 康德有一句名言:“实在并不顺应于我们 认知的力量”。(Reality is not adapted to our power of cognition) • 人们创造各种各样的工具去认识这个外部 的世界,去了解外部的真实;描述性统计 就是我们认识世界、顺应真实的工具,我 们使用各种各样的工具,无论它们是文字 的、数量的、图形的。
33
• 最经常使用的变异性量数就是标准差。实际 上,标准差表示一个数据组中变异性的平均 数量。实际的含义是与均值的平均距离。标 准差越大,每一个数据点与均值的平均距离 越大。
• 计算标准差的基本逻辑是,先计算均值,然 后把每个数据都减去均值(得到距离),最 后再计算这些距离的平均数。
14
• 这个逻辑是正确的,的确会得到每一个数 值与均值的平均距离。但这在实际中是行 不通的(用下面的例子来说明),因此需 要用另一种方法来计算这个“平均距离”。 具体的计算公式如下:
相关文档
最新文档