应用统计学考点
应用统计学期末复习重点

应用统计学期末复习重点(按题型整理)一、填空题(10分)1.统计学的三种含义:统计工作;统计数据或统计信息;统计学2.统计学的研究对象是群体现象3.根据统计方法的构成不同,可将统计学分为描述统计学和推断统计学,根据统计方法研究和应用的侧重不同,可将统计学分为理论统计学和应用统计学.4.统计研究的基本方法:大量观察法,实验设计法,统计描述法和统计推断法5.标志是说明总体单位特征的,而指标是说明总体特征的,6.标志按其性质不同分为数量标志和品质标志两种。
按其变异情况可以分为不变标志和可变标志,可变标志称为变量。
7.统计总体具有三个基本特征,即同质性、大量性和变异性.8.统计指标按其作用可分为总量指标、相对指标、平均指标,按所反映总体的内容不同,可以分为数量指标和质量指标.9.总量指标指在一定时间、地点条件下说明现象总体的规模和水平的指标,其表现形式为绝对数。
10.总量指标按其反映时间状况不同,可以分为时点指标和时期指标,按指标数值采用的计量单位不同可以分为实物指标,价值指标,劳动量指标。
总量指标按其说明总体内容不同,可分为总体标志总量和总体单位总量11.平均指标说明分配数列中各变量值分布的集中趋势,变异指标说明各变量值分布的离中趋势12.计量尺度的类型有定类尺度,定序尺度,定距尺度,定比尺度,根据四种计量尺度计量结果,可将统计数据分为三种类型:名义级数据,顺序级数据,刻度级数据。
13.对名义级数据通常是计算众数,对顺序级数据,通常可以计算众数、中位数;对刻度级数据,同样可以计算众数和中位数,还可以计算平均数.14.全面调查方式有统计报表制度,普查;非全面调查有重点调查、典型调查、抽样调查。
15.常用的抽样调查组织形式有简单随机抽样,类型随机抽样,机械随机抽样,整群随机抽样,阶段随机抽样.16.统计分组的关键在于正确选择分组标志和合理划分各组界限17.按分组标志的多少,统计分组可以分为简单分组和复合分组;按分组标志性质不同,统计分组可以分为品质分组和数量分组;按分组作用和任务不同,有类型分组、结构分组和分析分组。
应用统计 知识点总结

应用统计知识点总结一、概率论与数理统计概率论和数理统计是应用统计的基础,它们是应用统计的数学基础。
概率论是研究随机现象的数学理论,数理统计是研究利用样本数据对总体进行推断的数学理论。
其中,概率论涉及概率空间、随机变量及其分布、数学期望和方差、协方差等概念;数理统计涉及总体分布的估计和检验、假设检验、参数估计、方差分析等内容。
掌握概率论与数理统计对于应用统计工作至关重要。
二、随机变量及其分布随机变量是应用统计中十分重要的概念,它是指在一次试验中可能取到的不同数值,而这些数值是不确定的。
在应用统计中,我们面对的往往是随机现象,因此需要将这些随机现象进行抽象,用随机变量来描述。
随机变量按照其取值的规律分布,可分为离散型随机变量和连续型随机变量。
离散型随机变量的分布包括伯努利分布、二项分布、泊松分布等;连续型随机变量的分布包括正态分布、指数分布、均匀分布等。
对于不同类型的随机变量及其分布,我们需要掌握其概率密度函数、概率质量函数、期望和方差等概念,以便在实际工作中灵活运用。
三、统计推断统计推断是应用统计中的重要方法,它是指根据样本数据对总体进行估计和检验的一种方法。
统计推断包括点估计和区间估计两个方面。
点估计是指利用样本数据对总体参数进行估计,常用的点估计方法包括最大似然估计、矩估计等。
区间估计是指用样本数据对总体参数形成一个区间,以便对总体参数进行估计,常用的区间估计方法包括置信区间估计等。
另外,假设检验也是统计推断的一部分,它是指在总体分布的某些参数值已知的情况下,利用样本数据对总体参数进行检验的一种方法。
假设检验包括原假设和备择假设,以及显著性水平、拒绝域等概念。
掌握统计推断方法对应用统计工作至关重要,它可以帮助我们进行风险评估、质量检验、医疗诊断、市场调研等工作。
四、回归分析回归分析是应用统计中的一种重要方法,它是指用来研究两个或两个以上变量之间相互依赖关系的一种方法。
常用的回归分析方法包括线性回归分析、非线性回归分析、多元回归分析等。
应用统计学必备知识点总结

应用统计学必备知识点总结1. 总体与样本在统计学中,总体是指研究者希望得到信息的全部对象的集合,而样本是从总体中抽取出来的一部分对象的集合。
在应用统计学中,我们需要了解如何进行总体和样本的描述以及如何通过样本推断总体的特征。
了解这些知识点可以帮助我们更好地设计调查问卷、确定样本量以及进行统计推断。
2. 数据的收集与整理数据的收集是应用统计学中非常重要的一步。
在数据收集过程中,我们需要关注如何设计合理的调查问卷、如何进行实地观察以及如何获取可靠的次生数据。
同时,对于已经收集到的数据,我们还需要了解如何进行数据清洗、数据转换、变量选择等工作,以确保数据的质量。
3. 描述统计描述统计是应用统计学中最为基础的方法之一。
它涉及到对数据的基本特征进行汇总和展示,包括中心趋势、离散程度等。
在描述统计中,我们需要了解如何计算各种统计指标(均值、中位数、众数、标准差等)、如何绘制各种统计图表(直方图、饼图、箱线图等)以及如何进行数据的描述性解释和比较。
4. 概率与概率分布概率是统计学中的核心概念,而概率分布则是对随机变量在各个取值上的概率进行描述的方法。
在应用统计学中,我们需要了解如何计算概率、如何根据样本估计总体的概率、以及如何利用概率分布进行统计推断和模型拟合。
5. 统计推断统计推断是应用统计学中的另一个重要内容。
它涉及到如何通过样本对总体特征进行推断。
在统计推断中,我们需要了解参数估计的方法(最大似然估计、贝叶斯估计等)、假设检验的原理和方法以及置信区间的构建和解释。
6. 相关分析与回归分析相关分析和回归分析是应用统计学中常用的数据分析方法。
相关分析主要用于研究变量之间的关系,而回归分析则用于探究自变量与因变量之间的关系。
在相关分析和回归分析中,我们需要了解如何计算相关系数、如何进行相关性检验、以及如何建立回归模型和进行回归诊断。
7. 多元统计分析在实际问题中,往往会有多个变量同时影响一个结果变量。
多元统计分析则是用于解决这种情况的一种分析方法。
应用统计学重点知识(word)

应用统计学重点内容1.时点指标和时期指标的区别。
时期指标反映现象在某一时期内发展过程的总数量;时点指标反映现象在某一时刻(瞬间)上状况的总量。
时期指标和时点指标各有不同的特点:(1)时期指标的数值时连续计数的,它的每个数值是表示现象在某一点时期内发生的总量;而时点指标的数值是间断计数的,它的每个数值是表示现象发展到某一时点上所处的水平。
(2)时期指标具有累加性,即各个时期值相加可以说明现象在较长时期内发生的总量;而时点指标不具有累加性;(3)时期指标的大小受时期的长短的制约;而时点指标数值的大小与时点间的间隔长短无直接的关系。
2.什么叫统计分组?统计分组有哪些分类?(1)统计分组是指根据事物内在的特点和统计研究的需要,将统计总体按照一定的标志区分为若干组成部分的一种统计方法。
其目的是把同质总体中的具有不同性质的单位分开,把性质相同的单位合在一起,保持各组内统计资料的一致性和组间资料的差异性,以便进一步运用各种统计方法研究现象的数量表现和数量关系,从而正确地认识事物的本质及其规律。
(2)①简单分组,又称为单一分组,就是对被研究现象总体只按照一个标志进行的分组;②复合分组,就是对同一总体选择两个或两个以上标志层叠起来进行的分组;③分组体系,采用一系列相互联系,相互补充的标志对现象进行分组,这些分组结合起来构成一个体系,在统计学上叫做分组体系。
4.单项式分组和组距式分组分别在什么情况下应用?变量数值不多,变动范围不大,即总体单位的不同标志值较少,这时可做成单项式分组;变量数值较多,变动范围较大,即总体单位的不同标志值较多,则应该作组距式分组。
5.什么是同度量因素,在编制指数时如何确定同度量因素的所属时间。
(1)同度量因素是使若干由于度量单位不同不能直接相加的指标,过渡到可以加总和比较而使用的媒介因素。
(2)确定同度量因素的一般原则是:质量指标指数应当以报告期的数量指标作为同度量因素,即使用派氏公式,而数量指标指数则应以基期的质量指标作为同度量因素,即使用拉氏公式。
考研应用统计学知识点精讲

考研应用统计学知识点精讲统计学是一门研究数据收集、分析和解释的科学,广泛应用于各个领域,如经济学、生物学、医学和社会科学等。
在考研中,应用统计学是一个重要的科目,掌握其知识点对于考生来说至关重要。
本文将重点讲解考研应用统计学的知识点,帮助考生更好地准备考试。
一、概率论与数理统计概率论与数理统计是应用统计学的基础,它们主要研究随机事件的规律性及其数学描述。
在考研中,概率论与数理统计占据了很大的比重,考生需要掌握以下知识点:1.概率论的基本概念概率论研究随机事件发生的可能性,并给出相应的数学描述。
考生需要了解概率的定义、基本性质、加法定理、乘法定理等。
2.随机变量及其分布随机变量是概率试验结果的数值描述,它可以是离散的或连续的。
在考研中,考生需要熟悉常见的离散分布(如二项分布、泊松分布)和连续分布(如正态分布、指数分布)的定义、性质和应用。
3.数理统计的基本概念数理统计是利用样本信息对总体特征进行推断的一门学科。
考生需要了解总体、样本、统计量、抽样分布等基本概念,并掌握重要统计量的抽样分布(如样本均值的正态分布、样本比例的二项分布)。
二、统计推断统计推断是指根据样本数据对总体特征进行估计和推断的方法。
在考研中,统计推断是应用统计学的重要内容,考生需要掌握以下知识点:1.点估计点估计是利用样本数据对总体参数进行估计的方法。
考生需要了解点估计的基本原理,以及常用的点估计方法(如最大似然估计、矩估计)和估计量的性质(如无偏性、有效性)。
2.区间估计区间估计是指对总体参数给出一个区间范围,以一定的置信水平保证这一区间包含真值的概率。
考生需要了解区间估计的原理,以及如何构造置信区间(如正态总体均值的置信区间、两样本均值差的置信区间)。
3.假设检验假设检验是对总体参数提出某种假设并根据样本数据进行检验的方法。
考生需要了解假设检验的基本步骤、拒绝域的确定和错误类型的概念,以及常用的假设检验方法(如正态总体均值的检验、两样本均值差的检验)。
应用统计知识点总结-第一章统计与统计数据收集

2.茎叶图:
2.3
当数据量很大时,排序和茎叶图都很难得出结论。此时需要使用图表。有多种不同类型的图表可以用来精确描述数值数据,包括频数分布表、折线图、面积图、柱形图、条形图、直方图、频数多边形、圆饼图、散点图、时间序列、曲线图以及对数图等等。
4.测量误差:测量误差是指由于样本数据测量程序的设计和应用不当所引起的误差。
1.3.6
优势:及时性和共享性 ,便捷性和低成本 ,可靠性和客观性 ,更好的接触性 ,穿越时空性 。
1.4
问卷是一种特殊形式的调查表。其特点是表中用一系列按照严密逻辑结构组成的问题,向被调查者调查具体事实和个人对某问题的反映、看法,它不要求被调查者填写姓名。问卷设计一般要遵循以下原则。
3组限:组限也即各组区间的上、下限。确定各组区间的上限和下限时,应保证各组之间既不重叠,又不能遗漏任一数据,使每一个数据都属于某一确定的分组。
重叠和组限不重叠组限
重叠组限——相邻组的上下限重合。
适用于连续型变量。但各组上、下限中有一个不包含再内。通常按“上限不在内”处理,即组区间是 [a, b)的形式。
例:第七次全国人口普查
1.3.3
在总体中选择部分重点单位进行调查,以了解总体基本情况的一种非全面调查。
重点调查的特点:
(1) 重点调查适用于调查对象的标志值比较集中于某些单位的场合,这些单位的管理比较健全,统计力量比较充实,能够及时取得准确资料。
(2) 重点调查的目的在于了解总体现象某些方面的基本情况,而不要求全面准确地推算总体数字。
应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。
应用统计学复习重点

应用统计学定义:统计学是研究数据收集、整理、显示与分析方法(或公式)的科学。
目的是探索数据内在数量规律性,以达到对客观事物总体的科学认识。
1、参数(parameter):指用于说明总体的指标。
均值—μ, 标准差—σ,方差—σ2,率—P2、统计量(statistics):指用于说明样本的指标。
均值—。
标准差— s。
方差— s2 ,率—p数据的计量尺度1列名尺度nominal scale(1)定义:按事物的某种属性对事物进行平行分类或分组。
划分的各类别之间无大小或优劣之分,且次序可以改变。
(2)适用:取值只能大体进行平行分类的品质型标志(变量)。
(3)记录方式:变量名称:类别名罗列或用无意义数字表示。
例:性别:男/ 女性别:(1)男(2)女2顺序尺度ordinal scale(1)定义:按事物的某种属性对事物进行分类或分组基础上,再将类别等级由大到小或由小到大排序。
(2)适用:取值可以进行分类且各类别具有等级差异的品质型标志(变量)。
(3)记录方式:品质变量名:类别名序号由大到小或由小到大排列。
例:文化程度(1)文盲(2)小学(3)初中(4)高中以上3间隔尺度interval scale(1)定义:选定一个测量单位,对数值变量在分类排序基础上测量其间距(差距)。
测量出的数值有加、减意义,无乘除意义。
(2)适用:可用数值记录其值而无比率意义的数值型标志。
(3)记录形式:数值变量名:________例:语文成绩:________**表述语:甲(60分)比乙(30分)高30分4比例尺度ratio scale(1)定义:选定一个测量单位,对数值型标志(变量)在测量间距基础上,测量其比率。
(2)适用:可用数值记录其值且有比率意义的数值型变量。
(3)记录形式:数值变量名:_______例:家庭人口数:_______**表述语:甲家庭(6人)比乙家庭(3人)多3人,甲家庭人口与乙家庭人口之比为2:1问卷结构:表头、表体和表外附加3部分。
应用统计学知识点

应用统计学知识点统计学是一门研究数据收集、分析和解释的学科,广泛应用于各个领域。
在现代社会,统计学知识点的应用已经成为决策、研究和规划的重要工具。
本文将介绍一些常见和重要的统计学知识点,并探讨它们在实际应用中的作用。
第一部分:数据收集和描述统计1. 数据类型:统计学中常见的数据类型包括定类和定量两种。
定类数据是描述性的,通常用来表示某种属性的不同类别。
定量数据则是可测量的,包括连续型和离散型数据。
了解数据类型对于选择合适的分析方法非常重要。
2. 数据收集:统计学的数据收集方法多种多样,包括调查、实验、观察等。
在进行数据收集时,我们需要注意样本的选择方式、样本容量、数据收集工具等因素,以确保数据的准确性和可靠性。
3. 描述统计:描述统计是对数据进行总结和呈现的方法。
常用的描述统计指标包括均值、中位数、标准差等。
这些指标可以帮助我们对数据进行初步的分析和理解。
第二部分:概率与概率分布1. 概率:概率是研究随机事件发生可能性的一种数学工具。
它能够帮助我们估计和预测事件的发生概率,并进行决策和风险管理。
2. 离散概率分布:离散概率分布用于描述离散型随机变量的分布情况。
其中最常见的是二项分布和泊松分布,它们在众多领域中都有广泛的应用,比如风险评估、市场调研等。
3. 连续概率分布:连续概率分布则用于描述连续型随机变量的分布情况。
最常见的连续概率分布是正态分布,它在统计学中起到了重要的作用,被广泛应用于数据分析和预测模型的建立中。
第三部分:假设检验与置信区间1. 假设检验:假设检验是统计学中用于检验研究假设的一种方法。
通过对样本数据进行分析,我们可以判断假设是否成立,并对结果进行合理的解释。
常见的假设检验方法包括t检验、方差分析等。
2. 置信区间:置信区间是对总体参数的一个范围估计。
通过置信区间,我们可以对未知参数进行合理的估计,并对研究结果进行解释。
置信区间的计算和应用在医学研究、市场调研等领域中非常常见。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用统计学考点:
第一章绪论(重点:统计数据的分类,参数、统计量的定义)
一、统计数据的分类
1.(按计量尺度分)
(1)分类数据:对事物进行分类的结果;数据表现为类别,用文字来表述;例如,人口按性别分为男、女两类。
(2)顺序数据:对事物类别顺序的测度;数据表现为类别,用文字来表述;例如,产品分为一等品、二等品、三等品、次品等
(3)数值型数据:对事物的精确测度;结果表现为具体的数值;例如:身高为175cm 、168cm 、183cm
2.(按收集方法分)
(1)观测的数据:通过调查或观测而收集到的数据;在没有对事物人为控制的条件下而得到的;有关社会经济现象的统计数据几乎都是观测数据
(2)试验的数据:在试验中控制试验对象而收集到的数据;比如,对一种新药疗效的试验,对一种新的农作物品种的试验等;自然科学领域的数据大多数都为试验数据
3.(按时间状况分)
(1)截面数据:在相同或近似相同的时间点上收集的数据;描述现象在某一时刻的变化情况;比如,2002年我国各地区的国内生产总值数据
(2)时间序列数据:在不同时间上收集到的数据;描述现象随时间变化的情况;比如,1996年至2002年国内生产总值数据
二、参数和统计量
1.参数:研究者想要了解的总体的某种特征值。
所关心的参数主要有总体均值( )、标准差()、总体比例()等。
总体参数通常用希腊字母表示 。
2.统计量:根据样本数据计算出来的一个量。
所关心的样本统计量有样本均值( x)、样本标准差(s)、样本比例(p)等。
样本统计量通常用小写英文字母来表示
三、变量:说明现象某种特征的概念。
如商品销售额、受教育程度、产品的质量等级等。
变量的具体表现称为变量值,即数据
变量可以分为:1.分类变量:说明事物类别的一个名称;2.顺序变量:说明事物有序类别的一个名称;3.数值型变量:说明事物数字特征的一个名称(离散变量:取有限个值;连续变量:可以取无穷多个值 )
第2章 统计数据的搜集(重点:五方法的区别、定义)
统计调查的五中方式:
1.抽样调查:从总体中随机抽取一部分单位(样本)进行调查;目的是推断总体的未知数字特征
;最常用的调查方式;具有经济性、时效性强、适应面广、准确性高等特点
2.普查:为特定目的专门组织的非经常性全面调查。
通常是一次性或周期性的。
一般需要规定统一的标准调查时间;数据的规范化程度较高;应用范围比较狭窄
3.统计表报:统计调查方式之一。
过去曾经是我国主要的数据收集方式。
按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据。
有各种各样的类型。
4.重点调查:从调查对象的全部单位中选择少数重点单位进行调查。
调查结果不能用于推断总体
5.典型调查:从调查对象的全部单位中选择少数典型单位进行调查。
目的是描述和揭示事物的本质特征和规律。
调查结果不能用于推断总体
第3章 统计数据的整理(重点:不同数据类型的展示方法。
记住下图即可)
数据类型及图示:
条形图饼图环形图汇总表品质数据直方图折线图分组数据茎叶图箱线图原始数据线图
时序数据雷达图多元数据
数值型数据数据的类型
一、分类数据的图示:
1.条形图(主要用于反映分类数据的频数分布)
2.饼图(主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用)
二、顺序数据的整理及图示:
顺序数据整理:(可计算的指标)
累积频数:各类别频数的逐级累加
累积频率:各类别频率(百分比)的逐级累加
顺序数据的图示:
1.累计频数分布图
2.环形图:环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。
环形图与圆形图类似,但又有区别:圆形图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。
环形图可用于结构比较研究。
环形图主要用于展示分类和顺序数据。
三、数值型数据的整理与显示
1.分组数据—直方图和折线图
直方图:用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布
在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1
直方图与条形图的区别:
条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的
直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义
直方图的各矩形通常是连续排列,条形图则是分开排列
条形图主要用于展示分类数据,直方图则主要用于展示数值型数据
2.分组数据—折线图
折线图也称频数多边形图
是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉
折线图的两个终点要与横轴相交,具体的做法是
第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴
折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
3.未分组数据—茎叶图和箱线图
茎叶图:用于显示未分组的原始数据的分布。
由“茎”和“叶”两部分构成,其图形是由数字组成的。
以该组数据的高位数值作树茎,低位数字作树叶。
树叶上只保留一位数字。
对于n(20=<n <= 300)个数据,茎叶图最大行数不超过L = [ 10 ×lg(n) ]
茎叶图类似于横置的直方图,但又有区别:直方图可观察一组数据的分布状况,但没有给出具体的数值;
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
4.未分组数据—箱线图:
箱线图:用于显示未分组的原始数据的分布。
箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成。
其绘制方法是:
首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)
连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接
5.时间序列数据—线图
绘制线图时应注意以下几点
时间一般绘在横轴,指标数据绘在纵轴
图形的长宽比例要适当,其长宽比例大致为10:7
一般情况下,纵轴数据下端应从“0”开始,以便于比较。
数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断
6.多变量数据—雷达图
显示多个变量的图示方法
在显示或对比各变量的数值总和时十分有用
假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比
可用于研究多个样本之间的相似程度
第4章 统计数据的描述(重点:均值的计算,各个数值的计算特点)
一、数据分布特征的测度
(一)集中趋势 (位置):一组数据向其中心值靠拢的倾向和程度。
测度集中趋势就是寻找数据水平的代表值或中心值。
不同类型的数据用不同的集中趋势测度值。
低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据
(二)离中趋势 (分散程度)
偏态和峰态(形状)
(一)
分类数据:(众数:出现次数最多的变量值。
不受极端值的影响。
一组数据可能没有众数或有几个众数。
主要用于分类数据,也可用于顺序数据和数值型数据)
顺序数据:中位数和分位数
(中位数:排序后处于中间位置上的值。
不受极端值的影响。
主要用于顺序数据,也可用数值型数据,但不能用于分类数据。
各变量值与中位数的离差绝对值之和最小。
中位数位置的确定:原始数据:(n+1)/2 顺序数据:n/2 )
(四分位数:排序后处于25% Q L 和75% Q U 位置上的值。
不受极端值的影响。
主要用于顺序数据,也可用于数值型数据,但不能用于分类数据)
数据特征的测度
分布的形状
集中趋势 离散程度 众 数 中位数 均 值 离散系数 方差和标准差 峰 态 四分位差 异众比率 偏 态
四分位数位置的确定:原始数据:Q L (n+1)/4 Q U 3(n+1)/4 顺序数据:Q L n/4 Q U 3/4
数值型数据:均值:集中趋势的最常用测度值。
一组数据的均衡点所在。
体现了数据的必然性特征。
易受极端值的影响。
用于数值型数据,不能用于分类数据和顺序数据。
简单均值&加权均值
均值的数学性质:1.各变量值与均值的离差之和等于零;2各变量值与均值的离差平方和最小
调和平均数:均值的另一种表现形式。
易受极端值的影响。
计算公式为
几何平均数:n 个变量值乘积的n 次方根。
适用于对比率和速度数据的平均。
可看作是均值的一种变形
众数、中位数和均值的比较
众数
不受极端值影响
具有不唯一性
数据分布偏斜程度较大时应用均值
易受极端值影响
数学性质优良
数据对称分布或接近对称分布时
应用
中位数
不受极端值影响
数据分布偏斜程度较大时应用
分类数据:异众比率
顺序数据:四分位差
数值型数据:方差及标准差相对位置的测量:标准分数相对离散程度:离散系数。