统计学贾俊平考研知识点总结
贾俊平统计学知识点

统计学知识点导论部分描述统计及推断统计概念比较,举例说明。
统计数据的类型:有三种分类方式,重点关注(分类数据、顺序数据、数值型数据)这三种的概念和特点。
几个基本概念:总体和样本、参数和统计量、变量(分类变量、顺序变量、数值型变量)概念及举例明。
数据搜集部分数据的间接来源:二手数据的特点数据的直接来源:调查数据和实验数据(实验数据相关知识参见风笑天笔记)调查数据:概率抽样和非概率抽样的比较。
简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样、方便抽样、判断抽烟、滚雪球抽样、配额抽样的概念、优缺点及抽样过程的简单描述。
搜集数据的基本方法:自填式、面谈时、电话式优缺点。
数据误差:抽样误差和非抽样误差(系统误差和随机误差)。
抽样框误差、回答误差、无回答误差、测量误差概念。
误差的控制方法。
数据的概括性度量集中趋势:众数、中位数、平均数概念、计算方法、分布上的关系、各自特点和应用场合。
离散趋势:异众比率、四分位差、方差和标准差、离散系数的概念、计算、特点等。
偏态和峰态的概念。
概率部分(全部是概念)随机事件及其概率:随机事件、必然事件、不可能事件、基本事件、独立事件和条件概率。
离散型随机变量及其分布:随机变量及其分类、泊松分布。
连续型随机变量及其分布:概率密度、正态分布的曲线及其性质统计量和抽样分布部分(参数估计的基础)常用统计量抽样分布的概念正态分布及由正态分布导出的几个分布及其特点(正态、卡方、t、F)。
另外标准正态分布和正态分布的概念特点,条件分布的概念。
中心极限定理样本均值的分布、样本比例的分布、样本均值之差的分布、样本方差的分布从下面开始就要做题了,每章的例题都要做三遍,课后习题有选择的做一些。
参数估计部分参数估计、点估计、区间估计的概念及基本原理、置信区间的概念及解释、评价估计量的标准。
一个总体参数的估计(均值、比例、方差),两个总体参数的区间估计(均值之差、比例之差、方差之比)、样本量的确定(估计均值时的、估计比例时的)假设检验部分建设检验、原假设、备择假设的概念、假设检验的基本流程和决策准则。
贾俊平《统计学》考研考点大全

目录第一章导论(2)第一节统计及其应用领域(2)第二节统计数据类型(4)第三节统计学的常用基本概念(4)第二章数据的搜集(6)第一节数据的来源(6)第二节调查数据(7)第三节数据的误差(10)第三章数据的图表展示(12)第一节数据的预处理(12)第二节品质数据的整理与展示(13)第三节数值型数据的整理与展示(18)第四节合理使用图表(24)第四章数据的概括性度量(26)第一节集中趋势的度量(26)第二节离散程度的度量(31)第三节偏态与峰态的度量(34)第五章概率与概率分布(36)第一节随机事件及概率(36)第二节概率的性质与运算法则(39)第三节离散型随机变量及其分布(44)第四节连续型随机变量的概率分布(49)第六章统计量及其抽样分布(54)第一节统计量(54)第二节由正态分布导出的几个重要分布(55)第三节样本均值的分布(58)第四节样本方差和样本比例的分布(61)第七章参数估计(62)第一节参数估计的基本原理(62)第二节一个总体参数的区间估计(66)第三节两个总体参数的区间估计(70)第四节样本量的确定(73)第八章假设检验(75)第一节假设检验的基本问题(75)第二节一个总体参数的检验(80)第三节两个总体参数的检验(85)第九章列联分析(91)第一节分类数据与列联表(91)第二节χ2检验(93)第三节列联表中的相关测量(95)第十章方差分析(99)第一节方差分析引论(99)第二节单因素方差分析(102)第三节双因素方差分析(110)第十一章一元线性回归(116)第一节变量间关系的度量(116)第二节一元线性回归(121)第三节利用回归方程进行预测(128)第四节残差分析(129)第十二章多元线性回归(132)第一节多元线性回归模型(132)第二节回归方程的拟合优度(133)第三节显着性检验(134)第四节多重共线性(136)第五节变量选择与逐步回归(138)第十三章时间序列分析和预测(140)第一节时间序列及其分解(140)第二节时间序列的描述性分析(142)第三节时间序列预测的程序(145)第四节平稳序列的预测(149)第五节趋势型序列的预测(154)第六节复合型序列的分解预测(162)第十四章指数(168)第一节基本问题(168)第二节总指数编制方法(169)第三节指数体系(174)第四节几种典型的指数(176)第五节综合评价指数(179)课程简介统计学是一门关于大量数据如何进行搜集、整理和分析的方法论科学,它是统计学专业的一门专业基础课程,也是经济学类和工商管理类各专业的一门核心课程,众多学科必备的考研专业课程,主要介绍如何运用统计方法对社会经济现象的总体特征和发展规律进行描述、分析,包括:统计指标、数字特征、动态分析、指数分析和简单的趋势模型及抽样推断、相关和回归分析等。
统计学复习概念重点贾俊平

1. 描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。
2. 推断统计:研究如何利用样本数据来推断总体特征的统计方法。
3. 分类数据:只能归于某一类别的非数字型数据。
4. 顺序数据:只能归于某一有序类别的非数字型数据。
5. 数值型数据:按数字尺度测量的观察值。
6. 观测数据:通过调查或观测而收集到的数据。
7. 实验数据:在实验中控制实验对象而收集到的数据。
8. 截面数据:在相同或近似相同的时间点上收集的数据。
9. 时间序列数据:在不同时间上收集到的数据,这类数据按时间顺序收集到的。
10. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体特征的数据收集方法。
11. 普查:为特定目的而专门组织的全面调查。
12. 总体:包含所研究的全部个体(数据)的集合。
13. 样本:从总体中抽取的一部分元素的集合。
14. 样本容量:也称样本量,是构成样本的元素数目。
15. 参数:用来描述总体特征的概括性数字度量。
16. 统计量:用来描述样本特征的概括性数字度量。
17. 变量:说明现象某种特征的概念。
18. 分类变量:说明事物类别的一个名称。
19. 顺序变量:说明事物有序类别的一个名称。
20. 数值型变量:说明事物数字特征的一个名称。
21. 离散型变量:只能取可数值的变量。
23. 调查数据:通过调查方法获得的数据24. 实验数据:通过实验方法获得的数据25. 概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
26. 非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
27. 简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。
28. 抽样框:用于抽选样本的总体单位信息,是概率抽样中所不可缺29. 分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。
统计学(贾俊平版)重点

统计学(贾俊平版)重点第一章统计:收集、处理、分析、解释数据并从数据中得出结论的科学。
数据1. 分类数据对事物进行分类的结果数据,表现为类别,用文字来表述.例如,人口按性别分为男、女两类2. 顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3. 数值型数据对事物的精确测度,结果表现为具体的数值.例如:身高为175cm ,168cm,183cm总体–所研究的全部元素的集合,其中的每一个元素称为个体–分为有限总体和无限总体.有限总体的范围能够明确确定,且元素的数目是有限的.无限总体所包括的元素是无限的,不可数的样本–从总体中抽取的一部分元素的集合–构成样本的元素数目称为样本容量参数:描述总体特征。
有总体均值( )、标准差(σ)总体比例(π)统计量:描述样本特征。
样本标准差(s),样本比例(p)变量:说明现象某种特征,分类,顺序,数值型:离散型,连续型。
经验,理论变量描述统计研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计是研究如何利用样本数据进行推断总体特征第二章间接数据(查询的)与直接数据:调查(通常是对社会现象而言的)普查信息全面完整。
再一个是实验。
概率抽样:也称随机抽样。
按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中–每个单位被抽中的概率是已知的,或是可以计算出来的–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的分层抽样:优点:保证样本的结构与总体的结构比较相近将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层的目标量进行估计整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查优点:抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是统计的精度较差系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位操作简便,可提高估计的精度多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查–群是初级抽样单位,第二阶段抽取的是最终抽样单位。
统计学复习概念重点-贾俊平

n —1
n
'(X -X)2
i-1
n —1
估计总体比例时的样本容 量
加权样
k
2
(Mi-x) fi
iA
n —1
总体均值检验的统计量
(正态总体,匚已知)
加权样 本标准 差
’(Mi-X)2fi
『广n—1
总体比例检验的统计量
判定系 数
相关系 数检验 的统计 量
标准分
数
指数平 滑法预 测
移动平 均法预 测
R2
SSR「(?i-y)2
SST「、⑶-y)2
总体方差检验的统计量
t
~t(n- 2)
-X
一S
Xi
-
散数
离«系
Ft 1Tt(1-〉)Ft
拉氏
权均数售q1又
加平指销P1q划
Y*丫一2•…匕Yt
Ft1二Yt
k
Ip
P(1-P)
1」
N
2 2(n -1)s岂_2岂(n -1)s
P-乙.2
' pg ' qpo
P0q0q'q°P0
21.离散型变量:只能取可数值的变量。
22.连续型变量:可以在一个或多个区间中取任何值的变量。
23.调查数据:通过调查方法获得的数据
24.实验数据:通过实验方法获得的数据
25.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
26.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施 调查。
nn
年度化
增长率
Y
r?-1
均方预测 误差
n
统计学(贾俊平版)重点

第一章统计:收集、处理、分析、解释数据并从数据中得出结论得科学。
数据1、分类数据对事物进行分类得结果数据,表现为类别,用文字来表述、例如,人口按性别分为男、女两类2、顺序数据对事物类别顺序得测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3、数值型数据对事物得精确测度,结果表现为具体得数值、例如:身高为175cm ,168cm,183cm总体–所研究得全部元素得集合,其中得每一个元素称为个体–分为有限总体与无限总体、有限总体得范围能够明确确定,且元素得数目就是有限得、无限总体所包括得元素就是无限得,不可数得样本–从总体中抽取得一部分元素得集合–构成样本得元素数目称为样本容量参数:描述总体特征。
有总体均值( )、标准差(σ)总体比例(π)统计量:描述样本特征。
样本标准差(s),样本比例(p)变量:说明现象某种特征,分类,顺序,数值型:离散型,连续型。
经验,理论变量描述统计研究得就是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计就是研究如何利用样本数据进行推断总体特征第二章间接数据(查询得)与直接数据:调查(通常就是对社会现象而言得)普查信息全面完整。
再一个就是实验。
概率抽样:也称随机抽样。
按一定得概率以随机原则抽取样本,抽取样本时使每个单位都有一定得机会被抽中–每个单位被抽中得概率就是已知得,或就是可以计算出来得–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中得概率简单随机抽样:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本得概率就是相等得分层抽样:优点:保证样本得结构与总体得结构比较相近将抽样单位按某种特征或某种规则划分为不同得层,然后从不同得层中独立、随机地抽取样本,从而提高估计得精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层得目标量进行估计整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中得所有单位全部实施调查优点:抽样时只需群得抽样框,可简化工作量–调查得地点相对集中,节省调查费用,方便调查得实施–缺点就是统计得精度较差系统抽样:将总体中得所有单位(抽样单位)按一定顺序排列,在规定得范围内随机地抽取一个单位作为初始单位,然后按事先规定好得规则确定其它样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位操作简便,可提高估计得精度多阶段抽样:先抽取群,但并不就是调查群内得所有单位,而就是再进行一步抽样,从选中得群中抽取出若干个单位进行调查–群就是初级抽样单位,第二阶段抽取得就是最终抽样单位。
统计学(贾俊平版)重点

统计学(贾俊平版)重点统计学是一门研究数据分析、推断和决策的科学。
它在计量、自然科学、社会科学等领域中都扮演着重要的角色。
统计学被广泛应用于探索数据中的规律,揭示数据背后的信息和因果关系,提供决策和预测支持。
以下是统计学中的一些重要概念和方法。
1.总体和样本在统计学中,总体指的是研究对象的全体,无论是人群、产品、自然事物还是其他随机变量。
而样本则是从总体中随机抽取的一部分数据。
通过对样本的研究和分析,可以推断出总体的性质和规律。
2.描述统计描述统计是一种通过统计指标和图表来描述数据特征的方法。
其中比较重要的统计指标包括平均数、中位数、众数、标准差等。
描述统计旨在提供数据的概括性信息,以便人们更好地理解和解释数据。
3.推断统计推断统计是一种通过样本数据推断总体特征和性质的方法。
其中最重要的概念是抽样误差和置信区间。
抽样误差是指样本和总体之间的误差,而置信区间则是通过样本数据得到总体特征的区间估计值。
4.假设检验假设检验是一种判断总体特征是否符合某种假设的方法。
在假设检验中,研究人员提出一个关于总体的假设,然后利用样本数据进行检验。
假设检验的结果通常表现为拒绝或者接受原始假设的结论。
5.回归分析回归分析是一种推断变量之间关系的方法。
在回归分析中,一个或多个自变量被用来预测某个因变量的值。
回归分析可以帮助研究人员发现因变量和自变量之间的关系,并作出预测和决策。
6.方差分析方差分析是一种分析不同组之间差异的方法。
在方差分析中,数据被分成几个组,然后比较这些组之间的方差。
方差分析可以帮助确定如何将数据进行分组,以便得到更好的比较结果。
7.贝叶斯统计贝叶斯统计是一种利用先验概率和样本数据计算后验概率的方法。
在贝叶斯统计中,先验概率是在进行实证研究前已知的条件概率,而后验概率则是在考虑实证研究的结果后计算出来的条件概率。
贝叶斯统计可以帮助人们理解和理性决策不确定和风险。
综上,统计学是一门重要的科学,它为各种领域的研究和决策提供了支持和基础。
统计学贾俊平考研学习知识点情况总结

统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。
总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。
有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的,需要注意的是,统计意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据。
(2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。
例如我们从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。
(3)参数是用来描述总体特征的概括性数字度量。
有总体平均数、标准差、总体比例。
由于总体参数通常是不知道的,所以参数是一个未知的常数。
所以才需要进行抽样,根据样本来估计总体参数(4)样本量是用来描述样本特征的概括性数字度量。
统计量是根据样本数据计算出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总是知道的,抽样的目的就是要根据样本统计量推断总体参数。
(5)变量是说明现象某种特征的概念。
变量的特点是从一次观察到下一次观察会呈现出差别或变化,分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量。
第二章数据收集一、调查方案的主要内容:(1)调查目的:是调查所要达到的具体目标,他所回答的是“为什么调查”“要解决什么样的问题”等(2)调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或调查范围。
调查单位是构成调查队选中的每一个单位,它是调查项目和调查内容的承担着或载体。
所要解决的是“向谁调查”由谁来提供所需数据(3)调查项目和调查表:调查项目要解决的问题是“调查什么”,也就是调查的具体内容,大多数统计调查中,调查项目通常以表格的形式来表现,称为调查表二、数据的误差:统计数据的误差通常是指统计数据与客观现实之间的差距,误差的类型主要有抽样误差和非抽样误差两类。
(1)抽样误差:主要是指在用样本数据进行推断时所产生的随机误差。
只存在于概率抽样中。
这类误差通常是无法消除的,但事先可以进行控制和计算。
影响抽样误差大小的因素:(a)抽样单位的数目。
在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;反之,越大。
这是因为随着样本数目的增多,样本结构越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。
(b)总体背研究标志的变异程度。
在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小,反之,越大。
抽样误差和总体标志的变异程度呈正比变化。
这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。
则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差(c)抽样方法的选择。
重复抽样和非重复抽样的抽样误差大小不同。
采用不重复抽样比采用重复抽样的抽样误差小(d)抽样组织方式不同。
采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样误差,作出判断各种抽样组织方式的比较标准。
(2)非抽样误差:主要包括:抽样框误差,回答误差、无回答误差、调查员误差;是调查过程中由于调查者或被调查者的人为因素所造成的误差。
调查者所造成的误差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者所造成的误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据。
非抽样误差理论上是可以消除的。
三、简单随机抽样:(1)概念:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的;(2)特点:a、简单、直观,在抽样框完整时,可直接从中抽取样本b、用样本统计量对目标量进行估计比较方便(3)局限性⏹当N很大时,不易构造抽样框⏹抽出的单位很分散,给实施调查增加了困难⏹没有利用其它辅助信息以提高估计的效率第三章数据的整理与展示一、数据排序的目的:(1)数据排序是按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索(2)排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。
(3)在某些场合,排序本身就是分析的目的之一。
二、数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据。
数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和组距分组两种,单变量分组通常只适合于离散变量,且在变量值较少的情况下使用,在连续变量或变量值较多情况下,通常采用组距分组。
三、组距分组的步骤和原则:)2lg()lg(1n K +=(1)步骤:a 、确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。
在实际分组时,可以按 Sturges 提出的经验公式来确定组数K b 、 确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=( 最大值 - 最小值)÷ 组数c 、统计出各组的频数并整理成频数分布表(2)原则:采用组距分组时,需遵循“不重不漏”的原则,“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决不重的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。
当然,对于离散变量,我们可以采用相邻两组组限间断的办法解决“不重”的问题。
也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
缺点:组距分组掩盖了各组内的数据分布状况 四、直方图和条形图的区别:首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与宽度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据。
五、绘制线图应注意的问题:(1)时间一般绘在横轴,观测数据绘在纵轴(2)图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致是10:7.(3)一般情况下,纵轴数据下端应从0开始,以便于比较,数据与0之间的间距过大,可以采取折断的符号将纵轴折断六、设计统计表注意的问题:首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置应安排合理。
其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确切地概括出统计表的内容。
再次,表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不封口,列标题之间可以用竖线分开,而行标题之间通常不必用横线隔开。
最后,在使用统计表时,必要时可在表下方加上注释,特别注意标明数据来源。
七、数据的审核:(1)原始数据:a、完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指标是否填写齐全b、准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际;检查数据是否有错误,计算是否正确等(2)二手数据:a、适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定数据是否符合自己分析研究的需要b、时效性审核:尽可能使用最新的数据八、数据的整理与显示(基本问题)(1)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的(2)对分类数据和顺序数据主要是做分类整理(3)对数值型数据则主要是做分组整理(4)适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章数据的概括性度量一、集中趋势和离散趋势的度量:(1)集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。
描述集中趋势所采用的测度值分为:众数、中位数和分位数、平均数。
(2)离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心值得程度,因此也称为离中趋势,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,反之,代表性越好。
描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率、四分位差、方差和标准差。
此外还有极差、平均差以及测度相对离散程度的离散系数。
二、众数、中位数和平均数:(1)三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数的处于一组数据中间位置上的值,而平均数则是全部数据的算数平均。
因此,对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:(a)如果数据的分布是对称的,众数、中位数、平均数必定相等(b)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值的影响,因此三者的关系为众数>中位数>平均数(c)如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数<中位数<平均数。