统计学(复习)

合集下载

统计学复习资料

《统计学》期末复习题一、单项选择题：（每题1分，共10分）1．对本校学生基本情况进行调查，总体是：A.本校每个学生B.本校所有学生C.本校学生总数D. 本校专业数2．要了解学习情况，测得《统计学》成绩及格率为90％是：A.数量标志B.总体单位数C.数量指标D.指标3．下列指标中属于数量指标的是：A.人均粮食占有量B.平均成绩C.人口数D.老龄人口比重4.对气车进行破坏性试验检验质量，宜采用的方法是：A.典型调查B.重点调查C.普查D.抽样调查5.计划规定单位成本应降低5％，实际降低10％，则计划完成程度为：A.20％B.85％C.94.7％D.50.8％6.总量指标的表示形式是：A.平均数B.相对数C.绝对数D.整数7.反映现象一般水平的指标是：A.平均指标B.相对指标C.总量指标D.变异指标8.其它条件不变提高估计的概率保证程度，其估计精确程度会：A.扩大B.不变C.缩小D.无法确定9.权数对算术平均数的影响作用，实质上取决于：A.各组单位数占总体单位数比重B.各组标志值占总体标志总量比重C.标志值大小D.标志值数量的多少10.商品的需求量随物价上涨而减少,则物价与商品需求量间的关系为：A.不相关B.负相关C.正相关D.复相关11．下面属于品质标志的是A、工人年龄B、工人性别C、工人月工资D、工人体重12．构成统计总体的个别事物称为A、调查单位B、总体单位C、调查对象D、填报单位13．2000年11月1日零点的第五次全国人口普查是A、典型调查B、重点调查C、一次性调查D、经常性调查14．工厂对生产的一批零件进行检查，通常采用A、普查B、抽样调查C、重点调查D、典型调查15．1990年，我国人均粮食产量393.10公斤，人均棉花产量3.97公斤，人均国民生产总值为1558元，它们是A、结构相对指标B、比较相对指标C、比例相对指标D、强度相对指标16．一个企业产品销售收入计划增长8％，实际增长20％，则计划超额完成程度为A、12％B、150％C、111.11％D、11.11％17．时点指标的数值A、与其时间间隔长短无关B、通常连续登记C、时间间隔越长，指标数值越大D、具有可加性18．抽样调查和重点调查的主要区别是A、选取调查单位的方式不同B、调查的目的不同C、调查的单位不同D、两种调查没有本质区别19．某种产品报告期与基期比较产量增长26%，单位成本下降32%，则生产费用支出总额为基期的A、166.32%B、85.68%C、185%D、54%20. 已知环比增长速度为9.2％、8.6％、7.1％、7.5％，则定基增长速度为A、9.2％×8.6％×7.1％×7.5％B、（9.2％×8.6％×7.1％×7.5％）－100％C、109.2％×108.6％×107.1％×107.5％D、（109.2％×108.6％×107.1％×107.5％）－100％二、多项选择题：1．以下指标中属于数量指标有：A．营业收入B．工资总额C．单价D．职工人数2．下列指标属于时期指标的有：A．毕业学生数B．出生人口数C．钢材库存量D．粮食产量3．人均国民生产总值属于：A．强度相对指标B．强度相对指标的正指标C．质量指标D．数量指标4．下列平均数中属于位置平均数的有：A．算术平均数B．众数C．调和平均数D．中位数5．下列统计指标属于相对指标的是：A.平均工资B.商业网点密度C.商品库存量D.进出口总额6．质量指标A、可以用绝对数表示B、可以用相对数表示C、可以用平均数表示D、不能用平均数或平均数表示7．普查属于A、全面调查B、非全面调查C、一次性调查D、经常性调查E、专门组织的调查8．常用的相对指标有A、动态相对指标B、结构相对指标C、强度相对指标D、比较与比例相对指标E、计划完成程度相对指标9．在全国人口普查中A、全国人口数是统计总体B、男性是品质标志C、全部女性人口数是统计指标D、每个人是总体单位E、人的年龄是变量10．下列指标属于时点指标的有。

统计学复习(含公式)

1、统计学：是收集、汇总和分析统计数据的科学和艺术。

2、统计数据的分析是统计学的核心内容，它是通过统计描述和统计推断的方法探索数据内在规律的过程。

3、普查：是为某一特定目的而专门组织的一次性全面调查，如人口普查、工业普查、农业普查等。

4、抽样调查的特点：经济性；时效性高；适应面广；准确性高。

5、调查方案：是指导整个过程的纲领性文件，其内容包括调查目的、调查对象和调查单位、调查项目和调查表等内容。

6、组距分组的几个步骤：一、确定组数二、确定组距三、确定组限和进行次数分配四、绘制统计图五、分析。

）7、为消除组距不同对频数分布的影响，需要计算频数密度，即频数密度=频数/组距，用频数密度才能准确反映频数分布的实际情况。

8、以组中值作为代表值有一个必要的假定条件，即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。

9、描述统计的内容也包括频数分布、但主要是关于集中趋势和离中趋势的描述问题。

10、众数：是一组数据中出现次数最多的变量值。

从分布的角度看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的数值即为众数，记为M。

11、众数是一组数据中心位置的一个代表值。

当然，如果数据的分布没有明显的集中趋势或最高峰点，众数也可以不存在；如果有多个高峰点，实际上也可以认为有多个众数。

12、协方差的大小会受到计量单位和数据均值水平的影响，从而使不同相关总体之间的相关程度缺乏可比性。

13、时间系列：是反映现象随时间的变化而变化的数据系列，也称为时间数列或动态数列。

14、用报告期水平减去基期水平，就等于增长量。

其中，当基期水平为上期水平时，就称为逐期增长量，当基期水平为某个时期的固定发展水平时，就称为累计增长量。

15、报告水平与基期水平之比，称为发展速度。

其中，当基期水平为上期水平时，就称为环比发展速度；当基期水平为某个时期的固定发展水平时，就称为定基发展速度。

16、序时平均数也称为动态平均数，它反映现象在一定时期内发展水平达到的一般水平。

统计学复习资料

1、统计学——是一门收集、整理、实和分析统计数据的科学，其目的使探索数据内在的数量规律。

2、统计学的两个含义指的什么？1当他以名词出现时表示一门科学名称—“统计学“。

2当他以复数名词出现时，表示”统计数据“或”统计资料“。

3、统计学分为哪两大类？其含义是什么？？1描述统计——是用图形、表格和概括性的的数字对数据进行描述的统计方法。

2推断统计——是根据样本信息对总体进行估计、假设检验、预测的统计方法。

4、解释总体，变量，样本。

1总体就是我们所要研究的所有单位的总和2变量就是我们重点关注的是总体单位具有哪些特征或属性3样本就是总体的一部分。

5、数据的计量尺度分为哪几种？各有哪些特点？1列名尺度—最粗略的计量程度，2顺序尺度—比列名精确性高一些，3间隔尺度—可以对数据进行精确计量的尺度，4比列尺度—和间隔差别很小，主要在于对“0“的理解不同。

6、直接获取统计数据的方法有哪几种？1普查2抽样调查7、基尼系数反映的是什么问题？当基尼系数超过0.4说明什么？当基尼系数=0 表示收入绝对平均，基尼系数=1表示收入绝对不平均，基尼系数小于0.2表示分配平均，在0.2~0.4之间是比较合适的。

基尼系数为0.4时，被认为是收入分配不公的警戒线，超过0.4就应该采取缩小这一差距。

8、影响加权算数平均数的因素是什么？1组中值2权数3分组的组数。

9、众数、中位数、均值的关系是什么？1对称分布MO=ME=X 2右偏分布MO<ME<X 3左偏分布X<ME<MO。

10、反映现象集中趋势的主要指标有哪些？1众数2中位数3均值。

11、反映现象离散趋势的指标又哪些？1极差2方差3标准差。

12、为什么要计算离散系数而不是标准差系数？因为离散系数是从相对的角度观察变异和离散程度的，在比较相关事物的差异程度时，较之直接比较标准差要好些。

13、按抽样的组织方式如何分类？1简单随即抽样2分层抽样3系统抽样4正群抽样14、什么是参数？参数估计的方法又哪几种？参数——是描述总体数据分布特征的一个常量。

统计学总复习

总复习第1章绪论一、统计一词的涵义及其关系。

统计一词有统计工作、统计资料和统计科学三种涵义。

统计工作是基础，统计资料是统计工作的结果，统计科学是统计工作经验的理论概括，是指导统计工作的理论和方法。

二、社会经济统计的性质。

社会经济统计是从数量方面人手研究社会经济现象的现状及发展规律的一种手段，是认识社会的最有力的武器之一。

三、社会经济统计认识社会的特点。

（1）数量性；（2）总体性；（3）具体性；（4）社会性四、什么是社会经济统计学?它的研究对象是什么?社会经济统计科学是一门系统论述社会经济统计方法的应用社会科学。

研究对象是社会经济现象的数量方面。

五、统计研究中的几个基本概念1．什么是统计总体?它有哪些特征? 什么是总体单位?2．什么是标志?它的表现形式有哪两种? 什么是变量、变量值? 什么是离散变量、连续变量?3．什么是指标?它有哪几种分类? （标志与指标的联系与区别表现在哪些方面？）4．什么是统计指标体系?它有些特点？建立统计指标体系的基本原则是什么?本章名词解释统计总体、总体单位、标志、指标、指标体系、变量、变量值本章简答题1、简述统计一词的含义及其相互关系2、简述标志与指标的区别与联系第2-3章统计调查与资料整理一、统计调查的概念及种类?二、专门调查的概念及形式?●什么是普查、重点调查、重点单位、典型调查和抽样调查?它们的特点、区别何在？三、统计调查方案的主要内容及有关概念●什么是调查对象、调查单位和报告单位?三者有何不同?●什么是调查项目？●调查表的种类●调查时间与调查期限的区别四、统计资料整理●统计资料整理的概念●原始资料审核的方法有哪些？五、统计分组●统计分组的概念；统计分组的作用；●统计分组的关键是什么?——正确地选择分组标志与确定各组界限。

（什么是分组标志？）●正确选择分组标志的原则是什么?六、分配数列●分配数列的概念及种类●变量数列的概念、构成要素及种类●全距、组距、组限、开口组与闭口组的概念，组中值的概念及计算，频率与频数七、统计表：统计表的概念、统计表的构成、统计表的种类。

统计学期末复习要点

统计学期末复习要点一、复习重点1、理解描述统计学与推断统计学2、熟识定量数据与定性数据的图表叙述，常用图表3、熟练掌握加权算术平均数、标准差、标准差系数的计算方法理解样本均值、样本比例的样本原产及中心音速定理4、理解点估计的三个评价标准，区间估计的置信水平的概念5、熟练掌握总体均值与总体比例的区间估计方法6、认知影响样本容量大小因素（置信水平、总体方差、容许误差），就是怎样影响的？7、认知假设检验的原理、步骤及两类错误8、熟练掌握总体均值、总体比例的假设检验9、认知方差分析的概念、原理及基本步骤10、熟练掌握单因素方差分析方法，理解单因素方差分析表的内在联系11、掌控相关系数的性质及检验方法，一元线性与多元线性回归方程的插值，评价及检验，掌控相关系数、决定系数及回归估计标准误差的概念、排序及三者间的关系。

12、熟练掌握多元线性重回分析方法，重点熟识excel重回分析输出表的内在联系13、认知时间序列的共同组成因素及两类模型14、熟悉选择拟合时间序列趋势模型的分析方法、理解一元线性、抛物线、指数曲线趋势模型15、认知平均值综合指数与加权平均指数的概念及排序16、认知拉氏指数和帕氏指数概念及排序17、理解指数体系的概念及作用，熟练掌握总量指标的两因素分析方法18、理解cpi 指数及其经济意义，cpi指数与购买力指数的关系二、思考题1、解释洛伦茨曲线及其用途。

2、怎么理解均值在统计学中的地位？3、详述众数、中位数和均值的特点和应用领域场合。

4、详述综合指数的基本基本建设原理。

5、写出大样本条件下总体均值左侧检验的基本步骤。

6、写下大样本条件下总体方差未明时正态总体均值左侧检验的基本步骤。

7、简述样本容量与置信水平、总体方差、允许误差的关系。

8、在假设检验中第ⅰ类错误和第ⅱ类错误分别指什么，并表明它们出现的概率大小之间的关系。

9、分别列出小样本情形下一个总体（总体方差未知）均值的左侧、右侧及双侧检验的假设形式和拒绝域？10、详述方差分析的基本假设11、解释方差分析中总误差平方和、水平项误差平方和、误差项平方和三者含义及其关系？12、在对实际的时间序列拟合其长期趋势方程，通常可采用哪些分析方法？13、为什么平均发展速度用几何平均法计算？计算平均发展速度应注意哪些问题?14、简述移动平均法的基本原理和特点。

统计学发给学生复习题(含答案)

1．只能归于某一类别的非数字型数据，称为（）。

A．顺序数据 B．分类数据 C．数值型数据 D.比例数据2．人们对某件事情的“满意度”是（）。

A．分类数据 B．顺序数据 C．数值型数据 D.相对数据3．下列数据中层次最高、也最精确的数据是（）。

A．分类数据 B．顺序数据 C．数值型数据 D.调查数据4．一个学生的统计课考试成绩是90分，则“成绩”是（）。

A．分类变量 B．顺序变量 C．数值型变量 D.品质变量5．变量值可以做无限分割的变量，称为（）。

A．离散型变量 B．连续型变量 C．随机变量 D.平均变量1．B 2．B 3．C 4．C 5．B6.普查之所以要规定统一的标准调查时间,是为了( )A.避免调查数据的重复或遗漏B.使数据更全面C.使数据更及时D.使数据更大7.通过观察与实验取得统计数据时,常常采用( )A.访问调查B.观察法C.电脑辅助调查D.问卷调查8.确定调查对象是为了解决( )A.为什么要调查B.调查范围C.调查什么D.调查时间9.问卷调查中,提问项目的设计,应注意( )A一项提问可包含几项内容B.注意敏感性问题提问C.用词要确切、通俗D.时间10.我们国家和地方政府部门统计数据主要来源于( )A.普查B.抽样调查C.统计报表D.典型调查6.A7.B8.B9.C 10.C11．________ =频数÷组距，它能准确反映频数分布的实际情况。

A．组中值B．组数C．频数密度D．频率密度12.对连续型变量分组，相邻组的组限必须（）。

A．重叠B．间断C．相等D．相离13.将某地区100个工厂按产值多少分组而编制的频数分布中，频数是（）。

A．各组的产值数B．各组的工人数 C．各组的工厂数 D．各组职工人数14.某管理局对其所属企业的生产计划完成百分比采用如下分组，指出哪项是正确的。

（）A．80%~90% 90%~99% 100%~109% 110%以上B.80%以下 90%~100% 89%~100% 100%~110%C.90%以下 90%~100% 100%~110 110%以上D.90% 90%～105% 100%～110 115%以上15.频数分布中，靠近中间的变量值分布的频数少，靠近两端的变量值分布频数多，这种分布的类型是（）。

统计学复习题

“统计学”复习资料一、单选题：1、在企事业单位中直接影响统计报表工作数字资料真实可靠的因素是：（A）A、高质量的原始记录工作B、建立统计台帐C、完善企业内部报表D、各种经济核算协调一致2、对占煤炭开采量75%的大矿井进行劳动生产率调查；调查几个铁路枢纽，就可以了解我国铁路货运量的基本情况和问题；统计机关在拥有全国人口一半以上的各大城市的超市进行的零售价格水平系统调查。

这些都是：（C）A、全面调查B、抽样调查C、重点调查D、典型调查3、2010年7月1日零点的全国人口普查是（C）A、一次性调查和非全面调查B、经常性调查和非全面调查C、一次性调查和全面调查D、经常性调查和全面调查4、在不重复抽样中，抽样单位数从5%增加25%，抽样平均误差（C）A、增加39.7%B、增加约3/5C、减少约3/5D、没有什么变化5、计算向上累计次数及比率时，各累计数的意义是各组（A）A、上限以下的累计次数或比率B、上限以上的累计次数或比率C、下限以上的累计次数或比率D、下限以下的累计次数或比率6、2012年某集团公司A分公司工人的月平均工资为2000元，B分公司工人的月平均工资为1800元，2013年各分公司的工资水平不变，但A分公司的工人人数增加30%，B分公司的工人人数增加15%，则2013年两分公司工人总平均工资比2012年（）A、降低B、提高C、不变D、不能做结论7、（甲）某高校新生1000人，从理科中随机抽取60人，文科中随机抽取40人，进行英语水平测试；（乙）从麦地总垅长中每3000市尺测竿落点处前后5尺长垅的产量进行实割实测；（丙）为研究城市青年业余时间活动情况，某城市每第10个居委会被抽取，并询问住在那里所有从16岁到30岁的青年人。

上述哪项属于类型抽样？（）A、甲B、乙C、乙、丙D、甲、乙、丙=50+70x，这意味着（）8、工人工资（元）倚劳动生产率（千元）变化的回归方程为YcA、劳动生产率为1000元时，工资为150元B、劳动生产率每增加1000元时，工人工资提高70元。

统计学(复习)

第1章统计和统计数据1统计学的定义：是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、内容、目的.描述统计: 是研究数据收集，处理和描述的统计学方法。

其内容包括如何取得研究所需要的数据，如何用图表形式对数据进行处理和展示，如何通过对数据的综合,概括与分析，得出所关心的数据特征。

推断统计：是研究如何利用样本数据来推断总体特征的统计学方法，内容包括两大类：参数估计: 是利用样本信息推断所关心的总体特征.假设体验：是利用样本信息判断对总体的某个假设是否成立.2、变量与数据:不同数据类型的含义，会判断已有数据的类型.变量：它们的特点是从一次观察到下一次观察会出现不同结果。

Ex：企业销售额，上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数数据：把观察到的结果记录下来。

总体:包含所研究的全部个体（数据)的集合样本: 从总体中抽取的一部分元素的集合样本量: 构成样本的元素的数目定量变量或数值变量：定量变量的观察结果称为定量数据或数值型数据。

可以用阿拉伯数据来记录其观察结果 .如“企业销售额"、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”定性变量：分类变量和顺序变量统称为定性变量分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.分类变量的观察结果就是分类数据顺序变量或有序分类变量:具有一定顺序的类别变量。

如考试成绩按等级，一个人对事物的态度。

顺序变量的观察结果就是顺序数据或有序分类数据离散型变量：只能取有限个值得随机变量连续型变量：可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些？根据一个已知的概率来抽取样本单位，也称随机抽样-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率）被抽中。

抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后，再把这个个体放回到原来的总体中参加下一次抽选。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第1章统计和统计数据1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、内容、目的。

描述统计: 是研究数据收集,处理和描述的统计学方法.其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.推断统计: 是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:参数估计: 是利用样本信息推断所关心的总体特征.假设体验:是利用样本信息判断对总体的某个假设是否成立.2、变量与数据：不同数据类型的含义，会判断已有数据的类型.变量:它们的特点是从一次观察到下一次观察会出现不同结果.Ex: 企业销售额, 上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数数据: 把观察到的结果记录下来.总体:包含所研究的全部个体(数据)的集合样本: 从总体中抽取的一部分元素的集合样本量: 构成样本的元素的数目定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结果 .如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”定性变量:分类变量和顺序变量统称为定性变量分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.分类变量的观察结果就是分类数据顺序变量或有序分类变量:具有一定顺序的类别变量. 如考试成绩按等级，一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据离散型变量: 只能取有限个值得随机变量连续型变量:可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些？根据一个已知的概率来抽取样本单位，也称随机抽样-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本，使得总体中每一个元素都有相同的机会(概率)被抽中. 抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后，再把这个个体放回到原来的总体中参加下一次抽选。

不重复抽样抽中的个体不再放回，再从所剩下的个体中抽取第二个元素，直到抽取n 个个为止。

- 分层抽样或分类抽样：它是在抽样之前先将总体的元素划分为若干层（类），然后从各个层中抽取一定数量的元素组成一个样本。

-系统抽样或等距抽样：它是想将总体个元素按某个顺序排列，并按某种规则确定一个随机起点，然后，每隔一定的间隔抽取一个元素，直至抽取n 个元素组成一个样本。

-整群抽样：是先将总体划分成若干群，然后以群作为抽样单元从中抽取部分群组成一个样本，再对抽中的每个群中包含的所有元素进行观察。

第二章.用图表展示数据频数: 落在各类别中的数据个数比例:某一类别数据个数占全部数据个数的比值百分比:将对比的基数作为100而计算的比值比率: 不同类别数值个数的比值频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况.什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.帕累托图: 是按各类别数据出现的频数多少排序后绘制的条形图饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.环形图: 只能显示一个样本各部分所占的比例数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.1. 下限(lower limit) ：一个组的最小值2. 上限(upper limit) ：一个组的最大值3. 组距(class width) ：上限与下限之差4. 组中值(class midpoint) ：下限与上限之间的中点值组中值=下限值+上限值/2直方图与条形图的区别。

1.条形图中的每一矩形表示一个类别，其宽度没有意义，而直方图的宽度则表示各组的组距2.由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列3.条形图主要用于展示定性数据，而直方图则主要用于展示定量数据茎叶图: 是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称,数据是否集中,是否有离群点.等等箱线图:是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.雷达图: 是显示多个变量的常用图示方法.1.从一个点出发，用每一条射线代表一个变量，多个变量的数据点连接成线，即围成一个区域，多个样本围成多个区域，就是雷达图2.可用于研究多个样本在多个变量上的相似程度3.当多个变量的取值相差较大或量纲不同时，可进行变换处理后再做图。

第三章. 用统计量描述数据1、水平的度量描述数据水平的统计两主要有: 平均数,中位数,分位数以及众数等.平均数。

平均数的计算:1.也称为均值，常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的，称为平均数，记为μ；根据样本数据计算的，称为样本平均数，记为⎺x中位数: 是一组数据排序后处于中间位置上数值,用M e 表示.四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值众数、中位数和平均数的关系*2、差异的度量极差:1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布5.计算公式为：R = max(x i) - min(x i)四分位差1.也称为内距或四分间距2.上四分位数与下四分位数之差：Q d=Q U–Q L3.反映了中间50%数据的离散程度4.不受极端值的影响5.用于衡量中位数的代表性样本方差和标准差（会计算）1.数据离散程度的最常用测度值2.反映各变量值与均值的平均差异3.根据总体数据计算的，称为总体方差(标准差)，记为σ2(σ)；根据样本数据计算的，称为样本方差(标准差)，记为s2(s)4.样本方差假设是一个样本，则样本方差的计算公式为：其中是样本均值。

例如，一样本取值为3,4,4,5,4，则样本均值=，样本方差=。

样本方差是常用的统计量之一，是描述一组数据变异程度或分散程度大小的指标。

样本标准差S称为样本标准差。

如在上例中，S=0.7071。

称（S/ X）×100%为样本变异系数。

由于S与X都是从同一个样本资料中求得，两者的单位相同，故变异系数为一纯数。

当两种样本资料所用的单位不同时，只要计算出变异系数，就可以比较它们的变异程度。

标准分数: 可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点离散系数（变异系数）是一组数据的标准差与其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.分布形状的度量偏态：是指数据分布的不对称性。

侧度数据分布不对称性的统计量称为（偏态系数）峰态：是指数据分布峰值的高低。

测度峰态的统计量是（峰态系数）弄清偏态系数的取值含义，会判断左偏、右偏和对称情形*弄清峰态系数的取值含义，会判断尖峰、扁平和正常情形*第四章.概率分布概率：概率是对事件发生的可能性大小的度量随机变量：是用数值来描述特定试验一切可能出现的结果，它的取值事先不能确定，具有随机性连续性随机变量：只能取一个或多个区间中任何值得随机变量离散型随机变量：只能取有限个值得随机变量随机变量的概括性度量：期望值和方差的计算：描述随机变量集中程度的统计量称为(期望值)离散型概率分布：是用表格的形式表现出来，就是离散型随机变量的概率分布二项分布: 二项分布是建立在伯努利试验基础上的。

N重伯努利1.贝努里试验满足下列条件⏹一次试验只有两个可能结果，即“成功”和“失败”●“成功”是指我们感兴趣的某种特征⏹一次试验“成功”的概率为p ，失败的概率为q =1- p，且概率p对每次试验都是相同的⏹试验是相互独立的，并可以重复进行n次⏹在n次试验中，“成功”的次数对应一个离散型随机变量X泊松分布：1.1837年法国数学家泊松(D.Poisson，1781—1840)首次提出2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布3.泊松分布的例子⏹一定时间段内，某航空公司接到的订票电话数⏹一定时间内，到车站等候公共汽车的人数⏹一定路段内，路面出现大损坏的次数⏹一定时间段内，放射性物质放射的粒子数⏹一匹布上发现的疵点个数⏹一定页数的书刊上出现的错别字个数超几何分布的应用背景1.采用不重复抽样，各次试验并不独立，成功的概率也互不相等2.总体元素的数目N很小，或样本容量n相对于N来说较大时，样本中“成功”的次数则服从超几何概率分布3.概率分布函数为连续型概率分布：正态分布:1.由C.F.高斯(Carl Friedrich Gauss，1777—1855)作为描述误差相对频数分布的模型而提出2.描述连续型随机变量的最重要的分布3.许多现象都可以由正态分布来描述4.可用于近似离散型随机变量的分布⏹例如：二项分布5.经典统计推断的基础标准正态分布1.随机变量具有均值为0，标准差为1的正态分布2.任何一个一般的正态分布，可通过下面的线性变换转化为标准正态分布3.标准正态分布的概率密度函数4. 标准正态分布的分布函数数据的正态性评估：Q-Q 图和P-P 图的应用1. 对数据画出频数分布的直方图或茎叶图⏹ 若数据近似服从正态分布，则图形的形状与上面给出的正态曲线应该相似3. 绘制正态概率图。

有时也称为分位数—分位数图或称Q -Q 图或称为P-P 图⏹ 用于考察观测数据是否符合某一理论分布，如正态分布、指数分布、t 分布等等⏹ P-P 图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的⏹ Q-Q 图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的4. 使用非参数检验中的Kolmogorov-Smirnov 检验(K-S 检验)由正态分布导出的几个重要分布：χ2分布、t 分布、F 分布的特点χ2分布:1. 由阿贝(Abbe) 于1863年首先给出，后来由海尔墨特(Hermert)和卡·皮尔逊(K ·Pearson) 分别于1875年和1900年推导出来2. 设，则3. 令，则 y 服从自由度为1的χ2分布，即4. 对于n 个正态随机变量y 1 ，y 2 ，y n ，则随机变量5. 称为具有n 个自由度的χ2分布，记为性质和特点 1. 分布的变量值始终为正2. 分布的形状取决于其自由度n 的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称3. 期望为：E (χ2)=n ，方差为：D (χ2)=2n (n 为自由度)4. 可加性：若U 和V 为两个独立的χ2分布随机变量，U ~χ2(n 1)，V ~χ2(n 2),则U +V 这一随机变量服从自由度为n 1+n 2的χ2分布t 分布:1. 提出者是William Gosset ，也被称为学生分布(student ’s t)2. t 分布是类似正态分布的一种对称分布，通常要比正态分布平坦和分散。