统计学 贾俊平 考研 知识点总结

统计学 贾俊平 考研 知识点总结
统计学 贾俊平 考研 知识点总结

统计学重点笔记

第一章导论

一、比较描述统计和推断统计:

数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。

(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。内容包括取得研究所需要

的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出

反映所研究现象的一般性特征。

(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,

然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。

其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分

析等等。

(3)两者的关系:描述统计是基础,推断统计是主体

二、比较分类数据、顺序数据和数值型数据:

根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

(1)分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。

(2)顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。

(3)数值型数据是按数字尺度测量的观察值。其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。

总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的

数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。

三、比较总体、样本、参数、统计量和变量:

(1)总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的,需要注意的是,统计意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据。

(2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。

(3)参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体比例。由于总体参数通常是不知道的,所以参数是一个未知的常数。所以才需要进行抽样,根据样本来估计总体参数

(4)样本量是用来描述样本特征的概括性数字度量。统计量是根据样本数据计算出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总是知道的,抽样的目的就是要根据样本统计量推断总体参数。

(5)变量是说明现象某种特征的概念。变量的特点是从一次观察到下一次观察会呈现出差别或变化,分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量。

第二章数据收集

一、调查方案的主要内容:

(1)调查目的:是调查所要达到的具体目标,他所回答的是“为什么调查”“要解决什么样的问题”等

(2)调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或调查范围。调查单位是构成调查队选中的每一个单位,它是调查项目和调查内容的承担着或载体。所要解决的是“向谁调查”由谁来提供所需数据

(3)调查项目和调查表:调查项目要解决的问题是“调查什么”,也就是调查的具体内容,大多数统计调查中,调查项目通常以表格的形式来表现,称为调查表

二、数据的误差:统计数据的误差通常是指统计数据与客观现实之间的差距,误差的类型主要有抽样误差和非抽样误差两类。

(1)抽样误差:主要是指在用样本数据进行推断时所产生的随机误差。只存在于概率抽样中。这类误差通常是无法消除的,但事先可以进行控制和计算。

影响抽样误差大小的因素:

(a)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;反之,越大。这是因为随着样本数目的增多,样本结构越接近总体,抽样调

查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。

(b)总体背研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小,反之,越大。抽样误差和总体标志的变异程度呈正比变化。

这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。则样本指标与总

体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本

指标等于总体指标,此时不存在抽样误差

(c)抽样方法的选择。重复抽样和非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复抽样的抽样误差小

(d)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样

误差,作出判断各种抽样组织方式的比较标准。

(2)非抽样误差:主要包括:抽样框误差,回答误差、无回答误差、调查员误差;是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差

主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者所造成的误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据。非抽样误差理论上是可以消除的。

三、简单随机抽样:

(1)概念:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本

的概率是相等的;

(2)特点:a、简单、直观,在抽样框完整时,可直接从中抽取样本

b、用样本统计量对目标量进行估计比较方便

(3)局限性

?当N很大时,不易构造抽样框

?抽出的单位很分散,给实施调查增加了困难

?没有利用其它辅助信息以提高估计的效率

lg(lg()

2lg()

lg(1n K +=

第三章 数据的整理与展示

一、数据排序的目的:

(1)数据排序是按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索

(2)排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。

(3)在某些场合,排序本身就是分析的目的之一。

二、数据分组:

是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和组距分组两种,单变量分组通常只适合于离散变量,且在变量值较少的情况下使用,在连续变量或变量值较多情况下,通常采用组距分组。

三、组距分组的步骤和原则:

(1)步骤:

a 、确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际

分组时,可以按 Sturges 提出的经验公式来确定组数K b 、 确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据

的最大值和最小值及所分的组数来确定,即

组距=( 最大值 - 最小值)÷ 组数

c 、统计出各组的频数并整理成频数分布表

(2)原则:

采用组距分组时,需遵循“不重不漏”的原则,“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。为解决不重的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。当然,对于离散变量,我们可以采

用相邻两组组限间断的办法解决“不重”的问题。也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。缺点:组距分组掩盖了各组内的数据分布状况

四、直方图和条形图的区别:

首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与宽度均有意义。

其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。

最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据。

五、绘制线图应注意的问题:

(1)时间一般绘在横轴,观测数据绘在纵轴

(2)图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致是10:7.

(3)一般情况下,纵轴数据下端应从0开始,以便于比较,数据与0之间的间距过大,可以采取折断的符号将纵轴折断

六、设计统计表注意的问题:

首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置应安排合理。

其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确切地概括出统计表的内容。

再次,表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不封口,列标题之间可以用竖线分开,而行标题之间通常不必用横线隔开。

最后,在使用统计表时,必要时可在表下方加上注释,特别注意标明数据来源。

七、数据的审核:

(1)原始数据:

a、完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指标

是否填写齐全

b、准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际;检

查数据是否有错误,计算是否正确等

(2)二手数据:

a、适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定数

据是否符合自己分析研究的需要

b、时效性审核:尽可能使用最新的数据

八、数据的整理与显示(基本问题)

(1)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法

是不同的

(2)对分类数据和顺序数据主要是做分类整理

(3)对数值型数据则主要是做分组整理

(4)适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层

次数据的整理和显示方法并不适合于低层次的数据

第四章数据的概括性度量

一、集中趋势和离散趋势的度量:

(1)集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心

点的位置所在。描述集中趋势所采用的测度值分为:众数、中位数和分位数、平均数。

(2)离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心

值得程度,因此也称为离中趋势,数据的离散程度越大,集中趋势的测度值对该组数

据的代表性越差,反之,代表性越好。描述数据离散程度所采用的测度值,根据所依

据的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平

均差以及测度相对离散程度的离散系数。

二、众数、中位数和平均数:

(1)三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数的处于一组数据中间位置上的值,而平均数则是全部数据的算数平均。因此,对于具

有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:

(a)如果数据的分布是对称的,众数、中位数、平均数必定相等

(b)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值的影响,因此三者的关系为众数>中位数>平均数

(c)如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数<中位数<平均数。

(2)特点及应用场合

(a)众数是一组数据的峰值,是一种位置代表词,不受极端值的影响,具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。

虽然对于顺序数据以及数值型数据也可以计算众数,但众数主要适合于作为分类数据

的集中趋势测度值。

(b)中位数是一组数据中间位置上的代表值,主要适合于作为顺序数据的集中趋势测度值,虽然对于顺序数据可以使用众数,但以中位数为宜。

(c)平均数是就数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。平均数主要适合于作为数值型数据的集中趋势测度值。当

数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这是我们应该选择

平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值得影响,对于

偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜的

程度较大时,我们可以考虑选择众数或中位数等位置代表词。

三、异种比率:

是非众数组的频数占总频数的比率。主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差。反之,

越小,众数的代表性越好。异种比率重要适合测度分类数据的离散程度。当然,对于

顺序数据以及数值型数据也可以计算异种比率。

四、四分位差:

是上四分位数与下四分位数之差。反映了中间50%数据的离散程度,其数值越小,说明中间数据越集中,数值越大,说明中间数据越分散。四分位差不受极值的影响。

主要用于测度顺序数据的离散程度,当然,对于数值型数据也可以计算四分位差,但

不适合于分类数据。

五、方差和标准差:

极差是一组数据的最大值与最小值之差,也称为全距。它容易受极端值的影响,

由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不

能准确描述出数据的分散程度。

平均差是各变量值与其平均数离差的绝对值的平均数,平均差以平均数为中心,

反映了每个数据与平均数的平均差异程度,它能全面准确的反映一组数据的离散状况。平均差越大说明数据的离散程度就越大,反之,越小。为了避免离差之和等于0而无

法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示

总离差。

方差(或标准差)是实际中应用最广泛的离散程度测度值,因此它能准确的反映

出数据的离散程度。方差是各变量值与其平均数离差平方的平均数。

标准差是方差的平方根,与方差不同的是,标准差是具有量纲的,它与变量值的

计量单位相同,其实际意义要比方差清楚,因此,在对实际问题进行分析时,我们更

多的使用标准差。

六、标准分数:

标准分数是指变量值与其平均数的离差除以标准差后的差。可以测度每个数据在

该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据,也给出了一组

数据中各数值的相对位置,例如,如果某个数值的标准分数为-1.5,我们就知道该数

值低于平均数1.5倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要

对各变量数值进行标准化处理。标准分数具有平均数为0、标准差为1的特性。实际上,标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中

的位置,也没有改变改组数据分布的形状,而只是使该组数据的平均数为0、标准差

为1。

七、经验法则:

经验法则表明:当一组数据对称分布时

(1)约有68%的数据在平均数加减1个标准差的范围之内

(2)约有95%的数据在平均数加减2个标准差的范围之内

(3)约有99%的数据在平均数加减3个标准差的范围之内

八、切比雪夫不等式:

如果一组数据不是对称分布,经验法则就不再适用,这时就要使用切比雪夫不等式,它对任何分布形状的数据都适用,对于任意分布形态的数据,根据切比雪夫不等式,

至少有(1-1/)的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。对于k=2、3、4,该不等式的含义是:

(1)至少有75%的数据在平均数加减2个标准差的范围之内

(2)至少有89%的数据在平均数加减3个标准差的范围之内

(3)至少有94%的数据在平均数加减4个标准差的范围之内

九、相对离散程度:离散系数的作用:

极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大。绝对水平小的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此对于平均水平不同或者计量单位不同的不同组别的变量值,是不能用上述离散程度的测度值直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。离散系数是指一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量,通常是就标准差来计算的,因此也称为标准差系数,离散系数的作用主要是用于比较对不同样本数据的离散程度。离散系数大的说明数据的离散程度大,离散系数小的说明数据的离散程度小。

十、测度数据分布形状的统计量:

(1)偏态:如果一组数据的分布的对称的,则SK=0,如果SK明显不等于零,表明分布是非对称的。当SK为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,为负偏或左偏,SK的值越大,表示倾斜的程度就越大

(2)峰态:如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不同于0,表明分布比正太分布更平或更尖,通常称为平峰分布或尖峰分布。当K>0时为尖峰分布,当K<0时为扁平分布

第五章概率与概率分布

一、常见的离散型概率分布:

(1)两点分布

(2)二项分布:n重伯努利试验满足下列条件:a、一次实验只有两种结果,即成功和失败,这里的成功是指感兴趣的某种特征。b、一次实验成功的概率是p,失败的概率是q=1-p,而且概率p对每次实验都是相同的。c、实验是相互独立的。d、实验

可以重复进行n次。e、在n次试验中,成功的次数对应一个离散型随机变量,用X表示

(3)泊松分布:重要特征:a、所考查的事件在任意两个长度相等的区间里发生一次的机会均等。b、所考察的事件在任何一个区间里发生与否和在其他区间里发生与否没有相互影响,即是独立的。泊松分布的另一个重要用途是作为二项概率分布的近似。对一个n重伯努利实验,p代表每次伯努利实验成功的概率,当实验次数n相对很大,成功概率p相对很小,而乘积np大小适中时,泊松分布的一般表达式与二项分布的一般表达式近似相等,

(4)超几何分布:二项分布只适合于重复抽样,但在实际抽样中,很少采用重复

抽样。不过,当总体的元素数目N很大而样本容量n相对于N很小时,二项分布仍然适用。但如果是采用不重复抽样,各次实验并不独立,成功的概率也互不相等,而且

总体元素的数目很小或样本容量n相对于N来说较大时,二项分布就不再适用,这时,样本中成功的次数则服从超几何分布。

超几何分布与二项分布的关系:由于呈几何分布所描述的实验与n重伯努利实验相似,所以超几何分布与二项分部之间也存在着十分特殊而有意义的联系,从直观上

来看吗,如果总体中的元素个数N很大,使得M的有限变化相对于N而言比较小,那么超几何分布趋向于二项分布。这是因为在N趋于无穷大时,每次抽样的样品即使不

放回,对其后代表成功的事件发生的概率也不会有太大影响,可以近似认为不变,二

者恰好满足了二项分布的前提。

二、正态分布的曲线的性质:

(1)正态曲线的图形是关于x=μ的对称钟形曲线,且峰值在x=μ处、

(2)正态分布的两个参数均值μ和标准差σ一旦确定,正态分布的具体形式就唯一确定,不同参数取值的正太分布构成一个完整的正态分布族。

(3)正态分布的均值μ可以是实数轴的任意数值,他决定正态曲线的具体位置,

标准差σ相同二均值不同的正太曲线在坐标轴上体现为水平位移

(4)正态分布的标准差σ为大于0的实数,他决定正态曲线的“陡峭“或”扁平“程度。σ越大,正太曲线越扁平;σ越小,正太曲线越陡峭。

(5)当X的取值向横轴左右两个方向无限延伸时,正态曲线的左右两个尾端也无限渐进横轴,但理论上永远不会与之相交。

(6)与其他连续型随机变量相同,正太随机变量在特定区间上的取值概率由正太曲线下的面积给出,而且其曲线下的面积等于1

◆经验法则:

●正态随机变量落入其均值左右各1个标准差内的概率是

68.27%

●正态随机变量落入其均值左右各2个标准差内的概率是

95.45%

●正态随机变量落入其均值左右各3个标准差内的概率是

99.73%

三、数据正态性的评估方法:

(1)、对数据画出频数分布的直方图或茎叶图。若数据近似服从正态分布,则图形的形状与上面给出的正太曲线应该相似

(2)、求出样本数据的四分位差/s≈1.3.

(3)、对数据作正太概率图。若数据近似服从正态分布,则数据点将落在一条近似直线上

四、什么条件下用正态分布分布近似计算二项分布的效果较好

当样本容量n越来越大时,二项分布越来越近似服从正太分布,这时,二项随机变量的直方图的形状接近正太分布的图形形状。

即使对于小样本,当p=0.5时,二项分布的正太近似仍然相当好,此时随机变量X的分布是相对是相对于其平均值μ=np对称的。当平p趋于0或1时,二项分布将呈现出偏态,但当n变大时,这种偏斜就会消失。一般来说,只有当n大到使np和n (1-p)大于或等于5时,近似的效果就相当好。

五、均匀分布的直观概率意义:

将区间〔a,b〕划分为任意多个小区间。随机变量X在任何小区间上取值的概率大小与该小区间的长度成正比,而与该小区间的具体位置无关。

第六章抽样与抽样分布

一、比较分层抽样、系统抽样和整群抽样

(1)分层抽样是指将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。优点:a、保证样本的结构与总体的结构比较相近,从而提高估计的精度b、组织实施调查方便c、既可以对总体参数进行估计,也可以对各层的目标量进行估计。d、分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀

(2)系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位。优点:操作简便,系统抽样的样本在总体中的分布一般也比较均匀,由此抽样误差通常要小于简单随机抽样,提高估计的精度缺点:对估计量方差的估计比较困难

(3)整群抽样是指将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查优点是:不需要有总体的具体名单而只要有群的名单就可以进行抽样,而群的名单比较容易得到;此外调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差

二、比较三种不同性质的分布

(1)总体分布指总体中各元素的观察值所形成的相对频数的分布。分布通常是未知的,可以假定它服从某种分布

(2)样本分布是指从总体中抽取一个容量为n的样本,由这n个观察值形成的相对频数分布。也称经验分布。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布

(3)从一般意义上说,抽样分布是指样本统计量的概率分布,样本统计量的概率分布。随机变量是样本统计量,如样本均值, 样本比例,样本方差等。结果来自容量相同的所有可能样本;提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据

三、中心极限定理

随着样本容量n的增大(n>=30),不论原来的总体是否服从正态分布,样本值的抽样分布都趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n,这就是中心极限定理,表述为:设从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布

四、重复抽样和不重复抽样相比,抽样均值分布的标准差有何不同

样本均值的方差与抽样方法有关,在重复抽样条件下,样本均值的方差为总体方差的1/n ,即 在不重复抽样条件下,样本均值的方差则需要用修正系数去修正重复抽样时样本均值的方差,即

不重复抽样的样本均值的方差小于重复抽样时的样本均值的方差

对于无限总体进行不重复抽样时,可以按照重复抽样来处理,对于有限总体,当 N 很大,而抽样比n/N 很小时,其修正系数趋于1,这时样本均值的方差也可以按照重复抽样的样本均值的方差公式来计算

五、χ2分布的性质和特点

(1)分布的变量值始终为正

(2)分布的形状取决于其自由度n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称

(3)期望为:E(χ2)=n ,方差为:D(χ2)=2n (n 为自由度)

(4)可加性:若U 和V 为两个独立的χ2分布随机变量,U ~χ2(n 1), V ~χ2(n 2),则U +V 这一随机变量服从自由度为n 1+n 2的χ2分布

第七章 参数估计

一、评价估计量的标准

实际上,用于估计的的估计量有很多,如我们可以用样本均值作为总体均值的估计量,也可以用样本中位数作为总体均值的估计量,什么样的估计量才算是一个好的估计量呢?这需要一定的评价标准:

1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为,被选择的估计量为

,如果E()=,称为的无偏估计量。 θθθ?θ?θθ?θX

22

n X 22σσ=22X ??

? ??--=122N n N n X σσ

2、有效性:对同一总体参数的两个无偏估计量,方差较小的是更有效的估计量。

3、一致性:随着样本容量的增大,点估计量的值越来越接近被估的总体的参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数

二、怎样理解置信区间

置信区间:由样本统计量所构造的总体参数的估计区间,其中区间的最小值称为置信下限,区间最大值称为置信上限。是一个随机区间,的置信区间意味着,置信区间包含未知参数的概率为,这个区间会随着样本观察值的

不同而不同。但100次运用这个区间,约有100()个区间能包含参数,也就是说大约还有100 a个区间不包含总体参数

判断置信区间优势的标准(好的置信区间的特性):置信度越高越好;置信区间宽度越小越好。

三、影响区间宽度的因素

1. 总体数据的离散程度,用 s 来测度

2.样本容量:当置信水平固定时,置信区间的宽度随着样本容量的增大而减小,

换言之,较大的样本所提供的有关总体的信息要比小样本多。

3. 置信水平 (1 - a),影响z 的大小:置信水平越大,z越大

四、简述样本容量与置信水平、总体方差、估计误差的关系

()

(1)样本量与置信水平呈正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就越大

(2)样本量与总体方差呈正比,总体的差异越大,所需的样本容量就越大

(3)样本量与边际误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小

五、的含义是什么?

是标准正态分布上侧面积为时的z值。是估计总体均值时的边际误差,也称为估计误差或误差范围

六、对两个总体均值之差的小样本估计中,对两个总体和样本

都有哪些假定

(1)两个总体都服从正态分布

(2)两个随机样本独立地分别抽自两个总体

七、解释95%的置信区间

抽取100个样本,根据每个样本构造一个置信区间,这样由100个样本构造的总体参数的100个置信区间中,95%的区间包含了总体参数的真值,而5%没包含

八、对于总体比例的估计,确定样本容量是否“足够大“的一般经验规则是:区间

()中不包含0或1.或要求np5和n(1-p) 5

八、独立样本和匹配样本

如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本。匹配样本是指一个样本中的数据与另一个样本中的

数据相对应

九、估计量和估计值

(1)估计量:用于估计总体参数的随机变量

?如样本均值,样本比例、样本方差等

?例如: 样本均值就是总体均值m 的一个估计量

θ?

参数用θ表示,估计量用表示

(2)估计值:估计参数时计算出来的统计量的具体值

?如果样本均值?x=80,则80就是m的估计值

第八章假设检验

一、参数估计和假设检验的区别和联系

(1)主要联系:

a.都是根据样本信息推断总体参数;

b.都以抽样分布为理论依据,建立在概率论基础之上的推断,推断结果都有风险;

c.对同一问题的参数进行推断,使用同一样本,同一统计量,同一分布,二者可相互转换

(2)主要区别:

a.参数估计是以样本信息估计总体参数的可能范围,假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立;

b.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;

c.区间估计立足于大概率,通常以较大的可信度(1-a)去估计总体参数的置信区间。假设检验立足于小概率。通常是给定很小的显著性水平a去检验总体参数的先验假设是否正确

二、什么是假设检验中的显著性水平?统计显著是什么意思?

(1)显著性水平是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率,通常用表示,它是人们根据经验的要求确定的,通常取或。显著性水平是人们事先指定的犯第Ⅰ类错误概率的最大允许值,确定了显著性水平,就等于控制了第Ⅰ类错误的概率。但犯第Ⅱ类错误

的概率却是不确定的

(2)统计显著值在原假设为真的条件下,用于检验的样本统计量的值落在了拒绝域内,作出了拒绝原假设的决定

三、什么是假设检验的两类错误及其数理关系怎样

(1)假设检验中所犯的错误有两种:一类错误是原假设为真却别拒绝了,犯这类错误的概率用表示,也称第Ⅰ类错误。另一类错误是原假设为假却没有拒绝,犯这种错误的概率用表示,也称第Ⅱ类错误

(2)当增加时减小,当增大时减小,要使和同时减小的唯一办法是增加样本容量

四、假设检验的步骤

(1)陈述原假设和备择假设。

(2)从所研究的总体中抽出一个随机样本

(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值

(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域

(5)将统计量的值与临界值进行比较,作出决策。统计量的值落在拒绝域,拒绝,否则不拒绝,或者也可以直接利用P值作出决策

五、建立原假设和备择假设的原则(建立假设的几点认识)

(1)原假设和备择假设是一个完备事件组,且相互独立

(2)在建立假设时,通常是先确定备择假设,然后再确定原假设

(3)在假设检验中,等号“=”总是放在原假设上。这是因为我们想涵盖备择假设不出现的所有情况

(4)这样的假设本质上带有一定的主观色彩,在面对某一实际问题,由于不同研究者有不同的研究目的,即使对同一问题也可能提出截然相反的原假设和备择假设,这并不违背假设的最初定义,只要符合研究的最终目的就是合理的

六、单双侧检验的区别

备择假设具有特定的方向性,并含有“<”或“>”的假设检验,称为单侧检验或单尾检验。

备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验

在单侧检验中,由于研究者感兴趣的方向不同,又可分为左侧检验和右侧检

七、检验统计量的特征和用途

检验统计量是指根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量。

检验统计量实际上是总体参数的点估计量,只有将其标准化后,才能用以度量它与原假设的参数值之间的差异程度。而对点估计量标准化的依据则是:a、原假设为真;b、点估计量的抽样分布。实际上,假设检验中所用的检验统

计量都是标准化检验统计量,它反映了点估计量与假设的总体参数相比相差多

少个标准差。

八、拒绝域面积与大小的关系

当样本容量固定时,拒绝域的面积随着的减小而减小。越小,拒绝原假

设所需要的检验统计量的临界值与原假设的参数值就越远。拒绝域的位置取决

于检验是单侧检验还是双侧检验,双侧检验的拒绝域在抽样分布的两侧,而单

侧检验中,如果备择假设具有符号“<”,拒绝域位于抽样分布的左侧,故称为

左侧检验。如果备择假设具有符号“>”,拒绝域位于抽样分布的右侧,故称

为右侧检验。

九、显著性水平的局限性

显著性水平实在检验之前确定的,这也就意味这我们事先确定了拒绝域。

这样,不论检验统计量的值是大还是小,只要他的值落入拒绝域就拒绝原假设,否则不拒绝原假。这种固定的显著性水平对检验结果的可靠性起一种度量作用。但不足的是,是犯第Ⅰ类错误的上限控制值,它只能提供检验结论可靠性的一个大致范围,而对于一个特定的假设检验问题,却无法给出观测数据与原假设

之间不一致程度的精确度量,也就是说,仅从显著性水平比较,若选择的值相同,所有的检验结果的可靠性都一样。

十、P值较小时为什么要拒绝原假设

P值是指在原假设为真的条件下,检验统计量的观察值大于或等于其计算

值的概率。

P 值是反映实际观测到的数据与原假设 之间不一致程度的一个概率值。P 值越小,说明实际观测到的数据与 之间不一致的程度就越大,检验的结果也就越显著

十一、显著性水平 与P 值得区别

(1) 的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率,是有人们根据检验的要求确定的,通常 或 而P 值是原假设为真时所得到的样本观察结果或更极端结果出现的概率,它是通过计算得到的,P 值得大小取决于三个因素:样本数据与原假设之间的差异、样本量、被假设数据的总体分布

(2) 只能提供检验结论的可靠性地一个大致范围,而对于一个特定的假设检验为题,却无法给出观测数据与原假设之间不一致程度的精确度量。即仅从显著性水平来比较,如果选择的 值相同,所有检查结果的可靠性都一样。 而P 值可以测量出样本观察数据与原假设中假设的值的偏离程度。

十二、总体均值的检验

在对总体均值进行假设检验时,采用什么检验步骤和检验统计量取决于我们所抽取的样本是大样本(n )还是小样本(n ),此外还需要区分总体是否服从正态分布、总体方差 是否已知等几种情况。

(1)大样本的检验方法:样本均值经过标准化后服从正态分布,设假设的总体均值为 ,当总体方差 已知时,总体均值检验的统计量为: 当总体方差未知时,可以用样本方差 来近似代替总体方差,此时总体均值检

验的统计量为

(2)小样本的检验方法:

总体方差 已知时,即使在小样本下,检验统计量仍然服从正太分布,因此仍然按照 来计算。 0)

1,0(~0N n X Z σμ-=

0)1,0(~0N n

S X Z μ-=0)1,0(~0N n

X Z σμ-=

总体方差 未知时,需要用样本方差 代替总统方差 ,此时检验统计量服从自由度为n-1的t 分布。因此需要采用t 分布来检验总体均值,通常称为“t 检验”。检验的统计量为:

第九章 方差分析与实验设计

一、方差分析的概念及理解

方差分析是指检验多个总体均值是否相等的统计方法。所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

它研究的是多哥总统均值是否相等的统计方法,但本质是研究分类型自变量对数值型因变量的影响。

二、方差分析和回归分析的区别和联系

区别:

(1)方差分析中沿水平轴的自变量是分类变量;而回归分析沿水平轴的自变量是数值型变量。

(2)方差分析中,既然自变量是分类变量,就可以把它放在水平轴的任意位置上;而回归分析的自变量是数值型变量,它在水平轴上的位置是从按小到大的数值排列的,因此只有一种方式来放这些数值,并且可以画出一条穿过这些点的直线。

(3)方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响;而回归分析是根据一组样本数据确定出变量之间的数学关系式,然后对关系式的可信程度进行各种统计检验,并找出哪些变量的影响是显著的,哪些不显著等

三、方差分析中的基本原理

(1)方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有影响

(2)数据的误差是用平方差来表示的,包括组内误差和组间误差

(3)组内误差只包含随机误差,而组间误差既包括随机误差,又包括系统误差 n S X t 0μ-=

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

统计学 贾俊平 考研 知识点总结材料

统计学重点笔记 第一章导论 一、比较描述统计和推断统计: 数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。 (1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。 (2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。其容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。 (3)两者的关系:描述统计是基础,推断统计是主体 二、比较分类数据、顺序数据和数值型数据: 根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。 (1)分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。 (2)顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。 (3)数值型数据是按数字尺度测量的观察值。其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。 总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。 三、比较总体、样本、参数、统计量和变量:

统计学人教版第五版课后题答案

统计学 第五版贾俊平版课后题答案(部分) 第三章数据的图表展示 3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C E E A B D D C A D B C C A E D C B C B C E D B C C B C 要求: (1)指出上面的数据属于什么类型。 顺序数据 (2)用Excel制作一张频数分布表。 用数据分析——直方图制作: 接收频率 E16 D17 C32 B21 A14 (3)绘制一张条形图,反映评价等级的分布。 用数据分析——直方图制作:

(4)绘制评价等级的帕累托图。 逆序排序后,制作累计频数分布表: 接收 频数 频率(%) 累计频率(%) C 32 32 32 B 21 21 53 D 17 17 70 E 16 16 86 A 14 14 100 5101520253035C D B A E 20406080100120 3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126 要求: (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。 1、确定组数: ()l g 40l g () 1.60206 111 6.32l g (2)l g 20.30103 n K =+ =+=+=,取k=6 2、确定组距: 组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

统计学基础知识要点 很重要

第一章:导论 1、什么是统计学?统计方法可以分为哪两大类? 统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方法和推断统计方法。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。 按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据是在没 有对事物进行人为控制的 条件下等到的;实验数据的 在实验中控制实验对象而 收集到的数据。按被描述的 对象与时间关系分时:截面 数据所描述的是现象在某 一时刻的变化情况;时间序 列数据所描述的是现象随 时间而变化的情况。 3、举例说明总体、样本、 参数、统计量、变量这几个 概念。 总体是包含研究的全部个 体的集合。比如要检验一批 灯泡的使用寿命,这一批灯 泡构成的集合就是总体。样 本是从总体中抽取的一部 分元素的集合。比如从一批 灯泡中随机抽取100个,这 100个灯泡就构成了一个样 本。参数是用来描述总体特 征的概括性数字度量。比如 要调查一个地区所有人口 的平均年龄,“平均年龄” 即为一个参数。统计量是用 来描述样本特征的概括性 数字度量。比如要抽样调查 一个地区所有人口的平均 年龄,样本中的“平均年龄” 即为一个统计量。变量是说 明现象某种特征的概念。比 如商品的销售额是不确定 的,这销售额就是变量。 第二章:数据的收集 1、调查方案包括哪几个方 面的内容? 调查目的,是调查所要达到 的具体目标。调查对象和调 查单位,是根据调查目的确 定的调查研究的总体或调 查范围。调查项目和调查 表,要解决的是调查的内 容。 2、数据的间接来源(二手 数据)主要是公开出版或公 开报道的数据;数据的直接 来源一是调查或观察,二是 实验。 3、统计调查方式:抽样调

贾俊平 统计学(第六版)思考题答案

1、什么是统计学? 统计学是一门收集、分析、表述、解释数据的科学和艺术。 2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 3、统计学据可以分成哪几种类型,个有什么特点? 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同。分为:观测数据、和实验数据 观测数据:通过调查或观测而收集到的数据;不控制条件; 社会经济领域 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 4、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合。 参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等) 统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等) 变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额、受教育程度、产品质量等级等) (对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。) 5、变量可以分为哪几类? 分类变量:说明事物类别;取值是分类数据。 顺序变量:说明事物有序类别;取值是顺序数据 数值型变量:说明事物数字特征;取值是数值型数据。 变量也可以分为:随机变量和非随机变量;经验变量和理论变量 6、举例说明离散型变量和连续型变量。 离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量) 连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。 市场调查、人口普查等。 8、请举出应用统计学的几个领域。 社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。

统计学第四章习题答案-贾俊平

第四章统计数据的概括性度量 4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15 要求: (1)计算汽车销售量的众数、中位数和平均数。 (2)根据定义公式计算四分位数。 (3)计算销售量的标准差。 (4)说明汽车销售量分布的特征。 解: Statistics 10 Missing0 Mean9.60 Median10.00 Mode10 Std. Deviation 4.169 Percentiles25 6.25 5010.00 75 单位:周岁1915292524 2321382218 3020191916 2327223424 4120311723 要求; (1)计算众数、中位数: 排序形成单变量分值的频数分布和累计频数分布:

网络用户的年龄 (2)根据定义公式计算四分位数。 Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。 (3)计算平均数和标准差; Mean=24.00;Std. Deviation=6.652 (4)计算偏态系数和峰态系数: Skewness=1.080;Kurtosis=0.773 (5)对网民年龄的分布特征进行综合分析: 分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。

1、确定组数: ()lg 25lg() 1.398111 5.64lg(2)lg 20.30103 n K =+ =+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取5 3、分组频数表 网络用户的年龄 (Binned) 分组后的直方图:

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

统计学20个重点知识整理

一、统计的含义及其之间的关系 统计一词一般有三种含义,即统计工作、统计资料和统计学。 1、统计工作即统计实践活动,是指按照调查研究的任务,对社会经济现象的数量方面进行搜集资料、整理资料和分析运用资料等一系列调查研究的工作过程。 2、统计资料是指反映社会经济现象特征的各项数字资料以及与之有联系的其他资料,包括调查阶段搜集的原始资料,经过加工整理和分析后的图标和文字资料等系统资料。 3、统计学是研究怎样进行社会经济统计活动的方法论科学,它阐述了统计研究社会经济现象的数量和数量关系时应该遵循的原理、原则和采用的方法等,是系统化的知识体系。 4、关系:统计资料是统计工作的成果,是对社会经济现象进行统计研究的基础;统计学是统计活动经验的科学总结和理论概括,统计学来源于实践,又高于实践,对统计实践起着指导的作用;统计工作要以统计学的理论为指导,并检验和发展统计理论。 二、统计总体和统计单位及其之间的关系 1、统计总体:是由客观存在的、具有某种共同性质的许多个别单位所构成的整体,简称总体。 2、统计总体的特征:大量性、同质性、差异性 3、总体单位:构成统计总体的个别事物 4、例:要研究某一乡镇企业的职工素质情况,则该乡镇企业的全体人员构成一个总体,其中每一个职工就是总体单位。 5、关系:a.总体由总体单位组成; b.组成总体的个体是有差别的; C.根据统计研究目的的不同,总体与总体单位是可以相互转化的。 三、统计指标和统计标志之间的关系 两者之间既有明显的区别,又有密切的联系。主要区别在于: 1、指标说明总体特征;而标志则说明总体单位特征; 2、统计指标必须是可量的;统计标志未必都是可量的; 3、统计指标具有综合性;而统计标志一般不具有综合性; 两者之间的主要联系在于: 1、许多统计指标的指标数值是从总体单位的数量标志值汇总而来; 2、指标与标志之间存在着变换关系; 例如:要了解我国粮食生产状况,则我国的粮食总产量是指标,而某省的粮食总产量是标志。 四、一个完整的统计调查方案包括的内容 1、确定调查目的; 2、确定调查对象和调查单位; 3、确定调查项目,设计调查表; 4、确定调查时间和方法; 5、制定调查工作的组织实施计划 五、统计调查的分类 1、按统计调查方式的不同,可分为定期统计报表和专门调查; 2、按调查总体包括的范围不同,可分为全面调查和非全面调查; 3、按调查登记的时间是否具有连续性,可分为经常性调查和一次性调查; 4、按统计调查是否具有强制性,可分为政府统计调查、民间统计调查和涉外社会调查; 5、按收集资料的方法,可分为直接观察法、报告法、采访法和问卷法

贾俊平 统计学 总结

第一章导论 概念: 统计学:收集、处理、分析、解释数据井从数据中得出结论的科学。 统计的分类: 描述统计:研究的是数据收集,处理,汇总,图表描述,文字概括与分析等统计方法。 推断统计:是研究如何利用样木数据进行推断总体特征。 数据: 1.分类数据:对事物进行分类的结果数据,表现为类别,用文字来表述。例如,人口按性别分为男、女两类 2.顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 3.数值型数据对事物的精确测度,结果表现为具体的数值。例如:身高为175cm,190cm,200cm 参数:描述总体特征。有总体均值(μ)、标准差()总体比例(T) 统计量:描述样本特征,样本标准差(s),样木比例(p) 统计方法 描述统计推断统计 参数估计假设检验

第二章 数据的搜集 1. 数据来源包括直接来源(一手数据)和间接来源(二手数据) 2. 抽样方式包括概率抽样与非概率抽样 3. 概率抽样:也称随机抽样。按一定的概率以随机原则抽取样本,抽取样本时使每个单位都 有一定的机会被抽中。 4. 5.抽样误差:是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差并不是针对某个样本的检测结果与总体真是结果的差异而言,抽样误差描述 的是所有样本可能的结果与总体真值之间的平均差异。 统计数据的分类 按计量层次 分类的 数据 顺序的数据 数值型数 据 按时间状况 截 面 的 数 据 时序的 数据 按收集方法 观察的数 据 实验的数 据

6.抽样误差的大小与样本量的大小和总体的变异程度有关。 第三章数据的图表展示 计算机实训内容, 要求: 1.数据筛选,自动筛选 2.高级筛选, 3.数据排序 4.分类汇总-利用数据透视表 5.对比条形图 6.环形图 7.累计频数图 8.散点图 9.雷达图 等等 频数分布图两种方法:工具-数据分析-直方图数值型和顺序数据 数据-数据透视表数据透视表 第四章数据的概括性度量

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

统计学知识点梳理

复习提纲:(计算部分全用红色标注了!其他红色的是我的推断,可能出什么题型;有下划线的重点记忆!当然整理的知识点都是重点!都要背和理解!Fighting!) 第一章绪论 一.统计的含义 即统计工作、统计资料和统计学 统计工作:统计实践活动,搜集,整理,分析和提供关于社会现象数字资料工作总称 统计资料:统计实践活动过程中所取得的各项资料,包括原始资料和加工整理资料 统计学:关于认识客观现象总体数量特征和数量关系的科学 二.统计工作过程 就一次统计活动来讲,一个完整的认识过程一般可以分为统计调查、统计整理和统计分析三个阶段。

统计调查:第一阶段,是认识客观经济现象的起点,是统计整理和统计分析的基础。 统计整理:第二阶段,处于统计工作的中间环节,起着承前启后的作用。 统计分析:第三阶段,通过第三阶段,事物由感性认识上升到理性认识。 三.总体与总体单位(会辨析总体与总体单位即可) 总体,亦称统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体;构成总体的这些个别单位称为总体单位。 总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。 例如:所有的工业企业就是一个总体,其中的每一个工业企业就是一个总体单位。 四.标志和指标 标志是用来说明总体单位特征的名称。 指标,亦称统计指标,是说明总体的综合数量特征的。一个完整的统计指标包括数量指标名称和指标数值两部分。(以上内容理解即可) 1.指标和标志的区别和联系(简答) 指标与标志的区别:(1)指标是说明总体特征的,而标志是说明总体单位特征的;(2)指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的;(3)指标数值是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,可直接取得;(4)一个完整的统计指标,一定要讲时间、地点、范围,而标志一般不具备时间、地点等条件。 指标与标志的联系:(1)有许多统计指标的数值是从总体单位的数量标志值汇总而来的;(2)两者存在着一定的变换关系,即由于研究目的不同,原来的统计总体如果变成总体单位了,则相应的统计指标也就变成数量标志了。 2.标志与标志值(会区分) 标志分为品质标志和数量标志,数量标志用来说明总体单位量的特征,可以用数值表示,即为标志值(如:年龄、工资额、身高) 3.变异与变量(会什么是变异,什么是变量) 变异:品质标志在总体单位之间的不同具体表现。如:性别表现为男、女,民族表现为汉、满、蒙等。 变量:数量标志抽象化即为变量,而数量标志的不同具体表现则称为变量值(或标志值)。如:某职工的年龄是42岁,月工资2200元。 4.统计指标的划分 (1)统计指标按其所反映的总体内容的不同,可分为数量指标和质量指标。数量指标指说明总体规模和水平的各种总量指标。质量指标指反应现象总体的社会经济效益和工作质量的各种相对指标和平均指标。 (2)统计指标按其作用和表现形式的不同,有总量指标(绝对数)、相对指标(绝对数)、平均指标(平均数)三种。 第二章统计调查与整理 一.统计调查的含义 统计调查是统计工作过程的第一阶段。它是按照统计任务的要求,运用科学的调查方法,有组织的向社会实际搜索各项原始资料的过程。统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败。 二.统计调查方案设计的内容+调查对象、调查单位的含义 ⒈确定调查目的;(为什么调查) 根据实际需要和可能确定

贾俊平 统计学(第六版)思考题答案

第一章: 1、什么是统计学 统计学是一门收集、分析、表述、解释数据的科学和艺术。 2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 3、统计学据可以分成哪几种类型,个有什么特点 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同。分为:观测数据、和实验数据 观测数据:通过调查或观测而收集到的数据;不控制条件; 社会经济领域 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 4、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定) 样本:从总体中抽取的一部分元素的集合。 参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等) 统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等) 变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额、受教育程度、产品质量等级等) (对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。) 5、变量可以分为哪几类 分类变量:说明事物类别;取值是分类数据。 顺序变量:说明事物有序类别;取值是顺序数据 数值型变量:说明事物数字特征;取值是数值型数据。 变量也可以分为:随机变量和非随机变量;经验变量和理论变量 6、举例说明离散型变量和连续型变量。 离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量) 连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。 市场调查、人口普查等。 8、请举出应用统计学的几个领域。 社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。

统计学(第五版)贾俊平 课后思考题和练习题答案(最终完整版)

统计学(第五版)贾俊平课后思考题和练习题答案(最终完整版) 整理by__kiss-ahuang 第一部分思考题 第一章思考题 1.1什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。 1.2解释描述统计和推断统计 描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。 推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。 1.3统计学的类型和不同类型的特点 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 1.4解释分类数据,顺序数据和数值型数据 答案同1.3 1.5举例说明总体,样本,参数,统计量,变量这几个概念 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 1.6变量的分类 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 1.7举例说明离散型变量和连续性变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数” 连续型变量,取之连续不断,不能一一列举,比如“温度”。 1.8统计应用实例 人口普查,商场的名意调查等。 1.9统计应用的领域 经济分析和政府分析还有物理,生物等等各个领域。

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

统计学原理考试知识点整理

第1章 绪论 1、统计的含义统计一词最基本的含义是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。 2、统计的特点P3 数量性 具体性 综合性 3、统计学的若干基本概念 总体与总体单位P10: 总体是指在某种共性的基础上由许多个别事物结合起来的整体,构成总体的个别事物叫总体单位; 总体的特征:同质性,大量性,差异性;总体的分类:有限总体与无限总体;标志、变异与变量P10: 标志,是指说明总体单位特征的名称。变异:总体单位之间品质和数量上的差异,即可变标志在总体各单位之间所表现出的差异。变量:可变的数量标志。 连续型变量与离散型变量联系和区别:连续型:变量值可作无限分割的变量离散型:变量值只能以整数出现的变量指标与标志P11 (指标,说明总体数量特征的概念)区别:第一,指标说明总体的特征,而标志则说明总体单位的特征。第二,指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用文字回答问题的指标。而标志既有反映数量也有反映品质。 第2 章统计调查 1、统计调查的含义及其在统计工作中的地位P13 含义:根据统计研究的目的,有组织、有计划地搜集统计资料的过程地位:是统计工作的第一阶段,是整个统计工作的基础一环 2、统计调查的基本原则P13-14 一、要实事求是,如实反映情况 二、要及时反映,及时预报 三、要数字与情况相结合 3、统计调查的组织形式:普查P14:含义:为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查、优缺点:,适用场合:主要用于一些重要项目呢的调查,如人口普查、耕地普查、基本单位普查、工业普查和库存普查等; 随机抽样调查P14:含义(按随机原则(机会均等原则)从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法)以及具体的抽样方法【第七章】系统抽样、多阶 简单随机、分层抽样、整群抽样、 段抽样)及适用场合;非随机抽样:含义(调查者有意识地或随意而 非随机地从总体中抽取部分单位进行调查的统计方法)以及具体的抽样方法P15 (重点抽样:只对总体中为数不多但影响颇大的重点单位进行研究的一种非

(完整版)贾俊平统计学[第六版]思考题答案解析.docx

第一章: 1、什么是统计学? 统计学是一门收集、分析、表述、解释数据的科学和艺术。 2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 3、统计学据可以分成哪几种类型,个有什么特点? 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同。分为:观测数据、和实验数据 观测数据:通过调查或观测而收集到的数据;不控制条件; 社会经济领域 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 4、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定) 样本:从总体中抽取的一部分元素的集合。 参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等) 统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等) 变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额、受教育程度、产品质量等级等) (对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特 征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数 值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。) 5、变量可以分为哪几类? 分类变量:说明事物类别;取值是分类数据。 顺序变量:说明事物有序类别;取值是顺序数据 数值型变量:说明事物数字特征;取值是数值型数据。 变量也可以分为:随机变量和非随机变量;经验变量和理论变量 6、举例说明离散型变量和连续型变量。 离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量) 连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。 市场调查、人口普查等。 8、请举出应用统计学的几个领域。 社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。

统计学贾俊平第五版课后习题答案完整版

亲爱的,一章一章来,肯定能弄完的,你是最棒的! 统计学(第五版)贾俊平课后习题答案(完整版) 第一章思考题 i.i什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得岀结论。 1.2解释描述统计和推断统计 描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。 1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 1.4解释分类数据,顺序数据和数值型数据 答案同1.3 1.5举例说明总体,样本,参数,统计量,变量这几个概念 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数” 连续型变量,取之连续不断,不能一一列举,比如“温度”。 1.8统计应用实例 人口普查,商场的名意调查等。 1.9统计应用的领域经济分析和政府分析还有物理,生物等等各个领域。 第二章思考题 2.1什么是二手资料?使用二手资料应注意什么问题 与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料”。使用时要进行评估,要考虑到资料的原始收集人,收集目的,收集途径,收集时间使用时要注明数据来源。 2.2 比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:抽样时按一定的概率以随机原则抽取样本。每个单位别抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置信区间,就使用概率抽样。

相关文档
最新文档