统计学名词解释汇总情况

统计学名词解释汇总情况
统计学名词解释汇总情况

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类

2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据

统计数据;按所采用的计量尺度不同分;

(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。

(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。

统计数据;按统计数据都收集方法分;

观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。

实验数据:在实验中控制实验对象而收集到的数据。

统计数据;按被描述的现象与实践的关系分;

截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。

3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

4什么是有限总体和无限总体?举例说明

有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体

5变量可分为哪几类?

变量可以分为分类变量,顺序变量,数值型变量。

变量也可以分为随机变量和非随机变量。经验变量和理论变量。

6举例说明离散型变量和连续型变量

离散型变量,只能取有限个值,取值以整数位断开,比如“企业

数”

连续型变量,取之连续不断,不能一一列举,比如“温度”。

1数据的预处理包括哪些内容?

数据审核(完整性和准确性;适用性和实效性),数据筛选和数

据排序。

2直方图和条形图有什么区别?

①条形图使用图形的长度表示各类别频数的多少,其宽度固定,

直方图用面积表示各组频数,矩形的高度表示每一组的频数或频

率,宽度表示组距,②直方图各矩形连续排列,条形图分开排列,

③条形图主要展示分类数据,直方图主要展示数值型数据。

3饼图和环形图有什么不同?

饼图只能显示一个样本或总体各部分所占比例,环形图可以同时

绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每

个样本或总体的数据系类为一个环。

4茎叶图和直方图相比有什么优点?

茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即

保留了原始数据的信息。在应用方面,直方图通常适用于大批量

数据,茎叶图适用于小批量数据。

5使用图标应注意哪些问题?

①合理安排统计表结构②表头一般包括表号,总标题和表中数据

的单位等内容③表中的上下两条横线一般用粗线,中间的其他用

细线④在使用统计表时,必要时可在下方加注释,注明数据来源。

1.一组数据的分布特征可以从哪几方面进行测度。

一是分布的集中趋势,反映数据向其中心靠拢或聚集的程度;二

是分布的离散程度,反映各数据远离其中心值的趋势;三是分布

的形状,反映数据分布偏斜程度和峰度。

2.简述四分位数的计算方法:首先对数据进行排序,然后确定四

分位数所在的位置,该位置上的数值就是四分位数。(设25%的

四分位数为Q25%,75%四分位数为Q75%,根据四分位数定义有:

Q25%位置=n/4,Q75%位置=3n/4。

3.对于比率数据为什么采用几何平均。

在实际应用中,对于比率数据的平均采用几何平均要比算数平均

更合理。从公式∏+=+=n 1i i n G G 11)

()(中也可看出,G 就是平均增长率。

4.简述众数、中位数、和平均数的特点和应用场合。

众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不

唯一性。众数主要作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。

均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。

5. 为什么要计算离散系数。

第一,极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小取决于原变量值本身水平高低的影响。第二,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,为消除变量值水平高低和计量单位不同对离散程度的测度值的影响,需要计算离散系数。

6.简述异众比率、四分位差、方差或标准差的适用场合

对于顺序数据,但主要使用四分位差来测量其离散程度;对于数值型数据,虽然可以计算异众比率和四分位差,但主要使用方差或标准差来测量其离散程度。

7. 标准分数有哪些用途?

标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。

1.抽样推断的含义:是在根据随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法,对总体某一现象的数量性作出具有一定可靠程度的估计判断。

2.简单随机抽样:①含义:从含有N个元素的总体中,抽取n个元素作为样本,使得每一个容量为n的样本都有相同的机会被抽中,这样的方式称为简单随机抽样。②特点:简单随机抽样是其他抽样方法的基础。有两种抽取元素的方式:重复臭氧和不重复抽样。

分层抽样:①含义:在抽样之前先将总体的元素划分为若干层,然后从各个层中抽取一定数量的元素组成一个样本,这样的样本抽样方式称为分层抽样,也成分类抽样。②特点:⑴除了可以对总体进行评估外,还可以对各层的子总体进行评估。⑵可以按自然区域或行政区域进行分层,使抽样的组织和实施都比较方便。

⑶分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀。⑷可以提高估计的精度。

系统抽样:①含义:先将总体个元素按照某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,

直至抽取n 个元素形成一个样本。②特点:⑴简单易行⑵在总体

中的分布一般也比较均匀,由此估计的误差通常要小于简单随机

抽样。

整群抽样: ①含义:先将总体划分成若干群,然后以群作为抽样

单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进

行观察。②特点:不需要有总体元素的具体名单而只要有群的名

单就可以进行抽样。整群抽样时群内各元素比较集中,对样本进

行调查比较方便,节约费用。在群内各元素存在差异时,整群抽

样可以提供较好的结果,理想的情况是每一群都是整个总体的一

个缩影。

3.重复抽样:从总体中抽取一个元素后,把这个元素放回到总体

中再抽取第二个元素,直至抽取n 个元素为止。

不重复抽样:一个元素被抽中后不再放回总体,然后再从所剩下

的元素中抽取第二个元素,直到抽取n 个元素为止。

4.抽样分布:重复选取容量为n 的样本时,由每一个样本算出的

统计量数值的相对频数分布或概率分布,称为样本统计量的抽样

分布。

5.样本统计量的分布与总体分布的关系?

由于现实中我们不可能将所有的样本都抽出来,因此,统计量的

抽样分布实际上是一种理论分布,但它与总体分布存在着密切的

关系,以均值x 的抽样分布为例,其抽样分布与原有总体的分布

有关,如果原有总体是正态分布,那么,无论样本容量的大小,

样本均值也服从正态分布。其分布的数学期望为总体均值,方差

为总体方差的1/n ,即00。如果原有总体的分布不是正态分布,

就要看样本容量的大小了,当n 为大样本时(n ≥30),根据统计上

的中心极限定理可知,当样本容量n 增大时,不论原来的总体是

否服从正态分布,样本均值的抽样分布都将趋于服从正态分布。

其分布的数学期望为总体均值,方差为总体方差的1/n 。

6. Z α/2n

的含义:是估计误差。Z α/2的值和样本量n 共同确

定了估计误差的大小,一旦确定了置信水平1-α,Z α/2的值就

确定了。对于给定的Z α/2的值和总体标准差σ。可以确定任一

允许的估计误差所需要的样本量。

7.样本均值抽样分布的两个主要特征值:

与总体参数的关系:

1.理解原假设与备择假设的含义:原假设:通常将研究者想收集

证据予以反对的假设称为原假设或零假设,用H0表示;备择假设:

通常将研究者想收集证据予以支持的假设称为备择假设或研究假设,用H1表示。

2.统计检验量:根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。

标准化检验统计量:是将统计检验量标准化,标准化的统计检验量=(点估计量-假设值)/点估计量的抽样标准差。

3.第Ⅰ类错误:当原假设为真时拒绝原假设,所犯的错误称为Ⅰ类错误。犯第Ⅰ类错误的概率通常记为α。

第Ⅱ类错误:当原假设为假时没有拒绝原假设,所犯的错误称为第Ⅱ类错误,又称取伪错误。犯第Ⅱ类错误的概率通常记为β。它们发生概率之间的关系:在样本量不变的情况下,要减小α就会使β增大,而要增大α就会使β减小,这两类错误此消彼长。

4.显著性水平:假设检验中犯的第Ⅰ类错误的概率,称为显著性水平,记为α。

它对于假设检验决策的意义:显著性水平是人们事先制定的犯第Ⅰ类错误的概率α的最大允许值,在实际应用中,显著性水平往往是人们事先给出的一个值。

5.P值:在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率,称为P值,也称为观察到的显著性水平。

利用P值决策的准则:如果P值<α,拒绝H0;如果P值>α,不拒绝H0.

6.单侧检验与双侧检验的区别:单侧检验中,P值位于抽样分布的一侧,而双侧检验P值位于分布的两侧,每一侧的P值为1/2.

7.大样本情形下总体均值左侧检验的拒绝域:Z<﹣Zα;右侧检验的拒绝域:Z>Z;双侧检验的拒绝域:|Z|>Zα/2。

8.小样本情形下总体均值检验应该构造的检验统计量t 应用前提:服从正态分布

9.小样本情形下总体均值左侧检验拒绝域:t<﹣tα(n-1);右侧检验拒绝域: t>tα(n-1);双侧检验的拒绝域:|t|>tα/2(n-1)

10.假设检验的一般步骤:①依照题意建立原假设H0与备择假设H1②判断样本大小并计算检验统计量③根据显著水平进行判断原假设是否成立。

1、相关关系:变量之间存在的不确定的数量关系。相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个

2、相关系数的取值和意义:取值范围:—1≤r≤1。若0

r=+1,x、y之间为完全正相关关系;r= —1,为完全负线性相关关系。当|r|=1时,y的取值完全依赖于x,二者之间即为函数关系;当r=0时,说明y的取值和x无关,即二者之间不存在线性关系(并不说明变量之间没有任何关系)。若|r|→1,说明变量之间线性关系越密切,|r|→0,越不密切。|r|≥0.8,高度相关;

0.5≤|r|<0.8,中度相关;0.3≤|r|<0.5,低度相关;|r|<0.3,不相关

3. 相关系数显著性检验步骤:①提出假设②计算检验统计量t

的值③在给定的显著性水平α下,查找t分布表中相应的临界值tα/2(n-2) ④判断,若|t|≥tα/2,,表明r在统计上是显著的,若若|t|〈tα/2,,表明r在统计上是不显著的。

4、回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程。估计的回归方程:利用最小二乘法,根据样本数据求出的回归方程的估计。

回归方程:对变量之间统计关系进行定量描述的以后总数学表达式。指具有相关的随机变量和固定定量之间关系的方程。

5、参数最小二乘估计的基本原理:使因变量的观察值yi与估计值?yi之间的离差平方和达到最小来求得β0和β1的方法。

6、总平方和:对一个具体的观测值来说,变差的大小可以用实际观测值y与其均值?y之差(y—?y)来表示。而n次观测值的总变差可由这些离差的平方和来表示,称为总平方和。(143 反映了y的总变差中由于x与y之间的线性关系引起的y的变化部分,它是可以由回归直线来解释的yi变差部分,称回归平方和。是各实际观测点与回归值的残差(yi_—?yi)的平方和,它反映除x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的yi变差部分,称为残差平方和。

总平方和=回归平方和+残差平方和

7、判定系数:回归平方和占总平方和的比例。作用:

8、在回归分析中,F检验和t检验各有什么作用

9、线性关系检验的步骤:第一步:提出假设。H0:β1=0 两个变量之间的线性关系不显著。第二步:计算检验统计量F。()F= 第三步:作出决策。确定显著水平α,并根据分子自由度df1=1和分母自由度df2=n—2查F分布表,找到相应的临界值Fα。若F>F α,拒绝H0,表明两个变量之间的线性关系是显著的;若F

第三步:作出决策。确定显著性水平α,并根据自由度df=n—2查t分布表,找到相应的临界值tα/2。若|t|>tα/2,拒绝H0,回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的(两个变量之间存在着显著的线性关系);若|t|

10. 置信区间估计:对x的一个给定值x0,求出y的平均值的区间估计。

预测区间估计:对x的一个给定值x0,求出y的一个个别值的区间估计。

区别:

1简述时间序列的各构成要素

构成要素分为四种,即趋势(T)、季节性or季节变动(S)、周期性或循环波动(C)、随机性或不规则波动(I).趋势是指时间序列在长时期内呈现出来的某种持续向上或持续下降的变动。它是由某种固定性的因素作用于序列而形成的。可以是线性,也可以是非线性。季节变动是指时间序列在一年内重复出现的周期性波动。循环波动或周期性波动是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。不同于趋势变动,季节变动有比较固定的规律,周期为一年,而循环波动则无固定的规律,变动周期多为一年以上,且周期长短不一。周期性通常是由于经济环境的变化而引起的。随机性或不规则波动是由于一些偶然性的因素产生的。

2利用增长率分析时间序列时应注意哪些问题

(1)当时间序列中的观察值出现0或负数时,不宜计算增长率;

(2)不能单纯就增长率论增长率,要注意增长率与绝对水平的综合分析;大的增长率背后,其隐含的绝对值可能很小,小的增长率背后其隐含的绝对值可能很大。

3简述平稳序列和非平稳序列的含义

平稳序列:基本上不存在趋势的序列。各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,而其波动可以看成是随机的。

非平稳序列:包含趋势性、季节性或周期性的序列。它可能只含有其中的一种成分,也可能是几种成分的组合。

4指数平滑法的基本含义:①是加权平均的一种特殊形式②对过去的观察值加权平均进行预测的一种方法③观察值时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑④有一次指数平滑、二次指数平滑、三次指数平滑等⑤该方法使用第T+1期的预

测值等于T期的实际观测值与第T期预测值的加权平均值⑥一次指数平滑法也可用于对时间序列进行修匀,以消除随机波动,找出序列的变化趋势

5分解预测的基本步骤:①确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数,以消除季节成分②建立预测模型并进行预测。对消除季节成分的时间序列建立线性预测模型,并根据这一模型进行预测③计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的观测值。1指数的含义:测定多个项目在不同场合下综合变动的相对数,称为指数。

2加权综合指数和加权平均指数有何区别与联系

加权综合指数:通过加权来测定一组项目的综合变动,有加权数量指数和加权质量指数。

使用条件:必须掌握全面数据(数量指数,测定一组项目的数量变动,如产品产量指数,商品销售量指数等)(质量指数,测定一组项目的质量变动,如价格指数、产品成本指数等)

拉式公式:将权数的各变量值固定在基期。

帕式公式:把作为权数的变量值固定在报告期。

加权平均指数:以某一时期的总量为权数对个体指数加权平均。使用条件:可以是全面数据、不完全数据。因权数所属时期的不同,有不同的计算形式。有:算术平均形式、调和平均形

3说明消费者价格指数、生产者价格指数、股票价格指数的含义消费者价格指数CPI:是反映一定时期内消费者所购买的生活消费品价格和服务项目价格的变动趋势和程度相对数。生产者价格指数PPI:是测量在初级市场上出售的货物的价格变动的一种价格指数。股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数,其单位一般用“点”表示

4消费者价格指数有哪些作用

①用于反映通货膨胀状况。通货膨胀的严重程度是用通货膨胀率来反映的,它说明了一定时期内商品价格持续上升的幅度②用于反映货币购买力的变动趋势。货币购买力是指单位货币能够购买到的消费品和服务的数量。消费者价格指数上涨货币购买力则下降,反之则上升③用于反映对职工实际工资的影响。消费者价格指数的提高以为这实际工资的减少,消费者价格指数下降则意味着实际工资的提高④用于缩减经济序列。通过缩减经济序列可以消除价格变动的影响,其方法是将经济序列除以消费者价格指数。

统计学名词解释

统计学名词解释 第一章绪论 1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。 2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。 3.个体:构成总体的每个基本单元称为个体。 4.样本:从总体中抽取的一部分个体,称为总体的一个样本。 5.次数:指某一事件在某一类别中出现的数目,又称为频数。 6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。 7.概率:某一事物或某一情在某一总体中出现的比率。 8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数:又称为总体参数,是描述一个总体情况的统计指标。 10.统计量:样本的那些特征值叫做统计量,又称特征值。 第二章统计图表 1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。 4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤: (1)求全距 (2)定组距和组数 (3)列出分组组距 (4)登记次数 (5)计算次数 6.分组次数分布的意义: (1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。 (2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。 7.相对次数分布表:用频数比率或百分数来表示次数 8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

统计学名词解释简答

名词解释 统计总体:指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。统计总体的特征:同质性、差异性、大量性。 总体单位:个体,指构成总体的各个单位。 统计指标:简称指标,用来反映社会经济现象总体的数量特征的概念及其数值。任一概念都包含指标名称和指标数值。特征有总体性、数量性、综合性、具体性。 统计标志:在统计中,总体单位所具有的属性或特征的名称。标志是统计研究的起点,总体单位是标志的载体,是标志的承担者,统计研究是从登记标志开始的,并通过对标志的综合来反映总体的数 量特征。可分为品质标志和数量标志,或不变标志和变异标志。 统计调查:就是根据统计研究的预定目的、要求和任务,运用各种科学的调查方法,有计划、有组织地搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的原始资料的工作过程。 统计调查是整个统计工作的基础环节。统计调查的好坏,将影响统计资料的正确与否,从而影 响统计质量。统计调查的要求:准确性、及时性、全面性、系统性。 普查:是根据统计任务的特定目的而专门组织的一次性全面调查。调查范围:1.属于一定时点的社会经济现象的总量(如人口普查)。2.反映一定时期现象的总量(如出生人口总数)。优点:所获资料 更详细,有较高的准确性和时效性。缺点:工作量大,花费时间长,耗费大量的人力、物力和 财力。主要作用:在于掌握某些关系国计民生、国情国力的数据,获得比较准确的信息。 抽样调查:指从所要研究的总体中,按照随机原则,抽取部分单位进行调查,并将调查整理得出的数量特征,用以推断总体综合数量特征的一种非全面调查组织形式。特点:随机性、推断性。优点: 经济性、时效性、准确性、灵活性。应用范围:①对总体不可能或不必要进行全面调查,但要 掌握总体某些现象的全面数值②用抽样调查资料修正全面调查资料。作用:①承担全面调查无 法或很难承担的调查任务。如气象调查。②与全面调查结合,可以发挥相互补充、校对的作用。 ③进行生产过程的质量控制。④用来检验总体特征的某些假设,为行动决策提供依据。抽样调 查的组织形式:纯随机抽样、机械抽样、类型抽样、整群抽样、阶段抽样。 典型调查:根据调查目的和要求,在对研究总体作全面分析后,有意识地从中选取少数具有代表性的单位进行深入调查研究的一种非全面调查。优点:节省人力、物力,既可搜集统计资料,又可分析 研究问题。缺点:资料不齐全,缺乏代表性。主要作用:1.弥补全面调查不足(获取其它统计调 查方法不能得到的统计资料;补充完善统计报表;验证全面调查数据的真实性。2.进行估算某些 指标数值。 重点调查:是一种非全面调查,是在调查对象中选择重点单位进行的调查,但这部分重点单位占总体的绝大比重。优点:省事、省力,能用较少的代价及时搜集到总体的基本情况和基本趋势。缺点: 资料受重点单位影响大,资料一般不齐全。 统计整理:就是根据统计研究的预定目的,对所搜集到的资料进行科学加工,使之条理化、系统化,建立统计数据库,以满足多方面、多层次的反复需要的工作过程。作用:统计整理是统计工作过程 的重要阶段,它是实现从个体单位标志值过渡到总体数量特征值的必经阶段,是统计分析的前 提。其质量的好坏会直接影响统计分析的效果。 绝对指标:又称总量指标,有时也称绝对数。是用来说明一定社会经济现象的规模、水平的总量。它包括总体总量和标志总量。 相对指标:又称相对数,是两个相联系指标的比值。作分母的指标为基数,分子为表数。通过相对指标可反映现象间的相互关系和对比关系。一般分为有名数和无名数。种类有:计划完成相对指标、 结构相对指标、比较相对指标、动态相对指标、强度相对数。 平均指标:又称统计平均数,它是度量频率分布集中趋势或中心位置的指标。也是社会经济统计中最常用的综合指标。它是在同质总体内各总体单位某一数量标志的一般水平。一般有两种分类:静态 平均数、动态平均数。

统计学名词解释

1、统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 2、指标和标志 标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位 统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位,简称单位。样本是从总体中抽取的一部分单位。 4、统计调查 统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数 反映总体规模的绝对数量值,在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。 6、时期指标和时点指标 时期指标是反映总体在一段时期内累计总量的数字资料,是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。 7、抽样估计和假设检验 抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。 8、变量和变异 标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量 参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差 样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差 抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。 12、重复抽样和不重复抽样 重复抽样也称为回置抽样,是从总体中随机抽取一个样本时,每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样,它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计 点估计也叫定值估计,就是直接用抽样平均数代替总体平均数,用抽样成数代替总体成数。区间估计是在一定概率保证下,用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数 广义上来说,它是表明社会经济现象的数量对比关系的相对指标。狭义上来说,它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数 凡是一个总量指标可以分解为两个或两个以上的因素指标时,将其中一个或一个以上的因素指

统计学名词解释及公式

第1章统计与统计数据 一、学习指导 统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。 概念:统计学,描述统计,推断统计。 统计在工商管理中的应用。 统计的其他应用领域。 概念:分类数据,顺序数据,数值型数据。 不同数据的特点。 概念:观测数据,实验数据。 概念:截面数据,时间序列数据。 统计数据的间接来源。 二手数据的特点。 概念:抽样调查,普查。 数据的间接来源。 数据的收集方法。 调查方案的内容。 概念。抽样误差,非抽样误差。 统计数据的质量。 概念:总体,样本。 概念:参数,统计量。 概念:变量,分类变量,顺序变量,数值 型变量,连续型变量,离散型变量。 二、主要术语 1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 2.描述统计:研究数据收集、处理和描述的统计学分支。 3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 4.分类数据:只能归于某一类别的非数字型数据。 5.顺序数据:只能归于某一有序类别的非数字型数据。 6.数值型数据:按数字尺度测量的观察值。 7.观测数据:通过调查或观测而收集到的数据。 8.实验数据:在实验中控制实验对象而收集到的数据。 9.截面数据:在相同或近似相同的时间点上收集的数据。 10.时间序列数据:在不同时间上收集到的数据。

11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推 断总体特征的数据收集方法。 12.普查:为特定目的而专门组织的全面调查。 13.总体:包含所研究的全部个体(数据)的集合。 14.样本:从总体中抽取的一部分元素的集合。 15.样本容量:也称样本量,是构成样本的元素数目。 16.参数:用来描述总体特征的概括性数字度量。 17.统计量:用来描述样本特征的概括性数字度量。 18.变量:说明现象某种特征的概念。 19.分类变量:说明事物类别的一个名称。 20.顺序变量:说明事物有序类别的一个名称。 21.数值型变量:说明事物数字特征的一个名称。 22.离散型变量:只能取可数值的变量。 23.连续型变量:可以在一个或多个区间中取任何值的变量。 四、习题答案 1.D 2.D 3.A 4.B 5.A 6.D 7.C 8.B 9.A 10.A 11.C、12.C 13.B 14.A 15.C 16.D 17.C 18.A 19.C 20.D 21.A 22.C 23.C 24.B 25.D 26.C 27.B 28.D 29.A 30.D 31.A 32.B 33.C 34.A 35.A 36.A 37.D 38.B 39.B 40.C 41.C 42.D 43.C 44.D 45.A 46.B 47.C 48.A 49.C 50.D 51.A 52.C 53.D 54.A 55.B

统计学名词解释汇总

统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;

截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量

【缩印整理版】医学统计学名词解释及问答题

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。 总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。 抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。 标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数 区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。 参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常 置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围 可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可 能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。 参数统计(parametric statistics) 非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。 变异(variation):对于同质的各观察单位,其某变量值之间的差异 同质(homogeneity):研究对象具有的相同的状况或属性等共性。 回归系数有单位,而相关系数无单位 β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。 线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。 参数(parameter):描述总体特征的统计指标。 统计量(statistic):描述样本特征的统计指标。实验设计的基本原则 对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组 重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异 随机化(randomization) 采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。 I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用α表示。在假设检验中作为检验水准。一般取0.05或0.01。 II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用β表示。由于其取值取决于H1 ,因此在假设检验中无法确定。 变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差 (range);四分位数间距(quartile range);方差(variance);标准差(standard deviation);变异系数(coefficient of variation 平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmetic mean);几何均数(geometric mean);中位数(median);众数(mode) 单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样 分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误 差最大。 整群抽样先将总体分成若干“群”,从中随机抽取 几个群,抽取群内的所有观察单位组成调查样本。 “群”的确定与研究目的无关。为减少抽样误差, 需多抽几个“群”。 方差分析:又称变异数分析或 F检验,适用于对多 个平均值进行总体的假设检验,以检验实验所得的 多个平均值是否来自相同总体。 析因设计(factorial design)实验:凡同时配置两个 或两个以上处理因素,这些因素的各水平又具有完 全组合的实验,统称为析因设计(factorial design) 实验。 随机区组设计(randomized block design)是事先 将全部受试对象按某种可能与实验因素有关的特征 分为若干个区组(block),使每一区组内的受试对 象例数与处理因素的分组数相等,使每个实验组从 每一区组得到一例受试对象。 单向方差分析(one way analysis of variance)是指 处理因素只有一个。这个处理因素包含有多个离散 的水平,分析在不同处理水平上应变量的平均值是 否来自相同总体。 (2)计数资料:将观察单位按某种属性或类别分组, 所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。 其观察值是定性的,表现为互不相容的类别或属性。 如调查某地某时的男、女性人口数;治疗一批患者, 其治疗效果为有效、无效的人数;调查一批少数民 族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性 的不同程度分组,所得各组的观察单位数,称为等 级资料(ordinal data)。等级资料又称有序变量。如 患者的治疗结果可分为治愈、好转、有效、无效或 死亡,各种结果既是分类结果,又有顺序和等级差 别,但这种差别却不能准确测量;一批肾病患者尿 蛋白含量的测定结果分为+、++、+++等。 随机变量(random variable)是指取指不能事先确 定的观察结果。随机变量的具体内容虽然是各式各 样的,但共同的特点是不能用一个常数来表示,而 且,理论上讲,每个变量的取值服从特定的概率分 布。 变异系数(coefficient of variation)用于观察指标单 位不同或均数相差较大时两组资料变异程度的比 较。用CV 表示。计算:标准差/均数*100% 直线回归(linear regression)建立一个描述应变量 依自变量变化而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。直 线回归是回归分析中最基本、最简单的一种,故又 称简单回归(simple regression)。 回归系数(regression coefficient )即直线的斜率 (slope),在直线回归方程中用b 表示,b 的统计意 义为X每增(减)一个单位时,Y平均改变b 个单 位。 相关系数r:用以描述两个随机变量之间线性相关 关系的密切程度与相关方向的统计指标。 秩次:变量值按照从小到大顺序所编的秩序号称为 秩次(rank)。 秩和:各组秩次的合计称为秩和(rank sum),是非 参数检验的基本统计量。 方差(variance):方差表示一组数据的平均离散情 况,由离均差的平方和除以样本个数得到。 检验效能:1- β称为检验效能(power of test),它是 指当两总体确有差别,按规定的检验水准a 所能发 现该差异的能力。 百分位数(percentile)是将n 个观察值从小到大依 次排列,再把它们的位次 依次转化为百分位。百分位数的另一个重要用途是 确定医学参考值范围 随机误差(random error)又称偶然误差,是指排 除了系统误差后尚存的误差。它受多种因素的影响, 使观察值不按方向性和系统性而随机的变化。误差 变量一般服从正态分布。随机误差可以通过统计处 理来估计。 一、统计表有哪些要素构成的?制表的注意事项有 哪些? 一般来说,统计表由标题、标目、线条和数字、备 注五部分组成。但备注并不是必需的内容,可以根 据需要出现。 1简明扼要,重点突出:最好一张表突出一个中心, 不易太多中心,如果需要说明多个中心,可分成多 张统计表。 2合理安排主语和谓语的位置:对于表中任意一行, 从左至右,通过简短的连接词,可连成成一句通顺 的句子。 3表中数据要认真核对,保证准确可靠 二、为什么不宜用t 检验对多组均数进行比较? 如果用t检验进行多个样本均数的两两比较,则会 增加犯I 类错误的概率。 经检验得到拒绝H0 ,认为两组之间有差别的结论 可能犯I类错误的概率为α,不犯I类错误的概率为 1- α.每次判断均不犯I类错误的概率为(1- α)k, k为比较的次数,上例α=0.05, k=3,则均不犯错误 的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I 类错误的概率为1-(1- α)k 三、方差分析的基本思想是什么? 按实验设计的类型,将全部观察值间的变异分解成 两个或多个组成部分,然后将各部分的变异与随机 误差进行比较(每个部分的变异可由某因素的作用 来解释),以判断各部分的变异是否具有统计学意 义,从而推断不同样本所代表的总体均数是否相同。 五、简述直线相关与回归的区别与联系 区别:1.回归说明依存关系,直线回归用于说明两 变量间数量依存变化的关系,描述y如何依赖于x 而变化;相关说明相关关系,直线相关用于说明两 变量间的直线相关关系,此时两变量的关系是平等 的 2.r与b有区别:r说明具有直线关系的两个 变量间相关的密切程度与相关方向; b表示x每改 变一个单位,y平均增(减)多少个单位; 3.资料要求不同:直线回归要求应变量 y是来自正态总体的随机变量,而x可以是来自正 态总体的随机变量,也可以是严密控制、精确测量 的变量,相关分析则要求x,y是来自双变量正态分 布总体的随机变量。 4.取值范围:-∞

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团. 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数. 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ .)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数, (lg) lg Y G n = ∑ 调和平均数:变量倒数的算术平均数的反倒数, 1 () n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差. 方差:变数变异程度的度量,对于总体 ()2 2i Y N μ σ - = ∑ ,对于样本 2 2 () 1 Y y s n - = - ∑ 。 (描述变量平均变异程度的统计量.定义为 2 1 2 () 1 n j j Y y s n = - = - ∑ 。) EMS:期望均方,是对均方MS的期望值。 标准差:变数变异程度的度量,总体标准差: () N Y ∑- = 2 μ σ ,样本标准 差: () 1 2 - - = ∑ n y Y s .(变数的平均变异量.) 标准误:统计数变异度的度量,12 y y y s s - == 。(统计数的标准差。)

医学统计学名词解释复习资料

1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。 2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。 3. 样本(sample):从总体中随机抽取的部分个体。 4. 样本含量(sample size):样本中所包含的个体数。 5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。 6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。 7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。 8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。 9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。 11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。 12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95%和99%,故常用95%和99%的可信区间。 13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。 16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。 17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M 表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n 为奇数时,M=X (n+1)/2;当n 为偶数时,M=[X n/2+ X n/2+1]/2。 18. 百分位数(percentile):是一种位置指标,以P x 表示,一个百分位数Px 将全部观察值分为两个部分,理论上有x%的观察值小于Px 小,有(1-x%)的观察值大于Px 。 19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。100%X s/CV ?=, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。 20. 频率(relative frequency):在n 次随机试验中,事件A 发生了m 次,则比值 22. 概率(probability):在重复试验中,事件A 的频率,随着试验次数的不断增加将愈来愈接近一个常数p ,这个常数p 就称为事件A 出现的概率(probability),记作P(A)或P 。 描述随机事件发生的可能性大小的数值,常用P 来表示。 23. 统计量(statistic):由样本所算出的统计指标或特征值。 24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1, 1]。 25. 回归系数(regression coefficient):直线回归方程Y ?= a+b X 的系数b 称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。 28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。 29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准差X σ称为标准误。 30. 参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计和区间估计。 点估计:直接用样本统计量作为对应的总体参数的估计值。 区间估计:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI ),又称置信区间。这种估计方法称为区间估计。 33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。 34.Ⅰ类错误(type Ⅰerror):统计学上规定,拒绝了实际上成立的H 0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概率用α表示。 35.Ⅱ类错误(type Ⅱerror):统计学上规定,不拒绝实际上不成立的H 0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概率用β表示。 36. 检验效能(power of a test):又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。 37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。 38. 参数检验:假定比较数据服从某分布,通过参数的估计量(x , s)对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如t 、u 检验、方差分析。 39. 率(rate):又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。其计算公式为: 40. 构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示。 41. 比(ratio):又称相对比,是A 、B 两个有关指标之比,说明A 为B 的若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B 。 统计学(Statistics ):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达 的科学。 总体(population ):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample ):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。

统计学名词解释超级大全

统计学名词解释超级大全第一章导论 统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。 描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。 推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。 实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。 统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。 小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。 大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。

有效数字:指能影响测量准确性的数字。 变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。 数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。 总体:性质相同的一类事物的全体。 个体:构成总体的每一基本单位或单元。 样本:总体抽出的部分个体。 参数:表示总体特征的量数。 统计量:直接从样本计算出的量数,代表样本的特征。 名称变量:指一事物与其他事物在属性、类别上不同。 顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。 等距变量:只具有相等的单位,而没有绝对的零点的变量。 比率变量:既有相等的单位,又有绝对的零点的变量。 连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。 离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。 计数数据:计算人或物的个数所获得的数据。 度量数据:用一定的测量工具或测量标准测量时所获得的数据。 指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。

《教育统计学》名词解释重点

第一章绪论 1,教育统计学是运用数理统计学的原理来研究教育问题的一门应用科学。 2,教育统计学分为描述统计、推断统计和实验设计三类。 (1)描述统计:计算集中量(算术平均数、中位数、众数、加权算术平均数、几何平均数、调和平均数)来反映集中趋势;计算差异量(全距、四分位距、百分位距、平均差、标准差、差异系数)反映离散程度;计算偏态量及峰态量反映分布形态;计 算相关量(积差相关系数、等级、点二列、二列、四分、C相关系数、肯德尔和谐 系数、多系列相关系数)反映一致性程度。 (2)推断统计包括总体参数估计和假设检验两部分。 3,随机现象三个特性:一,一次试验有多种可能的结果,其所有结果是已知的;二,试验之前不能预料那一种结果会出现;三,在相同条件下可以重复试验。 随机事件:随机现象的每一种结果。 随机变量:把能表示随机现象各种结果的变量称之 4,总体:是我们研究的具有某种共同特性的个体的总和。 样本数目大于30称为大样本,小于等于30称为小样本。 第二章数据的初步整理 1,教统资料来源有经常性资料和专题性资料。 专题性资料包括(1)教育调查。按调查方法分为现情调查、回顾调查和追踪调查;按调查范围分全面调查和非全面调查(抽样调查和典型调查)。(2)教育实验。分为单组实验(指对同一实验对象先后实施两种实验处理)、等组实验(指在甲乙两组条件基本相同的情况下,对之实行不同的实验处理)和轮组实验(指在实验组和对照组分别进行两种实验处理,并且每种处理各重复一次,也即每个或多个单组实验的联合) 2,数据的分类。按来源分为点计数据和度量数据;按随机变量取值情况分为间断型随机变量(取值个数有限、独立的、两个单位之间不能再划分细小单位、一般用整数表示,如优劣程度、品德爱好打分)和连续性随机变量(个数无限、单位之间可以再划分、可以用小数表示如身高体重、完成作业的时间等)。 3,频数分布表制作步骤:求全距;决定组数和组距;决定组限;登记频数。 4,用累计频数表示的频数分布表称为累计频数分布表。 第三章集中量 1,集中量是代表一组数据典型水平或集中趋势的量。它能反映频数分布中大量数据向某一点集中的情况。 2,加权平均数:是不同比重数据(或平均数)的平均数。 几何平均数:是n个数值连乘积的n次方根。 调和平均数:是一组数据倒算的算术平均数的倒数,亦称倒数平均数。 第四章差异量 1,差异量是指表示一组数据变异程度或离散程度的量。差异量越大,表示数据分布越广,越不整齐;相反,表示分布越集中,变动范围越小。 2,全距是一组数据中最大值与最小值之差,又称极差,用R表示。 四分位距是指用依一定顺序排列的一组数据中间部分50%个频数距离的一半作为差异量指标。四分位距就是第三个四分位数(第75百分位数)与第一个四分位数(第25半分位数)差的一半。 百分位距是指两个百分位数之差。常用的有两种:一为第90与第10百分位数之差;一为第93与第7百分位数之差。 3,标准差越大,表明离散程度越大,即数据越参差不齐,分布范围越广。

统计学重点名词解释

什么叫因素或因子:所要检验的对象。因素的不同表现成为水平或处理,每个因子水平下得到的数据称为观察值。 无偏性:估计量抽样分布的数学期望等于被估计的总体参数。 有效性:对同一总体参数的两个无偏估计量,有更小估计差得估计量更有效。 一致性:随着样本量的增大,点估计量的值越来越接近被估总体的参数。 原假设:提出一个或两个参数是否等于或大于、小于某个特殊值的命题。。 备择假设:与原假设逻辑相反的假设。 点估计:就是用样本统计量的某个取值直接作为总体参数的估计值。 区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减误差得到。 置信水平:将构造置信区间的步骤重复很多次,置信区间包括总体参数真值的次数所占的比例。 方差分析就是通过检验个总体的均值是否相等来判断分类自变量对数值型因变量是否有相助影响 假设检验:利用样本信息,对提出的命题进行检验的一套程序和方法。 显著性水平:是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险 单因素方差分析:研究一个分类型自变量同数值型自变量之间关系的一种统计方法。。 离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比,是测度数据离散程度的相对值。离散程度:它反映的是各变量值远离其中心值的程度。 统计学:收集、处理、分析、解释数据并从数据中得到结论的科学。 统计量:描述样本特征的概括性数字度量。 误差的控制主要方法有:改变样本容量、构造不同的抽样框、注意问卷中得措辞方式以及对调查过程的质量控制。 估计量:用来估计总体参数的统计量的名称。根据一个具体样本计算出来的估计量数值称 为估计值。抽样调查的作用:应用范围广、调查结果准确可靠、调查速度快、节省调查费中位数:将所研究的总体中的各单位标志值按大小顺序排列,位于中点位置的那个标志值 就是中位数 小概率原理:是指在发生概率很小的随机事件再一次试验中几乎是不可能发生的。根据这一原理可以做出是否拒绝原假设的决定。 假设检验的流程: 提出原假设、被择假设。 确定适量的检验统计量,并计算其数值 P值决策: 决策规则:P《a 拒绝原假设。P越小,犯第一类错误(弃真)概率越小(当原假设为真时,得到的样本数据或更极端数据的概率) 为什么要选择方差分析? 方差分析采用同时考虑所有样本,因此排除了错误积累概率,从而避免拒绝一个真实的假设,不仅提高了效率同时又将所有的样本信息结合在一起,也增加了分析的可靠性。。 简述众数、中位数和均值的特点和应有场合? 答:众数是一组数据中出现次数最多的变量值,是一种位置代表值,不受极端值的影响,具有不唯一性,也可能没有众数,主要用于分类数据集中趋势的测度;中位数是一组数据排序后处在中点位置的变量值,也是位置代表值,不受极端值的影响,主要用于排序型数据集中

相关文档
最新文档