统计名词解释

统计名词解释
统计名词解释

第一章

一、心理与教育统计的定义与性质

定义:在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按照统计学的原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得到结论的一种研究方法。性质:应用统计学。

二、心理与教育科学研究数据的特点

(1)数据与结果多用数字呈现

(2)数据具有一定的随机性和变异性

(3)数据具有一定的规律性

(4)通过部分数据来推测总体的特征

三、心理与教育统计学的内容

1、描述统计(descriptive stastics)主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。

包括:A、数据如何分组、使用统计图表描述一组数据的分布情况;

B、计算一组数据的特征值(集中量数和差异量数),进而描述一组数据的全貌;

C、表示一事物两种或两种以上属性间的相互关系(相关分析)。

2、推论统计(inferential statistics)主要研究如何通过局部数据所提供的信息,推论总体的情形。

包括:A、如何进行假设检验,如z检验、t检验、卡方检验、F检验、回归分析等;

B、总体参数特征值的估计方法;

C、各种非参数检验的统计方法。

3、实验设计(experimental design)主要目的在于研究如何科学地、经济地以及有效地进行实验,它是统计学近几十年发展起来的一部分内容。

四、心理与教育的基础概念

数据类型

1、从数据的观测方法和来源来划分

计数数据(count data)是指计算个数的数据,如人口数、学校数、男女数等等。一般取整数形式;

测量数据(measurement data)是指借用一定的测量工具或具有一定的测量标准而获得的数据,如身高、考试成绩、金钱数额、智力测验等。

2、根据数据的测量水平划分:

称名数据(nominal data)

顺序数据(ordinal data)

等距数据(interval data)

比率数据(ratio data)

3、根据数据是否具有连续性划分:

离散数据(discrete data)

连续数据(continuous data)

五、变量、观测值、随机变量

变量(variables)是指实验、观察、调查中想要获得的数据;

而一旦确定某个值,就称这个值为某一变量的观测值(observation),即为具体的数据;

在统计学中,把取值之前不能预料取到什么值的变量,称之为随机变量。

与变量相反的是常量,它在一定范围内其数值不会随意改变。六、总体、样本与个体

总体(population)又称母全体、全域,指具体有某种特征的一类事物的全体;

构成总体的每个基本单元称为个体(individual);

从总体中抽取一部分个体,称之为总体的一个样本(sample)。七、次数、比率、频率与概率

在一项研究中,我们对随机现象进行观察试验,在一定条件下,本质不同的事物可能出现,也可能不出现,这种事情称为随机事件;次数是指某一事件在某一类别中出现的数目,又称为频数(frequency),用f表示;

两个数的比例称为比率;

频率又称相对次数,即某一事件发生的次数被总的事件数目除,通常用比例或百分数表示;

概率又称机率、或然率(probability)用p表示,表示一事件在无

限的观测中所能预料的相对出现的次数,也就是某一事件在总体中出现的比率,通常用比例表示。

八、参数与统计量

在科学研究中,我们探寻的是关于所有事物的说明和解释。能说明和解释总体特征的那些特性称之为参数(parameter),又称为总体参数;与之相对的是,样本的那些特征值称为统计量(statistics)。参数是从总体中计算得到;一般是个常量;一般用希腊字母表示;统计量是从样本中得到;一般随样本的变化而变化,是个变量;一般用英文字母(斜体)表示。

第二章

一、统计图表

统计表和统计图是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。

统计表具有简明、清晰、准确的特点,数据易于比较分析;统计图具有简明、直观、可视化等特点。

在制定统计图表时首先要完成最基本的两步:

a、数据排序(sort or order)是指按照某种标准,对收集到的杂乱无章的数据按照一定的顺序标准进行排序。

升序(ascending)

降序(descending)

b、统计分组是指根据被研究对象的特征,将所得的数据划分到各个

组别中去。

步骤:

1)统计分组前的准备(进一步地核对和校检数据、删除受过失影响数据、删除3个标准差之外的数据)

2)统计分组应注意事项(分组要以被研究对象的本质特性为基础;分类标志要明确,既要包含数据的所有范围,同时分类不能重合)

3)分组的标志(性质类别和数量类别)

二、次数分布表

次数分布(frequency distribution)显示初步整理后一组数据的分布情况。它主要表示数据在各个分组区间内的散布情况。

简单次数分布表(适用于计数数据)(simple frequency table)就是依据每一个分值在一列数据中出现的次数或总计数资料编制成的统计表。

分组次数分布表(重点)(适用于测量数据)当数据量很大时,应该把所有的数据划分若干区间,然后再按数据按其值大小划分到相应的区组内,分别统计各个组别中的个数,再用列表形式呈现出来,就构成了分组次数分布表(grouped frequency table)。具体步骤如下:

A、求全距

全距(range)是指最大值和最小值两个数据之间的差距。

B、决定组距和组数

组距(interval)是指任意一组的起点和终点之间的举例,用符号

i表示。

全距除以组距即为组数。

C、列出分组区间

分组区间即一个组的起点值和终点值之间的距离,又叫组限。起点值称为组下限,终点值称为组上限,组限又可以分为表述组限和精确组限。

D、登记次数

E、计算次数

相对次数分布表

累加次数分布表

双列次数分布表(难点)双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。

编制双列次数分布表的步骤:

首先按照分组次数分布表的编制方法,分布列出各变量的分组区间,将一列变量的分组区间竖列,将另一列变量为横列;

然后再登记、计数。

三、次数分布图

在次数分布表的基础上,若对分布进行粗略分析、动态趋势、差异细节,获得更为直观印象就要绘制次数分布图。通常使用的主要有:1、直方图(histogram)也叫等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。一般用纵轴表示数据的频数,横轴表示数据的等距分组点。

2、次数多边形图(frequency polygon)是一种连续性随机变量次数分布的线形图。绘制图时,横坐标是用各分组区间组中值表示的连续变量,纵坐标是数据的频数,连接各点,就成为一条折线。

3、累加次数分布图累加次数分布图可以分为累加直方图和累加曲线。

四、其他常用的统计图表类型

表:A、简单表 B、分组表 C、复合表

图:A、条形图(bar charts)也叫直条图,主要用于表示离散型数据资料,即计数资料。

B、圆形图(circle graph)又叫饼图(pie),主要用于描述间断性的资料,目的是为了显示各部分在整体中所占有的比重大小,以及各部分之间的比较。

C、线形图(line graph)更多用于连续性资料,凡欲研究两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随着另一种现象的变化情形,用线性图表示是最后的方法。同时还可以在图表中画两条线或多条线,用于比较两组或多组数据资料。

D、散点图(scatter plots),它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。

第三章

一、集中趋势(central tendency)和离中趋势(divergence tendency)是次数分布的两个基本特性。

数据的集中趋势是指数据分布中大量数据向某方向集中的程度;

离中趋势是指数据分布中的数据彼此分散的程度。

这两种趋势分别用集中量数(measures of central tendency)和离中量数(measures of divergence tendency)来表示。

一)、算术平均数(arithmetic average),一般简称平均数或均值(mean)。

1、平均数的计算方法

(1)未分组数据的计算平均数的方法

(2)用估计平均数技术平均数

(3)计算次数分布表中的平均数

2、平均数的特点

1)一组数据中每个变量与平均数之差(离均差)的总和等于0; 2)在一组数据中,每个数据都加上C,则所得的平均数为原来的平均数加上C;

3)在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以C.

3、平均数的优缺点

优点:1、反应灵敏;2、计算严密;3、计算简单;4、简明易解;

5、适合做进一步的代数运算;

6、较少受抽样的影响;

缺点:1、易受极端数据的影响;2、若出现模糊不清的数据时,无法计算平均数。

4、计算和应用平均数的原则

同质性原则

平均数与个体数值相结合的原则

平均数与标准差、方差相结合的原则

二)、中数(median),又称中点数,符合Md或Mdn,它是指按顺序排列在一起的一族数据中居于中间位置上的数,即在这组数据中,有一半的数据比它大,一半的数据比它小。

中数的优缺点

优点:计算简单快捷,容易理解,概念简单明白,不受极端值的影响;

缺点:没有充分利用数据,反应不够灵敏;容易受抽样的影响,不如平均数稳定;不能做进一步的代数运算;

三)、众数(mode)又称范数,密集数,通常数等,用符号Mo表示,它是指在次数分布中出现次数最多的那个数的数值。

1、计算方法

直接观察法

利用公式求

2、意义

众数的概念简单明了,容易理解,但它不稳定,受样本变动的影响,不能进一步做代数运算。

四)、平均数、中数、众数三者之间的关系

在一个正态分布中,平均数、中数、众数三者相等:M=Md=Mo;

在正偏态数据中,三者之间的关系为:M>Md>Mo;

在负偏态数据中,三者之间的关系为:M

在偏态分布中,平均数用于位于尾端,中数位于中间,众数位于首端,三者之间的关系为:

M

第四章

差异量数(measures of divergence tendency)就是对一组数据的变异性(离中趋势)特点进行度量和描述的统计量。它反映了次数分布中数据彼此分散的程度。

一、全距

全距(range)又称两极差,用符号R表示,它是说明数据离散程度最简单的统计量。

优点:计算简便

缺点:是最粗糙、最不可靠的值,这种差异量数只利用了数据中的极端值,其他数据均未参与运算,因而这种差异量数不可靠、不稳定、也不灵敏,极易受到抽样变动的影响。

二、百分位数与百分位差

百分位数(percentile)又叫百分位点。它是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。

由于全距容易受极端数值的影响,因此有人提出取消数据两端10%的数据,即用P10与P90之间的差距作为差异量数,即为百分位差。

1、百分位数的计算

2、百分位数与百分等级

反过来,利用百分位数的计算公式,可以求出任意数值在整个数据分布中所处的百分位置,称之为百分等级(percentile rank)。

3、四分位差

四分位差(quartile deviation)也可以看做百分位差的一种,通常用Q来表示,指在一次数据分配中,中间50%次数的数据的一半。也就是P75到P25举例的一半。

4、平均差

平均差(average deviation)是次数分布中所有原始数据与平均数绝对离差的平均值,一般用符号或表示。

5、方差

方差(variance)也称为变异数、均方,它是用原始数据与平均数的差的平方和。

6、标准差

标准差(standard deviation)即方差是平方根,用SD或s表示。

7、差异系数

差异系数又称变异系数、相对标准差等,用CV来表示。

8、标准分数

原始量数与其平均数的差数,除以标准差所得的商,称之为标准分数。又称为Z分数。

第五章

相关系数主要用于描述双变量数据相互之间的关系。

一、事物总是相互联系的,它们之间的关系大致有以下三种情况:

a.因果关系:一种现象是另一种现象的原因,而另一种现象是结果。

b.共变关系:表面看来有联系的两种事物都与第三种现象有关。

c.相关关系:两类现象在发展变化的方向与大小方面存在一定的联系,但不是前面两种关系,具有相关关系的两种现象之间的关系是比较复杂的,甚至可能包含有暂时尚未认识的因果关系以及共变关系在内。

二、相关关系与相关分析

相关关系:事物之间存在联系,但不能直接作出因果关系的解释。

相关:具有相关关系的不同现象之间的关系程度。

相关分析:用一些合理的统计指标对相关现象的观测值进行的统计分析。

相关分析用于描述双变量(bivariate data)数据相互之间的关系。

三、散点图

1、相关散点图:将具有相关关系的两种现象的成对观测值标在平面直角坐标系中,从而直观地反映出它们的相关情况。

相关散点图是确定变量之间是否存在相关关系以及关系密切程度的简单而又直观的方法。

2、相关系数

相关系数(coefficient of correlation):两列变量间相关程度的数字表现形式,或者是用来表示相关关系强度的数量化指标。

总体参数ρ、样本统计量r

相关系数与平均数和标准差一样,是应用比较广泛的有代表性的统计量。

3、相关系数的取值范围在和+之间,常用小数形式表示。

相关系数的正负号表示双变量数列之间相关的方向。

r>0表示正相关, r=+表示完全正相关;

r<0表示负相关, r= 表示完全负相关;

r=0表示零相关。

相关系数的取值大小表示相关的强弱程度;1 密切--------0 不够密切。

4、相关研究

相关研究提供了一种当人们难以对特定变量进行人为控制时,对彼此

间存在联系的事物进行经济的、广泛的研究的方法,是教育与心理研究经常使用的方法之一。

相关分析是许多多元分析的基础。

多元回归分析、因素分析等。

5、积差相关

积差相关:一种运用较为普遍的计算相关系数的方法;揭示两个变量线性相关方向和程度的最常用、最基本的方法。

6、协方差

1)通常,人们把离均差乘方之和除以N叫做“距”(moment);把X 的离均差和Y的离均差的乘积之和除以N,用“积距”(product-moment)表示,又称协方差。

协方差(covariance)是计算积差相关系数的基础,它是两个变量离均差乘积的平均数,能够直观地反映两列变量之间的一致性程度(变化方向和关联程度)。

2)应用条件

①要求成对的数据:每个个体都有两种不同的观测值;成对数据的数目不宜少于30(n>30) ;

②正态双变量:两列变量各自总体的分布都是正态分布或接近正态的单峰分布(已有研究资料;正态性检验) ;

③两列数据都是连续性测量数据;

④两列变量之间的关系是线性关系(相关散点图;已有研究结果) ;

7、计算积差相关系数的基本公式

1)运用标准差与离均差计算

2)用标准分数计算积差相关系数

3)用原始数据计算积差相关系数

8、计算积差相关系数的差法公式

a.减差法

b.加差法

9、相关系数的合并

第一步查表8,适用费舍Z-r转换表,将r值转换为费舍Z分数;第二步求费舍Z分数的加权平均数;

第三步将Z分数的平均数再转换成r值即可。

10、等级相关

等级相关是以等级次序排列的变量之间的相关,这种相关对变量的总体分布不作要求,故这类相关为非参数相关。

斯皮尔曼等级相关

当两列变量值是以等级次序排列或以等级次序表示时,且两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这

两列变量之间的相关称为等级相关。常用符号rR表示。

计算方法:

肯德尔等级相关

肯德尔W系数,又称肯德尔和谐系数,是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。常用符号W表示。

计算方法:

肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。它与肯德尔W系数所处理的问题相同,但所处理的资料的获得方法不同,计算的结果也不一样。

计算方法:

11、质量相关

质量相关:指一列变量为等比或等距的测量变量,另一列变量是按性质划分的变量,求这两个变量之间的直线相关称为质量相关。它主要包括:

点二列相关:如果在两个变量中,一个变量是等比或等距的测量变量且其总体为正态,另一变量为“二分”称名变量(如男女、已婚

与未婚等),这两个变量之间的直线相关称做点二列相关。

二列相关:当两个变量为正态连续变量,其中一个变量被人为地划分为二分变量,这两个变量之间的相关称为二列相关。

多系列相关:两个正态连续变量,其中一个变量被人为地划分成多种类别,如学习成绩被分为优、良、中、差四类,表示这两种变量之间的相关称为多系列相关。

12、品质相关

四分相关

相关:适用:两列变量均为真正的二分变量。

列联相关:系数相关计算

第六章

一、概率

1、随机事件是指在一定条件下可能出现也可能不出现的事件,表明随机事件出现可能性大小的客观指标就是概率。概率可以分为先验概率和后验概率。

后验概率:在对随机事件进行n次观测时,其中某一随机事件A 出现了m次,则m/n称为事件A出现的频率。随着试验次数的增加,事件A的频率将稳定在某一常数p,则此常数p就是事件A出现概率的近似值,可表示为: P(A)=m/n

以随机事件A在大量重复试验中出现的稳定频率值作为随机事件A的概率估计值,这种求得的概率叫做后验概率。

先验概率(prior probability) : 先验概率是通过古典概率模型加以定义的,故又称之古典概率。古典概率要求满足两个条件:①试验的所有可能结果(即基本事件)是有限的;②每一种基本事件出现的可能性相等。如果基本事件的总次数为n,事件A包括m个基本事件,则事件A的概率为:P(A)=m/n

先验概率是在特定条件下计算出来的,是随机事件的真实概率,不是由频率估计出来的。当试验重复次数较多时,后验概率也就接近先验概率。

2、概率的基本性质与定理

A.基本性质

⑴任一随机事件A的概率取值范围都在0与1之间,即

⑵必然事件(是指在一定条件下必然发生的事件,记做Ω)的概率等于1,即 P(Ω) =1 。

⑶不可能事件(是指在一定条件下必然不发生的事件,记做Φ)的概率等于0,即P(Φ)=0。

3、定理:

加法定理:两个互不相容事件A、B之和的概率,等于两个事件概率之和。即:P(A+B)=P(A)+P(B).

乘法定理:两个独立事件同时都发生的概率,等于这两个事件概率的乘积。用公式表示:P(AB)=P(A).P(B)

所谓互不相容事件是指在一定试验中,若事件A发生,则事件B 就一定不发生。此定理可推广到有限多个互不相容事件中。

所谓独立事件是指一个事件的出现对另一个事件的出现不发生影响,如果事件A的概率随事件B是否出现而改变,事件B的概率随事件A是否出现而改变,则这两个事件称为相关事件。

4、概率分布(probability distrbution)是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。

离散分布:随机变量只取孤立的数值时,这种随机变量称之离散型随机变量,离散随机变量的概率分布,简称离散分布。常见的离散分布是二项分布。

连续分布:指连续随机变量的概率分布,也就是测量数据的概率分布,它用连续随机变量的分布函数描述其分布规律。常见的连续随机变量的分布为正态分布。

经验分布(empirical distribution):是指根据观察或试验所获得的数据而编制的次数分布或相对频率分布。

理论分布(theoretical distribution):有两个含义,一是指随机变量的次数函数———数学模型;二是指按照某种数学模型计算出的总体的次数分布。

基本随机变量分布:是指理论分布中描述总体的基本变量的分布,在教育界统计学中常用的基本随机变量分布有二项分布和正态分布(normal distribution)。

抽样分布(sampling distribution):是样本统计量的理论分布,样本统计量有;平均数、两平均数之差、方差、标准差、相关系数、百分比率等等。样本统计量是基本随机变量的函数,所以抽样分布又叫随机变量函数的分布。

5、正态分布

概念:正态分布也称常态分布或常态分配,是连续随机变量概率分布的一种。有时称正态分布为高斯分布。

特征:正态曲线在X=μ点取得最大值,即标准正态分布曲线在Z=0点取得最大值,即

⑵正态曲线关于直线X=μ对称(但对称的不一定是正态的),即随机变量X在μ的对称区间上取值的概率相等。显然标准正态分布关于直线Z=0对称。

⑶正态曲线下的面积为1,过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为.

编制与使用

6、测验分数正态化

分数:T分数是从Z分数转换而来的一种正态化的标准分数。它是将标准分数扩大10倍,再加上50。

即:T=10Z+50

T分数由美国教育测量学家麦柯尔提出的,其取值范围为[0,100]。

分数的计算步骤:

统计学名词解释

统计学名词解释 第一章绪论 1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。 2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。 3.个体:构成总体的每个基本单元称为个体。 4.样本:从总体中抽取的一部分个体,称为总体的一个样本。 5.次数:指某一事件在某一类别中出现的数目,又称为频数。 6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。 7.概率:某一事物或某一情在某一总体中出现的比率。 8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数:又称为总体参数,是描述一个总体情况的统计指标。 10.统计量:样本的那些特征值叫做统计量,又称特征值。 第二章统计图表 1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。 4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤: (1)求全距 (2)定组距和组数 (3)列出分组组距 (4)登记次数 (5)计算次数 6.分组次数分布的意义: (1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。 (2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。 7.相对次数分布表:用频数比率或百分数来表示次数 8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

统计学名词解释及公式

第1章统计与统计数据 一、学习指导 统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。 概念:统计学,描述统计,推断统计。 统计在工商管理中的应用。 统计的其他应用领域。 概念:分类数据,顺序数据,数值型数据。 不同数据的特点。 概念:观测数据,实验数据。 概念:截面数据,时间序列数据。 统计数据的间接来源。 二手数据的特点。 概念:抽样调查,普查。 数据的间接来源。 数据的收集方法。 调查方案的内容。 概念。抽样误差,非抽样误差。 统计数据的质量。 概念:总体,样本。 概念:参数,统计量。 概念:变量,分类变量,顺序变量,数值 型变量,连续型变量,离散型变量。 二、主要术语 1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 2.描述统计:研究数据收集、处理和描述的统计学分支。 3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 4.分类数据:只能归于某一类别的非数字型数据。 5.顺序数据:只能归于某一有序类别的非数字型数据。 6.数值型数据:按数字尺度测量的观察值。 7.观测数据:通过调查或观测而收集到的数据。 8.实验数据:在实验中控制实验对象而收集到的数据。 9.截面数据:在相同或近似相同的时间点上收集的数据。 10.时间序列数据:在不同时间上收集到的数据。

11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推 断总体特征的数据收集方法。 12.普查:为特定目的而专门组织的全面调查。 13.总体:包含所研究的全部个体(数据)的集合。 14.样本:从总体中抽取的一部分元素的集合。 15.样本容量:也称样本量,是构成样本的元素数目。 16.参数:用来描述总体特征的概括性数字度量。 17.统计量:用来描述样本特征的概括性数字度量。 18.变量:说明现象某种特征的概念。 19.分类变量:说明事物类别的一个名称。 20.顺序变量:说明事物有序类别的一个名称。 21.数值型变量:说明事物数字特征的一个名称。 22.离散型变量:只能取可数值的变量。 23.连续型变量:可以在一个或多个区间中取任何值的变量。 四、习题答案 1.D 2.D 3.A 4.B 5.A 6.D 7.C 8.B 9.A 10.A 11.C、12.C 13.B 14.A 15.C 16.D 17.C 18.A 19.C 20.D 21.A 22.C 23.C 24.B 25.D 26.C 27.B 28.D 29.A 30.D 31.A 32.B 33.C 34.A 35.A 36.A 37.D 38.B 39.B 40.C 41.C 42.D 43.C 44.D 45.A 46.B 47.C 48.A 49.C 50.D 51.A 52.C 53.D 54.A 55.B

统计学名词解释

1、统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 2、指标和标志 标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位 统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位,简称单位。样本是从总体中抽取的一部分单位。 4、统计调查 统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数 反映总体规模的绝对数量值,在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。 6、时期指标和时点指标 时期指标是反映总体在一段时期内累计总量的数字资料,是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。 7、抽样估计和假设检验 抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。 8、变量和变异 标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量 参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差 样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差 抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。 12、重复抽样和不重复抽样 重复抽样也称为回置抽样,是从总体中随机抽取一个样本时,每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样,它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计 点估计也叫定值估计,就是直接用抽样平均数代替总体平均数,用抽样成数代替总体成数。区间估计是在一定概率保证下,用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数 广义上来说,它是表明社会经济现象的数量对比关系的相对指标。狭义上来说,它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数 凡是一个总量指标可以分解为两个或两个以上的因素指标时,将其中一个或一个以上的因素指

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团. 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数. 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ .)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数, (lg) lg Y G n = ∑ 调和平均数:变量倒数的算术平均数的反倒数, 1 () n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差. 方差:变数变异程度的度量,对于总体 ()2 2i Y N μ σ - = ∑ ,对于样本 2 2 () 1 Y y s n - = - ∑ 。 (描述变量平均变异程度的统计量.定义为 2 1 2 () 1 n j j Y y s n = - = - ∑ 。) EMS:期望均方,是对均方MS的期望值。 标准差:变数变异程度的度量,总体标准差: () N Y ∑- = 2 μ σ ,样本标准 差: () 1 2 - - = ∑ n y Y s .(变数的平均变异量.) 标准误:统计数变异度的度量,12 y y y s s - == 。(统计数的标准差。)

医学统计学名词解释复习资料

1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。 2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。 3. 样本(sample):从总体中随机抽取的部分个体。 4. 样本含量(sample size):样本中所包含的个体数。 5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。 6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。 7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。 8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。 9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。 11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。 12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95%和99%,故常用95%和99%的可信区间。 13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。 16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。 17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M 表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n 为奇数时,M=X (n+1)/2;当n 为偶数时,M=[X n/2+ X n/2+1]/2。 18. 百分位数(percentile):是一种位置指标,以P x 表示,一个百分位数Px 将全部观察值分为两个部分,理论上有x%的观察值小于Px 小,有(1-x%)的观察值大于Px 。 19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。100%X s/CV ?=, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。 20. 频率(relative frequency):在n 次随机试验中,事件A 发生了m 次,则比值 22. 概率(probability):在重复试验中,事件A 的频率,随着试验次数的不断增加将愈来愈接近一个常数p ,这个常数p 就称为事件A 出现的概率(probability),记作P(A)或P 。 描述随机事件发生的可能性大小的数值,常用P 来表示。 23. 统计量(statistic):由样本所算出的统计指标或特征值。 24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1, 1]。 25. 回归系数(regression coefficient):直线回归方程Y ?= a+b X 的系数b 称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。 28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。 29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准差X σ称为标准误。 30. 参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计和区间估计。 点估计:直接用样本统计量作为对应的总体参数的估计值。 区间估计:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI ),又称置信区间。这种估计方法称为区间估计。 33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。 34.Ⅰ类错误(type Ⅰerror):统计学上规定,拒绝了实际上成立的H 0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概率用α表示。 35.Ⅱ类错误(type Ⅱerror):统计学上规定,不拒绝实际上不成立的H 0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概率用β表示。 36. 检验效能(power of a test):又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。 37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。 38. 参数检验:假定比较数据服从某分布,通过参数的估计量(x , s)对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如t 、u 检验、方差分析。 39. 率(rate):又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。其计算公式为: 40. 构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示。 41. 比(ratio):又称相对比,是A 、B 两个有关指标之比,说明A 为B 的若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B 。 统计学(Statistics ):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达 的科学。 总体(population ):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample ):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。

统计学名词解释汇总

统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;

截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量

统计名词解释

统计 第一章 一、心理与教育统计的定义与性质 定义:在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按照统计学的原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得到结论的一种研究方法。性质:应用统计学。 二、心理与教育科学研究数据的特点 (1)数据与结果多用数字呈现 (2)数据具有一定的随机性和变异性 (3)数据具有一定的规律性 (4)通过部分数据来推测总体的特征 三、心理与教育统计学的内容

1、描述统计(descriptive stastics)主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。 包括:A、数据如何分组、使用统计图表描述一组数据的分布情况; B、计算一组数据的特征值(集中量数和差异量数),进而描述一组数据的全貌; C、表示一事物两种或两种以上属性间的相互关系(相关分析)。 2、推论统计(inferential statistics)主要研究如何通过局部数据所提供的信息,推论总体的情形。 包括:A、如何进行假设检验,如z检验、t检验、卡方检验、F检验、回归分析等; B、总体参数特征值的估计方法; C、各种非参数检验的统计方法。 3、实验设计(experimental design)主要目的在于研究如何科学地、经济地以及有效地进行实验,它是统计学近几十年发展起来的一部分内容。 四、心理与教育的基础概念 数据类型 1、从数据的观测方法和来源来划分 计数数据(count data)是指计算个数的数据,如人口数、学校数、男女数等等。一般取整数形式; 测量数据(measurement data)是指借用一定的测量工具或具有一定

统计学名词解释超级大全

统计学名词解释超级大全第一章导论 统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。 描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。 推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。 实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。 统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。 小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。 大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。

有效数字:指能影响测量准确性的数字。 变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。 数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。 总体:性质相同的一类事物的全体。 个体:构成总体的每一基本单位或单元。 样本:总体抽出的部分个体。 参数:表示总体特征的量数。 统计量:直接从样本计算出的量数,代表样本的特征。 名称变量:指一事物与其他事物在属性、类别上不同。 顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。 等距变量:只具有相等的单位,而没有绝对的零点的变量。 比率变量:既有相等的单位,又有绝对的零点的变量。 连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。 离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。 计数数据:计算人或物的个数所获得的数据。 度量数据:用一定的测量工具或测量标准测量时所获得的数据。 指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。

统计学名词解释及简答题 .

名词解释 一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。 二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。 三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。 四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。 五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。 六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。 七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。 八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。其计算公式为: s s v x = 离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。 九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。 十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。 十一、置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信上限。 十二、显著性水平(significant level)是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05α=或0.01α=,这表明,当做出接受原假设的决定时,其正确的概率为95%或99%。 十三、方差分析(analysis of variance, ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 十四、相关系数(correlation coefficient )是根据样本数据计算的度量两个变量之间线性关系强度的统计量。 十五、回归模型(regression model )对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。描述因变量y 如何依赖于自变量x 和误差项ε的方程称为回归模型。 十六、点估计 利用估计的回归方程,对于x 的一个特定值0x ,求出y 的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计;二是个别值的点估计。 十七、时间序列(time series )是同一现象在不同时间上的相继观察值排列而成的序列。 十八、指数平滑法(exponential smoothing )是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。 十九、指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。这个概念中包含两个重点:第一个要点是指数的实质是测定多项内容;指数概念的第二个要点是其表现形式为动态相对数,既然是动态相对

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团。 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本。(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。) 随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数。) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数。 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数。(描述总体的特征数,如μσ 。) 统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数,(lg ) lg Y G n =∑ 调和平均数:变量倒数的算术平均数的反倒数,1 ()n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d 。 极差:一组资料中最大值与最小值的差值为极差。 方差:变数变异程度的度量,对于总体()22i Y N μσ-=∑,对于样本22 ()1Y y s n -=-∑。 (描述变量平均变异程度的统计量。定义为 212()1 n j j Y y s n =-= -∑。) EMS :期望均方,是对均方MS 的期望值。 标准差:变数变异程度的度量,总体标准差:()N Y ∑-= 2μσ,样本标准差:()12--=∑n y Y s 。(变数的平均变异量。) 标准误:统计数变异度的度量,12y y y s s -==。(统计数的标准差。)

统计学名词解释汇总

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类 2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。6举例说明离散型变量和连续型变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。 1数据的预处理包括哪些内容? 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 2直方图和条形图有什么区别? ①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,②直方图各矩形连续排列,条形图分开排列,③条形图主要展示分类数据,直方图主要展示数值型数据。 3饼图和环形图有什么不同? 饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。 4茎叶图和直方图相比有什么优点? 茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。 5使用图标应注意哪些问题?

医学统计学名词解释及问答题

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。 总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。 抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。 标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数 区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。 参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常 置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围 参数统计(parametric statistics) 非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。 变异(variation):对于同质的各观察单位,其某变量值之间的差异 同质(homogeneity):研究对象具有的相同的状况或属性等共性。 回归系数有单位,而相关系数无单位 β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。 线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。 参数(parameter):描述总体特征的统计指标。 统计量(statistic):描述样本特征的统计指标。 实验设计的基本原则 对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组 重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样

统计(名词解释)

统计 第一章绪论 统计学:是研究统计方法和原理,一类是数理统计【以概率论为基础,对统计数据量关系模式加以解释,对统计原理和方法加以数学证明】,一类是应用统计【数理统计的方 法在各个邻域的应用】。 教育统计学:应用数理统计的方法和原理研究教育问题的一门学科。 从具体应用:描述统计:对已获得的数据进行整理概括显现其分布特征的统计 方法 推断统计:根据样本提供的信息,运用概率的理论分析,论证, 在一定可靠程度上对总体分布特征进行推测和估计 其内容包括假设检验和总体参数估计。 基本概念:随机变量:我们把能表示随机现象各个结果的变量称作随机变量。 总体:是我们研究的具有某种共同特性的个体的总和。总体中的每个单位称 作个体 样本:从总体中抽取的作为观察对象的一部分个体。 统计量:样本的数据特征 参数:总体的数据特征 第二章数据统计分类 按数据来源分:点计数据:指计算个数获得的数据 度量数据:指用一定工具或一定测量标准所获得的数据。 按随机变量:间断性随机变量:数据单位是独立的,两个单位之间不能在划分为更细小的单 位 连续性随机变量:取值个数无限。 统计图表:表示间断变量统计图:直条图、圆形图、 表示连续变量统计图:线形图、频数分布图【直方图、多边图、累计频数和累 计百分比】 第三四章集中量差异量【注意每个量的表示】 算数平均数:原始数据计算 频数分布表计算【每一段频数计算组中值,乘以个数求和】 方差标准差:离差平方的算数平均数是方差,开放后为表准差 原始数据的计算,定义式的计算。 中位数:是位于以一定大小顺序排列的一组数据中央位置的数据。 原始数据计算【个数分奇偶】频数计算方式。【大小】 四分位距:第三个四分位数与第一个四分位数的差的一半称之为四分位距 百分位距:两个百分位数之差,通常是90%和10%的差。 众数:理论众数:频数分布曲线最高点对应的横坐标上的一点。 粗略众数:一组数据中频数出现最多的那个数。 皮尔逊经验法、金氏插补法。 平均差:每一个数据和中位数离差的绝对值的算术平均数。 原始数据、频数计算 差异系数:标准差和算术平均数的百分比,【1】可以比较不同单位的差异程度、【2】比较单位相同但平均数差异较大的离散程度、【3】可判断特殊差异情况。 ※平均数、众数、中位数三者之间的关系:

统计学名词解释

名词解释 1.统计学:是应用概率论和数理统计的基本原理和方法,研究数据的收集、整 理、分析、表达和解释的一门科学。 2.医学统计学:是应用统计学的基本原理和方法,研究医学及其有关领域数据 信息的搜集整理、分析、表达和解释的一门科学。 3.抽样:是从研那个研究总体抽取少量有代表性的个体,称为抽样。 4.统计推断:是根据已知的样本信息来推断未知的总体,是统计分析的目的, 包括参数估计和假设检验。 5.总体:是根据研究目的确定的同质研究对象的全体。 6.概率:是随机事件发生可能性大小的数值度量。 7.同质:是指所研究的观察对象具有某些相同的性质或特征。 8.变异:是同质个体的某项指标之间的差异,即个体差异。 9.正态分布:频数分布的高峰在中间,两端基本对称,逐步减少,这种分布称 为近似正态分布,如果两端完全对称则称为正态分布。 10.医学参考值范围:又称正常值范围,医学上常将包括绝大多数正常人的某指 标值的波动范围称为该指标的正常值范围。 11.动态数列(dynamic series):是按照一定的时间顺序,将一系列描述某事 物的统计指标依次排列起来,观察和比较该事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。 12.人口金字塔:将人口的性别与年龄资料结合起来以图形的方式表达人口的性 别与年龄结构,以年龄为纵轴,人口百分比为横轴,左侧为男,右侧为女,两个对应的直方图,其形似金字塔。 13.负担系数(dependency ratio):又称抚养比或抚养系数,是指人口中非劳 动年龄人数与劳动年龄人数之比。 14.标准化死亡比(SMR):实际死亡人数与期望死亡人数之比称为标准化死亡比。

统计学名词解释新

中央广播电视大学2013-2014学年度第一学期"开放本科"期未考试(半开卷) 社会统计学试题 二、名词解释(每题4分,共20分) 11.抽样单位与抽样框 抽样单位就是一次直接的抽样所使用的基本单位。(2分) 抽样框是指一次直接抽样时所有抽样单位的名单。(2分) 12.普查与抽样调查 普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全 面调查。(2分) 称为误差减少比例,简称PREa(2分)PRE的取值范围为0→1,PRE值越大,说明用变量X 去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大;反之,PRE越小、说明变量X与变量Y之间的关系越小。(2分) 13.散点图 散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。(2分) 散点图是描述变量关系的→种直观方法,我们可以从散点图中直观的看出两个变量之间 是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何乙14.正态分布

连续性随机变量中重要的分布是钟型概率分布,就是正态分布,也称为常态分布,是种 连续型随机变量的概率分布。(2分)正态分布是对称的,且正态分布的中央点最高。(2分) 15.最小二乘法 对于存在线性关系的变量x和y的观察值,我们可以用很多直线去描述,但我们需要选用距离各观测值最近的一条直线,用它来描述x与y之间的关系使实际的误差最小,根据这一思想来确定回归方程中参数的方法就是最小二乘法。(2分)最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求参数的方法。(2分) 二、名词解释(每题4分,共20分) 11.概率抽样 概率抽样就是按照随机原则进行的抽样,(2分)总体中每个个体都有一定的、非零的概率 入选样本,并且入选样本的概率都是已知的或可以计算的。(2分) 分) (2 散点图是描述变量关系的一种直观方法,我们可以从散点图中直观的看出两个变量之间 是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何。 14.抽样分布 抽样分布是指样本统计量的概率分布,(2分)它是在重复选取容量为n的样本时,由每个样本计算出来的统计量值的相对频数分布。(2分) 15.虚无假设与替换假设 我们将需要通过样本信息来推断其正确与否的命题称为虚无假设,也称为原假设或零假设。(2分) 如果虚无假设不成立,我们就拒绝虚无假设,需要在另一个假设中进行选择,这就是替换假设。(2分〉

相关文档
最新文档