统计学名词解释

统计学名词解释
统计学名词解释

统计学名词解释

第一章绪论

1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。

2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。

3.个体:构成总体的每个基本单元称为个体。

4.样本:从总体中抽取的一部分个体,称为总体的一个样本。

5.次数:指某一事件在某一类别中出现的数目,又称为频数。

6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。

7.概率:某一事物或某一情在某一总体中出现的比率。

8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。

9.参数:又称为总体参数,是描述一个总体情况的统计指标。

10.统计量:样本的那些特征值叫做统计量,又称特征值。

第二章统计图表

1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。

2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。

3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。

4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。

5.分组次数分布表的编制步骤:

(1)求全距

(2)定组距和组数

(3)列出分组组距

(4)登记次数

(5)计算次数

6.分组次数分布的意义:

(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。

(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。

7.相对次数分布表:用频数比率或百分数来表示次数

8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。

9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

10.不等距次数分布表:例如工资级别,年龄分组。

11.直方图:以矩形面积表示连续性随机变量次数分布的图形,又称等距直方图,没画矩形时的直方图叫组织图。横轴为等距分组点,纵轴为频数。

12.次数多边形图:是一种表示连续性随机变量次数分布的线形图。横轴为组中值纵轴为频数。

13.累加次数分布图:根据累加次数分布表绘制面成,分为:

(1)累加直方图:横轴为等距分组点,纵轴为累加次数

(2)累加曲线:又称递加线,可以连接累加直方图各组矩形右顶点而来。横轴为精确上限或精确下限,纵轴为累加次数。其形状有以下三种:正偏态、负偏态和正态。例如,若一次测验大多数人分数偏低,只有少数人才能得高分,也就是少数人的分数朝向高分一端,分布即为正偏态。

14.条形图:主要用于表示离散型数据,用直条长短表示数量的大小。一个轴为分类轴,一个轴为数量轴。区别与直方图:描述数据不同,表示数据的方式不同,标尺分点意义不同,图形形状不同。

15.圆形图:也叫饼图,用于表示间断性资料,表示各部分在整体中所占比重大

16.线形图(折线图、曲线图):(1)更多用于表示连续数据的函数关系:(2)描述某种现象在时间上的爱展趋势:(3)描述种二种理多变化的。

17.散点图:用圆点多少和分布疏密来表示两个变量的相关程度

18.茎叶图:当观测数据不是很多时使用,茎代表观测值中位数部分,时代个位数部分。主要优点是既保留了全部原始数据,又呈现出直方图的形式,具有次数分布表与直方图的双重优点。

19.箱型图:是一种用作显示一组数据分散情况的统计图,主要包含上边缘,上四分位数,中位数,下四分位数,下边缘,异常值这六个节点。

第三章集中量数

1、集中趋势:指数据分布中大量数据向某方向集中的程度。

2、集中量数:指描述一组数据集中趋势特点的统计量。

3、算术平均数:所有观察值的总和除以总频数得到的商,一般简称为平均数或均数、均值。一般用字母M表示,如果是由X变量计算的,就记为X,若由Y变量求得,则记为Y。

4、中数:是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。又称中点数,中位数,中值,符号为Md或Mdn。

5、众数:指在次数分布中出现频次最多的那个数的数值。又称为范数,密集数,通常数等,常用符号M。。

6、加权平均数:指根据每个数据的权重计算的平均数,解决各个平均数求整体平均数之类的问题。

7、几何平均数:指成几何级数增长的变量值的平均数,适合于计算平均比率和平均发展速度,又称对数平均数。

8、调和平均数:指将各个数据取倒数平均后再取倒数计算得到的平均数,又称倒数平均数。主要用来描述学习速度方面的问题。

9、最小平方原理:只有各个变量与平均数之差的平均和为最小,即每个数据与任一常数包括中数或众数之差的平方和都大于每个数据与平均数之差的平方和。

第四章差异量数

1.差异量数:也称离散量数。就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量。

2.百分位数:指量尺上的一个点,自此点以下,包括数据分布中全部数据个数的一定百分比。

3.百分等级:利用百分位数的计算公式也可以计算出任意分数在整个分数分布中所处的百分位置,称为该分数的百分等级。

4.平均差:是次数分布中所有原始数据与平均数绝对离差的平均值,用A.D.或M.D.表示。

5.离均差:表示了每一个观测值与平均数的距离大小,正负号说明了重量施于什么方向,离均差的总和为零,标志着完全平衡。有时简称为离差或偏差。

6.方差:也称变异数、均方。作为统计样本量,用符号S2表示,作为总体参数,用符号σ表示。它是每个数据与该组数据平均数之差乘方后的均值即离均差平方后的平均数。

7.标准差:即方差的平方根,用s或SD表示,若用σ表示,则是指总体的标准差。

8.差异系数:又称变异系数、相对标准差等,它是一种相对差异量,用CV 表示,为标准差对平均数的百分比。

9.标准分数:又称基分数或Z分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。(12年真题)

第五章相关关系

1、相关:事物之间的相互关系大致有三种,.因果关系、共变关系和相关关系;统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度,分为正相关、负相关和零相关。

2、相关系数:是两列变量间相关程度的数字表现形式,或者说是用来表示相关关系强度的指标。常用r表示样本相关系数,用希腊字母ρ表示总体参数。取值情况为-1.00≦r≦1.00。

3、相关分析:相关密切与否的判定在判定相关是否密切时,要把样本量大小与相关系数取值大小综合起来考虑,一般要经过统计检验方能确定变量之间是否存在显著的相关。另外,若是非线性相关关系,而用直线相关计算r值,可能很小,但不能说两变量关系不密切。

4、积差相关:简称皮尔逊相关,又称积距相关。人们把离均差乘方之和除以N叫做“距”,把X的离均差和Y的离均差这二者积的总和除以N,用“积距”概念表示。积差相关是运用较为普遍的计算相关系数的方法。

5、等级相关:等级相关是以等级次序排列的变量之间的相关,这种相关对

变量的总体分布不作要求,故这类相关为非参数相关。

6、质量相关:指一列变量为等比或等距的测量变量,另一列变量是按性质划分的变量,求这两个变量之间的直线相关称为质量相关。它主要包括:点二列相关、二列相关、多系列相关。

7、点二列相关:如果在两个变量中,一个变量是等比或等距的测量变量且其总体为正态,另一变量为“二分”称名变量(如男女、已婚与未婚等),这两个变量之间的直线相关称做点二列相关。

8、二列相关:当两个变量为正态连续变量,其中一个变量被人为地划分为二分变量,这两个变量之间的相关称为二列相关。如测验成绩分为及格与不及格,身体状态分为健康与不健康两类。

9、多列相关:两个正态连续变量,其中一个变量被人为地划分成多种类别,如学习成绩被分为优、良、中、差四类,表示这两种变量之间的相关称为多系列相关。

10、四分相关:两因素本身都是连续的正态变量,分别为人为划分为两种不同类别,这类四格表大都用于同一个被试样本中,分别调查四个不同因素两项分类的情况

第六章概率分布

1.概率:随机是指在一定条件下可能出现也可能不出现的,表明随机事件出现可能性大小的客观指标就是概率它是概率论研究的主要内容。概率的定义有两种,即后验概率和先验概率。

2.概率的基本性质:(1)任何一个随机事件A的概率都是非负的。

(2)在一定条件下必然发生的必然事件的概率为1。

(3)在一定条件下必然不发生的时间,即不可能事件的概率为0。

3.互不相容事件:指在一次实验和调查中,若事件A发生则事件B就一定不发生,否则二者为相容事件。

4.独立事件:指一个事件的出现对另一个事件的出现不发生影响。

5.概率分布类型:是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。主要有离散分布与连续分布,经验分布与理论分布,基本随机变量分布与抽样分布。

6.〔16年真题〕正态分布:也称常态分布或常态分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。

正态分布的特征:(1)正态分布的形式是对称的〔但对称的不一定是正态的〕,它的对称轴是经过平均数点的垂线。正态分布中,平均数,众数,中数三者相等,此点y值最大。(2)正态分布的中央点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。

(3)正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态分布下的面积划分为相等的两部分,即各为0.50。

(4)正态分布为一族分布。它随随机变量的平均数,标准差的大小与单位不同

而有不同的分布形态。

(5)正态分布中各差异量数值相互间有固定比率。

(6)在正态分布曲线下,标准差与概率有一定的数量关系。

7.二项分布:又叫贝努里分布,是一种具有广泛用途的离散型随机变量的概率分布。具体定义是(次处不太确定):设有n次试验,各次试验都是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q(等于1-p)。

需满足以下条件:

(1)任何一次实验恰好有两个结果,成功与失败,

(2)共有n次试验,并且n是预先给定的任一正整数,

(3)每次试验各自独立,各次试验之间无相互影响。

(4)某种结果出现的概率在任何一次试验中都是固定的。

第七章参数估计

1.参数估计:当在研究中以样本获得一组数据后,如何通过这组信息,对总体特征进行估计。也就是如何以局部结果推论总体的情况,称为总体参数估计。

2.点估计:是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。

3.区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围,它是用数轴上的一段距离表示未知参数可能落入的范围,它虽不具体指出总体参数等于什么,但能指出未知总体参数落入某一区间的概率有多大。(2011年真题)

4.置信区间(置信间距):是指在某一位置信度时,总体参数所在的区域距离或区域长度。置信区间的上下二端点值称为置信界限。

5.显著性水平:指估计总体参数落在某一区间时,可能犯错误的概率,用α表示。1-α为置信度或置信水平。

6.区间估计和假设性检验的关系。2013简答

联系:

①都是根据样本信息推断总体

②都是抽样分布理论为依据,建立在概率论之上的推断

区别:

①参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立

②区间估计求得的是以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验

③区间估计立足于大概率,假设检验立足于小概率

7.完全随机设计和随机区组设计的关系

①完全随机设计和随机区组设计的分组方式不同

完全随机设计把被试分为若干组,每组分别接受一种实验处理,有几种处理,就相应地有几组被试,即不同的被试接受不同自变量水平的实验处理;

随机区组设计根据被试特点,将被试分为几个区组,再根据自变量水平数在每一个区组内划分若干小区,同一区组接受不同处理,设计原则是同一区组被试应尽量同质,区组间可以异质。

②完全随机设计与随机区组设计的设计思想不同

完全随机设计为单因素设计,仅考虑处理因素

随机区组设计为双因素设计,考虑的因素有两个,一个是处理因素,一个是区组因素

8.估计总体平均数的步骤

详细请参考p201页

第八章假设检验

1、差异显著:当两个事物之间出现差异时,有可能是抽样误差,也有

可能是实质性的差异,如果经过统计检验发现差异超过了统计学所规定的某一误差限度时,则表示差异已经不属于抽样误差了,统计上将这样的情况称为差异显著,反之即是差异不显著。

2、假设检验:在统计学中,通过的样本统计量得出的差异做出一般性

结论,判断总体参数之间是否存在差异,这种推论过程称为假设检验。

3、假设与假设检验:假设一般专指统计学属于对总体参数所作的假定

性说明。在进行任何一项研究时,都需要根据已有的经验和理论先对研究结果作出一种预想的希望证实的假设。这种假设叫科学假设,记作 H1,又叫备择假设。由于证实远比证伪困难,在统计学中,不对 H1 的真实性直接检验,需要建立与其对立的假设,成为虚无假设,记作H0。假设检验的问题就是要判断虚无假设是否正确,因此虚无假设就是统计推论的出发点。

注意:备择假设总是要假设对比两者间是有差异的,例如单总体检验样本均值与总体均值是否有差异时,我们的备择假设就是 X ≠μ ,对应备择假设,虚无假设总是假设两者并无差异,即表示为X = μ 。

4、显著性水平:指的是拒绝虚无假设的小概率值,用α表示。也就是

说,如果一件事情发生的概率小于我们设定的这么一个显著性水平,我们就将其归为“小概率事件”,也就是认为它是一件“几乎不可能发生”的事件。

5、小概率原理:假设检验的基本思想是概率性质的反证法,基于统计

学中广泛采用的小概率原理,该原理认为“小概率事件在一次实验中几乎是不可能发生的”,由此假设检验首先假定虚无假设为真,在虚无假设为真的前提下,若导致了违反常理或不合理的现象出现,则表明“虚无假设为真”的假定错误,必须拒绝虚无假设。而若没有,那就认为“虚无假设为真”是正确的,即要接受虚无假设。

6、假设检验中的两类错误

(1)I 类错误:当 H0 为真,而按照概率法则,需将落入拒绝区域的假设判定为假,统计学中将这类拒绝 H0 时所犯的错误,也叫α类错误。

(2)II 类错误:如果平均值未落入拒绝区域,但按照小概率原理,要接受H0(等距拒绝 H1)时,所犯的错误,也叫β类错误。

7、差异显著:经过检验,如果所得差异超过了统计学规定的某一误差

限度,则表明这个差异已不属于抽样误差,而是总体上确有差异,这种情况叫做差异显著。

8、两类错误的关系:

(1)α+β不一定等于 1;

(2)在其他条件不变的情况下,α与β不可能同时减小或增大。

(3)统计检验力与两种密切相关。

9、影响β错误的因素:II 型错误与 I 型错误不同,影响β值大小的因素主要有三:

一、在参数检验中,β依赖于参数的实际值与假设值之间的距离,两者相差越大,β越小;

二、α越小,β就越大;

三、当α与 n 固定时,根据研究问题的性质选择适当的检验类型可以减少β

10、双侧检验与单侧检验

(1)双侧检验:是指推断差异是否存在,而不断言差异的方向。其显著性水平标记为:α=0.05/2 或α=0.01/2

(2)单侧检验:是研究者根据已有的资料事先能够预料到谁优谁劣,检验只是为了进一步确证而选择的方法。(即是说研究者已经不只能够判断出“有差异”,而且可以判断出“A 比 B 好/优/大/快”的情况下所采用的方法)

11、假设检验的基本步骤

(1)根据问题要求,提出虚无假设和备择假设

(2)选择适当的检验统计量

(3)规定显著水平α

(4)计算检验统计的值

(5)作出决策

12、平均数的显著性检验:是对样本平均数与总体平均数之间差异进行的显著性检验。

样本类型:分为独立样本和相关样本

(1)独立样本:即两个互不相关的样本,往往来自不同总体,即是不同组别间相同性质的比较。

(2)相关样本:即两个样本间是存在某些联系的,往往来自同一个总体,即是同一个组内产生的两种不同类别的数据。

13、假设检验与参数估计的区别与联系

假设检验是当样本统计量超过一定标准时,就说统计显著,是检验两事物差异是否显著的一种方法;而参数估计是要找到总体值所可能落入的可靠范围,是利用样本统计量对总体参数所作的估计。而作为两者的代表性指标——显著性水平和置信水平也是从不同角度回答了相同的问题。

第九章方差分析

方差分析又称作变异分析,它是斯内德克为了探讨一个因变量和一个或多个

自变量之间的关系,1946年根据费舍的早期工作发明的一种检验方法。其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响。

1.方差分析的适用条件是什么?主要用来检验什么?

答:进行方差分析时有一定的条件限制,数据必须满足以下几个基本假定条件,否则由它得出的结论将会产生错误。方差分析的适用条件如下

(1)总体正态分布

方差分析同Z检验及检验一样,也要求样本必须米自正态分布的总体。在心理与教育研究领域中,大多数变量是可以假定其总体服从正态分布,一般进行方差分析时并不需要去检验总体分布的正态性。当有证据表明总体分布不是正态时,可以将数据做正态转化,或采用非参数检验方法

(2)变异的相互独立性

总变异可以分解成几个不同来源的部分,这几个部分变异的来源在意义上必须明确,而且彼此要相互独立。

(3)各处理内的方差一致

在方差分析中用MS作为总体组内方差的估计值,求组内均方MS.时,相当于将各个处理中的样本方差合成,它必须满足的一个前提条件就是,各实验处理内的方差彼此无显著差异。这一假定若不能满足,原则上是不能进行方差分析的。方差分析主要用来检验两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。

2.简述方差分析法的步骤

答:方差分析法的步骤是

(1)和一般的假设检验一样设立零假设和研究假设;

(2)根据实验设计的类型确定各变异源,进行相应的平方和分解,即有几个变异源就从总平方和中分解出几个平方和

(3)根据平方和分解得到各变异源对应的自由度,即进行总自由度的分解;

(4)根据研究的目的和实验设计考虑要检验什么效应,从而将其对应的平方和比上相应的自由度得到该效应的均方,其中误差均方必须计算

(5)将各待检验效应的均方比上误差的均方,计算各F统计量

(6)将计算来的各F统计量值和F检验的临界值进行比较得出统计结论,其中临界值的分子自由度和分母自由度分别是待检验效应的自由度和误差自由度;

(7)如果效应检验结果显著,可以进入事后检验,即对多水平的自变量进行多重比较考察各水平间的具体差异,如果是多因素方差分析,交互作用效应检验显著,也可以进入简单效应检察具体考察交互作用的情况。

完全随机设计的方差分析

完全随机设计的方差分析,就是对单因素组间设计的方差分析。在这种实验研究设计中,各种处理的分类仅以单个实验变量为基础,因而,把它称为单因素方差分析或单向方差分析。

(一)各实验处理组样本容量相同

各实验处理组样本容量相同时,对于每一种实验处理而言,它们被重复进行的次数是相同的。这种情况,也称之为“等重复”。

(二)各实验处理组样本容量不同

这种情况又称作“不等重复”。进行方差分析的过程与“等重复”情况基本相同。

(三)利用样本统计量进行方差分析

有时欲分析的资料只有各组的X1、s及n等样本特征值,没有原始数据,在这种情况下要进行方差分析,关键在于对方差分析的思想和基本概念的理解,只要对平方和、均方等概念真正理解,进行方差分析比用原始数据进行方差分析还要简单。计算公式依据平方和的定义公式。

随机区组设计的方差分析

1.随机区组设计的方差分析,就是重复测量设计的方差分析,或称为组内设计的方差分析。

随机区组设计指在实验中将实验对象按一定的标准划分为n个区组,使得区组内的实验对象的个别差异尽可能小,即保证区组内的同质性,并使每个区组均接受所有K个处理。且各个区组内每个处理仅有一个观测。其顺序是随机决定的。

2.随机区组设计根据被试特点把被试划分为几个区组,再根据实验变量的水平数在每一个区组内划分为若干个小区,同一区组随机接受不同的处理。这类实验设计的原则是同一区组内的被试应尽量“同质”。

每一区组内被试的人数分配大致有三种情况:

(1)一个被试作为一个区组,这时不同的被试(区组)均需接受全部K个实验处理。每人接受K种实验处理的顺序不同所产生的误差,应该用一定的方法加以平衡。

(2)每一区组内被试的人数是实验处理数的整数倍。

(3)区组内的基本单位不是个别被试,而是以一个团体为单位。总之,对于每一区组而言,它应该接受全部实验处理;对于每种实验处理而言,它在不同的区组中重复的次数应该相同。

3.随机区组设计由于同一区组接受所有实验处理,使实验处理之间有相关,因此又称之为相关组设计,或称被试内设计。与完全随机设计相比,其最大优点是考虑到个别差异的影响。这种由于被试之间性质不同导致产生的差异就称为区组效应。随机区组设计可以将这种影响从组内变异中分离出来,从而提高效率。但是这种设计也有不足,主要表现为划分区组困难,如果不能保证同一区组内尽量同质,则有出现更大误差的可能。

事后检验

一般来说,方差分析的主要目的是通过F检验讨论组间变异在总变异中的作用,借以对两组以上的平均数进行差异检验,得到一个整体性的检验结果。如果F 检验的结果表明差异不显著,说明实验中的自变量对因变量没有显著影响。相反,如果方差分析F检验的结果表明差异显著,拒绝了虚无假设,就表明几个实验处理组的两两比较中至少有一对平均数间的差异达到了显著水平,至于是哪一对,方差分析并没有回答。虚无假设被拒绝的结果旦出现,就必须对各实验处理组的多对平均数进一步分析,做深入比较,判断究竟是哪一对或哪几对的差异显著,哪几对不显著,确定两变量关系的本质,这就是事后检验。这个统计分析过程也被称作事后多重比较。

为什么不能用t检验对多个平均数的差异进行比较

同时比较的平均数越多,其中差异较大的一对所得t值超过原定临界值L。的概率就越大,这时α错误的概率将明显增加,或者说本来达不到显著性水平的差异就很容易被说成是显著了,这时用t检验就不适宜。比如要比较3个总体平均数之间的差异,如果用t检验就需要比较3(C3)次,假如每次比较的置信区间为95%,那么3次比较后检验的可靠性就降低为0.95=0.857。目前,关于多重比较的

方法有多种:如Sche检验法、 Newman- Keuls检验法、Dun-can的多距检验法,Tukey的可靠显著差异法、费舍的最小显著差异法等方法。

第十章卡方检验

1.卡方检验方法:能处理一个因素两项或者多项分类的实际观察频数与理论频数分布是否相一致问题,或说有无显著差异问题。

2.实际频数:简称实计数或实际数,是指在实验或调查中得到的计数资料,又称为观察频数。

3.理论次数:是指根据概率原理、某种理论、某种理论次数分布或经验次数分布计算出来的次数,又称为期望次数。

4.配合度检验:主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种卡方检验有时也称无差假说检验。当对连续数据的正太性进行检验时,这种检验又可称为正太吻合性检验。

5.独立性检验:用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立性的问题。

6.同质性检验:主要目的在于检定不同人群母体总体在某一个变量的反应是否具有显著差异。

7.期望次数:虚无假设成立时的数值。

8.配合度检验:主要用于检验单一变量的实际观察次数分布与某理论次数是否有差别。

9.独立性检验:主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。

10.同质性检验:在教育与心理研究中,经常要分析几种因素之间是否真有实质上的差异,或者判断几次重复实验的结果是否同质,这类问题的卡方检验称为同质性检验。

11.卡方检验用途:主要用来处理某随机变量是否服从某种特定分布、两个样本的总体分布是否一致、变量之间是否存在关联性以及总体分布位置差异检验等问题。它也能同时检验一个因素两项或多项分类的实际观察数与某理论次数分布是否相致的问题,或说有无显著差异问题,即检验样本观测次数(或百分比)与理论或总体次数(或百分比)的差异性。理论次数的计算是卡方检验运算过程中的关键。

第十一章非参数检验

1.什么是非参数检验?

非参数检验是对总体数据分布形态未知,研究资料大多数为分类数据的数据分析。

2.非参数检验常用的统计方法有哪些?

1.它是一种建立在秩和基础

2.中数检验法

3.

规律,仅仅依据某种特定的正负号数目多少对总体的、中位数进行判断和

4.等级方差分析

第十二章线性回归

1.回归分析:通过大量的观测发现变量之间存在的统计规律性,并用一定的数学模型表示变量相关关系的方法。当只有一个自变量并且统计量成一次函数的线性关系的回归分析叫一元线性回归分析。

2.最小二乘法:就是如果散点图中每一点沿Y轴方向到直线的距离的平方和最小,简单讲就是使误差的平方和最小,则认为这条直线的代表性最好,它的表达式就是所要求的回归方程。

3.决定系数:指r方,表示回归平方和在总平方和中所占的比例,即回归引起的变异在总变异中所占的比例。

第十三章多变量统计分析简介

1.(2015真题)因素分析:是一种多变量统计分析方法,它将彼此高

度相关而又于别的变量相对独立的一组变量聚合成群,称之为“因素”。因素分析的基本思想是,根据相关性大小把变量分组,使得同组内的变量间相关较高,不同组变量间相关较低;每组变量代表一个基本结构,即因素。其目的是识别少数几个因子,因子表示并解释多个相关变量之间的关系,从而减少变量数目,简化复杂的数据结构。

2.多重线性回归:在回归分析中,如果对两个或两个以上的自变量对

因变量影响现象进行分析,这就叫做多重回归。

3.最优方程选择法:即从所有可能的自变量组合建立的回归方程中选

择最优的。

4.同时多重回归法:将所有的预测变量同时纳入回归方程中估计因变

量。

5.强制进入法:在某一显著水平下,不考虑预测变量间的关系,把对

因变量具有解释力的所有预测变量纳入回归方程式,计算所有变量的回归系数。

6.强制淘汰法:在某一显著水平下,不考虑预测变量间的关系,将对

因变量没有解释力的所有预测变量,一次性全部排除在回归方程之外,再计算保留在回归方程式中的所有预测变量的回归系数。

7.逐步多重回归发:依据预测变量解释力的大小,逐步检查每一个预

测变量对因变量的影响。

8.层次多重回归法:先将人口变量用强迫进入法进行回归分析,计算

回归系数,其次再将情意变量以逐步分析法计算自尊、焦虑感各自的预测力,完成对因变量的回归分析,这种方法称为层次多重回归法。

9.因子分析:是处理多变量数据的一种统计方法,它可以解释多变量

之间的关系,其主要目的是从为数众多的可观测的变量中概括和综合出少数几个因子,用较少的因子变量来最大程度地概括和解释原有的观测信息,从

而建立起简洁的概念系统,揭示出事物之间的本质关系。(斯皮尔曼【英】)

第十四章抽样原理及方法

1.整体抽样:整群抽样又称集体抽样,是指从总体单位中成批(组)抽取样本,而不是一个一个地从总体中抽取样本。整群抽样可采用随机抽样法,而更多的是采用等距抽样法。整体抽样的优点是便于组织,节省经费,容易控制调查质量。它的缺点是:一般来说,由于各群间的差异比较大,所以其抽样误差要比简单随机抽样、系统抽样和分层抽样的误差要大一些。

2.分层抽样:

分层抽样又称分类抽样或类型抽样,是先将总体按某种特征分为若干部分(层),然后再从每一层内进行随机抽样或机械抽样,组成一个样本的方法,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减少了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。

3.简单随机抽样

将抽样范围中每个人或每个抽样单位编号,随机选择,以避免由于标记、姓名或其他社会赞许性偏见而造成抽样误差,或者按随机数码表选择被试作为样本,每个人或抽样单位都有相同的机会作为常模团体中的一部分。

4.等距抽样(机械抽样)

指以被试的某些与所测特质无关的特性,将被试按照一定的顺序排列,研究者确定一个随机的起点,如果从总体中抽取1/k的被试,那么列表中的第k个就成为样本组成中的被试,如果在到达时仍不够预定的样本样组容量,只需简单地到列表前面继续选取,直到第k个被试便可。

统计学名词解释

统计学名词解释 第一章绪论 1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。 2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。 3.个体:构成总体的每个基本单元称为个体。 4.样本:从总体中抽取的一部分个体,称为总体的一个样本。 5.次数:指某一事件在某一类别中出现的数目,又称为频数。 6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。 7.概率:某一事物或某一情在某一总体中出现的比率。 8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数:又称为总体参数,是描述一个总体情况的统计指标。 10.统计量:样本的那些特征值叫做统计量,又称特征值。 第二章统计图表 1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。 4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤: (1)求全距 (2)定组距和组数 (3)列出分组组距 (4)登记次数 (5)计算次数 6.分组次数分布的意义: (1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。 (2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。 7.相对次数分布表:用频数比率或百分数来表示次数 8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

统计学名词解释

1、统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 2、指标和标志 标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位 统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位,简称单位。样本是从总体中抽取的一部分单位。 4、统计调查 统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数 反映总体规模的绝对数量值,在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。 6、时期指标和时点指标 时期指标是反映总体在一段时期内累计总量的数字资料,是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。 7、抽样估计和假设检验 抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。 8、变量和变异 标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量 参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差 样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差 抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。 12、重复抽样和不重复抽样 重复抽样也称为回置抽样,是从总体中随机抽取一个样本时,每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样,它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计 点估计也叫定值估计,就是直接用抽样平均数代替总体平均数,用抽样成数代替总体成数。区间估计是在一定概率保证下,用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数 广义上来说,它是表明社会经济现象的数量对比关系的相对指标。狭义上来说,它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数 凡是一个总量指标可以分解为两个或两个以上的因素指标时,将其中一个或一个以上的因素指

社会统计学的名词解释

社会统计学的名词解释 非参数检验:泛指“对分布类型已知的总体进行参数检验”之外的所有检验方法。符号检验:181页 配对符号秩检验:183页 秩和检验方法:把两个样本混合起来,从小到大进行编号;分别计算两个样本的秩和;;计算检验统计量U;如果计算出的U只小于或等于从附表10中查处的临界值,则零假设被拒绝。 游程检验:把样本1和样本2混合起来,按数值从小到大编号;点算游程数目,以混合样本中游程数目r为检验统计量。 确定性关系:一个变量值确定后,另一个变量值也就完全确定了。 非确定性关系:给定了一个变量值,另一个变量值还可以在一定的范围内变化。相关系数r:这一指标用来度量相关关系程度或强度。就线性相关来说,当\r\=1时,表示完全相关;当0<\r\<1时,表示不完全相关;当\r\=0时,表示无相关或零相关。 判断两个变量有因果联系的条件:(1)两个变量有共变关系;(2)两个变量之间的关系不是有其他因素形成的;(3)两个变量的产生和变化有明确的时间顺序。 列联表:按品质标志吧两个变量的频数分布进行交互分类,由于表内的每一个频

数都需同时满足两个变量的要求,所以列联表又称条件频数表。 消减误差比例(PRE)=(原来的误差—后来的误差)\原来的误差 Gamma系数:适用于测量两对称的定序变项的相关系数。 积差系数:两个定距变量之间的相关测量,最常用的就是积差系数。英国统计学家皮尔逊用积差方法推导出来的,所以也称皮尔逊相关系数,用符号r表示。回归:有一种力量使子辈个体身高趋向父辈平均身高,高尔顿把这种趋向中心的现象称之为回归。 拟合优度检验:检验总体是否具有正态或其他分部形式的非参数统计检验。 方差分析:他可以检验多个总体均值是否存在差异的统计检验方法。 时间数列:是某一指标的数值按时间按先后顺序排列而成的一个序列,也称动态数列。一般有两个基本要素构成:被研究对象所属的时间和反映该现象在各个时间上的统计指标数值。 增长量:总量指标报告期水平和基期水平之差,表明该指标在一定时期内增加和减少的绝对数量。(逐期增长量和累计增长量) 发展速度:反映社会现象发展程度的动态相对指标,即时间相对数。发展速度时报告期发展水平除以基期发展水平所得之商。如果这个比值大于1,表示水平提高了;如果这个比值小于1,表示水平下降了。(环比发展速度、定基发展速度)

统计学名词解释及公式

第1章统计与统计数据 一、学习指导 统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。 概念:统计学,描述统计,推断统计。 统计在工商管理中的应用。 统计的其他应用领域。 概念:分类数据,顺序数据,数值型数据。 不同数据的特点。 概念:观测数据,实验数据。 概念:截面数据,时间序列数据。 统计数据的间接来源。 二手数据的特点。 概念:抽样调查,普查。 数据的间接来源。 数据的收集方法。 调查方案的内容。 概念。抽样误差,非抽样误差。 统计数据的质量。 概念:总体,样本。 概念:参数,统计量。 概念:变量,分类变量,顺序变量,数值 型变量,连续型变量,离散型变量。 二、主要术语 1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 2.描述统计:研究数据收集、处理和描述的统计学分支。 3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 4.分类数据:只能归于某一类别的非数字型数据。 5.顺序数据:只能归于某一有序类别的非数字型数据。 6.数值型数据:按数字尺度测量的观察值。 7.观测数据:通过调查或观测而收集到的数据。 8.实验数据:在实验中控制实验对象而收集到的数据。 9.截面数据:在相同或近似相同的时间点上收集的数据。 10.时间序列数据:在不同时间上收集到的数据。

11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推 断总体特征的数据收集方法。 12.普查:为特定目的而专门组织的全面调查。 13.总体:包含所研究的全部个体(数据)的集合。 14.样本:从总体中抽取的一部分元素的集合。 15.样本容量:也称样本量,是构成样本的元素数目。 16.参数:用来描述总体特征的概括性数字度量。 17.统计量:用来描述样本特征的概括性数字度量。 18.变量:说明现象某种特征的概念。 19.分类变量:说明事物类别的一个名称。 20.顺序变量:说明事物有序类别的一个名称。 21.数值型变量:说明事物数字特征的一个名称。 22.离散型变量:只能取可数值的变量。 23.连续型变量:可以在一个或多个区间中取任何值的变量。 四、习题答案 1.D 2.D 3.A 4.B 5.A 6.D 7.C 8.B 9.A 10.A 11.C、12.C 13.B 14.A 15.C 16.D 17.C 18.A 19.C 20.D 21.A 22.C 23.C 24.B 25.D 26.C 27.B 28.D 29.A 30.D 31.A 32.B 33.C 34.A 35.A 36.A 37.D 38.B 39.B 40.C 41.C 42.D 43.C 44.D 45.A 46.B 47.C 48.A 49.C 50.D 51.A 52.C 53.D 54.A 55.B

统计学名词解释汇总

统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;

截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团. 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数. 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ .)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数, (lg) lg Y G n = ∑ 调和平均数:变量倒数的算术平均数的反倒数, 1 () n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差. 方差:变数变异程度的度量,对于总体 ()2 2i Y N μ σ - = ∑ ,对于样本 2 2 () 1 Y y s n - = - ∑ 。 (描述变量平均变异程度的统计量.定义为 2 1 2 () 1 n j j Y y s n = - = - ∑ 。) EMS:期望均方,是对均方MS的期望值。 标准差:变数变异程度的度量,总体标准差: () N Y ∑- = 2 μ σ ,样本标准 差: () 1 2 - - = ∑ n y Y s .(变数的平均变异量.) 标准误:统计数变异度的度量,12 y y y s s - == 。(统计数的标准差。)

医学统计学名词解释复习资料

1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。 2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。 3. 样本(sample):从总体中随机抽取的部分个体。 4. 样本含量(sample size):样本中所包含的个体数。 5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。 6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。 7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。 8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。 9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。 11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。 12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95%和99%,故常用95%和99%的可信区间。 13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。 16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。 17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M 表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n 为奇数时,M=X (n+1)/2;当n 为偶数时,M=[X n/2+ X n/2+1]/2。 18. 百分位数(percentile):是一种位置指标,以P x 表示,一个百分位数Px 将全部观察值分为两个部分,理论上有x%的观察值小于Px 小,有(1-x%)的观察值大于Px 。 19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。100%X s/CV ?=, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。 20. 频率(relative frequency):在n 次随机试验中,事件A 发生了m 次,则比值 22. 概率(probability):在重复试验中,事件A 的频率,随着试验次数的不断增加将愈来愈接近一个常数p ,这个常数p 就称为事件A 出现的概率(probability),记作P(A)或P 。 描述随机事件发生的可能性大小的数值,常用P 来表示。 23. 统计量(statistic):由样本所算出的统计指标或特征值。 24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1, 1]。 25. 回归系数(regression coefficient):直线回归方程Y ?= a+b X 的系数b 称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。 28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。 29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准差X σ称为标准误。 30. 参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计和区间估计。 点估计:直接用样本统计量作为对应的总体参数的估计值。 区间估计:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI ),又称置信区间。这种估计方法称为区间估计。 33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。 34.Ⅰ类错误(type Ⅰerror):统计学上规定,拒绝了实际上成立的H 0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概率用α表示。 35.Ⅱ类错误(type Ⅱerror):统计学上规定,不拒绝实际上不成立的H 0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概率用β表示。 36. 检验效能(power of a test):又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。 37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。 38. 参数检验:假定比较数据服从某分布,通过参数的估计量(x , s)对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如t 、u 检验、方差分析。 39. 率(rate):又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。其计算公式为: 40. 构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示。 41. 比(ratio):又称相对比,是A 、B 两个有关指标之比,说明A 为B 的若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B 。 统计学(Statistics ):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达 的科学。 总体(population ):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample ):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。

统计学名词解释超级大全

统计学名词解释超级大全第一章导论 统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。 描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。 推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。 实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。 统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。 小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。 大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。

有效数字:指能影响测量准确性的数字。 变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。 数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。 总体:性质相同的一类事物的全体。 个体:构成总体的每一基本单位或单元。 样本:总体抽出的部分个体。 参数:表示总体特征的量数。 统计量:直接从样本计算出的量数,代表样本的特征。 名称变量:指一事物与其他事物在属性、类别上不同。 顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。 等距变量:只具有相等的单位,而没有绝对的零点的变量。 比率变量:既有相等的单位,又有绝对的零点的变量。 连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。 离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。 计数数据:计算人或物的个数所获得的数据。 度量数据:用一定的测量工具或测量标准测量时所获得的数据。 指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。

统计学名词解释及简答题 .

名词解释 一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。 二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。 三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。 四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。 五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。 六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。 七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。 八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。其计算公式为: s s v x = 离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。 九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。 十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。 十一、置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信上限。 十二、显著性水平(significant level)是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05α=或0.01α=,这表明,当做出接受原假设的决定时,其正确的概率为95%或99%。 十三、方差分析(analysis of variance, ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 十四、相关系数(correlation coefficient )是根据样本数据计算的度量两个变量之间线性关系强度的统计量。 十五、回归模型(regression model )对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。描述因变量y 如何依赖于自变量x 和误差项ε的方程称为回归模型。 十六、点估计 利用估计的回归方程,对于x 的一个特定值0x ,求出y 的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计;二是个别值的点估计。 十七、时间序列(time series )是同一现象在不同时间上的相继观察值排列而成的序列。 十八、指数平滑法(exponential smoothing )是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。 十九、指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。这个概念中包含两个重点:第一个要点是指数的实质是测定多项内容;指数概念的第二个要点是其表现形式为动态相对数,既然是动态相对

社会统计学名词解释

1.社会统计学 社会统计学是运用统计学的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种专门方法与技术。人们既用它来分析已经发生和正在发生的现象,也用它来估计预测未来可能发生的现象。 2.国势学派 产生于德国,其创始人为康令和阿亨瓦尔。该学派一直以统计学为名,但只用文字记述,不用数字计量,历史上人们将该学派称为“有名无实”学派。 3.政治算术学派 该学派的创始人为英国人格朗特和威廉·配第。该学派“用数字、重量、尺度来表达自己想说的问题”,虽然没有使用统计学这一名词,但所使用的社会宏观数量对比和分析方法揭示了统计学所要研究的内容,因此历史上人们将这一学派称为“有实无名”学派。马克思对配第评价很高,誉他为“政治经济学之父,在某种程度上也可以说是统计学的创始人”。 4.数理统计学派 该学派的创始人未比利时人凯特勒,其最大的贡献就是将法国的古典概率论引入统计学,用纯数学的方法对社会现象进行研究。由于把概率论引进统计学,使社会随机现象数量方面的研究提高了准确性。因此,一门兼有数学和统计学双重意义的学科被命名为“数理统计学”。凯特勒也被人称为“现代统计学之父”。 5.大量观察法 大量观察法,就是就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征。大量观察法是统计调查阶段的重要方法 6.大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可

能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。7.描述性统计 描述性统计,就是讨论范围仅以搜索的资料本身为限,而不予以扩大。早期的统计都是描述统计。 8.推论性统计 推论性统计,主要是依据概率论,研究如何依据有限资料对总体性质作推断,从而使统计的功能大为扩充。是在树立统计学派之后发展起来的,属于比较现代的统计分析方法。9.样本和(或)样本总体 样本或样本总体,是通过抽样得到的用以推断总体特征的那个“部分”。 10.标志 标志是说名总体单位属性或数量特征的名称。 11.虚拟变量 当品质标志的变异性用离散变量来表达时,这个变量可称虚拟变量。 12.指标体系 指标体系就是一系列有内在联系得统计指标集合体。 13.总体和总体单位 总体,就是作为统计研究对象的、由许多具有共性的单位构成的整体。也有人称之为母体。构成总体的每一个个体称为总体单位,简称单位,也称为个体。 14.中位数 把总体单位某一数量标志的各个数值,按大小顺序排列,位于正中处的变量值即为中位数。 15.众数

《社会统计学》作业(共享含部份答案)

社会统计学作业 一、单项选择题 1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是( A ) A.样本 B. 总体 C. 统计量 D. 变量 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为( C )A.频率 B. 累积频数 C. 累积频率 D. 比率 3.离散系数的主要目的是( D ) A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 ( B ) A. 50%的数据 B. 68%的数据 C. 95%的数据 D. 99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为( A ) A. 39.19

B. 28.90 C .19.54 D .27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为( A ) A .点估计 B .区间估计 C .有效估计 D .无偏估计 7.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例(π)偏高。如果要检验该说法是否正确,则假设形式应该为( B ) A .0H :π≥0.1;1H :π<0.1 B .0H :π≤0.1;1H :π>0.1 C .0H :π=0.1;1H :π≠0.1 D .0H :π>0.1;1H :π≤0.1 8.下面哪一项不是方差分析中的假定( D ) A .每个总体都服从正态分布 B .观察值是相互独立的 C .各总体的方差相等 D .各总体的方差等于0 9.判断下列哪一个不可能是相关系数( D ) A .-0.9 B .0 C .0.5 D .1.2 10.用于说明回归方程中拟合优度的统计量主要是( D ) A. 相关系数 B. 离散系数 C. 回归系数 D. 判定系数

统计学名词解释汇总

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类 2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。6举例说明离散型变量和连续型变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。 1数据的预处理包括哪些内容? 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 2直方图和条形图有什么区别? ①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,②直方图各矩形连续排列,条形图分开排列,③条形图主要展示分类数据,直方图主要展示数值型数据。 3饼图和环形图有什么不同? 饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。 4茎叶图和直方图相比有什么优点? 茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。 5使用图标应注意哪些问题?

电大社会统计学考试小抄【名词解释部分】

电大社会统计学名词解释资料小抄 1.社会统计学 社会统计学是运用统计学的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种专门方法与技术。人们既用它来分析已经发生和正在发生的现象,也用它来估计预测未来可能发生的现象。 2.国势学派 产生于德国,其创始人为康令和阿亨瓦尔。该学派一直以统计学为名,但只用文字记述,不用数字计量,历史上人们将该学派称为“有名无实”学派。 3.政治算术学派 该学派的创始人为英国人格朗特和威廉·配第。该学派“用数字、重量、尺度来表达自己想说的问题”,虽然没有使用统计学这一名词,但所使用的社会宏观数量对比和分析方法揭示了统计学所要研究的内容,因此历史上人们将这一学派称为“有实无名”学派。马克思对配第评价很高,誉他为“政治经济学之父,在某种程度上也可以说是统计学的创始人”。 4.数理统计学派 该学派的创始人未比利时人凯特勒,其最大的贡献就是将法国的古典概率论引入统计学,用纯数学的方法对社会现象进行研究。由于把概率论引进统计学,使社会随机现象数量方面的研究提高了准确性。因此,一门兼有数学和统计学双重意义的学科被命名为“数理统计学”。凯特勒也被人称为“现代统计学之父”。 5.大量观察法 大量观察法,就是就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征。大量观察法是统计调查阶段的重要方法 6.大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 7.描述性统计 描述性统计,就是讨论范围仅以搜索的资料本身为限,而不予以扩大。早期的统计都是描述统计。 8.推论性统计 推论性统计,主要是依据概率论,研究如何依据有限资料对总体性质作推断,从而使统计的功能大为扩充。是在树立统计学派之后发展起来的,属于比较现代的统计分析方法。 9.样本和(或)样本总体 样本或样本总体,是通过抽样得到的用以推断总体特征的那个“部分”。 10.标志 标志是说名总体单位属性或数量特征的名称。 11.虚拟变量 当品质标志的变异性用离散变量来表达时,这个变量可称虚拟变量。 12.指标体系 指标体系就是一系列有内在联系得统计指标集合体。 13.总体和总体单位 总体,就是作为统计研究对象的、由许多具有共性的单位构成的整体。也有人称之为母体。构成总体的每一个个体称为总体单位,简称单位,也称为个体。 14.中位数 把总体单位某一数量标志的各个数值,按大小顺序排列,位于正中处的变量值即为中位数。 15.众数 在一组资料中,出现次数(或频数)呈现“峰”值的那些变量值。 16.调和平均数 N个变量值倒数算术平均数的倒数,也称倒数平均数。 17.几何平均数: N个变量值连乘积的N次方根。 18.平均指标: 就是表明同质总体在一定条件下某一数量标志所达到的一般水平。 19.显著水平

统计学名词解释新

中央广播电视大学2013-2014学年度第一学期"开放本科"期未考试(半开卷) 社会统计学试题 二、名词解释(每题4分,共20分) 11.抽样单位与抽样框 抽样单位就是一次直接的抽样所使用的基本单位。(2分) 抽样框是指一次直接抽样时所有抽样单位的名单。(2分) 12.普查与抽样调查 普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全 面调查。(2分) 称为误差减少比例,简称PREa(2分)PRE的取值范围为0→1,PRE值越大,说明用变量X 去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大;反之,PRE越小、说明变量X与变量Y之间的关系越小。(2分) 13.散点图 散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。(2分) 散点图是描述变量关系的→种直观方法,我们可以从散点图中直观的看出两个变量之间 是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何乙14.正态分布

连续性随机变量中重要的分布是钟型概率分布,就是正态分布,也称为常态分布,是种 连续型随机变量的概率分布。(2分)正态分布是对称的,且正态分布的中央点最高。(2分) 15.最小二乘法 对于存在线性关系的变量x和y的观察值,我们可以用很多直线去描述,但我们需要选用距离各观测值最近的一条直线,用它来描述x与y之间的关系使实际的误差最小,根据这一思想来确定回归方程中参数的方法就是最小二乘法。(2分)最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求参数的方法。(2分) 二、名词解释(每题4分,共20分) 11.概率抽样 概率抽样就是按照随机原则进行的抽样,(2分)总体中每个个体都有一定的、非零的概率 入选样本,并且入选样本的概率都是已知的或可以计算的。(2分) 分) (2 散点图是描述变量关系的一种直观方法,我们可以从散点图中直观的看出两个变量之间 是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何。 14.抽样分布 抽样分布是指样本统计量的概率分布,(2分)它是在重复选取容量为n的样本时,由每个样本计算出来的统计量值的相对频数分布。(2分) 15.虚无假设与替换假设 我们将需要通过样本信息来推断其正确与否的命题称为虚无假设,也称为原假设或零假设。(2分) 如果虚无假设不成立,我们就拒绝虚无假设,需要在另一个假设中进行选择,这就是替换假设。(2分〉

统计学名词解释

名词解释 1.统计学:是应用概率论和数理统计的基本原理和方法,研究数据的收集、整 理、分析、表达和解释的一门科学。 2.医学统计学:是应用统计学的基本原理和方法,研究医学及其有关领域数据 信息的搜集整理、分析、表达和解释的一门科学。 3.抽样:是从研那个研究总体抽取少量有代表性的个体,称为抽样。 4.统计推断:是根据已知的样本信息来推断未知的总体,是统计分析的目的, 包括参数估计和假设检验。 5.总体:是根据研究目的确定的同质研究对象的全体。 6.概率:是随机事件发生可能性大小的数值度量。 7.同质:是指所研究的观察对象具有某些相同的性质或特征。 8.变异:是同质个体的某项指标之间的差异,即个体差异。 9.正态分布:频数分布的高峰在中间,两端基本对称,逐步减少,这种分布称 为近似正态分布,如果两端完全对称则称为正态分布。 10.医学参考值范围:又称正常值范围,医学上常将包括绝大多数正常人的某指 标值的波动范围称为该指标的正常值范围。 11.动态数列(dynamic series):是按照一定的时间顺序,将一系列描述某事 物的统计指标依次排列起来,观察和比较该事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。 12.人口金字塔:将人口的性别与年龄资料结合起来以图形的方式表达人口的性 别与年龄结构,以年龄为纵轴,人口百分比为横轴,左侧为男,右侧为女,两个对应的直方图,其形似金字塔。 13.负担系数(dependency ratio):又称抚养比或抚养系数,是指人口中非劳 动年龄人数与劳动年龄人数之比。 14.标准化死亡比(SMR):实际死亡人数与期望死亡人数之比称为标准化死亡比。

相关文档
最新文档