统计学名词解释及简答题 .

合集下载

统计学复习资料(名词解释、简答)

统计学复习资料(名词解释、简答)

统计学复习资料(名词解释、简答)计算题:以老师圈的重点,以及之前布置的作业为主,重点复习11/12章一、名词解释:时间序列数据:是在不同时间收集到的数据,这些数据是按时间顺序收集到的,用于所描述现象随时间变化的情况.总体:是包含所研究的全部个体(数据)的集合样本:是从总体中抽取的一部分元素的集合样本量:构成样本的元素的数目统计量:用来描述样本特征的概括性数字度量参数:用来描述总体特征的概括性数字度量概率抽样:即随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本非概率抽样:抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查简单随机抽样:指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本整群抽样:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。

系统抽样:根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式抽样误差:由抽样的随机性引起的样本结果与总体真值之间的误差分组数据:根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。

方法有单变量值分组和组距分组两种。

众数:是一组数据中出现次数最多的变量值中位数:是一组数据排序后处于中间位置上的变量值平均数:也称均值,是一组数据相加后除以数据的个数得到的结果算术平均数:是指在一组数据中所有数据之和再除以数据的个数。

几何平均数:是n个变量乘积的n次方根方差:各变量值与其平均数离差平方的平均数经验法则:当一组数据对称分布时,经验法则表明:约有68%的数据在平均数1个标准差的范围之内。

约有95%的数据在平均数2个标准差的范围之内。

约有99%的数据在平均数3个标准差的范围之内。

统计学基础名词解释及简答题

统计学基础名词解释及简答题

统计学基础知识名词解释及简答题一、名词解释1、统计学统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。

2、指标和标志标志是说明总体单位属性或特征的名称。

指标是说明总体综合数量特征和数量关系的数字资料。

3、总体、样本和单位统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。

简称总体。

构成总体的个体则称为总体单位,简称单位。

样本是从总体中抽取的一部分单位。

4、统计调查统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。

它是取得统计数据的重要手段。

5、统计绝对数和统计相对数反映总体规模的绝对数量值,在社会经济统计中称为总量指标。

统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。

6、时期指标和时点指标时期指标是反映总体在一段时期内累计总量的数字资料,是流量。

时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。

7、抽样估计和假设检验抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。

假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。

8、变量和变异标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。

数量标志和指标在统计中称为变量。

9、参数和统计量参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。

统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。

10、抽样平均误差样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。

重复抽样的抽样平均误差为总体标准差的1/n。

11、抽样极限误差抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。

我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。

统计学名称解释

统计学名称解释

第一章一、名词解释1、参数parameter:也叫参变量,是一个变量;如果我们引入一个或一些另外的变量来描述自变量与因变量的变化,引入的变量本来并不是当前问题必须研究的变量,我们把这样的变量叫做参变量或参数;描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值;2、统计量statistic:描述样本特征的数,是统计理论中用来对数据进行分析、检验的变量;3、总体population:根据研究目的确定的研究对象的全体;当研究有具体而明确的指标时,总体是指该项变量值的全体;4、样本 sample:从总体中随机抽取的部分观察单位,总体中有代表性的一部分;5、同质 homogeneity:是指观察单位研究个体间被研究指标的影响因素相同;6、变异 variation:同质事物个体间的差异;来源于一些未加控制或无法控制的甚至不明原因的因素;7、概率 probability:度量随机事件发生可能性大小的一个数值,是一个在0到1之间的实数;8、抽样误差 sampling error:由于抽样所造成的样本统计量与总体参数的差别;三、简答题1、统计学的基本步骤有哪些设计、搜集、整理、分析资料2、总体与样本的区别与关系区别:总体:根据研究目的确定的研究对象的全体;当研究有具体而明确的指标时,总体是指该项变量值的全体;样本:总体中有代表性的一部分;联系:总体包含样本,样本是总体中的一部分3、抽样误差产生的原因有哪些可以避免抽样误差吗产生原因:1总体单位的标志值的差异程度; 差异程度愈大则抽样误差愈大,反之则愈小; 2样本单位数的多少; 在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小;3抽样方法; 抽样方法不同,抽样误差也不相同;一般说,重复抽样比不重复抽样,误差要大些;4抽样调查的组织形式; 抽样调查的组织形式不同,其抽样误差也不相同,而且同一组织形式的合理程度也会影响抽样误差;不可以,它具有不可避免性,只能减少抽样误差4、何为概率及小概率事件概率:度量随机事件发生可能性大小的一个数值,是一个在0到1之间的实数; 小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将 pA≤或≤称为小概率事件,认为小概率事件在一次试验中不可能发生;第二章第三章1. 正态分布 normal distribution:也叫高斯分布Gaussian distribution,一种最常见、最重要的连续型对称分布正态分布是对称分布,但对称分布不一定是正态分布2. 中位数 median:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平;3. 四分位数间距 quartile interval:是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.即:Q3 --Q14. 方差 variance:样本观察值的离均差平方和的均值;表示一组数据的平均离散情况;反映一组数据的平均离散水平;5. 正偏态分布 positively skewed distribution:也称右偏态分布,右侧的组段数多于左侧的组段数,频数向右侧拖尾6. 负偏态分布 negatively skewed distribution:左偏态分布,左侧的组段数多于右侧的组段数,频数向左侧拖尾7. 对数正态分布 logarithmic normal distribution :对数为正态分布的任意随机变量的概率分布;如果X是正态分布的随机变量,则 exp X为对数分布;同样,如果Y是对数正态分布,则 log Y为正态分布;8. 医学参考值范围 medical reference range:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围;最常用的是95%参考值范围;三、简答题1. 描述数值变量资料集中趋势的指标有哪些其适用范围有何异同平均数:描述一组变量值的集中位置或平均水平的指标体系;不同的分布使用不同的指标算术均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布传染病发病的潜伏期2. 描述数值变量资料离散趋势的指标有哪些其适用范围有何异同反映数据的离散度 Dispersion ;即个体观察值的变异variation程度;常用的指标有:1. 极差Range 全距适用范围:任何计量资料;是参考变异指标2. 百分位数与四分位数间距 Percentile and Quartile range百分位数:适用范围广泛,可用于偏态资料,分布不明的资料和分布两端无确定值的资料四分位数间距:常用于描述偏态分布资料的离散程度,值越大——变异程度越大,中位数与四分位间距一起使用,描述偏态分布资料的特征;3. 方差 Variance正态分布资料4. 标准差Standard Deviation适用范围:均数与标准差经常被同时用来描述正态分布资料的集中和离散趋势;5. 变异系数 Coefficient of Variation适用范围:主要用于单位不同或均数相差悬殊资料3. 医学中参考值范围的涵义是什么确定的步骤和方法是什么医学参考值范围:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围;最常用的是95%参考值范围;步骤与方法:1. 确定“正常人”对象的范围:即根据研究目的确定的未患被研究疾病的个体;2. 统一测定标准:即检验用的试剂批号、仪器、人员、条件等应相同;3. 确定分组:一般需用年龄、性别等对“正常人”对象进行分组,分组特征也可根据检验判断;4. 样本含量确定:一般来讲,正态分布资料所需的样本含量应在100以上,偏态或未知分布时样本含量应更大;5. 确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧;6. 确定百分位点:一般取95%或99%;第四章第五章一、名词解释1 标准误standard error:表示样本统计量抽样误差大小的统计指标,统计上通常将统计量如样本均数、样本率p等的标准差称为标准误;2 可信区间confidence interval:按一定的或1-α用一个区间来估计参数所在的范围,该范围通常称为参数的可信区间或者置信区间confidenceinterval,CI,预先给定的概率1-α称为可信度或者confidencelevel,常取95%或99%;3 假设检验hypothesis testing:利用样本提供的信息判断假设是否成立的统计方法称为统计假设检验;4 统计推断statistical inference:用一个或一系列样本的结果去估计总体可能的结果的过程;包括假设检验和参数估计;5 Ⅰ型错误type I error::“实际无差别,但下了有差别的结论”,假阳性错误;犯这种错误的概率是其值等于检验水准6 Ⅱ型错误type II error:“实际有差别,但下了不拒绝H0的结论”,假阴性错误;犯这种错误的概率是其值未知7 检验效能power of test:当两总体确有差别,按检验水准所能发现这种差别的能力;8 变量变换 variable transformation:也称变量代换,是将原始数据作某种函数转换,如转换为对数值;三、简答题1 假设检验的基本原理和步骤;假设检验过去称显着性检验;它是利用小概率反证法,从问题的对立面H0出发间接判断要解决的问题H1是否成立;然后在H0成立的条件下计算检验统计量,最后获得P值来判断;1. 建立检验假设,确定检验水准选用单侧或双侧检验1无效假设null hypothesis零假设,记为H0;2备择假设又称对立假设,记为H1;2. 计算检验统计量根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等如数据的分布类型选择相应的检验统计量;3. 确定P值,下结论;选定显着性水平α的值,P≤α,拒绝H0,接受H1 ,下“有差别”的结论;P>α不拒绝H0,但不能下“无差别”或“相等”的结论,只能下“根据目前试验结果,尚不能认为有差别”的结论;2 标准差和标准误的异同;相同点:都是用来表示变异程度的,均是反映随机误差的;区别:标准差与标准误的意义、作用和使用范围均不同;标准差亦称单数标准差一般用SD 表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误一般用SE 表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差,是量度结果精密度的指标;标准差是最常用的统计量, 一般用于表示一组样本变量的分散程度;标准误一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等;3 参考值范围和置信区间有何区别参考值范围是指具有明确背景资料的参考人群某项指标的测定值,例如医学参考范围指包括绝大多数的正常人的人体形态,功能和代谢产物等,表示值时可能有单侧也可能有双侧,表示方法为正态分布或百分位数法.置信区间是指在做区间的估计时指按一定的概率1-a估计总体参数所在的范围,其中1-a被称为置信度,两者的不同之处在于前者是对于某种指标的估计,后者是对参数的估计;前者用,后者用;前者用,后者用α为,为v的t或u界值;4 t 检验和方差分析的基本思想各是什么二者的区别是什么t 检验假设检验的一种:假设检验的基本思想是小概率反证法思想;小概率思想是指小概率事件P<或P<在一次试验中基本上不会发生;反证法思想是先提出假设检验假设H0,再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立;方差分析的基本思想是根据资料设计的类型及研究目的,可将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释;通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响;区别:t检验可用于2个样本均数差异的显着性检验,但不适于多组均数的检验;方差分析是判断多组≥3 数据之间均数差异是否显着的一种假设检验方法;5、t 检验和t 检验的应用条件有何异同t 检验:样本含量n较小时如n<601正态分布2方差齐性homogeneity of variance方差分析:总体——正态且方差相等样本——独立、随机6 以随机区组设计的两因素方差分析为例,简述方差分析的基本原理;正态分布且方差齐同的资料,应采用两因素处理、配伍方差分析two-way ANOVA或配对t检验g=21总变异:反映所有观察值之间的变异,记为SS总;2 处理间变异:由处理因素的不同水平作用和随机误差产生的变异,记为SS处理;3 区组间变异:由不同区组作用和随机误差产生的变异,记为SS区组.4 误差变异:由随机误差产生的变异,记为SS误差;对总离均差平方和及其自由度的分解,有:7 可信区间和假设检验的区别和联系;一主要区别:1、可信区间是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;2、可信区间为双侧,假设检验既有双侧检验,也有单侧检验;3、可信区间立足于大概率,假设检验立足于小概率;二主要联系:1、都是根据样本信息推断总体参数;2、都以抽样分布为理论依据,建立在概率论基础之上的推断;3、二者可相互转换,形成对偶性;可信区间与假设检验各自不同的作用,要结合使用;一方面,可信区间亦可回答假设检验的问题,算得的可信区间若包含了H0,则按水准,不拒绝H0;若不包含H0,则按水准,拒绝H0,接受H1;另一方面,可信区间不但能回答差别有无统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际的专业意义;8 配对t 检验与两样本t 检验的基本原理有何不同;配对t 检验适用于配对设计的计量资料;配对设计类型:①两同质受试对象分别接受两种不同的处理;②同一受试对象分别接受两种不同处理;③同一受试对象一种处理前后;两样本t 检验适用于完全随机设计两样本均数的比较,第七章1. 二项分布、Poisson 分布与正态分布间有何关系二项分布:是正态分布的特殊形式,记作X~Bn, ,理论上n→+∞且→则二项分布呈正态分布;在实际应用中,当n较大、np与n1-p均>5, 且有→时,二项分布可看成近似正态分布;Poisson 分布:它是普通二项分布在次数极大,发生机率很小时的极限,记作PX,λ越大则Poisson分布渐近正态分布;实际应用上,λ≥20就可将其看作()~λ是正态分布;第六章分类资料的统计描述一、名词解释1、率rate:是说明某事物或现象发生的频率或强度的指标;2、构成比constituent ratio:是说明某事物内部各组成部分的比重或分布的指标;3、相对比relative ratio:是说明两个有关联的事物间的相对关系的指标;4、标准化率standardized rate:也称调整率,是多组率之间按统一的“标准”进行调整,使之具有可比性的率;5、标化发病比standardized incidence ratio:被标化组实际发病数与预期发病数之比;6、标化死亡比standardized mortality ratio:被标化组实际死亡发病、患病等数与预期死亡发病、患病等数之比;第七章二项分布与Poisson分布及其应用第八章X2检验第九章秩和检验三、简答题1、二项分布、Poisson分布与正态分布间有何关系2、X2检验的应用条件有哪些1四格表的分析方法选择条件:n≥40,T≥5,专用公式;n≥40,1≤T<5,校正公式;n<40或T<1,直接计算概率;X2连续性校正仅用于v=1的四格表资料,当v≥2时,一般不作校正;2配对四格表的分析分析方法选择条件:b+c>40,专用公式;20<b+c≤40,用校正公式;b+c<20,二项分布直接计算概率;3R×C表的分析方法选择条件:1.理论数不能小于1;2.理论数大于等于1小于5的格子数不超过总格子数的1/5;3.否则用Fisher确切概率,或似然比检验;4.如果以上条件不能满足,可采用:增加样本含量;删去某行或某列;合理地合并部分行或列;Fisher精确概率法;5.多个率或构成比比较的X2检验,结论为拒绝H0时,仅表示几组有差别,并非任两组之间都有差别;若要了解之,可进行多重比较:X2表的分割或率的可信区间法;6.对于有序的分类变量,采用X2检验方法不能考虑数据的有序性质;为此,对于单向有序可采用秩和检验、Ridit分析,双向有序可采用趋势检验等;3、X2检验用于解决哪些问题1推断两个总体率或构成比之间有无差别2多个总体率或构成比之间有无差别3多个样本率的多重比较4两个分类变量之间有无关联性4、四格表的u检验与X2检验有何异同二者的相同点:1.四格表u检验是根据正态近似的原理np,n1-p>5,n充分大,凡是能用u检验的都可以用卡方检验,u2=x2ν=1;2.两者都有连续性校正问题;二者的不同点:1.由于正态分布可确定单双侧检验界值,当满足正态分布近似条件时,可使用u检验进行单侧检验;2.满足四格表U检验的资料,计算两率间的95%可信区间,尚可分析两率之差有无实际意义;检验可用于2×2列联表资料有无关联的检验5、请列举R×C表X2检验的注意事项;1注意对T值大小的要求:要求T<5的个数不能超过1/5,且不能有T<1;如果不符可选用以下方法处理:1.增加样本例数;2.相邻行列例数进行合理地合并;3.删去理论数小的行或列;4.确切概率法;(2)注意多组比较结果如为差别有显着性,并不代表每两组差别有显着性,如需分析可进一步作两两比较;(3)注意有序行×列表资料不宜采用X2检验,因为X2检验与分类变量的顺序无关;。

统计学(名词解释及简答)

统计学(名词解释及简答)

统计学名词解释统计量:用来描述样本特征的概括性数字度量简单随机抽样:指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

整群抽样:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。

系统抽样:根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式众数:是一组数据中出现次数最多的变量值中位数:是一组数据排序后处于中间位置上的变量值平均数:也称均值,是一组数据相加后除以数据的个数得到的结果标准差:离均差平方和平均后的方根区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减抽样误差得到。

假设检验:利用样本信息,对提出的命题进行检验的一套程序和方法。

双侧假设检验:当统计量U的观测值的绝对值大于临界值Uα/2即|u0|>Uα/2时,则拒绝原假设H0,此时假设检验的拒绝域在统计量分布的两侧尾部,则称这种假设检验为双侧假设检验。

相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。

回归模型:描述因变量y如何依赖于自变量x和误差项的方程。

回归方程:描述因变量y的期望值如何依赖于自变量x的方程。

估计的回归方程:根据估计数据求出的回归方程的估计。

多重共线性:是指线性回归模型中的两个或两个以上的自变量彼此相关。

时间序列:是同一现象在不同时间上的相继观察值排列而成的序列。

趋势:是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动,也称长期趋势。

季节变动(季节性):时间序列在一年内重复出现的周期性波动。

指数:广义的讲,任何两个数值对比形成的相对数都可以称作指数,狭义的讲,指数是用于测定多个项目在不同场合下综合变动的一种相对数。

消费者价格指数(CPI):反映一定时期内消费者所购买的生活消费品价格和服务项目价格的变动趋势和程度的一种相对数。

简答一、概率抽样与非概率抽样比较答:非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。

统计学简答题及部分名词解释

统计学简答题及部分名词解释

统计学简答题及部分名词解释1.简述总体与样本、参数和统计量的含义总体:我们所要研究的所有基本单位的总和。

样本:总体的一部分单位。

参数:描述总体或概率分布的数量值。

统计量:又称样本统计量,是对样本数据特征值的数量描述。

2.关于样本均值的抽样分布,中心极限定理的含义是什么?样本均值的抽样分布:当总体服从正态分布N(μ,σ2)时,在重复抽样条件下,来自该总体的容量为n的样本的均值某也服从正态分布,某的数学期望为μ,方差为σ2/n。

即某~N(μ,σ2/n)中心极限定理:设从均值为,方差为2的一个任意总体中重复地抽取容量为n的样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布含义:中心极限定理就是一个抽自任意总体样本容量为n的随机样本。

当n充分大时,样本均值的抽样分布将近似于一个具有均值和标准差的正态分布。

3.什么是抽样误差?其特点是什么?抽样误差是利用样本推断总体时产生的误差。

特点:对任何一个随机样本来讲都是不可避免的;是可以计量的,并且是可以控制的;样本的容量越大,抽样误差就越小;总体的变异性越大,抽样误差也就越大。

4.简述样本容量与置信水平、总体方差、允许误差的关系样本容量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与允许误差成反比,可以接受的允许误差越大,所需的样本容量就越小。

5.假设检验中的第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?第Ⅰ类错误(弃真错误):原假设为真时拒绝原假设时所犯的错误第Ⅱ类错误(取伪错误):原假设为假时未拒绝原假设当样本容量n确定后,当α变小时,则检验的拒绝域变小,相应的接受域会变大,因此β值也就随之变大;相反,若β变小,则α又会变大.6.试解释“上组限不在内”的原则是指当相邻两组的上下限相叠时,为了“不重”(任一个单位数值只能分在其中某一组中,不能同时分在两组中),上组限数值不算在该组内。

统计学名词解释及简答题

统计学名词解释及简答题

名词解释一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。

二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。

三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。

四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。

五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。

六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。

七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。

四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。

八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。

其计算公式为:s s v x =离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。

离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。

十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。

统计学名词解释、简答

统计学名词解释、简答

名词解释统计总体:指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。

统计总体的特征:同质性、差异性、大量性。

总体单位:个体,指构成总体的各个单位。

统计指标:简称指标,用来反映社会经济现象总体的数量特征的概念及其数值。

任一概念都包含指标名称和指标数值。

特征有总体性、数量性、综合性、具体性。

统计标志:在统计中,总体单位所具有的属性或特征的名称。

标志是统计研究的起点,总体单位是标志的载体,是标志的承担者,统计研究是从登记标志开始的,并通过对标志的综合来反映总体的数量特征。

可分为品质标志和数量标志,或不变标志和变异标志。

统计调查:就是根据统计研究的预定目的、要求和任务,运用各种科学的调查方法,有计划、有组织地搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的原始资料的工作过程。

统计调查是整个统计工作的基础环节。

统计调查的好坏,将影响统计资料的正确与否,从而影响统计质量。

统计调查的要求:准确性、及时性、全面性、系统性。

普查:是根据统计任务的特定目的而专门组织的一次性全面调查。

调查范围:1.属于一定时点的社会经济现象的总量(如人口普查)。

2.反映一定时期现象的总量(如出生人口总数)。

优点:所获资料更详细,有较高的准确性和时效性。

缺点:工作量大,花费时间长,耗费大量的人力、物力和财力。

主要作用:在于掌握某些关系国计民生、国情国力的数据,获得比较准确的信息。

抽样调查:指从所要研究的总体中,按照随机原则,抽取部分单位进行调查,并将调查整理得出的数量特征,用以推断总体综合数量特征的一种非全面调查组织形式。

特点:随机性、推断性。

优点:经济性、时效性、准确性、灵活性。

应用范围:①对总体不可能或不必要进行全面调查,但要掌握总体某些现象的全面数值②用抽样调查资料修正全面调查资料。

作用:①承担全面调查无法或很难承担的调查任务。

如气象调查。

②与全面调查结合,可以发挥相互补充、校对的作用。

③进行生产过程的质量控制。

统计学名词解释与简答题参考答案

统计学名词解释与简答题参考答案

1. 分类数据是只能归于某一类别的非数字型数据,(1分)它是对事物进行分类的结果,(1分)数据表现为类别,使用文字来表述的。

(1分)2. 四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。

(1分)四分位数是通过3个点将全部数据等分为4部分,(1分)其中每部分包括25%的数据。

(1分)3. 方差分析(analysis of variance, ANOVA)就是通过检验各总体的均值是否相等,(1分)来判断分类型自变量对数值型因变量是否有显著影响。

(2分)4. 相关系数(correlation coefficient)是根据样本数据计算的,(1分)度量两个变量之间线性关系强度的统计量。

(2分)5. 居民消费价格指数(consumer price index, CPI)是度量居民消费品和服务项目价格水平随时间变动的相对数,(1分)反映居民家庭购买的消费品和服务价格水平的变动情况。

(2分)五、简答题6. 简述直方图和茎叶图的区别。

答:(1)直方图虽然能很好地显示数据的分布,但不能保留原始的数值;茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。

(3分)(2)在应用方面,直方图通常用于大批量数据,茎叶图通常适用于小批量数据。

(2分)7. 回归分析主要解决那几个方面的问题?答:(1)从一组样本数据出发,确定出变量之间的数学关系式;(1分)(2)对这些关系式的可信程度进行各种统计检验,并从中影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的;(2分)(3)利用这些所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。

(2分8. 简述概率抽样的定义及特点。

答:概率抽样(probability sampling)也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

名词解释一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。

二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。

三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。

四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。

五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。

六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。

七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。

四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。

八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。

其计算公式为:s s v x =离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。

离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。

十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。

十一、置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信上限。

十二、显著性水平(significant level)是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05α=或0.01α=,这表明,当做出接受原假设的决定时,其正确的概率为95%或99%。

十三、方差分析(analysis of variance, ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

十四、相关系数(correlation coefficient )是根据样本数据计算的度量两个变量之间线性关系强度的统计量。

十五、回归模型(regression model )对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。

描述因变量y 如何依赖于自变量x 和误差项ε的方程称为回归模型。

十六、点估计 利用估计的回归方程,对于x 的一个特定值0x ,求出y 的一个估计值就是点估计。

点估计可分为两种:一是平均值的点估计;二是个别值的点估计。

十七、时间序列(time series )是同一现象在不同时间上的相继观察值排列而成的序列。

十八、指数平滑法(exponential smoothing )是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。

十九、指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。

指数是测定多项内容数量综合变动的相对数。

这个概念中包含两个重点:第一个要点是指数的实质是测定多项内容;指数概念的第二个要点是其表现形式为动态相对数,既然是动态相对数,就涉及指标的基期对比,不同要素基期的选择就成为指数方法需要讨论的问题。

二十、居民消费价格指数(consumer price index , CPI )是度量居民消费品和服务项目价格水平随时间变动的相对数,反映居民家庭购买的消费品和服务价格水平的变动情况。

简答题一、概率抽样的定义及特点概率抽样(probability sampling )也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

它具有以下几个特点:首先,抽样时是按一定的概率以随机原则抽取样本。

其次,每个单位被抽中的概率是已知的,或是可以计算出来的。

最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。

二、简述直方图与条形图的不同点直方图与条形图不同。

首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。

其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。

最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

三、简述一张好的图形应具有以下基本特征:(1) 显示数据(2) 让读者把注意力集中在图形的内容上,而不是制作图形的程序上。

(3) 避免歪曲。

(4) 强调数据之间的比较。

(5) 服务于一个明确的目的。

(6) 有对图形的统计描述和文字说明。

四、简述制作统计表应注意的几个问题首先,要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应合理安排。

其次,表头一般应包括表号、总标题和表中数据的单位等内容。

再次,表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。

最后,在使用统计表时,必要时可在表的下方加上注释,特别要注明数据来源,以表示对他人劳动成果的尊重,以备读者查阅使用。

五、简述众数、中位数和平均数的关系从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置的值,而平均数则是全部数据算术平均。

因此,对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:如果数据的分布式对称的,众数(0M )、中位数(e M )和平均数(x )必定相等,即0M =e M =x ;如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:x <e M <0M ;如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则0M <e M <x 。

六、简述一组数据的分布特征可以从哪几方面进行测设数据分布的特征可以从三方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。

七、简述古典概型的特征(1) 结果有上限。

(2) 各个结果出现的可能行被认为是相同的。

八、简述评价估计量好坏的标准1 无偏性2 有效性3一致性九、简述假设检验的流程首先提出原假设和备择假设。

原假设和备择假设分别为:0:3190H μ=(克)0:3190H μ≠(克)接下来,需要确定适当的检验统计量,并计算其数值。

最后可以进行统计决策。

十、什么是假设检验中的两类错误?一类错误是原假设0H 为真却被我们拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;另一类错误是原假设为伪我们却没有拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误。

十一、说明计算2χ统计量的步骤步骤一:用观察值0f 减去期望值e f ;步骤二:将0()e f f -之差平方;步骤三:将20()e f f -的结果除以;步骤四;将步骤三的结果加总。

十二、方差分析包括哪些类型?它们有何区别?根据所分析的分类型自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。

当方差分析中只涉及一个分类型自变量时称为单因素方差分析。

在对实际问题的研究中,有时需要考虑对试验结果的影响。

当方差分析中涉及两个分类型自变量时,称为双因素方差分析。

十三、解释2R 的含义和作用怎样度量它们之间的关系强度呢?可以用组间平方和(SSA )占总平方和(SST )的比例大小来反映,这一比例记为2R ,即2()()SSA SS R SST SS =组间总 其平方根R 就可以用来测量两个变量之间的关系强度。

2R 的平方根(类似于第11章中介绍的相关系数r)可以用来测量自变量与因变量之间的关系强度。

根据上面的结果可以计算出R=0.591404,这表明行业与投诉次数之间有中等以上的关系。

十四、简述方差分析的基本步骤1 提出假设2 构造检验的统计量3 统计决策4 方差分析表十五、简述判定系数的含义及作用判定系数是对估计的回归方程拟合优度的度量。

判定系数2R 测度了回归直线对观测数据的拟合程度。

若所有观测点都落在直线上,残差平方和SSE=0, 2R =1,拟合是完全的;如果y 的变化与x 无关,x 完全无助于解释y 的变差,此时ˆyy =,则2R =0.可见2R 的取值范围是[0,1]。

2R 越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观察点越接近,用x 的变化来解释y 值变差的部分就越多,回归直线的拟合程度就越好;反之,2R 越接近于0,回归直线的拟合程度就越差。

十六、在多元线性回归中,选择自变量的方法有哪些?变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等。

十七、简述时间序列的构成要求时间序列的成分可以分为四种,即趋势(T )、季节性或季节变动(S )、周期性或循环波动(C)、随机性或不规则波动(I)。

十八、简述时间序列的预测程序第一步:确定时间序列所包含的成分,也就是确定时间序列的类型。

第二步:找出适合此类时间序列的预测方法。

第三步:对可能的预测方法进行评估,以确定最佳预测方案。

第四步:利用最佳预测方案进行预测。

十九、简述构建综合评价指数的步骤(1)建立综合评价指标体系。

(2)评价指标的无量纲化处理。

(3)确定各项评价指标的权重。

(4)计算综合评价指数。

相关文档
最新文档