统计学名词解释汇总
统计学名词解释

统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。
2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。
3.个体:构成总体的每个基本单元称为个体。
4.样本:从总体中抽取的一部分个体,称为总体的一个样本。
5.次数:指某一事件在某一类别中出现的数目,又称为频数。
6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。
7.概率:某一事物或某一情在某一总体中出现的比率。
8.观测值:一旦确定了某个值。
就称这个值为某一变量的观测值。
9.参数:又称为总体参数,是描述一个总体情况的统计指标。
10.统计量:样本的那些特征值叫做统计量,又称特征值。
第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。
4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。
5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。
B.可显示一组数据的集中情况和差异情况等。
(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。
统计学名词解释(超全)

统计学名词解释(超全)统计学:是一门搜集、整理、显示和分析统计数据的方法论科学。
总体:就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。
参数:是描述总体数量特征的指标,又称总体指标。
样本:是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。
变量:指给所要研究的事物起的名字,包括可变的标志和所有的统计指标。
总体参数:描述总体数量特征的指标,又称总体指标。
样本统计量:是根据样本数据计算出来的样本指标,用来描述样本的数量特征。
普查:为某一特定目的而专门组织的一次性全面调查。
抽样调查:是按随机原则,从总体中抽选部分单位进行观察,并根据部分单位(样本)的调查数据,从数量方面推断总体参数的一种非全面调查。
统计分组:根据被研究现象总体的内在特点以及统计研究的目的,将总体按照一定的标志分为若干个性质不同的组成部分的一种统计方法。
统计表:指显示统计整理结果的表格,就是把通过整理的调查数据,使其成为得以说明现象总体数量特征的分组数据,并按一定顺序排列而形成的表格。
时期数据:反映现象总体在一段时期内发展变化总结果的总量指标。
时点指标:反应现象整体在某一的点(瞬间)上所处状况的总量指标。
众数:是一组数据中出现次数最多的变量值。
时间序列:将反映某种现象的统计指标在不同时间上的数值,按时间顺序排列而成的序列。
发展水平:时间序列中的每一项指标数值,都称为发展水平,它反映了某种现象在一定时期或时点所达到的规模和水平。
均匀发展水平:将不同时间的发展水平加以均匀而得到的均匀数。
发展速度:是反映现象发展变化快慢程度的动态相对指标,是根据两个不同时期的发展水平对比求得的。
环比发展速度:是时间序列中敷陈期发展水平与前期发展水平之比,表明现象逐期发展变化的方向和程度。
定基发展速度:是报告期发展水平与某一固定时期发展水平(最初发展水平)之比,说明现象在较长时期内总的发展变动方向与程度。
统计学名词解释

名词解释:1、分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示的。
(P5)2、四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值。
(P89)3、方差分析:是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
(P264)4、相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
(P304)5、居民消费价格指数:是度量居民消费品和服务项目价格随时间变动的相对数,反映居民家庭购买的消费品和服务价格水平的变动情况。
(420)6、顺序数据:是只能归于某一有序类别的非数字型数据。
(P6)7、抽样误差:是由于抽样的随机性引起的样本结果与总体真值之间的误差。
(P33)8、离散系数:也称变异系数,它是一组数据的标准差与其相应的平均数之比。
计算公式为:(P103)1.v s= s/⎺x9、置信区间:在区间估计中,由样本统计量所构成的总体参数的估计区间。
(P177)10、点估计:用样本统计量^θ的某个取值直接作为总体参数θ的估计值。
(P176)11、系统抽样:将总体中的所有单位(抽样单位)按一定的顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按后按事先规定好的规则确定其他样本单位。
(P19)12、中心极限定理:设从均值为μ、方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值⎺X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
(P165)13、回归模型:描述因变量y如何依赖于自变量x和误差项的方程。
对于只涉及一个自变量的一元线性回归模型可表示为y=β0+β1x+ε。
(P308)14、指数平滑法:是通过对过去的观察值加权平均进行预测的一种方法,该方法是t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。
(P378)15、非概率抽样:是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
统计学的名词解释

统计学的名词解释统计学是一门研究数据收集、分析和解释的学科,旨在通过收集和解析数据来支持决策过程和了解现象。
统计学涉及一系列概念和方法,包括数据收集、数据描述性统计、概率理论、假设检验、统计推断和回归分析等。
1. 数据收集:统计学中的第一步是收集数据。
数据可以通过各种方法获得,包括实地观察、实验、调查问卷和从现有的数据集中获取等。
2. 数据描述性统计:在收集到数据后,统计学家使用描述性统计来总结和描述数据的特征。
描述性统计包括计算数据的平均数、中位数、众数、标准差和百分位数等。
3. 概率理论:概率理论是统计学的基石之一。
它研究随机现象发生的可能性,并给出事件发生的数学表达。
概率理论为统计推断和建立模型提供了理论基础。
4. 假设检验:假设检验用于确定一个观察结果是否与一个给定的假设相符。
它提供了一种确定性地评估研究或实验结果的方法,并决定是否拒绝或接受一个假设。
5. 统计推断:统计推断是通过对样本数据进行分析和推断来对总体进行推断的过程。
它使用样本数据估计总体参数,并根据这些估计进行一些统计判断。
6. 回归分析:回归分析是一种统计方法,用于建立和探索变量之间的关系。
它可以用来预测一个变量(因变量)如何随着其他变量(自变量)的变化而变化。
7. 统计模型:统计模型是由统计学方法和理论构建的数学表达式,用于描述和解释观察数据之间的关系。
统计模型可以是简单的线性模型,也可以是更复杂的非线性模型。
8. 抽样方法:在统计学中,由于往往难以调查每一个个体或观察每一个事件,人们通常采用抽样方法来从总体中选择一部分样本进行研究。
常见的抽样方法包括随机抽样和分层抽样等。
9. 统计图表:统计图表是一种可视化数据的方式,用来展示和比较数据。
常见的统计图表包括柱状图、饼图、散点图和箱线图等。
10. 多元统计分析:多元统计分析是一项通过同时考虑多个变量来分析数据的方法。
它包括主成分分析、因子分析和聚类分析等。
总之,统计学是一门研究数据收集、分析和解释的学科,它运用一系列概念和方法来帮助人们理解数据,并从中获取有关现象和决策的信息。
完整版)统计学名词解释

完整版)统计学名词解释统计学名词解释第一章绪论在统计学上,随机变量指的是取值之间不能预料到的变量。
总体,又称母全体或全域,是指具有某种特征的一类事物的全体。
构成总体的每个基本单元称为个体。
从总体中抽取的一部分个体称为样本。
次数指的是某一事件在某一类别中出现的数目,又称为频数。
频率,又称相对次数,指某一事件发生的次数被总的事件数目除,即某一数据出现的次数被这一组数据总个数去除。
概率指某一事物或某一情在某一总体中出现的比率。
一旦确定了某个值,就称这个值为某一变量的观测值。
参数,又称为总体参数,是描述一个总体情况的统计指标。
样本的那些特征值叫做统计量,又称特征值。
第二章统计图表统计表是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
统计图一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
简单次数分布表适合数据个数和分布范围比较小的时候用,它是依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。
而分组次数分布表适合数据个数和分布范围比较大的时候用。
数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来。
分组次数分布表的编制步骤包括求全距、定组距和组数、列出分组组距、登记次数和计算次数。
相对次数分布表用频数比率或百分数来表示次数,而累加次数分布表则把各组的次数由下而上或由上而下加在一起。
最后一组的累加次数等于总次数。
双列次数分布表用同一个表表示有联系的两列变量的次数分布。
而不等距次数分布表则适用于像工资级别和年龄分组这样的不等距数据。
需要注意的是,归组效应是分组次数分布表的缺点之一,因为原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差。
统计学名词解释

统计学名词解释
①Ⅰ类错误:当拒绝H0时,可能犯错误;拒绝一个正确的H0所犯的
错误,称为Ⅰ类错误,其概率为α。
(拒真错误)
②Ⅱ类错误:当接受H0时,可能犯错误;接受一个错误的H0所犯的错
误,称为Ⅱ类错误,其概率为β。
(存伪错误)
③独立事件:一个事件是否发生不影响另一事件的发生。
④概率:是描述随机事件出现可能性的大小的统计指标。
⑤小概率事件:概率小于或等于5%的随机事件;通常情况下,在一
次随机抽样中不可能出现。
⑥随机样本:按照概率的规律抽取的样本。
(不由个人意志所决定的,)
⑦抽样误差:样本统计量与总体参数之间总会存在一定差距,而这种
差距是由于抽样的随机性所引起的。
⑧标准误:是样本统计量分布的标准差,用来衡量抽样误差的大小。
⑨参数检验:根据样本统计量去估计对应总体的参数
⑩假设检验:又称显著性检验,是用样本差异大小去估计总体之间是否存在差异。
区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围。
四分位差:
完全随机化设计:被试通过随机抽取并被随机分配到各个实验条件下进行实验的设计形式。
随机区组设计:将特征相似的被试分为一组,称为区组。
随机让每个区组接受一种实验的设计形式。
相关系数:表示两列量数之间的线性相互关系(程度)
决定系数:回归分析中衡量回归方程有效性高低指标,是回归平方和在离差平方和所占的比例。
(完整版)统计学名词解释

统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。
2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。
3.个体:构成总体的每个基本单元称为个体。
4.样本:从总体中抽取的一部分个体,称为总体的一个样本。
5.次数:指某一事件在某一类别中出现的数目,又称为频数。
6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。
7.概率:某一事物或某一情在某一总体中出现的比率。
8.观测值:一旦确定了某个值。
就称这个值为某一变量的观测值。
9.参数:又称为总体参数,是描述一个总体情况的统计指标。
10.统计量:样本的那些特征值叫做统计量,又称特征值。
第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。
4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。
5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。
B.可显示一组数据的集中情况和差异情况等。
(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。
统计学名词解释

1.总体:根据研究的目的确定的同质观察单位的全体,更确切的说,它是同质的所有观察单位某种观察值的集合2.参数:描述总体数量特征的统计指标3.样本:从总体中随帆抽取部分观察单位,其测量结果的集合称为样本。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本,该样本中所包含的观察单位数称该样样本的样本含量。
4.误差:泛指实测值与真值之差。
按其产生的原因的性质可粗分为随机误处和非随机误差,后者又可分为系统误差和非系统误差。
5.标准误:将样本统计量的标准差称为标准误,样本均数的标准差也称为均数的标准误(反应样本均数间的离散程度,也反应样本均数与相应总体均数间的差异,从而说明均数抽样误差的大小)6.医学参考值:指包括绝大多数的正常人的人体形态、功能和代谢产物等各种生理级生化指标常数,也叫正常值。
由于存在个体差异,生物医学数据并非常数,而是在一定的范围内波动,故又采用医学参考值范围作为判定正常或者异常的标准。
7.医学参考值范围:7:I类错误:指拒绝了实际上成立的HO,这类“弃真”的错误称为I型错误,其架率大小用a表示。
8.II类错误:指接受了实际上不成立的HO,这类“存伪”的误称为II 型错误,其频率大小用β。
9.系统误差:在实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生的原因往往是克制的或可以掌握地。
10.医学参考值:指包括绝大多数正常人的人体形态、功能和代谢产物等各种的生理及生化指标常数,也成正常值。
11.随机误差:是一类不恒定、陆机变化的误差,由多种尚无法控制的因素引起。
在抽样过程中由于抽样的偶然性而出现的抽样误差。
脸机误差是不可避免的,在大量的重复测量中,或在抽样过程中,它可出现或大或小或正或负,呈一定规律的变化。
12.抽样误差:这种由个体变异产生,随机抽样造成的样本统计量与总体参数的差异。
13.P 值:概率又叫几率,是度量某一随机事件A发生可能性的大小的一个数值,(Λ),P(A)越大,说明此时入事件发生的概率越大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
方法有描述统计和推断统计两类2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。
它也是有类别的,但这些类别是有序的。
(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
4什么是有限总体和无限总体?举例说明有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。
无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体5变量可分为哪几类?变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
6举例说明离散型变量和连续型变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。
1数据的预处理包括哪些内容?数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。
2直方图和条形图有什么区别?①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,②直方图各矩形连续排列,条形图分开排列,③条形图主要展示分类数据,直方图主要展示数值型数据。
3饼图和环形图有什么不同?饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。
4茎叶图和直方图相比有什么优点?茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。
在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
5使用图标应注意哪些问题?①合理安排统计表结构②表头一般包括表号,总标题和表中数据的单位等内容③表中的上下两条横线一般用粗线,中间的其他用细线④在使用统计表时,必要时可在下方加注释,注明数据来源。
1.一组数据的分布特征可以从哪几方面进行测度。
一是分布的集中趋势,反映数据向其中心靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
2.简述四分位数的计算方法:首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。
(设25%的四分位数为Q25%,75%四分位数为Q75%,根据四分位数定义有:Q25%位置=n/4,Q75%位置=3n/4。
3.对于比率数据为什么采用几何平均。
在实际应用中,对于比率数据的平均采用几何平均要比算数平均更合理。
从公式∏+=+=n 1i i n G G 11)()(中也可看出,G 就是平均增长率。
4.简述众数、中位数、和平均数的特点和应用场合。
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。
众数主要作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受数据极端值的影响。
中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。
均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。
均值主要适合于作为数值型数据的集中趋势测度值。
5. 为什么要计算离散系数。
第一,极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小取决于原变量值本身水平高低的影响。
第二,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。
因此,为消除变量值水平高低和计量单位不同对离散程度的测度值的影响,需要计算离散系数。
6.简述异众比率、四分位差、方差或标准差的适用场合对于顺序数据,但主要使用四分位差来测量其离散程度;对于数值型数据,虽然可以计算异众比率和四分位差,但主要使用方差或标准差来测量其离散程度。
7. 标准分数有哪些用途?标准分数给出了一组数据中各数值的相对位置。
在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。
它还可以用来判断一组数据是否有离群数据。
1.抽样推断的含义:是在根据随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法,对总体某一现象的数量性作出具有一定可靠程度的估计判断。
2.简单随机抽样:①含义:从含有N个元素的总体中,抽取n个元素作为样本,使得每一个容量为n的样本都有相同的机会被抽中,这样的方式称为简单随机抽样。
②特点:简单随机抽样是其他抽样方法的基础。
有两种抽取元素的方式:重复臭氧和不重复抽样。
分层抽样:①含义:在抽样之前先将总体的元素划分为若干层,然后从各个层中抽取一定数量的元素组成一个样本,这样的样本抽样方式称为分层抽样,也成分类抽样。
②特点:⑴除了可以对总体进行评估外,还可以对各层的子总体进行评估。
⑵可以按自然区域或行政区域进行分层,使抽样的组织和实施都比较方便。
⑶分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀。
⑷可以提高估计的精度。
系统抽样:①含义:先将总体个元素按照某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。
②特点:⑴简单易行⑵在总体中的分布一般也比较均匀,由此估计的误差通常要小于简单随机抽样。
整群抽样: ①含义:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进行观察。
②特点:不需要有总体元素的具体名单而只要有群的名单就可以进行抽样。
整群抽样时群内各元素比较集中,对样本进行调查比较方便,节约费用。
在群内各元素存在差异时,整群抽样可以提供较好的结果,理想的情况是每一群都是整个总体的一个缩影。
3.重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止。
不重复抽样:一个元素被抽中后不再放回总体,然后再从所剩下的元素中抽取第二个元素,直到抽取n个元素为止。
4.抽样分布:重复选取容量为n的样本时,由每一个样本算出的统计量数值的相对频数分布或概率分布,称为样本统计量的抽样分布。
5.样本统计量的分布与总体分布的关系?由于现实中我们不可能将所有的样本都抽出来,因此,统计量的抽样分布实际上是一种理论分布,但它与总体分布存在着密切的关系,以均值x的抽样分布为例,其抽样分布与原有总体的分布有关,如果原有总体是正态分布,那么,无论样本容量的大小,样本均值也服从正态分布。
其分布的数学期望为总体均值,方差为总体方差的1/n,即00。
如果原有总体的分布不是正态分布,就要看样本容量的大小了,当n为大样本时(n≥30),根据统计上的中心极限定理可知,当样本容量n增大时,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于服从正态分布。
其分布的数学期望为总体均值,方差为总体方差的1/n。
6. Z α/2n的含义:是估计误差。
Z α/2的值和样本量n 共同确定了估计误差的大小,一旦确定了置信水平1-α,Z α/2的值就确定了。
对于给定的Z α/2的值和总体标准差σ。
可以确定任一允许的估计误差所需要的样本量。
7.样本均值抽样分布的两个主要特征值:与总体参数的关系:1.理解原假设与备择假设的含义:原假设:通常将研究者想收集证据予以反对的假设称为原假设或零假设,用H0表示;备择假设:通常将研究者想收集证据予以支持的假设称为备择假设或研究假设,用H1表示。
2.统计检验量:根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。
标准化检验统计量:是将统计检验量标准化,标准化的统计检验量=(点估计量-假设值)/点估计量的抽样标准差。
3.第Ⅰ类错误:当原假设为真时拒绝原假设,所犯的错误称为Ⅰ类错误。
犯第Ⅰ类错误的概率通常记为α。
第Ⅱ类错误:当原假设为假时没有拒绝原假设,所犯的错误称为第Ⅱ类错误,又称取伪错误。
犯第Ⅱ类错误的概率通常记为β。
它们发生概率之间的关系:在样本量不变的情况下,要减小α就会使β增大,而要增大α就会使β减小,这两类错误此消彼长。
4.显着性水平:假设检验中犯的第Ⅰ类错误的概率,称为显着性水平,记为α。
它对于假设检验决策的意义:显着性水平是人们事先制定的犯第Ⅰ类错误的概率α的最大允许值,在实际应用中,显着性水平往往是人们事先给出的一个值。
值:在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率,称为P值,也称为观察到的显着性水平。
利用P值决策的准则:如果P值<α,拒绝H0;如果P值>α,不拒绝H0.6.单侧检验与双侧检验的区别:单侧检验中,P值位于抽样分布的一侧,而双侧检验P值位于分布的两侧,每一侧的P值为1/2.7.大样本情形下总体均值左侧检验的拒绝域:Z<﹣Zα;右侧检验的拒绝域:Z>Z;双侧检验的拒绝域:|Z|>Zα/2。
8.小样本情形下总体均值检验应该构造的检验统计量t 应用前提:服从正态分布9.小样本情形下总体均值左侧检验拒绝域:t<﹣tα(n-1);右侧检验拒绝域: t>tα(n-1);双侧检验的拒绝域:|t|>tα/2(n-1)10.假设检验的一般步骤:①依照题意建立原假设H0与备择假设H1②判断样本大小并计算检验统计量③根据显着水平进行判断原假设是否成立。
1、相关关系:变量之间存在的不确定的数量关系。
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个2、相关系数的取值和意义:取值范围:—1≤r≤1。