统计学原理贾俊平期末考试重点
贾俊平统计学知识点

统计学知识点导论部分描述统计及推断统计概念比较,举例说明。
统计数据的类型:有三种分类方式,重点关注(分类数据、顺序数据、数值型数据)这三种的概念和特点。
几个基本概念:总体和样本、参数和统计量、变量(分类变量、顺序变量、数值型变量)概念及举例明。
数据搜集部分数据的间接来源:二手数据的特点数据的直接来源:调查数据和实验数据(实验数据相关知识参见风笑天笔记)调查数据:概率抽样和非概率抽样的比较。
简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样、方便抽样、判断抽烟、滚雪球抽样、配额抽样的概念、优缺点及抽样过程的简单描述。
搜集数据的基本方法:自填式、面谈时、电话式优缺点。
数据误差:抽样误差和非抽样误差(系统误差和随机误差)。
抽样框误差、回答误差、无回答误差、测量误差概念。
误差的控制方法。
数据的概括性度量集中趋势:众数、中位数、平均数概念、计算方法、分布上的关系、各自特点和应用场合。
离散趋势:异众比率、四分位差、方差和标准差、离散系数的概念、计算、特点等。
偏态和峰态的概念。
概率部分(全部是概念)随机事件及其概率:随机事件、必然事件、不可能事件、基本事件、独立事件和条件概率。
离散型随机变量及其分布:随机变量及其分类、泊松分布。
连续型随机变量及其分布:概率密度、正态分布的曲线及其性质统计量和抽样分布部分(参数估计的基础)常用统计量抽样分布的概念正态分布及由正态分布导出的几个分布及其特点(正态、卡方、t、F)。
另外标准正态分布和正态分布的概念特点,条件分布的概念。
中心极限定理样本均值的分布、样本比例的分布、样本均值之差的分布、样本方差的分布从下面开始就要做题了,每章的例题都要做三遍,课后习题有选择的做一些。
参数估计部分参数估计、点估计、区间估计的概念及基本原理、置信区间的概念及解释、评价估计量的标准。
一个总体参数的估计(均值、比例、方差),两个总体参数的区间估计(均值之差、比例之差、方差之比)、样本量的确定(估计均值时的、估计比例时的)假设检验部分建设检验、原假设、备择假设的概念、假设检验的基本流程和决策准则。
贾俊平《统计学》复习笔记课后习题详解及典型题详解(参数估计)【圣才出品】

∧
定义:点估计是用样本统计量θ的某个取值直接作为总体参数 θ 的估计值。 局限性:一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点 估计值无法给出估计的可靠性的度量,因此不能完全依赖于一个点估计值,而应围绕点估计 值构造总体参数的一个区间。 (2)区间估计 区间估计的基本思想:在点估计的基础上,给出总体参数估计的一个区间范围,该区间 通常由样本统计量加减估计误差得到。进行区间估计时,根据样本统计量的抽样分布能够对 样本统计量与总体参数的接近程度给出一个概率度量。 置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间。
著性水平表示区间估计的不可靠概率。置信度愈大(即估计的可靠性愈大),则置信区间相
应也愈大(即估计准确性愈小)。
3.评价估计量的标准
2 / 57
圣才电子书
(1)无偏性
十万种考研考证电子书、题库视频学习平台
指估计量抽样分布的数学期望等于被估计的总体参数。
∧
∧
∧
设总体参数为 θ,所选择的估计量为θ,若有 E(θ)=θ,则称θ为 θ 的无偏估计量。
1 / 57
圣才电子书 十万种考研考证电子书、题库视频学习平台
置信下限:置信区间的最小值。
置信上限:置信区间的最大值。
置信水平(也称为置信度或置信系数):将构造置信区间的步骤重复多次,置信区间中
包含总体参数真值的次数所占的比例。
∧
∧
区间估计的数学定义:若用两个统计量θ1(x1,x2,…,xn)和θ2(x1,x2,…,xn)
存在“可能包含”或“可能不包含”的问题。
③在实际问题中,进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的
统计学(第四版)贾俊平复习资料名词解释概念课后思考题答案

统计学(第四版)贾俊平复习资料名词解释概念课后思考题答案l.获得数据的概率抽样方法有哪些?(1)简单随机抽样简单随机抽样又称纯随机抽样,是指在特定总体的所有单位中直接抽取n个组成样本。
它最直观地体现了抽样的基本原理,是最基本的概率抽样。
<2)系统抽样系统抽样也称等距抽样或机械抽样,是按一定的间隔距离抽取样本的方法。
(3)分层抽样分层抽样也叫分类抽样,就是先将总体的所有单位依照一种或几种特征分为若干个子总体,每一个子总体即为一类,然后从每一类中按简单随机抽样或系统随机抽样的办法抽取一个子样本,称为分类样本,它们的集合即为总体样本。
(4)整群抽样整群抽样又称聚类抽样或集体抽样,是将总体按照某种标准划分为一些群体,每一个群体为一个抽样单位,再用随机的方法从这些群体中抽取若干群体,并将所抽出群体中的所有个体集合为总体的样本。
(5)多阶段抽样多阶段抽样又称多级抽样或分段抽样,就是把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。
2.茎叶图与直方图相比有什么优点?它们的应用场合是什么?茎叶图与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。
而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。
在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
3鉴别图标优劣的准则1精心设计,有助于洞察问题的实质。
2使复杂的观点得到简明、确切、高效的阐述。
3能在最短的时间内以最少的笔墨给读者提供最大量的信息。
4是多维的。
5表述数据的真实情况。
4.一组数据的分布特征可以从哪几个方面进行测量?答:数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
这三个方面分别反映了数据分布特征的不同侧面。
5. 标准分数有哪些用途?标准分数给出了一组数据中各数值的相对位置。
统计学复习概念重点-贾俊平

n —1
n
'(X -X)2
i-1
n —1
估计总体比例时的样本容 量
加权样
k
2
(Mi-x) fi
iA
n —1
总体均值检验的统计量
(正态总体,匚已知)
加权样 本标准 差
’(Mi-X)2fi
『广n—1
总体比例检验的统计量
判定系 数
相关系 数检验 的统计 量
标准分
数
指数平 滑法预 测
移动平 均法预 测
R2
SSR「(?i-y)2
SST「、⑶-y)2
总体方差检验的统计量
t
~t(n- 2)
-X
一S
Xi
-
散数
离«系
Ft 1Tt(1-〉)Ft
拉氏
权均数售q1又
加平指销P1q划
Y*丫一2•…匕Yt
Ft1二Yt
k
Ip
P(1-P)
1」
N
2 2(n -1)s岂_2岂(n -1)s
P-乙.2
' pg ' qpo
P0q0q'q°P0
21.离散型变量:只能取可数值的变量。
22.连续型变量:可以在一个或多个区间中取任何值的变量。
23.调查数据:通过调查方法获得的数据
24.实验数据:通过实验方法获得的数据
25.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
26.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施 调查。
nn
年度化
增长率
Y
r?-1
均方预测 误差
n
统计学(第七版贾俊平)第七章期末复习笔记(详细附例题详解及公式)

统计学(第七版贾俊平)第七章期末复习笔记(详细附例题详解及公式)第七章7.1估计量与估计值估计⽅法:(1)点估计:据估计、最⼤似然法、最⼩⼆乘法(2)区间估计置信⽔平:(1- α),α为总体参数未在区间内的⽐例;常⽤的置信⽔平:99%(α=0.01),95%(α=0.05),90%(α=0.10)评价估计量的标准:⽆偏性 有效性 ⼀致性7.2 ⼀个总体参数的区间估计7.2.1总体均值的区间估计:题型:(1)总体服从正态分布,⽅差已知 (⼤、⼩样本) ;(2)总体服从正态分布,⽅差未知 (⼤样本);(3)⾮正态分布,⼤样本例⼀:(1)总体服从正态分布,且⽅差已知(⼤、⼩样本)例⼆:(3)⾮正态分布,⼤样本(n>=30)题型:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)例三:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)总结:7.2.2 总体⽐例的区间估计题型:总体服从⼆项分布,可由正态分布来近似(只讨论⼤样本)例四:7.2.3 总体⽅差的区间估计题型:估计⼀个总体的⽅差或标准差(只讨论正态总体)例五:⼩结:7.3 两个总体参数的区间估计7.3.1 两个总体均值之差的区间估计(2)⾮正态分布,但两个总体都是⼤样本;例⼀:(3)例⼀:(1)例⼆: (2)题型:(1)两个匹配的⼤样本;(2)两个匹配的⼩样本例⼀:(2)7.3.2 两个总体⽐例之差的区间估计题型:两个总体服从⼆项分布,样本独⽴例⼀:7.3.3 两个总体⽅差⽐的区间估计题型:求两个总体的⽅差⽐例⼀:7.4 样本量的确定7.4.1 估计总体均值时的样本量的确定例⼀:7.4.2 估计总体⽐例时的样本量的确定例⼀:。
统计学(贾俊平版)重点

第一章统计:收集、处理、分析、解释数据并从数据中得出结论得科学。
数据1、分类数据对事物进行分类得结果数据,表现为类别,用文字来表述、例如,人口按性别分为男、女两类2、顺序数据对事物类别顺序得测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3、数值型数据对事物得精确测度,结果表现为具体得数值、例如:身高为175cm ,168cm,183cm总体–所研究得全部元素得集合,其中得每一个元素称为个体–分为有限总体与无限总体、有限总体得范围能够明确确定,且元素得数目就是有限得、无限总体所包括得元素就是无限得,不可数得样本–从总体中抽取得一部分元素得集合–构成样本得元素数目称为样本容量参数:描述总体特征。
有总体均值( )、标准差(σ)总体比例(π)统计量:描述样本特征。
样本标准差(s),样本比例(p)变量:说明现象某种特征,分类,顺序,数值型:离散型,连续型。
经验,理论变量描述统计研究得就是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计就是研究如何利用样本数据进行推断总体特征第二章间接数据(查询得)与直接数据:调查(通常就是对社会现象而言得)普查信息全面完整。
再一个就是实验。
概率抽样:也称随机抽样。
按一定得概率以随机原则抽取样本,抽取样本时使每个单位都有一定得机会被抽中–每个单位被抽中得概率就是已知得,或就是可以计算出来得–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中得概率简单随机抽样:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本得概率就是相等得分层抽样:优点:保证样本得结构与总体得结构比较相近将抽样单位按某种特征或某种规则划分为不同得层,然后从不同得层中独立、随机地抽取样本,从而提高估计得精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层得目标量进行估计整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中得所有单位全部实施调查优点:抽样时只需群得抽样框,可简化工作量–调查得地点相对集中,节省调查费用,方便调查得实施–缺点就是统计得精度较差系统抽样:将总体中得所有单位(抽样单位)按一定顺序排列,在规定得范围内随机地抽取一个单位作为初始单位,然后按事先规定好得规则确定其它样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位操作简便,可提高估计得精度多阶段抽样:先抽取群,但并不就是调查群内得所有单位,而就是再进行一步抽样,从选中得群中抽取出若干个单位进行调查–群就是初级抽样单位,第二阶段抽取得就是最终抽样单位。
统计学(贾俊平版)重点

统计学(贾俊平版)重点统计学是一门研究数据分析、推断和决策的科学。
它在计量、自然科学、社会科学等领域中都扮演着重要的角色。
统计学被广泛应用于探索数据中的规律,揭示数据背后的信息和因果关系,提供决策和预测支持。
以下是统计学中的一些重要概念和方法。
1.总体和样本在统计学中,总体指的是研究对象的全体,无论是人群、产品、自然事物还是其他随机变量。
而样本则是从总体中随机抽取的一部分数据。
通过对样本的研究和分析,可以推断出总体的性质和规律。
2.描述统计描述统计是一种通过统计指标和图表来描述数据特征的方法。
其中比较重要的统计指标包括平均数、中位数、众数、标准差等。
描述统计旨在提供数据的概括性信息,以便人们更好地理解和解释数据。
3.推断统计推断统计是一种通过样本数据推断总体特征和性质的方法。
其中最重要的概念是抽样误差和置信区间。
抽样误差是指样本和总体之间的误差,而置信区间则是通过样本数据得到总体特征的区间估计值。
4.假设检验假设检验是一种判断总体特征是否符合某种假设的方法。
在假设检验中,研究人员提出一个关于总体的假设,然后利用样本数据进行检验。
假设检验的结果通常表现为拒绝或者接受原始假设的结论。
5.回归分析回归分析是一种推断变量之间关系的方法。
在回归分析中,一个或多个自变量被用来预测某个因变量的值。
回归分析可以帮助研究人员发现因变量和自变量之间的关系,并作出预测和决策。
6.方差分析方差分析是一种分析不同组之间差异的方法。
在方差分析中,数据被分成几个组,然后比较这些组之间的方差。
方差分析可以帮助确定如何将数据进行分组,以便得到更好的比较结果。
7.贝叶斯统计贝叶斯统计是一种利用先验概率和样本数据计算后验概率的方法。
在贝叶斯统计中,先验概率是在进行实证研究前已知的条件概率,而后验概率则是在考虑实证研究的结果后计算出来的条件概率。
贝叶斯统计可以帮助人们理解和理性决策不确定和风险。
综上,统计学是一门重要的科学,它为各种领域的研究和决策提供了支持和基础。
2024版统计学完整(贾俊平)人大课件ppt课件

统计学完整(贾俊平)人大课件ppt课件•引言•数据收集与整理•描述性统计分析目录•概率论基础•推断性统计分析•方差分析与回归分析•时间序列分析与预测•统计决策与风险管理目录•总结与展望01引言统计学是一门研究如何收集、整理、分析和解释数据的科学。
统计学的定义统计学的历史统计学的分支统计学的发展经历了古典统计学、近代统计学和现代统计学三个阶段。
统计学可以分为描述统计学和推断统计学两大分支。
030201统计学概述社会科学医学与健康工程与技术商业与经济统计学应用领域01020304在社会科学领域,统计学被广泛应用于调查研究、民意测验、市场分析等方面。
在医学和健康领域,统计学被用于临床试验、流行病学研究、健康风险评估等方面。
在工程和技术领域,统计学被用于质量控制、可靠性分析、信号处理等方面。
在商业和经济领域,统计学被用于市场分析、财务分析、经济预测等方面。
通过学习,学生应掌握统计学的基本概念和方法,包括数据收集、整理、描述和分析等方面的内容。
掌握统计学基本概念和方法具备数据处理和分析能力了解统计学的应用领域培养批判性思维学生应具备独立处理和分析数据的能力,能够运用适当的统计方法进行数据分析和解释。
学生应了解统计学的应用领域,能够运用所学知识解决实际问题。
学生应培养批判性思维,能够对统计结果进行合理的解释和评估。
学习目标与要求02数据收集与整理数据来源及类型数据来源包括原始数据和二手数据,原始数据是通过直接调查、实验或观察获得的数据;二手数据则是已经经过他人收集、整理和处理过的数据。
数据类型包括定性数据和定量数据,定性数据是描述性的、非数值的,如文字、图像等;定量数据则是可以用数值表示的,如年龄、收入等。
此外,还可以根据数据的测量尺度将其分为名义型数据、顺序型数据、间隔型数据和比率型数据。
调查法实验法观察法大数据收集数据收集方法通过问卷、访谈、电话调查等方式收集数据,可以获取大量的、详细的信息。
直接观察研究对象的行为、状态等,记录相关数据,适用于无法控制或干预的情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学期末(单选、10个填空、5个判断、三个计算、一道论述)第一章导论1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
分析数据:分为描述统计方法和推断统计方法两种方法。
描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计:是研究如何利用样本数据来推断总体特征的统计方法。
推断统计内容包含参数估计和假设检验2、统计数据的类型:(1)按照采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据与数值型数据。
注意:分类数据和顺序数据都是表现事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因此可以通称为定性数据或品质数据(qualitative data)。
数值型数据说明的是现象的数量特征,通常用数值来表现,因此可以统称为定量数据或数量数据(quantitative data)。
(2)按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据。
(3)按照被描述的现象与时间的关系,可以将统计数据分为截面数据、时间序列数据(和面板数据 panal data)。
3、抽样独立性问题:总体区分为有限总体和无限总体,目的是为了判别在抽样中每次抽取是否独立(类似抽小球是否放回的问题)。
在统计推断中,通常是针对无限总体的,因而通常把总体看做随机变量(random variable)。
统计上的总体通常是一组观测数据,而不是一群人或者一些物品的简单集合。
4、统计指标按其所反映的数量特点和作用不同,分为数量指标、质量指标。
样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。
抽样的目的是根据样本提供的信息推断总体的特征。
5、总体参数(parameter)是用来描述总体特征的概括性数字度量,是研究者想要了解的某种特征值。
样本统计量(statistic)是用来描述样本特征的概括性数字度量,是根据样本数量计算出来的一个量。
6、变量(variable)是说明现象某种特征的概念,特点是从一次观察到下一次观察会呈现出差别或变化。
例如:受教育程度,植株高度,年收入,宗教信仰,产品等级等都是变量。
变量可以分为分类变量、顺序变量和数值型变量。
数值型变量根据取值不同,可以分为离散变量(只能取可数值的变量,只能取有限个值,取值都是以整位数断开,如:产品产量、各位候选人得票数,企业数量等。
)和连续变量(可以在一个或多个区间取任何值的变量,取值是连续不断的,不可一一列举,如:植株高度,毕业生年收入,温度,零件尺寸误差等。
)。
变量也可以分为随机变量和非随机变量(抽取方法随机性不同),经验变量(empirical variable)和理论变量(theoretical variable)。
经验变量描述的是周围环境中可以观察到的事物,理论变量则是统计学家采用数学方法构造出来的一些变量,比如z统计量、t统计量、χ2 统计量、F 统计量等都是理论变量。
第二章数据的搜集本章小结1、数据的来源:直接来源与间接来源2、调查数据:概率抽样(简单随机抽样,分层抽样,系统抽样,整群抽样,多阶段抽样)和非概率抽样(方便抽样,判断抽样,自愿样本,滚雪球抽样,配额抽样),搜集数据的方法(自填式,面访式,电话式)的抽样方式和特点3、实验数据:实验组和对照组,大量观察法4、数据的误差:抽样误差和非抽样误差(抽样框误差,回答误差,无回答误差,调查员误差,测量误差),误差的控制5、参数估计和假设检验所依据的主要是简单随机样本第三章数据整理与显示1、直方图和条形图的区别:直方图用面积表示数据,条形图用高度表示数据;直方图主要展示数值型数据,具有连续性;条形图主要展示分类数据,分开排列。
帕累托图:按照各类别数据出现的频数多少排序后绘制的条形图。
2、累积频数和累积频率(顺序数据统计量)累积频数(cumulative frequencies):各类别频数或组的频数逐级累加起来得到的频数。
频数累积方法有两种:向上累积(顺序数据从开始到最后,数值数据从小到大)和向下累积。
累积频率(cumulative percentages)或累计百分比:各有序类别或组的百分比逐级累加起来,也有向上累积和向下累积之分。
3、数据分组有 2 种方法:单变量值分组和组距分组单变量值分组:把每一个变量作为一组,只适合离散变量,且在变量值较少的情况下使用。
组距分组:全部变量划分为若干个区间,将一个区间的变量值作为一组。
A.适用于连续变量或变量值较多的情况 B.一组的最小值称为下限(lower limit),一个组的最大值称为上限(upper limit)。
上限与下限的差称为组距,每组的中点值称为组中值(=(上限+下限)/2)。
为了解决不重问题,习惯上规定“上组限不在内”,即a≤x<b。
首组假定下限=该组上限- 邻组组距末组假定上限=该组下限 + 邻组组距首组组中值的确定:如,2000 以下,2000—3000,3000—4000,则为,2000-(3000-2000/2 4、分类数据的图示:条形图、帕累托图、饼图、环形图。
顺序数据的图示:除了上述外还有可以绘制累积频数分布或频率图。
数值型数据的展示:a.分组数据:直方图b.未分组数据:茎叶图和箱线图c.时间序列数据:线图d.多变量数据的图示:散点图、气泡图和雷达图第四章数据的概括性度量1、数据的分布特征可以从三个方面进行概括性测度和描述:(1)集中趋势;(2)离散程度;(3)峰态和偏态2、集中趋势的度量:众数,用M0表示,一组数据可能没有众数,也可能有两个或多个众数中位数,不能用于分类数据,中位数只有一个(偶数时取平均)中位数四分位数百分位数:是有P%的数据项小于或等于第P百分位数的值;有(100 - P)%的数据项大于或等于这个值。
求第P百分位数的值1)、由小到大排序。
2)、计算P百分位数所在的位置i =( p%) n,n是总项数。
3)、若i不是整数,将之向上取整,得到的整数即是第P百分位数所在的位置,相对应的数即是第P百分位数;(后面样本量n的确定也是向上取整的圆整法则)若 i 是整数,则第 P 百分位数是第 i 项与第 i+1 项数据的算术平均数。
平均数:适用于数值型数据,不适用与分类数据和顺序数据。
几何平均数:主要用于计算平均比率,平均增长率。
如计算股票的平均收益率调和平均数:平均数、中位数、众数的比较:平均数包含的信息最丰富,代表性最好。
当数列不是偏态分布的时候,平均数是集中趋势的最佳选择。
但平均数要受数列中离群值的影响。
中位数的适用范围比平均数宽,而且不受离群值的影响。
当数列的分布是偏态时,中位数是最有用的集中趋势代表值,因为它位于平均数和众数之间。
众数的适用范围比平均数和中位数都宽,也不受离群值的影响。
而且,在图上它很容易被观察到。
但由于众数提供的信息很少,因此它是用途最小的集中趋势代表值。
3、离散程度的度量(1)分类数据。
异众比率(variation ratio)是指非众数组的频数占总频数的比例,用 Vr 表示。
计算公式为:(2)顺序数据。
四分位差(quartile deviation)也称为内距或四分间距(inter-quartile range),上四分位数与下四分位数之差,用 Q d表示:Q d = Q U– Q L。
反映了中间 50%数据的离散程度,其数值越小,说明数据越集中,反之说明数据越分散。
(3)数值型数据极差(range)是一组数据的最大值与最小值之差,也称全距,用 R 表示。
计算公式:R= max(xi ) - min(xi)平均差(mean deviation)也称平均绝对离差(mean absolute deviation),是各变量值与其平均数离差绝对值的平均数,用Md表示,计算公式:方差和标准差样本方差和标准差的计算公式总体方差和标准差的计算公式(4)相对位置的度量1)标准分数(standard score)是变量值与其平均数的离差除以标准差后的值,也称标准化值或者z分数。
给出了一组数据中各个数值的相对位置。
比如:某个数值的标准分数为-1.5,则该数值低于平均数1.5倍的标准差。
2)经验法则:当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内3)切比雪夫不等式(Chebyshev’s inequality )至少有(1-1/k2)的数据落在平均数加减 k 个标准差之内。
其中 k 是大于 1 的任意值,但不一定是整数。
(k2表示k方)对于k=2,3,4,切比雪夫不等式的含义是:至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内(4)离散系数(coefficient of variation)也称变异系数,是一组数据标准差与其相应的均值之比。
计算公式:4、偏态与峰态偏态是对数据分布对称性(偏斜程度)的测度,统计量是偏态系数(coefficient of skewness ),记做 SK.(如偏态系数为 0.4 表示轻微又偏)偏态系数=0为对称分布; 偏态系数> 0为右偏分布; 偏态系数< 0为左偏分布;峰态是对数据分布平峰或尖峰程度的测度,统计量是峰态系数(coefficient ofkurtosis ),记做 CK 。
峰态系数>0为尖峰分布,数据分布更集中峰态系数<0为扁平分布,数据分布更分散;峰态系数=0正态分布第六章 统计量及其抽样分布1、统计量是样本的一个函数,不依赖于总体未知参数。
例如:样本均值、样本比例、样本方差等都是统计量,而[Xi-E(X)]/D(X)就不是统计量,因为 E(X)、D(X)都是依赖于总体分布的未知参数。
(即只要和总体有关的参数都不是统计量)2、英国统计学家费希尔曾把抽样分布、参数估计和假设检验看做统计推断的三个中心内容。
3、抽样分布是样本统计量的分布而不是总体或样本的分布。
4、卡方分布、t 分布和 F 分布被称为统计的三大分布。
5、卡方分布(1)卡方分布的概率密度函数曲线是一个不对称的右偏分布,随着自由度增大,趋近于对称 6顺分(2)卡方分布的期望、方差:当n →+ ∞时,卡方分布的极限分布是正态分布。
6、t 分布(主要用于小样本问题)与正态分布相对来说更加平坦和分散。
当n ≥30时,t分布与标准正态分布非常相似。
7、F分布。
无8、当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布,的数学期望为μ,方差为σ2/n。
即~N(μ,σ2/n)中心极限定理:从均值为 ,方差为 2 的任意一个总体中抽取样本量为 n 的样本,当 n充分大时,样本均值x(ba)的抽样分布近似服从均值为 μ、方差为 σ2/n 的正态分布8、两个样本均值之差的抽样分布第七章参数估计1、置信水平(confidence level):将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。