第三章统计数据分布特征的描述
习题及参考答案

习题及参考答案第三章数据分布特征的描述⼀、单项选择题 1、经验表明,当数据分布近似于正态分布时,则有95%的数据位于区间() A 、σ±X B 、σ2X ± C 、σ3X ± D 、σ4X ± 2、实际中应⽤最⼴泛的离散程度测度值是()A 、极差和平均差B 、平均差和四分位差C 、⽅差和标准差D 、异众⽐率和四分位差3、集中趋势的测度值中,最主要的是()A 、众数B 、中位数C 、均值D 、⼏何平均数4、有10个数据,它们对数据6的离差分别为:-3,-2,-2,-2,0,0,4,4,5,5。
由此可知这10个数据的()A 、均值为0B 、均值为1 B 、均值为6C 、均值为5、某⽣产⼩组由36名⼯⼈,每⼈⽣产的产量数量相同,其中有14⼈⽣产每件产品耗时8分钟;16⼈⽣产每件产品耗时10分钟;6⼈⽣产每件产品耗时5分钟,计算该⽣产⼩组⽣产每件产品的平均耗时应采⽤()A 、简单算术均值B 、简单调和算术均值C 、加权算术均值 D.、加权调和均值6、某敬⽼院⾥有9位百岁⽼⼈的岁数分别为101、102、103、104、108、102、105、110、102 ,据此计算的结果是()A 、均值=中位数=众数B 、均值>中位数>众数C 、众数>中位数>均值D 、中位数>均值>中数 7、⼏何均值主要适合于()A 、具有等差关系的数列B 、变量值为偶数的数列C 、变量值的连乘积等于总⽐率或总速度的数列D 、变量值之和等于总⽐率或总速度的数列 8、加权算术均值不但受变量值⼤⼩的影响,也受变量之出现的次数多少的影响,因此下列情况中对均值不发⽣影响的是()A 、变量值出现次数相等时B 、变量值较⼩、次数较多时C 、变量值较⼤、次数较少时D 、变量值较⼤、次数较多时9、⼀组数据的均值为350,众数为200,则()A 、中位数为275,数据呈右偏分布B 、中位数为275,数据呈左偏分布C 、中位数为300,数据呈左偏分布D 、中位数为300,数据呈右偏分布10、⼀组数据的均值为5,中位数为3,则()A 、数据呈右偏分布B 、数据呈对称分布C 、数据呈左偏分布D 、数据呈正态分布11、经验表明,当数据分布近似于正态分布时,则变量值落在区间σ±X 的概率为()A、95%B、68%C、%D、%12、当众数(Mo)中位数(Me)和均值(X)三者的关系表现为:Mo=Me=X,则()A、数据有极⼩值B、数具有极⼤值C、数据是对称分布D、数据是左偏分布E、数据右偏分布13、在单项式数列中,假定标志值所对应的权数都缩⼩1/10,则算术平均数()A、不变B、⽆法判断C、缩⼩1/100D、扩⼤10倍14、若单项式数列的所有标志值都减少⼀倍,⽽权数都增加⼀倍,则其算术平均数()A、增加⼀倍B、减少⼀倍C、不变D、⽆法判断15、各变量值与其算术平均数的离差之和()A、等于各变量值之和的平均数B、等于最⼤值C、等于零D、等于最⼩值16、各变量值与其算术平均数的离差平⽅之和()A、等于各变量值之和的平均数B、等于最⼤值C、等于零D、等于最⼩值⼆、多项选择题1、当众数(Mo)、中位数(Me)和均值(X)三者的关系表现为:X<Me<Mo,则()A、数据是左偏分布B、数据是右偏分布C、数据是对称分布D、数据存在极⼩值E、数据存在极⼤值2、当众数(Mo)、中位数(Me)和均值(X)三者的关系表现为:Mo<Me<X,则()A、数据是右偏分布B、数据是对称分布C、数据是左偏分布D、数据有极⼤值E、数据有极⼩值3、数据分布的两个重要特征是()A、正态分布B、集中趋势C、t分布D、 2分布E、离散程度4、利⽤组距分组数据计算众数时,有⼀些基本假定,即()A、假定数据分布具有明显的离中趋势B、既定数据分布具有明显的集中趋势C、假定众数组的频数在该组内是正态分布D、假定众数组的频数在该组内是均匀分布E、假定众数组的频数在该组内是⼆项分布5、众数()A、是⼀组数据分布的最⾼峰点所对应的数值B、可以不存在C、也可以有多个D、是位置代表值E、不受数据中极端值的影响。
统计学 第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取
第三章描述性统计分析

描述性统计分析指标
统计量可分为两类
一类表示数据的中心位置,例如均值、中位数、众 数等 一类表示数据的离散程度,例如方差、标准差、极 差等用来衡量个体偏离中心的程度。
描述单变量分布的三种方式
用数字呈现一个变量的分布 用表格呈现一个变量的分布 用图形呈现一个变量的分布
Frequencies
在交叉列联表中,除了频数外还引进了各种百分 比。例如表中第一行中的33.3%, 33.3%, 33.3 %分别是高级工程师3人中各学历人数所占的比例 ,称为行百分比(Row percentage),一行的百 分比总和为100%;表中第一列的25.0%,25.0% ,50.0%分别是本科学历4人中各职称人数所占的 比例,称为列百分比(Column percentage), 一列的列百分比总和为100%,表中的6.3%,6.3 %,12.5%等分别是总人数16人中各交叉组中人 数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为 100%。
例子
假设我们有以下的三组观测值:
观测A:11,12,13,16,16,17,18,21 观测B:14,15,15,15,16,16,16,17 观测C:11,11,11,12,19,20,20,20
这三组观测值的均值都是15.5,那么这三组数 据是否相似呢?
离散趋势
离散趋势的描述
本科 职称 高 级工 程师 Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total 1 33.3% 25.0% 6.3% 1 25.0% 25.0% 6.3% 2 33.3% 50.0% 12.5% 0 .0% .0% .0% 4 25.0% 100.0% 25.0%
统计学原理练习题

第一章总论班级 10会4班姓名马瑶学号 1一、单项选择题1.一个总体单位(C )A.只有一个标志B.只有一个指标C.可有多个标志D.可有多个指标2.考察全国的工业的情况时,以下标志中属于不变标志的是( D )A.产业分类B.职工人数C.劳动生产率D.所有制3.要考察全国居民的人均住房面积,其统计总体是( A )A.全国所有居民户B.全国的住宅C.各省市自治区D.某一居民户4.社会经济统计学的研究对象是( B )A.社会经济现象的数量方面B.统计方法C.社会经济的内在规律D.统计工作5.有5名工人其月工资分别为200,250,300,350,400元,这五个数据是( B )A.变量B.变量值C.总体单位D.标志6.现要了解某机床厂的经营情况,该厂的产量和利润是( D )A.都是连续变量B.都是离散变量C.前者是连续变量,后者是离散变量D.前者是离散变量,后者是连续变量7.下列叙述中,采用推断统计的方法是(B )A.用饼图描述某企业职工的学历构成B.从某果园中采摘36个橘子,用这36个橘子的平均重量估计果园中橘子的平均重量C.一个城市在1月份的平均汽油价格D.反映大学生统计学成绩的条形图8.以下属于截面数据的是()A. 1981—2010年各年某地区20个乡镇的平均工业产值B. 1981—2010年各年某地区20个乡镇的各镇工业产值C. 2010年某地区20个乡镇工业产值的合计数D. 2010年某地区20个乡镇各乡镇的工业产值9.下列标志具体表现中,属于顺序数据的是()A.年龄B.购买商品的支付方式(现金、信用卡、支票)C.汽车产量D.对某改革措施的态度(赞成、中立、反对)10.劳动生产率是()A.动态指标B.流量指标C.质量指标D.强度指标11.下列指标属于结构相对数的是()A.人均粮食产量B.产品合格率C.储蓄与消费的比例D.职工平均工资12.人口数和出生人数()A.前者是时期指标,后者是时点指标B.前者是时点指标,后者是时期指标C.两者都是时期指标D.两者都是时点指标13.某企业2010年计划要求成本降低3%,实际降低5%,则计划完成程度为()某企业2010年计划要求销售收入增长8%,实际增长12%,则超额完成计划程度为()% % 考察全国的工业企业基本情况时,以下标志中属于不变标志的是()A.产业分类B.所有制C.职工人数D.劳动生产率二、判断题1.统计学是一门研究现象总体数量方面的方法论科学,所以它不关心、也不考虑个别现象的数量特征。
统计学计算题(54学时)【精选文档】

统计学习题集第三章数据分布特征的描述五、计算题1。
某企业两个车间的工人生产定额完成情况如下表:技术水平A车间B车间工人数完成定额工时人均完成工时工人数完成工时定额人均完成工时高50 14000 280 20 6000 300中30 7500 250 40 10400 260低20 4000 200 40 8200 205合计100 25500 255 100 24600 246从表中看,各个技术级别的工人劳动生产率(人均完成工时定额)都是A车间低于B车间,试问:为什么A车间的平均劳动生产率又会高于B车间呢?3. 根据某城市500户居民家计调查结果,将居民户按其食品开支占全部消费开支的比重(即恩格尔系数)分组后,得到如下的频数分布资料:恩格尔系数(%) 居民户数20以下620~30 3830~40 10740~50 13750~60 11460~70 7470以上24合计500要求:(1)据资料估计该城市恩格尔系数的中位数和众数,并说明这两个平均数的具体分析意义。
(2)利用上表资料,按居民户数加权计算该城市恩格尔系数的算术平均数.(3)试考虑,上面计算的算术平均数能否说明该城市恩格尔系数的一般水平?为什么?恩格尔系数(%) 居民户数(户)f 组中值x 向上累积频数20以下 6 15 620~30 38 25 4430~40 107 35 15140~50 137 45 28850~60 114 55 40260~70 74 65 47670以上24 75 500合计500 --答:(1)Me=47.226%,指处于中间位置的居民家庭恩格尔系数水平;Mo=45。
661%,指居民家庭中出现最多的恩格尔系数水平;(2)均值=47.660%;4. 某学院二年级两个班的学生英语统考成绩如下表。
要求:(1)分别计算两个班的平均成绩;(2)试比较说明,哪个班的平均成绩更有代表性?哪个班的学生英语水平差距更大?你是用什么指标来说明这些问题的;为什么?英语统考成绩学生人数A班B班60以下4 660~70 12 1370~80 24 2880~90 6 890以上4 5合计50 605. 利用上题资料,试计算A班成绩分布的极差与平均差,并与标准差的计算结果进行比较,看看三者之间是何种数量关系。
3 理论分布与抽样分布

【例3.7】 已知u~N(0,1),试求: (1) P(u<-1.64)=?
(2) P (u≥2.58)=?
(3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =?
(1) P(u<-1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
加减不同倍数σ区间的概率)是经常用到的。
P(μ-σ≤x<μ+σ)= 0.6826
P(μ-2σ≤x<μ+2σ) = 0.9545 P (μ-3σ≤x<μ+3σ) = 0.9973
P (μ-1.96σ≤x<μ+1.96σ) = 0.95
P (μ-2.58σ≤x<μ+2.58σ)= 0.99
在数理统计分析中,不仅注意随机变量x落在平均数加减不 同倍数标准差区间(μ-kσ , μ+kσ)之内的概率,更关心的是x落在 此区间之外的概率。
二项分布---二项分布的定义及其特点
二项分布的应用条件: (1)各观察单位 只具有相互对立 的一种结果,如合格或不 合格, 生存或死亡等等,非此即彼; (2)已知发生某一结果 (如死亡) 的概率为p,其对立结果 的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较 稳定的数值; (3)n次观察结果互相独立,即每个观察单位的观察结果不
P (-2.58≤u<2.58)=0.99
标准正态分布的三个常用概率如图示
u变量在上述区间以外取值的概率分别为: P(|u|≥1)=2Φ(-1)=1- P(-1≤u<1) =1-0.6826=0.3174 P(|u|≥2)=2Φ(-2) =1- P(-2≤u<2) =1-0.9545=0.0455 P(|u|≥3)=1-0.9973=0.0027 P(|u|≥1.96)=1-0.95=0.05 P(|u|≥2.58)=1-0.99=0.01
第3章:数据的初步统计分析

(1)测算1950-1985年,我国平均每5年的人口增长速度; (2)测算1950-1975年,我国平均每5年的人口增长速度; (3)如果1975-1985年期间不实行计划生育政策,请测算1985年我国的人口总数 解:MG=(1.114•1.077 • 1.096 •1.144 • 1.144 • 1.068•1.089 ) 1/7 =1.096 9.6% MG=(1.114•1.077 • 1.096 •1.144 • 1.144 ) 1/5 =1.1096 10. 9% P=92420 •(1.109)2 = 113590(万人)
元,中位数为3800元。如果该公司员工月收入的名数分布的偏斜度不是很明显,且 得到员工收入标准差б为800,请测算大众汽车公司员工月收入的算术平均数,并判 断其名数分布的名态特征,进而计算其偏斜度Sk 。
解: X=(3Xe-Xo)/2=(3*3800-3340)/2=4030(元) 因为算术平均数大于中位数且大于众数 所以可判断该名数分布呈现正偏态
X
m od
∆1 = L + •h ∆1 + ∆ 2
1
L表示中位数(众数)所在组的下限; n表示总名数; fc表示中位数所在组前所有各组的名名名数; fm表示中位数所在组的名数; h表示中位数所在所的组距; ∆1表示众数所在组名数减紧邻众数组的前一组名 数的差值; ∆2表示众数所在组名数减紧邻众数组的后一组名 数的差值。
∑
/[
i=1
fi ( X
n
i
− X ) fi
2
]2 − 3
∑
i=1
∑
i=1
1) 2) 3) 4)
当峰度等于0时,呈现正态分布 当峰度大于0时,呈现顶尖峰分布 当峰度小于0时,呈现平坦分布 当峰度接近于-2.2时,分布曲名趋向一名水平名
第三章数据的特征量及统计分析

X g 10
几何平均数的应用
lg பைடு நூலகம் ( ) N
——计算入学人数增加率、学校经费增加率、阅读能力提高 率等。
例:某市6年中小学教师的学历达标率分别为40%、52%、65%、 72%、78%、86%,计算该市小学教师6年学历平均达标率。
解:
lg 0.40 lg 0.52 lg 0.65 lg 0.72 lg 0.78 lg 0.86 lg G 0.1975 6
2、四分位距( QD)——内距或四分位差
四分位数:把所有数据由小到大排列并分成四等份,处于三 个分割点位置的数值就是四分位数。 分别记为: • 第一四分位数 (Q1),即第25百分位数( P25 ),又称“较 小四分位数” 。 • 第二四分位数 (Q2),即第50百分位数( P50 ),又称“中 位数” 。 • 第三四分位数 (Q3),即第75百分位数( P75 ),又称“较 大四分位数” 。 • 四分位距(QD)=(Q3-Q1)/2
大样本标准差:s 小样本标准差:s
X
2
N
频数分布表计算标准差:
X
2
X
2
X
n
1 N
N
f i(mi X )2
X
n 1
f i mi2
(
f i mi N
)2
标准差的性质
(1)标准差的大小受变量影响,如变量间变异大, 求得的标准差也大,反之则小。 (2)计算时,各变量同时加上或减去一个常数,其数值 不变 (3)各变量同时乘以或除以一个常数a,所得标准差是原 来标准差的a倍或1/a倍。
2.几何平均数
——N个数据连乘积的N次方根,符号为
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章统计数据分布特征的描述
统计数据分布特征的描述是统计学中的重要概念之一、它是通过对数据进行整理、组织和分析来了解数据的分布情况,帮助我们更好地理解数据的特点和趋势。
一、数据分布特征的描述方法
在统计学中,数据分布特征主要通过以下两种方法进行描述:
1.图形描述法:通过绘制图表来展示数据的分布情况。
常见的图形描述方法有直方图、条形图、饼图、箱线图等。
直方图是一种用于展示数据分布的图形。
它将其中一范围内的数据分成若干个等宽的区间,并统计每个区间中数据的频数或频率,然后绘制柱状图来表示。
箱线图是一种用于展示数据分布和异常值的图形。
它将数据划分为四个部分:最大值、上四分位数、中位数、下四分位数和最小值,并通过画出盒子和须来表示数据的分布情况。
2.数值描述法:通过使用统计指标和参数来描述数据的分布情况。
常见的数值描述方法有均值、中位数、众数、标准差、方差等。
均值是指将所有数据相加后再除以数据的总个数的得到的值,代表了数据的平均水平。
中位数是指将数据按大小排序后,处于中间位置的值,代表了数据的中心位置。
众数是指数据集中出现次数最多的值,代表了数据的集中趋势。
标准差是指数据在均值附近的波动程度,代表了数据的离散程度。
方差是指数据与均值之间的平均差的平方的平均值,代表了数据的离
散程度。
二、数据分布特征的描述步骤
要进行数据分布特征的描述,一般需要进行以下步骤:
1.数据的整理和搜集:搜集所需的数据,并将其整理成适合进行分析
的形式。
2.确定描述方法:根据数据的特点和目标,选择适当的图形描述法或
数值描述法。
3.进行描述分析:根据所选的描述方法,对数据进行分析和计算,得
出相应的描述结果。
4.解释和应用:根据描述结果,解释数据的分布特征,并根据需要进
行相应的应用。
三、数据分布特征的描述应用
数据分布特征的描述在实际应用中有很多用途,以下是几个常见的应用:
1.判断数据是否符合其中一种分布:通过对数据的分布特征进行描述,可以判断数据是否符合正态分布或其他特定的分布形式。
2.研究数据的集中趋势和离散程度:通过对数据的分布特征进行描述,可以了解数据的平均值、中位数、标准差等指标,从而判断数据的集中趋
势和离散程度。
3.识别异常值:通过箱线图等图形描述法,可以识别出数据中的异常值,帮助我们发现数据中的异常情况。
4.进行数据预测和决策分析:通过对数据的分布特征进行描述,可以帮助我们预测未来的趋势和做出相应的决策。
综上所述,数据分布特征的描述是统计学中的重要内容,它通过图形描述法和数值描述法来揭示数据的分布情况,从而帮助我们更好地理解数据的特点和趋势。
它在实际应用中有很多用途,可以帮助我们判断数据的分布形式、了解数据的集中趋势和离散程度、识别异常值以及进行数据预测和决策分析。
因此,我们应当掌握数据分布特征的描述方法和应用。