第四章 数据特征与统计描述

第四章  数据特征与统计描述

第四章数据特征与统计描述

练习题

一、最佳选择题

1. 编制频数表时,分组数目一般取()。

A. 5~10组

B. 8~15组

C. 10~30组

D. 15~20组

E. 越多越好

2. 描述一组正态分布资料的离散程度,以()指标较好。

A. 极差

B. 离均差

C. 标准差

D. 离均差平方和

E. 变异系数

3. 描述一组正态分布资料的集中程度,以()指标较好。

A. 算术均数

B. 几何均数

C. 中位数

D. 四分位数

E. 百分位数

4. 对成倍增长的计量资料描绘其集中趋势,宜用()。

A. 算术均数

B. 几何均数

C.中位数

D.方差

E.百分位数

5. 若比较身高、身体质量资料的变异度,宜用()。

A. 标准差

B. 离均差

C. 四分位数间距

D. 变异系数

E. 极差

6. 调查某地中学生的近视情况,若描述近视学生的年龄分布可用

A. 普通线图

B.直方图

C.半对数线图

D.圆图

E.条图

7. 比较某地区解放以来三种病的发病率在各年度的发展速度,宜绘制()。

A. 普通线图

B.百分条图

C.半对数线图

D.圆图

E. 条图

8. 欲表示某地区2003年SARS病人的职业构成,可绘制()。

A. 单式条图

B.圆图

C. 直方图

D.线图

E. 散点图

二、问答题

1.统计描述主要从哪几个方面发现和描述数据特征?

2.频数表的主要用途有哪些?

3.算术均数、几何均数和中位数各有什么适用条件?

4.标准差有何用途?

5.变异系数与标准差有何异同?

6.应用相对数应注意些什么?

描述统计与推断统计

描述统计与推断统计-心理学统计与测量经典习题1 第一章描述统计 名词解释 1.描述统计(吉林大学2002研) 答:描述统计主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。具体内容有:数据如何分组,如何使用各种统计表与统计图的方法去描述一组数据的分组及分布情况,如何通过一组数据计算一些特征数,减缩数据,进一步显示与描述一组数据的全貌。 2.相关系数(吉林大学2002研) 答:相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标。作为样本的统计量用r表示,作为总体参数一般用ρ表示。相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,而不能进行加减乘除。 3.差异系数(浙大2003研) 答:差异系数,又称变异系数、相对标准差等,它是一种相对差异量,为标准差对平均数的百分比。其公式如下: 常用于:①同一团体不同观测值离散程度的比较;②对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。 4.二列相关(中科院2004研) 答:如果两列变量均属于正态分布,其中一列变量为等距或等比的测量数据,另一列变量虽然也是正态分布,但被人为地划分为两类。求这样两列变量的相关用二列相关。 5.集中量数与差异量数(浙大2000研,苏州大学2002研) 答:集中趋势和离中趋势是次数分布的两个基本特征。数据的集中趋势就是指数据分布中大量数据向某方向集中的程度,离中趋势是指数据分布中数据彼此分散的程度。用来描述一组数据这两种特点的统计量分别称为集中量数和差异量数。 6.中位数(南开大学2004研) 答:中位数,又称中点数,中数,是指位于一组数据中较大一半和较小一半中间位置的那个数,用Md或Mdn来表示。 7.品质相关(华东师大2002研)

第2章统计数据的描述

第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频数)频率% A1414 B2121 C3232 D1818

E1515 合计100100 (3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图: 700716728719685709691684705718 706715712722691708690692707701 708729694681695685706661735665 668710693697674658698666696698 706692691747699682698700710722 694690736689696651673749708727 688689683685702741698713676702 701671718707683717733712683692 693697664681721720677679695691 713699725726704729703696717688 (1)利用计算机对上面的数据进行排序;

matlab在统计数据的描述性分析的应用

统计数据的描述性分析 一、实验目的 熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。 二、实验内容 1 、频数表和直方图 数据输入,将你班的任意科目考试成绩输入 >> data=[91 78 90 88 76 81 77 74]; >> [N,X]=hist(data,5) N = 3 1 1 0 3 X = 75.7000 79.1000 82.5000 85.9000 89.3000 >> hist(data,5)

2、基本统计量 1) 样本均值 语法: m=mean(x) 若x 为向量,返回结果m是x 中元素的均值; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的均值。 2) 样本中位数 语法: m=median(x) 若x 为向量,返回结果m是x 中元素的中位数; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的中位数3) 样本标准差 语法:y=std(x) 若x 为向量,返回结果y 是x 中元素的标准差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理,n是样本的个数。 4) 样本方差 语法:y=var(x); y=var(x,1) 若x 为向量,返回结果y 是x 中元素的方差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的方差 var(x)运用n-1 进行标准化处理(满足无偏估计的要求),n 是样本的个数。var(x,1)运用n 进行标准化处理,生成关于样本均值的二阶矩。 5) 样本的极差(最大之和最小值之差) 语法:z= range(x) 返回结果z是数组x 的极差。 6) 样本的偏度 语法:s=skewness(x) 说明:偏度反映分布的对称性,s>0 称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s 接近0 则可认为分布是对称的。 7) 样本的峰度 语法:k= kurtosis(x) 说明:正态分布峰度是3,若k 比3 大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。 >> mean(data) ,

数据分布特征的统计描述习题

第三章 数据分布特征的统计描述 思考与练习 一、选择题 1.有n 辆汽车在同一距离的公路上行驶的速度资料,确定汽车平均每小时行驶速度的平均数公式是:( C ) A . n x ∑ B .∑∑f xf C .∑x n 1 D .∑∑x m m 2.权数对加权算术平均数的影响,取决于( B ) A. 权数所在组标志值的大小; B. 权数的大小; C. 各组单位数的多少; D. 总体单位数的多少 3.是非标志不存在变异时,意味着:( B ,C ) A. 各标志值遇到同样的成数; B. 所有单位都只具有某种属性 C. 所计算的方差为0; D. 所计算的方差为0.25 4.能够综合反映总体各个单位标志值的差异,对总体标志变异程度作全面客观评定的指标有( A ,C ) A.方差 B.算术平均数 C.标准差 D.全距 二、判断题 1.甲乙两地,汽车去程时速20公里,回程时速30公里,其平均速度为25公里。 [答]错。本题应采用调和平均法计算平均速度。 2.权数起作用的前提是各组的变量必须互有差异。 [答]对。 3.变量同减某个数再同除于另一数然后求其方差,其方差等于原方差乘于除数的平方。 [答]对。 4.与平均数相比,中位数比较不受极端值的影响。 [答]对。 三、计算题 1.甲乙两企业生产三种产品的单位成本和总成本资料如下表,试比较哪个企业的平均成本高,并分析其原因。产品 单位成本(元) 总成本(元) 甲企业 乙企业 A B C 15 20 30 2100 3000 1500 3255 1500 1500 [解] 甲企业的平均成本210030001500660019.4118210030001500340 152030 ++= ==++

Excel 在描述统计中的应用

第三节Excel 在描述统计中的应用 在使用Excel 进行数据分析时,要经常使用到Excel 中一些函数和数据分析工具。其中,函数是Excel 预定义的内置公式。它可以接受被称为参数的特定数值,按函数的内置语法结构进行特定计算,最后返回一定的函数运算结果。例如,SUM 函数对单元格或单元格区域执行相加运算,PMT 函数在给定的利率、贷款期限和本金数额基础上计算偿还额。函数的语法以函数名称开始,后面是左圆括号、以逗号隔开的参数和右圆括号。参数可以是数字、文本、形如TRUE 或FALS E 的逻辑值、数组、形如#N/A 的错误值,或单元格引用。给定的参数必须能产生有效的值。参数也可以是常量、公式或其它函数。 Excel 还提供了一组数据分析工具,称为“分析工具库”,在建立复杂的统计分析时,使用现成的数据分析工具,可以节省很多时间。只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或数学函数,在输出表格中显示相应的结果。其中的一些工具在生成输出表格时还能同时产生图表。如果要浏览已有的分析工具,可以单击“工具”菜单中的“数据分析”命令。如果“数据分析”命令没有出现在“工具”菜单上,则必须运行“安装”程序来加载“分析工具库”。安装完毕之后,必须通过“工具”菜单中的“加载宏”命令,在“加载宏”对话框中选择并启动它。

一、描述统计工具 (一)简介:此分析工具用于生成对输入区域中数据的单变量分析,提供数据趋中性和易变性等有关信息。 (二)操作步骤: 1.用鼠标点击工作表中待分析数据的任一单元格。 2.选择“工具”菜单的“数据分析”子菜单。 3.用鼠标双击数据分析工具中的“描述统计”选项。 4.出现“描述统计”对话框,对话框内各选项的含义如下:输入区域:在此输入待分析数据区域的单元格范围。一般情况下Excel 会自动根据当前单元格确定待分析数据区域。分组方式:如果需要指出输入区域中的数据是按行还是按列排列,则单击“行”或“列”。 标志位于第一行/列:如果输入区域的第一行中包含标志项(变量名),则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,则选中“标志位于第一列”复选框;如果输入区域没有标志项,则不选任何复选框,Excel 将在输出表中生成适宜的数据标志。 均值置信度:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要 使用的置信度。例如,置信度95%可计算出的总体样 本均值置信区间为10,则表示:在5%的显著水平下总 体均值的置信区间为( X -10, X +10)。

第四章统计数据的描述

第四章统计数据的描述 (一)判断题 1、以最低限度为任务提出的计划指标,计划完成程度以不超过100%为好。() 2、全国人均国民生产总值,属于强度相对数。() 3、标志总量是指总体单位某一数量标志值的总和。() 4、在计算相对指标时,分子、分母可以互换的相对指标唯一只有强度相对数。() 5、某企业工人劳动生产率,计划提高5%,实际提高10%,则劳动生产率的计划完成程度为%。() 6、权数的实质是各组单位数占总体单位数的比重。() 7、在算术平均数中,若每个变量值减去一个任意常数a,等于平均数减去该数a。() 8、各个变量值与其平均数离差之和可以大于0,可以小于0,当然也可以等于0。() 9、各个变量值与任意一个常数的离差之和可以大于0,可以小于0,当然也可以等于0。 () 10、各个变量值与其平均数离差的平方之和一定等于0。() 11、各个变量值与其平均数离差的平方之和可以等于0。() 12、各个变量值与其平均数离差的平方之和为最小。() 13、已知一组数列的方差为9,离散系数为30%,则其平均数等于30。() 14、交替标志的平均数等于P。() 15、对同一数列,同时计算平均差和标准差,两者数值必然相等。() 16、平均差和标准差都表示标志值对算术平均数的平均距离。() 17、某分布数列的偏态系数为,说明它的分布曲线为左偏。() (二)单项选择题 1、某种商品的年末库存额是()。 A. 时期指标和实物指标

B. 时点指标和实物指标 C. 时期指标和价值指标 D. 时点指标和价值指标 2、绝对指标的基本特点是计量单位都是() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 3、相对指标数值的表现形式有() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 4、相对指标数值的大小() A. 随总体范围扩大而增大 B. 随总体范围扩大而减小 C. 随总体范围缩小而减小 D. 与总体范围大小无关 5、人口自然增长率,属于() A. 结构相对数 B. 比较相对数 C. 强度相对数 D. 比例相对数 6、平均数反映了总体分布的()。 A. 集中趋势 B. 离中趋势 C. 长期趋势

利用Excel进行数据整理和描述性统计分析

实训一利用Excel进行数据整理和描述性统计分析 一、实训目的 目的有三:(1)掌握Excel中基本的数据处理方法;(2)学会使用Excel进行统计分组;(3)学会使用Excel计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解数据整理中的统计计算问题;理解描述性统计指标中的统计计算问题;已阅读本次实训指导书,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个描述性统计指标计算问题及相应数据(可用本实训所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 有顾客反映某家航空公司售票处售票的速度太慢。为此,航空公司收集了解100位顾客购票所花费时间的样本数据(单位:分钟),结果如下表。 航空公司认为,为一位顾客办理一次售票业务所需的时间在五分钟之内就是合理的。上面的数据是否支持航空公司的说法?顾客提出的意见是否合理?请你对上面的数据进行适当的分析,回答下列问题。

(1)对数据进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、饼图)。 (2)根据分组后的数据,计算中位数、众数、算术平均数和标准差。 (3)分析顾客提出的意见是否合理?为什么? (4)使用哪一个平均指标来分析上述问题比较合理? 答:(1): 2:

从表中我们可以得到中位数为2.5众数为1平均数为3.17标准差为2.864 (3):合理,虽然他的平均数是3.17<5属于正常范围,但是依旧有将近20%的购票时间>5分钟属于超过正常范围,那就是速度太慢了。平均数不能代表一切。 所以顾客提出的理由是正确的,购票太慢的现象确实存在。 (4):平均数比较合理,它能较好的反映购票的大概时间。比较有代表性! 实训二用Excel数据分析功能进行统计整理 和计算描述性统计指标 一、实训目的 学会使用Excel数据分析功能进行统计整理和计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解统计整理和描述性统计指标中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 在一家财产保险公司的董事会上,董事们就加入世界贸易组织后公司的发展战略问题展开了激烈讨论,其中一个引人关注的问题就是如何借鉴国外保险公司的先进管理经验,提高自身的管理水平。有的董事提出,2003年公司的各项业务与去年相比有太大增长,除经济环境和市场竟争等因素外,对家庭财产保险的业务开展得不够,公司在管理方式上也存在问题。他认为,中国的家庭财产保险市场潜力巨大,应加大扩展这在业务的力度,同时,对公司家庭财产推销员实行目标管理,并根据目标完成情况建立相应的奖惩制度。董

第四章 数据特征与统计描述

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第四章数据特征与统计描述 第四章数据特征与统计描述 1/ 105

本章结构? ???第一节第二节第三节第四节频数分布表与频数分布图计量资料的常用统计指标计数资料的常用统计指标统计图表

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第一节频数分布表与频数分布图 3/ 105

一、频数分布表 (frequency table)用途:用于描述资料的分布特征频数:在一批样本中,相同情形出现的次数称为该情形的频数。 资料类型计数和等级计量组段观察结果的所有分类根据观察结果重新划分频数相同类别出现的次数分组统计P44 表4-1,4-2,4-3

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 表4-3 某地150名正常成年男子红细胞数(1012/L)编号红细胞数12 3 4 5 6 73.984.54 4.74 5.13 4.43 4.81 4.98编号… 143 144 145 146 147 148红细胞数… 4.67 5.40 5.29 4.77 5.38 5.158 …3.79 …1491504.645.19 5/ 105

数据的描述性统计分析

统计分析往往是从了解数据的基本特征开始的。描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。 这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。 1 频数分析 (Descriptive Statistics - Frequencies) 频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各 种统计量来描述数据的分布特征。 下面我们通过例子来学习单变量频数分析操作。 1) 输入分析数据 在数据编辑器窗口打开“data1-2.sav”数据文件。 2)调用分析过程 在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。 图3-4 “Frequencies” 对话框 3)设置分析变量 从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。在这里我们选“三化 螟蚁螟[虫口数]”变量进入“Variable(s):”框。 4)输出频数分布表

Display frequency tables,选中显示。 5)设置输出的统计量 单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量: 图3-5 “Statistics”对话框 ①选择百分位显示“Percentiles Values”栏: Quartiles:四分位数,显示25%、50%和75%的百分位数。 Cut points for 10 equal groups:将数据平分为输入的10个等份。 Percentile(s)::用户自定义百分位数,输入值0—100之间。选中此项后,可以利用“Add”、“Change”和 “Remove”按钮设置多个百分位数。 ②选择变异程度的统计量“Dispersion”:(离散趋势) Std.deviation标准差 Minimum 最小值 Variance 方差 Maximum 最大值 Range 极差 S.E.mean均值标准误 ③选择表示数据中心位置的统计量“Central Tendency”:(集中趋势) Mean 均值 Median 中位数 Mode 众数 Sum 算术和

数据的统计描述和分析

第十章数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 § 1 统计的基本概念 1.1总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x)来表示,如 一件产品是合格品记X =0,是废品记x =1;一个身高170(cm)的学生记X = 170。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n件产品,100名 学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数 据,不妨记作x1,x2 ,L ,x n,n称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1学生的身高和体重 学校随机抽取100名学生,测量他们的身高和体重,所得数据如表 身高体重身高体重身高体重身高体重身高体重 172 75 169 55 169 64 171 65 167 47 171 62 168 67 165 52 169 62 168 65 166 62 168 65 164 59 170 58 165 64 160 55 175 67 173 74 172 64 168 57 155 57 176 64 172 69 169 58 176 57 173 58 168 50 169 52 167 72 170 57 166 55 161 49 173 57 175 76 158 51 170 63 169 63 173 61 164 59 165 62 167 53 171 61 166 70 166 63 172 53 173 60 178 64 163 57 169 54 169 66 178 60 177 66 170 56 167 54 169 58 173 73 170 58 160 65 179 62 172 50

描述性统计示例

一、实验概述: 【目的】了解SPSS软件的安装、启动、退出以及运行管理方式;掌握SPSS软件的Analyze 菜单中的Descriptive Statistics模块进行数据的描述性统计分析。 【实施环境】SPSS—17.0统计分析软件。 二、实验内容: 用SPSS软件对实验一数据中的“熟悉程度”进行描述统计分析:描述数据的频数分布、集中趋势、离散程度和形状、并给出直方图。 三、实验步骤 步骤1:用SPSS打开已知的数据文件 选择菜单“File—>Open—>Data”,在对话框中找到需要分析的数据文件(实验一&二描述统计和假设检验.sav),然后选择“打开” 步骤2:计算所要求的描述统计量值及频数分布 1.打开文件之后,选择菜单“Analyze—>Descriptive Statistics—>Frequencies”。 2.确定所要分析的变量 要在“Frequencies 对话框”中选中左侧列表框中的“Familiarity”,之后点击列表框中间的箭头按钮,将要分析的变量加入到右侧Variable(s)列表框中。然后,选择位于小窗口下端的“Display frequency tables 复选框”,以确定要输出频数分布表。

3. 选择所要计算的统计量 在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,选择统计输出选项。 步骤3:结果输出与分析 点击Frequencies:Statistics对话框中的“Continue”按钮,再点击Frequencies 对话框中的“OK”按钮,即得到频数分布结果。 步骤4:选择菜单“Graphs—>Legacy Dialogs—>Histogram”。

数据的统计描述和分析

第十章 数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 §1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x )来表示,如一件产品是合格品记0=x ,是废品记1=x ;一个身高170(cm )的学生记170=x 。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n 件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作n x x x ,,,21 ,n 称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重

第2章统计数据的描述

第二章统计数据的描述 一、单项选择题 1.下列中,最粗略、计量层次最低的计量尺度是() A.间隔尺度 B.顺序尺度 C.比例尺度 D.列名尺度 2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是() A.比例尺度 B.列名尺度 C.间隔尺度 D.顺序尺度 3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是() A.列名尺度 B.间隔尺度 C.顺序尺度 D.比例尺度 4.下列中,计量层次的最高、最精确的计量尺度是() A.比例尺度 B.间隔尺度 C.顺序尺度 D.列名尺度 5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是() A.抽样调查 B.重点调查和典型调查 C.统计报表 D.普查 6.实际中应用最为广泛的一种调查方式是() A.重点调查 B.统计报表 C.普查 D.抽样调查 7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是() A.抽样调查 B.典型调查 C.重点调查 D.普查 8.一次性调查是指() A.只做过一次的调查 B.调查一次以后不再调查 C.间隔一段时间在进行一次调查 D.只隔一年就进行一次的调查 9.在统计分析中,对累积的次数分配用得最直接的是() A.供给曲线 B.需求曲线 C.洛伦茨曲线 D.边际需求曲线 10.专门用来衡量和反映收入分配平均程度的统计指标是() A.基尼系数 B.可决系数 C.相关系数 D.离散系数 11.一般认为,基尼系数在()之间是比较恰当的。

A.0.1— —0.4 C.— —0..8 12.一般认为,基尼系数等于( )是收入分配不公平的警戒线。 A.0.2 B.0.6 C. 利用公式计算众数的基本假定之一是众数组的频数在该组内呈( ) A.正态分布 分布 C.均匀分布 D.偏态分布 14.计算中位数时,假定中位数所在组的频数在该组内呈( ) A.左偏分布 B.正态分布 C.右偏分布 D.均匀分布 15.反映数据分布集中趋势的最主要的测度值是( ) A.众数 B.中位数 C.均值 D.几何平均数 16.各个变量值与均值的离差之和( ) A.大于0 B.小于0 C.等于0 D.等于一个不为0的常数 17.各个变量值与均值的离差平方和( ) A.为最大 B.为最小 C.为0 D.为一个不为0的常数 18.下列中,专门用来衡量众数代表性大小的离散程度测度值是( ) A.异众比率 B.四分位差 C.方差或标准差 D.极差 19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是( ) A.方差和标准差 B.内距 C.异众比率 D.平均差 20.下列中,适用于列名数据的集中趋势测度值是( ) A.众数 B.中位数 C.均值 D.几何均值 21.描述数据离散程度最简单的测度值是( ) A.平均差 B.方差和标准差 C.极差 D.四分位差 22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。 A.σ±X B.σ2±X C.σ3±X D.σ4±X 23.用来对两组数据的差异程度进行比较的统计分析指标是( ) A.基尼系数 B.标准差系数 C.相关系数 D.可决系数 24.测定数据分布偏斜程度需要计算( )

spss教程常用的数据描述统计频数分布表等统计学

第二节常用的数据描述统计 本节拟讲述如何通过SPSS菜单或命令获得常用的统计量、频数分布表等。 1.数据 这部分所用数据为第一章例1中学生成绩的数据,这里我们加入描述学生性别的变量“sex”与班级的变量“class”,前几个数据显示如下(图2-2),将数据保存到名为“2-6-1、sav”的文件中。 图2-2:数据输入格式示例 1.Frequencies语句 (1)操作 打开数据文件“2-6-1、sav”,单击主菜单Analyze /Descriptive Statistics / F requencies…,出现频数分布表对话框如图2-3所示。 图2-3: Frequencies定义窗口 把score变量从左边变量表列中选到右边,并请注意选中下方的Display frequency table复选框(要求显示频数分布表)。如果您只要求得到一个频数分布表,那么就可以点OK按钮了。如果您想同时获得一些统计

量,及统计图表,还需要进一步设置。 ①Statistics选项 单击Statistics按钮,打开对话框,请按图2-4自行设置。有关说明如下: (ⅰ)在定义百分位值(percentile value)的矩形框中,选择想要输出的各种分位数,SPSS提供的选项有: ●Quartiles四分位数,即显示25%、50%、75%的百分位数。 ●Cut points equal 把数据平均分为几份。如本例中要求平均分为3份。 ●Percentile显示用户指定的百分位数,可重复多次操作。本例中要求15%、50%、85%的百分位数。(ⅱ) 在定义输出集中趋势(Central Tendency)的矩形框中,选择想要输出的集中统计量,常用的选项有: ●Mean 算术平均数 ●Median 中数 ●Mode 众数 ●Sum 算术与 (ⅲ)在定义输出离散统计量(Dispersion)的矩形框中,选择想要输出的离散统计量,常用的选项有: ●Std、Deviation 标准差 ●Variance 方差 ●Range 全距 ●Minimum 最小值 ●Maximum 最大值 ●S、E、mean 平均数的标准误 (ⅳ)描述数据分布(Distribution)的统计量 ●Skewness 偏度,非对称分布指数。 ●Kurtosis 峰度,CASE围绕中心点的扩展程度。 另外,频数过程(Frequence)除了能够提供上面常用的统计量外,还可以对分组数据计算百分位数与中数(Values are group midpoints),即对于已经分组的数据,并且数据中的原始数据表示的就是组中数的数据计算百分位数的值与中位数。

1数据的描述性统计练习题

1数据的描述性统计练习题 一、填空题 1. 一组数据向某以中心值靠拢的倾向反映了数据的(集中趋势)。 2. (众数)是一组数据中出现次数最多的变量值。 3. 一组数据排序后处于中间位置的变量值称为(中位数)。 4. 不受极端值影响的集中趋势度量指标有(四分位数)(众数)(中位数)。 5. 一组数据的最大值与最小值之差称为(极差)。 6. (离散系数)一组数据的标准差与其相应的均值之比。 7. 数据分布的不对称性是(偏度)。 8. 数据分布的尖峰程度称为(峰度)。 . 9. 计算比率的平均数一般用(几何平均法),它实际上是各变量值对数的(算术平均数)。 二、单项选择题 1. 对于对称分布的数据,众数、中位数和平均数的关系是(B) A. 众数>中位数>平均数 B. 众数=中位数=平均数 C. 平均数>中位数>众数 D. 中位数>众数>平均数 2. 可以计算平均数的数据类型是(C) A.分类数据 B.顺序型数据 ; C.数值型数据 D.所有数据 3. 顺序数据的集中趋势测度的指标(B) A.中位数 B.平均数 C.极差 D.标准差 4. 数值型数据的离散程度测度方法中,受极端变量值影响最大的是(A) A.极差 B.方差 | C.均方差 D.平均差 5. 当偏态系数为正数是,说明数据的分布是(C) A.正态分布 B.左偏分布 C.右偏分布 D.U型分布 三、多项选择题 1. 数据的分布特征可以从以下哪几个方面测度和描述(ABCD) A.集中趋势 、

B.分布的偏态 C.分布的峰态 D.离散程度 E.长期趋势 2. 受极端变量值影响的集中趋势的度量指标是(CDE) A.众数 B.分位数 C.算数平均数 D.调和平均数 E.几何平均数 ( 3. 加权算术平均数的大小的影响因素有(AC) A.变量值 B.样本容量 C.权数 D.分组的组数 E.数据的类型 4. 数值型数据离散程度的测度指标有(ABCDE) A.变异系数 B.极差 C.标准差 [ D.异众比率 E.四分位数 5. 离散系数的主要作用是(BD) A.说明数据的集中趋势 B.比较不同计量单位数据的离散程度 C.说明数据的偏态程度 D.比较不同变量值水平数据的离散程度 E.说明数据的峰态程度 四、简答题 1. 什么是数据的集中趋势反映数据集中趋势的指标有哪些 * 数据的集中趋势指一组数据向某一中心值靠拢的倾向。 反映数据集中趋势的指标主要有:众数、中位数、分位数、平均数等。 2. 什么是数据的离散程度常用测度离散程度的指标有哪些 离散程度反映的是各变量值远离其中心值的程度。 反映数据离散程度的指标主要有:四分位差、方差、标准差、极差、离散系数等。 3. 怎样理解平均数在统计学中的地位 平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础;平均数作为代表值,是误差相互抵消的结果,反映了事物必然性的数量特征。 4. 简述众数、中位数和平均数的特点和应用场合。 众数是一组数据分布的峰值,是一种位置代表值,不受极端值的影响,其缺点是不具有唯一性。虽然对数据型数据和分类数据也适用,但主要是用于分类数据的集中趋势测度值。

统计数据的描述

第二章统计数据的描述 在对一组统计数据的分布变化进行深入研究之前,我们首先研究一组数据的特征。为了比较精确地描述一组统计资料的特征,需要使用一些统计指标来描述它。一组数据的统计特征通常包括以下四个方面: 1、集中趋势,也称作中心位置。即表示一组数据的中心位置的数据点是在什么地方,也就是数据位置的度量。 2、离散性。即一组数据的分散程度,也就是数据散布的范围。 3、倾斜度。一组数据所描述的曲线既可以是左右对称的,也可能是倾斜的,即通过曲线最高点的垂线把曲线分为两半,是左右对称还是并不对称。 4、尖削度。这就是一组数据所描绘的曲线顶部的峰态特征。根据一组数据所描绘的曲线顶部既可能是尖峰状的,也可能是扁平状的。即使根据两组数据所描绘的曲线具有相同的中心位置和离散程度,但它们的尖削度也可能是不一样的。 在管理科学中,我们最感兴趣的常常是数据的集中趋势和离散程度,本章就主要介绍度量这两个特征的统计量。 第一节数据集中趋势的度量 一组数据的集中趋势通常用平均数、中位数和众数等来表示。这些统计量均称为平均指标。它表明同类社会经济现象的各单位的某一数量指标在一定时间、地点等条件下达到的平均水平。 平均指标的特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表各个数据的一般水平,它反映了一组数据中各个数据的典型水平、中心位置或集中趋势。 一、平均数 管理统计中常用的平均数有算术平均数、调和平均数和几何平均数等几种。但这里我们主要介绍算术平均数。算术平均数又称均值,常用x来表示。根据计算方法的不同,算术平均数又可分为简单算术平均数和加权算术平均数。 1、简单算术平均数 简单算术平均数的计算公式如下: x x x x N x N N i i N = +++ == ∑121 式中:N 是数据的个数; 21

统计学第三章数据分布特征描述教学指导与习题解答

第三章数据分布特征描述 Ⅰ.学习目的 通过本章的学习,1.理解统计数据分布的集中趋势和离散程度的概念; 2.掌握描述统计数据分布的集中趋势和离散程度的各代表值的测定、计算与分析方法; 3.能够应用各种指标分析实际问题; 4.了解分布偏度与峰度的描述。 Ⅱ.课程内容要点 第一节统计变量集中趋势的测定 一、测定集中趋势的意义 统计数据的集中趋势(或中心位置)是指数据向其中心值靠拢或集中的程度。测定集中趋势是为了表示社会经济现象总体各单位某一标志在一定时间、地点条件下所达到的一般水平。 测定集中趋势的作用有四:首先,反映总体各单位变量分布的集中趋势和一般水平;其次,比较同类现象在不同单位的发展水平;再次,比较同类现象在不同时期的发展变化趋势或规律;最后,分析现象之间的依存关系。 二、位置代表值 测定集中趋势常用的位置代表值有众数和中位数。 众数是总体中最普遍出现的标志值。 中位数是总体各单位按大小顺序序列化后,处在数列中点位置上那个单位的标志值。 对分组或未分组的资料和组距式变量数列,众数和中位数各有不同的确定方法。

三、数值平均数 数值平均数就是均值,它是对总体中的所有数据计算平均值,用以反映所有数据的一般水平。 1、算术平均数的基本公式是总体标志总量除以总体单位总量。其有简单式和加权式两种。加权算术平均数中权数的权衡轻重的作用体现在各标志值对平均数的影响上,权数大的标志值对平均数的影响也大,权数小的标志值对平均数的影响也小。 权数必须是标志值的直接承担者,权数与标志值的乘积要具有标志总量的意义。只有当三个量之间存在着客观的数量对等关系时,各组单位数才是加权算术平均数的合适权数。 当各组频数都相等时,权数不起作用。 是非标志的算术平均数。 算术平均数有四个数学性质。 2、调和平均数是总体中各单位标志值倒数的算术平均数的倒数,又称“倒数平均数”。也有简单调和平均数和加权调和平均数两种。 在统计实践中,调和平均数常常被作为算术平均数的变形来使用:当因为数据的原因不能采用算术平均数的方法计算均值时,可以考虑采用调和平均数的形式。 3、几何平均数是N个变量值(比率)连乘积的N次方根,通常用于时间上有联系或有先后顺序关系的比率求平均,凡是度量值的连乘积等于总比率或总速度的现象都必须使用几何平均法计算均值。 几何平均数根据所掌握数据资料不同,有简单几何平均数和加权几何平均数两种方法。 4、幂平均数是标志值K 次方的平均数的K 次方根。 5、计算和应用集中趋势测定指标应注意三个问题:(1)集中趋势的测定指标只能应用于同质总体。(2)用组平均数和分配数列补充说明总平均数。 (3)集中趋势指标与离散程度指标相结合。 四、集中趋势测定指标的关系 1、众数、中位数和算术平均数各自的含义、计算方法不同,但三者之间存在一定的数量联系。对称分布时,三者相等;适度正偏斜时,O M

相关文档
最新文档