第3章 定量数据的统计描述

第2章统计数据的描述

第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频数)频率% A1414 B2121 C3232 D1818

E1515 合计100100 (3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图: 700716728719685709691684705718 706715712722691708690692707701 708729694681695685706661735665 668710693697674658698666696698 706692691747699682698700710722 694690736689696651673749708727 688689683685702741698713676702 701671718707683717733712683692 693697664681721720677679695691 713699725726704729703696717688 (1)利用计算机对上面的数据进行排序;

matlab在统计数据的描述性分析的应用

统计数据的描述性分析 一、实验目的 熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。 二、实验内容 1 、频数表和直方图 数据输入,将你班的任意科目考试成绩输入 >> data=[91 78 90 88 76 81 77 74]; >> [N,X]=hist(data,5) N = 3 1 1 0 3 X = 75.7000 79.1000 82.5000 85.9000 89.3000 >> hist(data,5)

2、基本统计量 1) 样本均值 语法: m=mean(x) 若x 为向量,返回结果m是x 中元素的均值; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的均值。 2) 样本中位数 语法: m=median(x) 若x 为向量,返回结果m是x 中元素的中位数; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的中位数3) 样本标准差 语法:y=std(x) 若x 为向量,返回结果y 是x 中元素的标准差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理,n是样本的个数。 4) 样本方差 语法:y=var(x); y=var(x,1) 若x 为向量,返回结果y 是x 中元素的方差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的方差 var(x)运用n-1 进行标准化处理(满足无偏估计的要求),n 是样本的个数。var(x,1)运用n 进行标准化处理,生成关于样本均值的二阶矩。 5) 样本的极差(最大之和最小值之差) 语法:z= range(x) 返回结果z是数组x 的极差。 6) 样本的偏度 语法:s=skewness(x) 说明:偏度反映分布的对称性,s>0 称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s 接近0 则可认为分布是对称的。 7) 样本的峰度 语法:k= kurtosis(x) 说明:正态分布峰度是3,若k 比3 大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。 >> mean(data) ,

第四章统计数据的描述

第四章统计数据的描述 (一)判断题 1、以最低限度为任务提出的计划指标,计划完成程度以不超过100%为好。() 2、全国人均国民生产总值,属于强度相对数。() 3、标志总量是指总体单位某一数量标志值的总和。() 4、在计算相对指标时,分子、分母可以互换的相对指标唯一只有强度相对数。() 5、某企业工人劳动生产率,计划提高5%,实际提高10%,则劳动生产率的计划完成程度为%。() 6、权数的实质是各组单位数占总体单位数的比重。() 7、在算术平均数中,若每个变量值减去一个任意常数a,等于平均数减去该数a。() 8、各个变量值与其平均数离差之和可以大于0,可以小于0,当然也可以等于0。() 9、各个变量值与任意一个常数的离差之和可以大于0,可以小于0,当然也可以等于0。 () 10、各个变量值与其平均数离差的平方之和一定等于0。() 11、各个变量值与其平均数离差的平方之和可以等于0。() 12、各个变量值与其平均数离差的平方之和为最小。() 13、已知一组数列的方差为9,离散系数为30%,则其平均数等于30。() 14、交替标志的平均数等于P。() 15、对同一数列,同时计算平均差和标准差,两者数值必然相等。() 16、平均差和标准差都表示标志值对算术平均数的平均距离。() 17、某分布数列的偏态系数为,说明它的分布曲线为左偏。() (二)单项选择题 1、某种商品的年末库存额是()。 A. 时期指标和实物指标

B. 时点指标和实物指标 C. 时期指标和价值指标 D. 时点指标和价值指标 2、绝对指标的基本特点是计量单位都是() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 3、相对指标数值的表现形式有() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 4、相对指标数值的大小() A. 随总体范围扩大而增大 B. 随总体范围扩大而减小 C. 随总体范围缩小而减小 D. 与总体范围大小无关 5、人口自然增长率,属于() A. 结构相对数 B. 比较相对数 C. 强度相对数 D. 比例相对数 6、平均数反映了总体分布的()。 A. 集中趋势 B. 离中趋势 C. 长期趋势

利用Excel进行数据整理和描述性统计分析

实训一利用Excel进行数据整理和描述性统计分析 一、实训目的 目的有三:(1)掌握Excel中基本的数据处理方法;(2)学会使用Excel进行统计分组;(3)学会使用Excel计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解数据整理中的统计计算问题;理解描述性统计指标中的统计计算问题;已阅读本次实训指导书,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个描述性统计指标计算问题及相应数据(可用本实训所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 有顾客反映某家航空公司售票处售票的速度太慢。为此,航空公司收集了解100位顾客购票所花费时间的样本数据(单位:分钟),结果如下表。

航空公司认为,为一位顾客办理一次售票业务所需的时间在五分钟之内就是合理的。上面的数据是否支持航空公司的说法顾客提出的意见是否合理请你对上面的数据进行适当的分析,回答下列问题。 (1)对数据进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、饼图)。 (2)根据分组后的数据,计算中位数、众数、算术平均数和标准差。 (3)分析顾客提出的意见是否合理为什么 (4)使用哪一个平均指标来分析上述问题比较合理 答:(1): 2:

从表中我们可以得到中位数为众数为1平均数为标准差为 (3):合理,虽然他的平均数是<5属于正常范围,但是依旧有将近20%的购票时间>5分钟属于超过正常范围,那就是速度太慢了。平均数不能代表一切。 所以顾客提出的理由是正确的,购票太慢的现象确实存在。 (4):平均数比较合理,它能较好的反映购票的大概时间。比较有代表性! 实训二用Excel数据分析功能进行统计整理 和计算描述性统计指标 一、实训目的 学会使用Excel数据分析功能进行统计整理和计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解统计整理和描述性统计指标中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤

统计学答案第3章

二、选择题 1 落在某一特定类别或组中的数据个数称为()。 A.频数 B.频率 C.频数分布表 D.累积频数 2 一个样本或总体中各个部分的数据与全部数据之比称为()。 A.频数 B.频率 C.比例 D.比率 3 样本或总体中各不同类别数值之间的比值称为()。 A.频数 B.频率 C.比例 D.比率 4 将比例乘以100得到的数值称为()。 A.频率 B.百分数 C.比例 D.比率

5 下面的哪一个图形最适合于描述结构性问题()。 A.条形图 B.饼图 C.雷达图 D.直方图 6 下面的哪一个图形适合于比较研究两个或多个样本或总体的结构性问题()。 A.环形图 B.饼图 C.直方图 D.茎叶图 7 将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,这样的分组方法称为()。 A.单变量值分组 B.组距分组 C.等距分组 D.连续分组 8 组中值是()。 A.一个组的上限与下限之差 B.一个组的上限与下限之间的中点值 C.一个组的最小值 D.一个组的最大值

9 下面的图形中最适合描述一组数据分布的图形是()。 A.条形图 B.箱线图 C.直方图 D.饼图 10 对于大批量的数据,最适合描述其分布的图形是()。 A.条形图 B.茎叶图 C.直方图 D.饼图 11 对于小批量的数据,最适合描述其分布的图形是()。 A.条形图 B.茎叶图 C.直方图 D.饼图 12 对于时间序列数据,用于描述其变化趋势的图形通常是()。 A.条形图 B.直方图 C.箱线图 D.线图 13 为描述身高与体重之间是否有某种关系,适合采用的图形是()。 A.条形图 B.对比条形图 C.散点图 D.箱线图

数据的描述性统计分析

统计分析往往是从了解数据的基本特征开始的。描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。 这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。 1 频数分析 (Descriptive Statistics - Frequencies) 频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各 种统计量来描述数据的分布特征。 下面我们通过例子来学习单变量频数分析操作。 1) 输入分析数据 在数据编辑器窗口打开“data1-2.sav”数据文件。 2)调用分析过程 在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。 图3-4 “Frequencies” 对话框 3)设置分析变量 从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。在这里我们选“三化 螟蚁螟[虫口数]”变量进入“Variable(s):”框。 4)输出频数分布表

Display frequency tables,选中显示。 5)设置输出的统计量 单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量: 图3-5 “Statistics”对话框 ①选择百分位显示“Percentiles Values”栏: Quartiles:四分位数,显示25%、50%和75%的百分位数。 Cut points for 10 equal groups:将数据平分为输入的10个等份。 Percentile(s)::用户自定义百分位数,输入值0—100之间。选中此项后,可以利用“Add”、“Change”和 “Remove”按钮设置多个百分位数。 ②选择变异程度的统计量“Dispersion”:(离散趋势) Std.deviation标准差 Minimum 最小值 Variance 方差 Maximum 最大值 Range 极差 S.E.mean均值标准误 ③选择表示数据中心位置的统计量“Central Tendency”:(集中趋势) Mean 均值 Median 中位数 Mode 众数 Sum 算术和

描述性统计示例

一、实验概述: 【目的】了解SPSS软件的安装、启动、退出以及运行管理方式;掌握SPSS软件的Analyze 菜单中的Descriptive Statistics模块进行数据的描述性统计分析。 【实施环境】SPSS—17.0统计分析软件。 二、实验内容: 用SPSS软件对实验一数据中的“熟悉程度”进行描述统计分析:描述数据的频数分布、集中趋势、离散程度和形状、并给出直方图。 三、实验步骤 步骤1:用SPSS打开已知的数据文件 选择菜单“File—>Open—>Data”,在对话框中找到需要分析的数据文件(实验一&二描述统计和假设检验.sav),然后选择“打开” 步骤2:计算所要求的描述统计量值及频数分布 1.打开文件之后,选择菜单“Analyze—>Descriptive Statistics—>Frequencies”。 2.确定所要分析的变量 要在“Frequencies 对话框”中选中左侧列表框中的“Familiarity”,之后点击列表框中间的箭头按钮,将要分析的变量加入到右侧Variable(s)列表框中。然后,选择位于小窗口下端的“Display frequency tables 复选框”,以确定要输出频数分布表。

3. 选择所要计算的统计量 在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,选择统计输出选项。 步骤3:结果输出与分析 点击Frequencies:Statistics对话框中的“Continue”按钮,再点击Frequencies 对话框中的“OK”按钮,即得到频数分布结果。 步骤4:选择菜单“Graphs—>Legacy Dialogs—>Histogram”。

第3章数据分布特征的统计描述习题

1 第三章 数据分布特征的统计描述 思考与练习 一、选择题 1.有n 辆汽车在同一距离的公路上行驶的速度资料,确定汽车平均每小时行驶速度的平均数公式是:( C ) A . n x ∑B .∑∑f xf C .∑x n 1D .∑∑x m m 2.权数对加权算术平均数的影响,取决于(B ) A. 权数所在组标志值的大小; B. 权数的大小; C. 各组单位数的多少; D. 总体单位数的多少 3.是非标志不存在变异时,意味着:(B ,C ) A. 各标志值遇到同样的成数; B. 所有单位都只具有某种属性 C. 所计算的方差为0; D. 所计算的方差为0.25 4.能够综合反映总体各个单位标志值的差异,对总体标志变异程度作全面客观评定的指标有(A ,C ) A.方差 B.算术平均数 C.标准差 D.全距 二、判断题 1.甲乙两地,汽车去程时速20公里,回程时速30公里,其平均速度为25公里。 [答]错。本题应采用调和平均法计算平均速度。 2.权数起作用的前提是各组的变量必须互有差异。 [答]对。 3.变量同减某个数再同除于另一数然后求其方差,其方差等于原方差乘于除数的平方。 [答]对。 4.与平均数相比,中位数比较不受极端值的影响。 [答]对。 三、计算题 1.甲乙两企业生产三种产品的单位成本和总成本资料如下表,试比较哪个企业的平均成本高,并分析其原因。 [解] 甲企业的平均成本210030001500660019.4118210030001500340 152030 ++= ==++

乙企业的平均成本 3255150015006255 18.2895 325515001500342 152030 ++ === ++ 由上面的计算得知,甲企业的平均成本高于乙企业。 因为乙企业单位成本低的A产品生产的数量多,占总成本一半以上,即成本低的产品相对权数大,而甲企业生产单位成本低的A产品数量少,仅占总成本的31.8%(=2100/6600)。由于权数的作用,乙企业的平均成本低于甲企业。 2.甲、乙两市场农产品价格及成交量资料如下表,试比较哪个市场的平均价格高,并分析其原因。 [解] 甲市场的平均价格 1.2 2.8 1.5 5.5 1.375 1.2 2.8 1.54 1.2 1.4 1.5 ++ === ++ 乙市场的平均价格 1.22 1.41 1.51 5.3 1.325 44 ?+?+? === 由上面的计算得知,甲市场农产品的平均价格高高于乙市场。 因为价格低的甲产品在甲市场成交额少,仅占21.8%(=1.2/5.5);而在乙市场的成交额大,占45.3%(=2.4/5.3),由于权数的作用,甲市场的平均价格高于乙市场。 3.某企业工人平均月工资为1440元,月收入少于1280元的占一半,试估计众数,并对该企业工人工资的分布情况做一简要说明。 [解] 由题中可知,企业工人月工资的中位数=1280 所以众数≈1440-3×(1440-1280)=960 所以众数<中位数<平均数,则该企业的月工资分布为右(正)偏,说明该企业工人的月工资分布中出现极大值,即出现有人拿到高额的工资,导致月工资分布呈右偏。 4.某城市对3000户居民户均月消费支出进行调查,得到下表资料。

数据的统计描述和分析

第十章 数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 §1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x )来表示,如一件产品是合格品记0=x ,是废品记1=x ;一个身高170(cm )的学生记170=x 。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n 件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作n x x x ,,,21 ,n 称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重

第三章、统计数据的简单描述

第三章、统计数据的简单描述 一、单项选择题(在每小题的四个备选答案中,选出一个正确答案) 1. 在总量指标中,综合性最强的统计指标是()。 A. 实物指标 B. 价值指标 C. 劳动量指标 D. 标准实物量指标 2.“某年中国人均收入是美国人均收入的1/3”,这一指标是()。 A. 平均指标 B.比例相对指标 C.比较相对指标 D.强度相对指标 3. 我国国有工业企业产值占全部工业产值的比重,这一指标是()。 A. 结构相对指标 B. 比例相对指标 C. 比较相对指标 D. 动态相对指标 E. 强度相对指标 4. 我国1999年的税收收入是20年前的5倍,这一指标是()。 A. 结构相对指标 B. 比例相对指标 C. 比较相对指标 D. 动态相对指标 E. 强度相对指标 5. 某厂1996年完成产值2000万元,1997年计划增长10%,实际完成2310万元,超额完成计划()。 A. 5.5% B. 5% C. 115.5% D. 15.5% 6. 将比较的基数确定为10,计算出来的相对数是()。 A. 系数 B. 成数 C. 百分数 D. 千分数 E. 倍数 7. 以一个企业为总体,该企业报告期职工人数200人,全年工资总额2500万元,则()。 A.企业职工人数是总体标志总量,工资总额是总体单位总量 B.企业职工人数是总体单位总量,工资总额也是总体单位总量 C.企业职工人数是总体标志总量,工资总额也是总体标志总量 D.企业职工人数是总体单位总量,工资总额是总体标志总量 8. 在相对指标中,用有名数形式表现的统计指标是()。 A. 结构相对指标 B. 比例相对指标 C. 比较相对指标 D. 动态相对指标 E. 强度相对指标 9.在总量指标中,指标数值与时间长短直接相关的是() A. 时期指标 B. 时点指标 C. 平均指标 D. 相对指标 10. 某地区2008年年平均人数为1000万人,商业零售企业4000个,则商业网点密度指标为()

第三章 统计数据的描述习题

一、单项选择题 反映社会经济现象发展总规模、总水平的综合指标是()。 A、质量指标 B、总量指标 C、相对指标 D、平均指标 总量指标按反映时间状况的不同,可分为()。 A、数量指标和质量指标 B、时期指标和时点指标 C、总体单位总量和总体标志总量 D、实物指标和价值指标 由反映总体各单位数量特征的标志值汇总得出的指标是()。 A、总体单位总量 B、总体标志总量 C、质量指标 D、相对指标 反映不同总体中同类指标对比的相对指标是()。 A、结构相对指标 B、比较相对指标 C、强度相对指标 D、计划完成程度相对指标 计算结构相对指标时,总体各部分数值与总体数值对比求得的比重之和()。 A.小于100% B.大于100% C.等于100% D.小于或大于100% 下列相对数中,属于不同时期对比的指标有()。 A、结构相对数 B、动态相对数 C、比较相对数 D、强度相对数 7、权数对算术平均数的影响作用,实质上取决于()。 A.作为权数的各组单位数占总体单位数比重的大小 B.各组标志值占总体标志总量比重的大小 C.标志值本身的大小 D.标志值数量的多少 8、对于不同水平的总体不能直接用标准差比较其标志变动度,这时需分别计算各自的()来比较。 A.标准差系数 B.平均差 C.全距 D.均方差 9、某企业2003年完成产值2000万元,2004年计划增长10%,实际完成2310万元,计划完成程度相对数为()。 A、105.5% B、105% C、115.5% D、15.5% 10、在什么条件下,简单算术平均数和加权算术平均数计算结果相同()。 A、权数不等 B、权数相等 C、变量值相同 D、变量值不同

多组和分类数据的描述性统计分析

§3.2多组和分类数据的描述性统计分析17 ?盒子图 盒子图能够直观简洁地展现数据分布的主要特征.我们在R 中使用boxplot()函数作盒子图.在盒子图中,上下四分位数分别确定中间箱体的顶部和底部,箱体中间的粗线是中位数所在的位置.由箱体向上下伸出的垂直部分为“触须”(whiskers),表示数据的散布范围,其为1.5倍四分位间距内距四分位点最远的数据点.超出此范围的点可看作为异常点(outlier). §3.2多组和分类数据的描述性统计分析 在对于多组数据的描述性统计量的计算和图形表示方面,前面所介绍的部分方法不能够有效地使用,例如许多函数都不能直接对数据框进行操作.这时我们需要一些其他的函数配合使用. 1.图形表示: ?散点图:前面介绍的plot,可直接对数据框操作.此时将绘出数据框中所对应的所有变量两两之间的散点图.所做图框中第一行的散点图是以第一个变量为纵坐标,分别以第二、三...个变量为横坐标的散点图.这里数据举例说明. library(DAAG);plot(hills) ?盒子图:前面介绍的boxplot,亦可直接对数据框操作,其在同一个作图区域内画出各组数的盒子图.但是注意,此时由于不同组数据的尺度可能差别很大,这样的盒子图很多时候表达出来不是很有意义.boxplot(faithful).因此这样做比较适合多组数据具有同样意义或近似尺度的情形.例如,我们想做某一数值变量在某个因子变量的不同水平下的盒子图.我们可采用类似如下的命令: boxplot(skullw ~age,data=possum),亦可加上参数horizontal=T,将该盒子图横向放置. boxplot(possum$skullw ~possum$sex,horizontal=T) ?条件散点图:当数据集中含有一个或多个因子变量时,我们可使用条件散点图函数coplot()作出因子变量不同水平下的多个散点图,当然该方法也适用于各种给定条件或限制情形下的作图.其调用格式为 coplot(formula,data)比如coplot(possum[[9]]~possum[[7]] possum[[4]]),或 coplot(skullw ~taill age,data=possum); coplot(skullw ~taill age+sex,data=possum)

第2章统计数据的描述

第二章统计数据的描述 一、单项选择题 1.下列中,最粗略、计量层次最低的计量尺度是() A.间隔尺度 B.顺序尺度 C.比例尺度 D.列名尺度 2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是() A.比例尺度 B.列名尺度 C.间隔尺度 D.顺序尺度 3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是() A.列名尺度 B.间隔尺度 C.顺序尺度 D.比例尺度 4.下列中,计量层次的最高、最精确的计量尺度是() A.比例尺度 B.间隔尺度 C.顺序尺度 D.列名尺度 5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是() A.抽样调查 B.重点调查和典型调查 C.统计报表 D.普查 6.实际中应用最为广泛的一种调查方式是() A.重点调查 B.统计报表 C.普查 D.抽样调查 7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是() A.抽样调查 B.典型调查 C.重点调查 D.普查 8.一次性调查是指() A.只做过一次的调查 B.调查一次以后不再调查 C.间隔一段时间在进行一次调查 D.只隔一年就进行一次的调查 9.在统计分析中,对累积的次数分配用得最直接的是() A.供给曲线 B.需求曲线 C.洛伦茨曲线 D.边际需求曲线 10.专门用来衡量和反映收入分配平均程度的统计指标是() A.基尼系数 B.可决系数 C.相关系数 D.离散系数 11.一般认为,基尼系数在()之间是比较恰当的。

A.0.1— —0.4 C.— —0..8 12.一般认为,基尼系数等于( )是收入分配不公平的警戒线。 A.0.2 B.0.6 C. 利用公式计算众数的基本假定之一是众数组的频数在该组内呈( ) A.正态分布 分布 C.均匀分布 D.偏态分布 14.计算中位数时,假定中位数所在组的频数在该组内呈( ) A.左偏分布 B.正态分布 C.右偏分布 D.均匀分布 15.反映数据分布集中趋势的最主要的测度值是( ) A.众数 B.中位数 C.均值 D.几何平均数 16.各个变量值与均值的离差之和( ) A.大于0 B.小于0 C.等于0 D.等于一个不为0的常数 17.各个变量值与均值的离差平方和( ) A.为最大 B.为最小 C.为0 D.为一个不为0的常数 18.下列中,专门用来衡量众数代表性大小的离散程度测度值是( ) A.异众比率 B.四分位差 C.方差或标准差 D.极差 19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是( ) A.方差和标准差 B.内距 C.异众比率 D.平均差 20.下列中,适用于列名数据的集中趋势测度值是( ) A.众数 B.中位数 C.均值 D.几何均值 21.描述数据离散程度最简单的测度值是( ) A.平均差 B.方差和标准差 C.极差 D.四分位差 22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。 A.σ±X B.σ2±X C.σ3±X D.σ4±X 23.用来对两组数据的差异程度进行比较的统计分析指标是( ) A.基尼系数 B.标准差系数 C.相关系数 D.可决系数 24.测定数据分布偏斜程度需要计算( )

数据的统计描述和分析

第十章数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 §1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如)来表示,如一件产品是合格品记,是废品记;一个身高170(cm)的学生记。 从总体中随机产生的若干个个体的集合称为样本,或子样,如件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作,称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重 身高体重身高体重身高体重身高体重身高体重 172 75 171 62 166 62 160 55 155 57 173 58 166 55 170 63 167 53 173 60 178 60 169 55 168 67 168 65 175 67 176 64 168 50 161 49 169 63 171 61 178 64 177 66 169 64 165 52 164 59 173 74 172 69 169 52 173 57 173 61 166 70 163 57 170 56 171 65 169 62 170 58 172 64 169 58 167 72 175 76 164 59 166 63 169 54 167 54 167 47 168 65 165 64 168 57 176 57 170 57 158 51 165 62 172 53 169 66 169 58

定量数据描述

定量数据描述 1 【单选题】 制作频数表的主要目的是 ?A、 进行统计推断 ?B、 参数估计 ?C、 假设检验 ?D、 参数估计和假设检验 ?E、 观察数据的分布规律 正确答案:E 我的答案:E得分:3.3分 2 【单选题】 根据频数表所画的直方图,如果其峰向数据观察值小的一侧偏移的分布称为?A、

正偏态分布 ?B、 负偏态分布 ?C、 正态分布 ?D、 二项分布 ?E、 以上都不是 正确答案:A 我的答案:A得分:3.3分 3 【单选题】 根据频数表所画的直方图,如果其峰向数据观察值大的一侧偏移的分布称为?A、 正偏态分布 ?B、 负偏态分布 ?C、 正态分布

二项分布 ?E、 以上都不是 正确答案:B 我的答案:B得分:3.3分 4 【单选题】 一组数据的均数等于其中位数,描述这组数据的集中趋势应选择用?A、 算术均数 ?B、 极差 ?C、 变异系数 ?D、 中位数 正确答案:A 我的答案:A得分:3.3分 5 【单选题】 当一组数据成正态分布时

算术均数 <中位数 ?B、 算术均数 >中位数 ?C、 算术均数≤中位数 ?D、 算术均数≥中位数 ?E、 算术均数=中位数 正确答案:E 我的答案:E得分:3.3分 6 【单选题】 一组数据成负偏态分布,描述这组数据的集中趋势应选择用?A、 算术均数 ?B、 几何均数 ?C、 中位数

?D、 变异系数 ?E、 标准差 正确答案:C 我的答案:C得分:3.3分 7 【单选题】 一组数据成偏态分布,描述这组数据的变异程度最好选择用?A、 四分位数间距 ?B、 方差 ?C、 变异系数 ?D、 极差 ?E、 标准差 正确答案:A 我的答案:A得分:3.3分

excel与描述性统计分析

用Excel进行数据分析:描述性统计分析 郑来轶发表于2013-04-14 22:03 来源:本站原创 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形,常用的指标有均值、中位数、众数、方差、标准差等等。 接下来我们讲讲在Excel2007中完成描述性统计分析。 一、案例场景 某网站的专题活动积累了一定访问数据后,需要统计流量的的均值、区间,以及给出该专题访问量差异的量化标准,借此来作为分析每天访问量的价值、参差不齐、此起彼伏一个衡量的依据。要求得到均值、区间、众数、方差、标准差等统计数据。 二、操作步骤 1、打开数据表格,这个案例中用的数据无特殊要求,只是一列数值就可以了。 2、选择“工具”——“数据分析”——“描述统计”后,出现属性设置框

注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,可以参考上一篇文章《用Excel进行数据分析:数据分析工具在哪里?》。 3、依次选择 选项有2方面,输入和输出选项 输入区域:原始数据区域,选中多个行或列,选择相应的分组方式逐行/逐列;

如果数据有标志,勾选“标志位于第一行”;如果输入区域没有标志项,该复选框将被清除,Excel 将在输出表中生成适宜的数据标志; 输出区域可以选择本表、新工作表或是新工作簿; 汇总统计:包括有平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数、最大值、最小值和置信度等相关项目。第K大(小)值:输出表的某一行中包含每个数据区域中的第k 个最大(小)值。 平均数置信度:数值95% 可用来计算在显著性水平为5% 时的平均值置信度

调查数据分析--描述性统计结果

描述性统计结果 1、 性别结构 样本中深圳高校毕业生男性占67%,明显高于女性所占比例。但由于此次样本容量较小,故没有什么代表性。 深圳高校毕业生男女所占比例百分比图0 1020304050607080男 女 2、就业信心 样本中,只有6%的人对自己毕业后找到理想工作表示没有信心,而28%的人表示非常有信心,51%的人表示比较有信心,15%的人表示有些信心。可见大多数深圳高校毕业生对自己毕业后找到理想工作有信心。 深圳市高校毕业生对找到理想工作的信心情况百分比图 102030405060 非常有信心 比较有信心 有些信心 比较没有信心

3、接受学校或政府提供的就业辅导或培训的情况 样本中,66%的人表示没有接受过学校或政府提供的就业辅导或培训,人数比例明显高于有接受过此类培训的。 深圳市高校毕业生接受就业辅导或培训的 情况百分比图0 10203040506070接受过 没有接受过 4、薪酬要求 样本中,一半人找工作对月薪的要求不高于3000元,深圳市高校毕业生对工作月薪要求的平均水平为3653元。对月薪的要求主要集中在3000-5000元,最低要求为2000元,最高要求为10000元。 深圳市高校毕业生对工作月薪要求的情况表

变量关系检验的描述 5、不同性别的人对找到理想工作的信心情况对比 (注,因为样本容量不够,所以“非常有信心”“比较有信心”合并为“有信心”;将“有些信心”“比较没有信心”“合并为“比较没有信心”;“非常没有信心”没有人选故省去该选项。) 男女对找到工作的信心指数被分为“有信心”“比较没有信心”两项,采用两个独立样本卡方检验的统计方法,对比就业信心情况在不同性别上的凸显度。F 检验结果为0.629,在0.05水平上不显著,说明男女在这个问题上总体的方差没有显著性差异。可以推断,不同性别的人在就业信心情况上没有显著差异。(由图表也可分析出同一结果) 不同性别的人对照到理想工作的信心情况比较 0.00% 10.00%20.00%30.00%40.00%50.00%60.00%70.00%80.00%90.00%有信心 比较没有信心

SAS数据的描述性统计分析答案

实验一数据的描述性统计分析 一、选择题 1、以下( B )语句对变量进行分组,在使用前需按分组变量进行排序? 以下( C )语句可对变量进行分类,在使用前不必按分类变量进行排序? 用( A )语句可以选择输入数据集的一个行子集来进行分析? (A)WHERE语句(B)BY语句(C)CLASS语句(D)FREQ语句2、排序过程步中必须用什么语句对变量进行排序?( A ) (A)BY语句(B)CLASS语句(C)WHERE语句 3、如果要对数据集中的数据进行正态性检验,需要使用哪个过程?( B )(A)MEANS (B)UNIV ARIATE (C)FREQ 4、用UNIV ARIATE过程进行数据分析,要求此过程输出茎叶图、正态概率图等,应在语句中加上什么选项?(plot ) 5、用UNIV ARIATE过程进行数据分析,在输出结果中哪个统计量是对样本均值 为零的T检验的概率值?( A ) (A)T: Mean (B)Prob>|S| (C)Sgn Rank (D)Prob>|T| 二、假设某校100名女生的血清总蛋白含量(g/L)服从均值为75,标准差为3的正态分布,试产生样本数据,并利用SAS软件解决下面问题: 1、计算样本均值、方差、标准差、极差、四分位极差、变异系数、偏度、峰度; 2、画出直方图(垂直条形图); 3、画出茎叶图、盒形图和正态概率图; 4、试进行正态性检验。 Data N; DO i=1to100; x=75+3*normal(12345); output; end; proc print; run; proc univariate data=N; var x; run; proc gchart data=N; block x; run; proc univariate data=N plot; var x;

统计数据的描述

第二章统计数据的描述 在对一组统计数据的分布变化进行深入研究之前,我们首先研究一组数据的特征。为了比较精确地描述一组统计资料的特征,需要使用一些统计指标来描述它。一组数据的统计特征通常包括以下四个方面: 1、集中趋势,也称作中心位置。即表示一组数据的中心位置的数据点是在什么地方,也就是数据位置的度量。 2、离散性。即一组数据的分散程度,也就是数据散布的范围。 3、倾斜度。一组数据所描述的曲线既可以是左右对称的,也可能是倾斜的,即通过曲线最高点的垂线把曲线分为两半,是左右对称还是并不对称。 4、尖削度。这就是一组数据所描绘的曲线顶部的峰态特征。根据一组数据所描绘的曲线顶部既可能是尖峰状的,也可能是扁平状的。即使根据两组数据所描绘的曲线具有相同的中心位置和离散程度,但它们的尖削度也可能是不一样的。 在管理科学中,我们最感兴趣的常常是数据的集中趋势和离散程度,本章就主要介绍度量这两个特征的统计量。 第一节数据集中趋势的度量 一组数据的集中趋势通常用平均数、中位数和众数等来表示。这些统计量均称为平均指标。它表明同类社会经济现象的各单位的某一数量指标在一定时间、地点等条件下达到的平均水平。 平均指标的特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表各个数据的一般水平,它反映了一组数据中各个数据的典型水平、中心位置或集中趋势。 一、平均数 管理统计中常用的平均数有算术平均数、调和平均数和几何平均数等几种。但这里我们主要介绍算术平均数。算术平均数又称均值,常用x来表示。根据计算方法的不同,算术平均数又可分为简单算术平均数和加权算术平均数。 1、简单算术平均数 简单算术平均数的计算公式如下: x x x x N x N N i i N = +++ == ∑121 式中:N 是数据的个数; 21

1数据的描述性统计练习题

1数据的描述性统计练习题 一、填空题 1. 一组数据向某以中心值靠拢的倾向反映了数据的(集中趋势)。 2. (众数)是一组数据中出现次数最多的变量值。 3. 一组数据排序后处于中间位置的变量值称为(中位数)。 4. 不受极端值影响的集中趋势度量指标有(四分位数)(众数)(中位数)。 5. 一组数据的最大值与最小值之差称为(极差)。 6. (离散系数)一组数据的标准差与其相应的均值之比。 7. 数据分布的不对称性是(偏度)。 8. 数据分布的尖峰程度称为(峰度)。 9. 计算比率的平均数一般用(几何平均法),它实际上是各变量值对数的(算术平均数)。 二、单项选择题 1. 对于对称分布的数据,众数、中位数和平均数的关系是(B) A. 众数>中位数>平均数 B. 众数=中位数=平均数 C. 平均数>中位数>众数 D. 中位数>众数>平均数 2. 可以计算平均数的数据类型是(C) A.分类数据 B.顺序型数据 C.数值型数据 D.所有数据 3. 顺序数据的集中趋势测度的指标(B) A.中位数 B.平均数 C.极差 D.标准差 4. 数值型数据的离散程度测度方法中,受极端变量值影响最大的是(A) A.极差 B.方差 C.均方差 D.平均差 5. 当偏态系数为正数是,说明数据的分布是(C) A.正态分布 B.左偏分布 C.右偏分布 D.U型分布 三、多项选择题 1. 数据的分布特征可以从以下哪几个方面测度和描述(ABCD) A.集中趋势 B.分布的偏态 C.分布的峰态 D.离散程度 E.长期趋势

2. 受极端变量值影响的集中趋势的度量指标是(CDE) A.众数 B.分位数 C.算数平均数 D.调和平均数 E.几何平均数 3. 加权算术平均数的大小的影响因素有(AC) A.变量值 B.样本容量 C.权数 D.分组的组数 E.数据的类型 4. 数值型数据离散程度的测度指标有(ABCDE) A.变异系数 B.极差 C.标准差 D.异众比率 E.四分位数 5. 离散系数的主要作用是(BD) A.说明数据的集中趋势 B.比较不同计量单位数据的离散程度 C.说明数据的偏态程度 D.比较不同变量值水平数据的离散程度 E.说明数据的峰态程度 四、简答题 1. 什么是数据的集中趋势?反映数据集中趋势的指标有哪些? 数据的集中趋势指一组数据向某一中心值靠拢的倾向。 反映数据集中趋势的指标主要有:众数、中位数、分位数、平均数等。 2. 什么是数据的离散程度?常用测度离散程度的指标有哪些? 离散程度反映的是各变量值远离其中心值的程度。 反映数据离散程度的指标主要有:四分位差、方差、标准差、极差、离散系数等。 3. 怎样理解平均数在统计学中的地位? 平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础;平均数作为代表值,是误差相互抵消的结果,反映了事物必然性的数量特征。 4. 简述众数、中位数和平均数的特点和应用场合。 众数是一组数据分布的峰值,是一种位置代表值,不受极端值的影响,其缺点是不具有唯一性。虽然对数据型数据和分类数据也适用,但主要是用于分类数据的集中趋势测度值。中位数是中间位置上的代表值,也是一种位置的代表值,其特点是不受极端值的影响。顺序数据可以计算众数,但以中位数宜。 平均数是根据数据型数据计算的,而且利用了所以信息,是实际中应用最广的集中趋势测度值。虽然数据型数据可以计算众数和中位数,但以平均数为宜。平均数的主要缺点是受极端值的影响,对于偏态分布,平均数的代表性差。特别是当偏态程度较大是,可用位置平均数代替。 5. 为什么要计算离散系数?

相关文档
最新文档