统计学上机实验一、二

统计学上机实验一、二
统计学上机实验一、二

数据的收集、整理与显示

统计数据的收集、整理与显示是统计分析的基础和初步,其中涉及到抽样方法的选择,数据的筛选、排序,数据的分类和分组以及频数分布的制作等。本章主要介绍如何使用Excel 进行相应处理,其中第一节统计数据的收集,介绍“抽样”工具的使用;第二节数据的预处理,介绍“筛选”、“排位和百分比排位”工具的使用;第三节品质数据的整理与显示,介绍如何使用“直方图”工具制作品质型数据的频数分布;第四节数值型数据的整理与显示,介绍如何使用“直方图”工具制作数值型数据的频数分布以及多变量数据的雷达图制作。

第一节统计数据的收集

数据的处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括数据的审核、筛选、排序等。本节主要介绍Excel中筛选和排序功能的使用。

一、数据筛选

数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。

下面举例说明Excel进行数据筛选的过程。

表1-28名学生的考试成绩数据单位:分

表1-2是八名学生四门课程的考试成绩数据,使用Excel“筛选”命令分别找出统计成绩等于75分的学生;英语成绩前三名的学生;数学成绩大于80小于90的学生;统计成绩和数学成绩大于80分,或者英语成绩大于90分的学生。

Excel提供了两种筛选命令:“自动筛选”(适用于简单的条件)和“高级筛选”(适用于复杂的条件)。接下先来介绍“自动筛选”的使用。

首先,将表格中的数据区域选定或者只需确保活动单元格处于数据区域既可(如表1-2所示,活动单元格为B3)。选择“数据”菜单,并选择“自动筛选”命令。如图1.6所示。

图1.6从“数据”菜单中选择“筛选自动”

这时会在第一行(列标题)出现下拉箭头,用鼠标点击箭头会出现如下结果,如图 1.7所示。

图1.7“自动筛选”命令

图1.8统计成绩75分的学生

图1.9英语成绩前三名的学生

图1.10数学成绩大于80小于90的学生

要筛选出统计学成绩为75分的学生,可选择75,得到图1.8的结果;

要筛选出英语成绩最高的前三名学生,可在英语成绩下拉箭头选项中选择“前10个”,并在对话框中输入“3”,得到如图1.9所示结果。

要筛选出数学成绩大于80小于90的学生,可在数学成绩下拉箭头的选项中选择“自定义”。在弹出的对话框中,进行相应的设置,如图1.10所示。

上面介绍的筛选方法条件比较单一,要求较少,一般情况下选择“自动筛选”命令就可以完成。对于设定条件比较多的筛选,则需要使用“高级筛选”命令。“高级筛选”与“自动筛选”命令不同,它要求在一个工作表区域内单独指定条件区域(也称筛选区域)与数据区域区分开来。通常的做法是把条件区域放在数据区域的上面,一个筛选区域至少要包含两行。如果第一行是列标题,则筛选将从第二行及其下面的行开始执行,需要注意的是条件区域的标题应和数据区域的标题一致。

下面用“高级筛选”命令筛选出“统计成绩和数学成绩大于80分,或者英语成绩大于90分”的学生。

第一步:建立条件区域,即在工作表的顶端插入若干新行来放置条件。具体到本例至少需要插入四行来放置条件(注意:数据区域与条件区域必须有一行间隔)。如图1.11所示。

图1.11条件区域的建立

图1.12“高级筛选”命令的使用

Excel将根据以下规则解释这一区域:

◆同一行中的条件之间的关系是“与”。

◆不同行中的条件之间的关系是“或”。

第二步:选择“高级筛选”命令,在弹出的对话框中进行相应的设置。如图1.12所示。

在本例在“数据区域(L)”输入A5:E13,在“条件区域(C)”输入A1:C3,回车确定即可。结果见表1-3。

需要说明的是“自动筛选”和“高级筛选”命令显示筛选出的数据时,Excel仅仅把不符合要求的行隐藏起来,并且为了提醒用户此区域是经过筛选的数据区域,Excel会用对比颜色来显示筛选出的行数。如果要取消“筛选”,可以单击“筛选”菜单上的“全部显示”命令,也可以单击下拉列表框并选择“全部”(此时使用的是“自动筛选”命令)。所以,为了保证筛选结果的正确与“安全”,通常需要把每一次筛选的结果复制到其它工作表中。

表1-3 筛选结果

二、数据的排序

数据排序是按一定的顺序将数据排列,以便研究者通过排序后数据的特征或趋势,找出解决问题的线索。对于数值型数据的排序,即递增和递减排序,在Excel“数据”菜单中的“排序”命令可以很方便的实现这一功能,由于篇幅所限这里不再介绍。下面介绍如何利用Excel的“排位和百分比排位”分析工具来进行分析,此工具可以产生次序排位和百分比排位。以表1-2为例,步骤如下:

第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“排位和百分比排位”,回车打开其对话框(见图1.13,图1.14)。

图1.13“排位和百分比排位”命令

图1.14“排位和百分比排位”命令对话框

第二步:(以统计学成绩单列数据为例)对命令对话框进行相应设置。本例统计学成绩

数据区域为“B1:B9”,“输入区域(I)”输入“B1:B9”。“分组方式”要求指出输入区域中的数据是按行还是按列排列,在本例中选择默认设置“列”。如果“输入区域(I)”的第一行包含了标志项,则需单击选中“标志位于第一行(L)”复选框,本例显然要选中此项。在输出选项中,按照需要相应选择,本例因输出结果比较多,所以选择“新工作表组(P)”。设置完毕,回车确定,结果见表1-4。

表1-4 排位和百分比排位结果显示

结果包括四列:第一列“点”为数据原来的排列顺序;后三列依次为数据值、数据值排序和百分比排序。百分比排序的数值指的是“好于多少的”数据,如统计学成绩87分的百分比排序值为85.7%,指的是其成绩好于85.7%的其它数据。

在本例中,使用“排位和百分比排位”分析工具分析了统计学单列数据。可以使用此工具分析全部四个成绩:统计学、数学、英语、经济学,在这种情况下应指定“B1:E9”为输入区域,工具将输出16列数据。

第三节品质数据的整理与显示

数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理与显示时,首先要弄清是什么类型的数据,不同类型的数据适用的处理方法不同。一般情况下,对品质数据主要是分类整理,对数值型数据主要是分组整理。本节以及下一节(数值型数据的整理与显示)主要介绍这两大类数据频数分布的制作,而对于一般图形的制作,如:条形图、饼行图、直方图、圆环图等属于Excel的基本内容,由于篇幅所限不在这里讲述。

下面通过一个具体的例子来说明如何使用Excel来制作定类数据的频数分布。

表1-5是一家市场调查公司为研究不同品牌饮料的市场占有率,调查员某天对50名顾客购买饮料品牌记录的原始数据。具体做法是:如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌记录一次。

表1-5顾客购买饮料品牌的记录

因为Excel无法识别非数值型数据,所以为了用Excel建立饮料品牌的频数分布,首先需要将字符数字化。为此,通常的做法是将不同品牌的饮料用一个数字代码来表示。本例对各种品牌饮料指定的代码是:

1. 可口可乐

2. 旭日升冰茶

3. 百事可乐

4. 汇源果汁

5.露露

然后,将各品牌的代码输入到Excel工作表中。假定这里已将品牌代码输入到Excel工作表中的B2:B51,这样就将定类数据转化为数值型数据。为建立频数分布表和条形图,Excel 还要求将每个品牌的代码作为分类标志单独输入到任何一列,这里将代码输入到工作表的C4:C8(见表1-6)。这样,Excel就可以对数值小于或等于每一品牌代码的数据进行计算,提供的合计数就是各品牌的频数分布。

下面是用Excel产生频数分布表和图形的步骤:

第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“直方图”,回车打开其对话框(如图1.15,图1.16所示)。

图1.15从对话框“分析工具”列表中选择“直方图”

图1.16 对话框的设置

第二步:对命令对话框进行相应设置。本例“输入区域(I)”为B2:B51(请注意:是转换后代码的区域,而不是A2:A51字符的区域);“接受区域(B)”为C4:C8,即分类标志的区域(注意:“接受区域(B)”不能为空且内容必须正确,即为分类标志。只有这样Excel才能识别任务,程序可以统计出数字“1”、“2”等分类标志的个数,即每一类别的个数;还可以统计出小于等于数字“2”、“3”、“4”、“5”的个数,从而达到统计累积频率的目的)。在输出选项中可根据自己的需要确定,本例选择“输出区域(O)”并键入E1(意思是结果从本工作表E1位置开始输出结果)。选择“累积百分率(M)”(若不需要时,此项可不选)和“图表输出(C)”,然后回车确定,结果见表1-6。

表1-6 频数分布结果

为了把输出结果转化为易读的形式,应将结果进一步修改和修饰。这里可以将频数分布

表中的“接收”用描述性标题“饮料品牌”来代替,将“频率”改为“频数”(输出结果的

频率实际上频数),将品牌的代码1,2,3,4,5用相应品牌的名称可口可乐、旭日升冰茶、

百事可乐、汇源果汁、露露来代替。并将“其他”行(Excel 的一个固定输出形式)去掉,

换以相应的“合计”内容,结果见表1-7(这里提醒读者的是,因为表1-6输出结果中,频

数分布表和频数分布图为一个相关联的整体,所以当对频数分布表进行修改时,分布图也会

相应的变化。如:将品牌的代码1,2,3,4,5用相应品牌的名称代替后,分布图中的分组

标志也相应的变成品牌名称)。

表1-7 不同品牌饮料的频数分布

对于频数分布图,可以自己设计,如图形的背景、颜色、字体、坐标的刻度等。Excel

可以很容易地绘制出漂亮的图形。需要注意的是,初学者往往会在图形的修饰上花费太多的

时间和精力,这样做得不偿失,也未必合理,或许会画蛇添足。图形的绘制应尽可能的简洁,

以能够清晰地显示数据、合理地表达统计目的为依据。

第四节 数值型数据的整理与显示

上一节介绍了品质数据频数分布的制作,本节将介绍一些统计中常用到的数值型数据的

整理与显示方法。

一、数值型数据的分组与图示

数值型数据包括定距和定比数据,在整理时通常要进行数据分组,就是根据统计研究的

需要,将数据按某种标准化分成不同的组别。分组后再计算出各组中出现的次数和频数,就

形成了一张频数分布表。

下面结合具体的例子来说明,表1-8是某生产车间50名工人日加工零件数(单位:个),

采用等距分组的形式制作频数分布表和分布图。

在使用Excel 前,首先需要明确分几组,组距以及每组的上下组限。一般情况下,可以

按Sturges 公式来确定组数K : K=1+2

Lg Lgn 其中,n 为数据的个数,对结果用四舍五入的办法取整即为组数。 组距是一个组的上限和下限的差,可根据全部数据的最大值和最小值及所分的组数来确

定,即组距=(最大值—最小值)÷组数。

本例假定根据上述方法分为五组,组距为10:100-110;110-120;120-130;130-140;

140-150。

表1-8 生产车间50名工人加工零件数

与品质数据一样,使用“数据分析”中的“直方图”工具来制作频数分布。首先,需要给定数据的“输入区域”和“接受区域”。这里的“接受区域”相应的变为分组标志,但是由于Excel不能识别非数值型字符,所以不能把100-110,110-120,120-130,130-140,140-150输入一列作为“接受区域”,程序规定只能把上组限值作为分组标志,即110,120,130,140,150。需要强调的是在制作频数分布的时候,由于相邻两组的上下组限重叠,为了避免重复,通常采用“上组限不在内”的原则。由于Excel无法识别这一原则,但为了与通常的做法相一致,需要将上组限都减去1,即分组标志变为:109,119,129,139,149。

假定已将样本数据和分组标志输入到相应的位置(如表1-9所示),步骤同第三节品质数据的频数分布制作相同(这里做简单介绍)。

表1-9 生产车间50名工人加工零件数和分组标志单位:个

第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“直方图”,回车打开其对话框。

第二步:在“直方图”对话框的“输入区域(I)”输入A1:A51,“接受区域(B)”输入C2:C7,这时还需要单击选定“标志(L)”复选框(请读者自己思考为什么?)。

第三步:在输出选项中,本例在“输出区域(O)”中键入D1,同时单击“累积百分率(M)”和“图表输出(C)”复选框。回车确定即可,结果输出见表1-10。

表1-10 频数分布输出结果

同样,为了把输出结果转化为易读的形式,应进一步修改表格和修饰图形。如下表1-11所示,把分组标志转换为标准、易懂的形式。同时,如上节所述,分布图的标志随着频数分布表的修改相应变化(读者可自己验证)。

表1-11 日产零件的频数分布

数据分布特征的测度

对数据分布特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。

第一节函数的介绍

本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。

一、统计计算中经常用到的函数(函数列表)★

Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。下面将这些函数名称及功能列表显示。

表2-1 可用于统计分析的函数

★本小节摘自: 安维默主编,《统计电算化》第34~37页,中国统计出版社,2000

表2-1 可用于统计分析的函数(续1)

表2-1 可用于统计分析的函数(续3)

二、函数的使用

1、函数的语法

工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和

A VERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“=SUM(327,209,176)”中的SUM 函数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“Microsoft Excel 在公式中发现了错误。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值。

如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“=PRODUCT (C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表中包括任意数目单元格的区域。例如,函数“=SUM(A1:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从A1到A5的所有单元格,依此类推)。反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。

2、函数的输入

对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相同,首先输入一个“=”号,然后将函数的正确形式输入即可。例如:“=SUM(B2:B5)”等。

对于一些复杂或参数较多的函数,其形式难以记忆,可用“粘贴函数”对话框。其步骤如下:

第一步:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮,来显示对话框(见图2.1)。

第二步:从对话框左侧的“函数分类”列表中选择所需要的函数类别(表中除前述10类函数外,还有“常用”和“全部”两项);从对话框右侧的“函数名”列表中选择所需要的函数,单击确定或回车确认,屏幕上出现该函数的对话框。本例从“统计”函数分类中,选择A VERAGE(平均数函数),如图2.2所示。

图2.1粘贴函数对话框

图2.2 A VERAGE函数对话框

图2.2A VERAGE函数对话框包括两个参数,即等价于公式“=A VERAGE(A1:A5,C2:C5)”,对9个单元格的数据进行求平均数。在此对话框中,所选函数的每个参数均有相应的编辑框。如果函数参数较多,对话框会在输入可选参数时自动进行扩展。对话框底部会显示对编辑框中当前所包含插入符的参数描述。

每个参数编辑框右边的显示区域将显示参数的当前值。对话框底部会显示函数的当前值,如本例计算结果为8。需要说明的是参数多少的选择要根据情况而定,本例使用了两个参数(A1:A5,C2:C5),原因是这两个数据区域不相连,如果将这两组数据放在一列,则只需一个参数。

当然,由于不同的函数功能不同,所以在使用中参数的形式可能也不同,这里就不逐一列举。读者在具体的使用中也可以借助Excel的帮助功能。

第二节数据分布特征测度函数的使用

本节就描述统计中对数据分布特征的测度,所用到的函数做具体的说明。本节以某电脑公司2002年前4个月各天的销售量数据(单位:台)为例,见表2-2。

表2-2 某电脑公司2002年前4个月各天的销售量

一、集中趋势的测度

集中趋势的测度值有:众数、中位数、简单均值、调和平均数与几何平均数。在Excel 中用函数求这些测度值,可以打开函数的对话框操作,也可以直接输入包含函数的公式。

1、众数

众数是一组数据中出现次数最多的变量值,用M0表示。

具体做法如前所述:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击

“常用”工具栏上的“粘贴函数”按钮,从弹出的对话框左侧“函数分类”列表中选

择“统计”,从右侧“函数名”列表中选择MODE函数,回车进入MODE函数对话框(如图2.3所示)。

图2.3 MODE函数对话框

在对话框的“Number1”框中输入原始数据所在的单元格区域,本例为A1:J12;完成以

上操作后在对话框底部给出计算结果,本例为172(台);单击“确定”按钮,计算结果自动计入指定位置。

如采取直接输入带函数的公式计算,可单击任一空单元格,输入“=MODE(A1:J12)”回车确认,可得出同样的结果。

2、中位数

中位数是一组数据排序后,处于中间位置上的变量值,用M e 表示。

采取直接输入带函数的公式计算,单击任一单元格,输入“=MEDIAN(A1:J12)”,回车确认,即得出结果182(台)。

3、均值

(1)简单均值

对于简单均值,单击任一空格,输入“=A VERAGE(A1:J12)”,回车确认,即可得出结果184.56。

(2)调和平均数

各变量值倒数的平均倒数,称为调和平均数,用H m 表示。在Excel 中,调和平均数也可以用函数求得,但只适用于简单的计算。例如:有甲、乙、丙三种蔬菜,每种蔬菜的价格分别为每斤0.5、0.8和0.9元,现在各买1元钱的每种蔬菜,计算平均价格,就是一个求调和平均数的问题。用求调和平均数函数HARMEAN 计算,单击任一单元格,输入“=HARMEAN(0.5,0.8,0.9)”,回车确认,结果为0.688(元)。

(3)几何平均数

n 个变量值乘积的n 次方根,称为几何平均数,用G m 表示。

几何平均数的计算公式为:

G m =n n

i i n n x x x x ∏=????=121 式中,∏为连乘符号。

几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当我们所掌握的变量值本身是比率的形式,这时就应采用几何平均数计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。

例:某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比为20%。求各年的平均增长率。

在Excel 中求几何平均数,非常简单,单击任一单元格,输入“=GEOMEAN(0.09,0.16,0.20)”,回车确认,其结果为14.2%。

二、离散程度的测度

离散程度的测度值主要有:异众比率、极值、四分位差、标准差、方差。这里就数值型数据离散程度的函数测度做简单介绍。

1、极值

在Excel 中求极值可用MAX 和MIN 函数求最大值和最小值,然后求其差值。

单击任一单元格,输入“=MAX(A1:J12)-MIN(A1:J12)”,即得出其值为96。

2、四分位差

上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距,用d Q 表示。 四分位差的计算公式为:

l u d Q Q Q -= 其中,u Q 表示上四分位数,l Q 表示下四分位数。

四分位差反映了中间50%数据的离散程度,其值越小,说明中间的数据越集中;数值

越大,说明中间的数据越分散。四分位差不受极值的影响,一定程度反映了中位数对一组数据的代表程度。

在Excel中求四分位差,可用QUARTILE函数。按前面所述的步骤,打开QUARTILE 函数对话框,如图2.4所示。

图2.4 QUARTILE函数对话框

其中,“Array”框要求输入数据所在的区域,“Quart”框决定返回那一个四分位值。

Quart的取值范围为[0,4],具体来讲:

◆值为0,表示最小值;

◆值为1,下四分位数;

◆值为2,中位数;

◆值为3,上四分位数;

◆值为4,最大值

◆值不为整数,将被截尾取整。

所以,要计算四分位差,可分别在Quart对话框中输入3、1,然后将返回的上、下四分位数作差。

本例也可以单击任一单元格,输入“=QUARTILE(A1:J12,3)-QUARTILE(A1:J12,1)”,即可得到结果为43.25(台)。

3、标准差和方差

方差和标准差是数值型数据测度离散程度的最主要测度值。各变量值与其均值离差平方和的平均数,称为方差。方差的平方根,称为标准差。通常情况下,总体方差用2σ表示,函数形式为V ARP;总体标准差用σ表示,其函数形式为STDEVP;样本方差用S2表示,函数形式为VAR;样本标准差用S表示,其函数形式为STDEV。

本例如果要求样本方差和样本标准差,可单击单元格在其中输入“=V AR(A1:J12)”或输入“=STDEV(A1:J12)”,即可得到样本方差或样本标准差,分别为470.05,21.68(台)(注意标准差有量纲)。

三、偏态与峰态的测度

集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。

“偏态”一词是由统计学家Pearson于1895年首次提出的,是对数据分布对称性的测度,其测度值称为偏态系数(SK),测度函数为SKEW。如果一组数据的分布是对称的,则偏态系数等于零;偏态系数大于零,为右偏分布;偏态系数小于零,为左偏分布。

本例在任一单元格输入“=SKEW(A1:J12)”,可得到偏态系数为0.41,为右偏分布。

“峰态”一词是由统计学家Pearson于1905年提出的,是对数据分布平峰和尖峰程度

的测度,其测度值称为峰态系数(K),测度函数为KURT。峰态系数是通过与标准正态分布的峰态系数比较而言的。由于标准正态分布的峰态系数为0,当K>0时为尖峰分布;当K<0时为扁平分布。

需要注意的是,有的教课书中其峰态系数计算公式没有减3,所以把标准正态分布的峰态系数作为3,当K>3时为尖峰分布;K<3时为扁平分布。在Excel计算过程中,以零为比较对象。

本例在任一单元格输入“=KURT(A1:J12)”可得到峰态系数为-0.22,为扁平分布。

第三节描述统计工具的使用

上面介绍了数据分布特征的各种函数测度值,其中多数可以通过Excel“数据分析”选项中的“描述统计”命令得出计算结果。仍以表2-2为例,其步骤如下:

一、将数据输入到A1:A120区域中,在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“描述统计”,回车进入“描述统计”对话框。如图2.5所示。

图2.5“描述统计”对话框

二、在“输入区域(I)”框中输入“A1:A120”,如果需要指出输入区域的数据是按行或按列排列的,可在“分组方式”后面单击“逐行”或“逐列”选项。选择“逐列”后,如果第一行为标题行,则要单击“标志位于第一行(L)”的复选框。

在输出选项中,本例选择“输出区域(O)”,输入“C2”;选择“汇总统计(S)”,可给出一系列描述统计测度值;选择“第K个大值(A)”或“第K个小值(M)”,其右侧框中将显示默认值“1”,即要求给出数据中第1个最大值或最小值。如输入“2”,则要求给出数据中2个最大值或最小值;选择“平均数置信度(N)”是指用样本平均数估计总体平均数的可信程度。如选择此复选框,则其右侧框中将显示默认值95%,如认为不合适,可自己调整。

以上各项选定后,回车确认,即可在指定输出区域得到描述统计各测度值的结果,见表2-3。

表2-3 “描述统计”输出结果

研究生医学统计学上机试题

医学科研中的统计学方法上机试题 时间:2014-12-15 共4题,共100分 1.某医院病理科研究人体两肾的重量,20例男性尸解时的左、右肾的称重记录见下表,问左、右肾重量有无不同? 表1:20例男性尸解时左、右肾的称重记录 编号左肾(克)右肾(克) 1 170 150 2 155 145 3 140 105 4 11 5 100 5 235 222 6 125 115 7 130 120 8 145 105 9 105 125 10 145 135 11 155 150 12 110 125 13 140 150 14 145 140 15 120 90 16 130 120 17 105 100 18 95 100 19 100 90 20 105 125 2. 在评价某药物耐受性及安全性的I期临床试验中,对符合纳入标准的40名健康自愿者随机分为4组,每组10名,各组注射剂量分别为0.5U、1U、2U、3U,观察48小时后部分凝血活酶时间(s)。试比较任意两两剂量间的部分凝血活酶时间有无差别?

表2 各剂量组48小时部分凝血活酶时间(s) 0.5 U 1 U 2 U 3 U 36.8 40.0 32.9 33.0 34.4 35.5 37.9 30.7 34.3 36.7 30.5 35.3 35.7 39.3 31.1 32.3 33.2 40.1 34.7 37.4 31.1 36.8 37.6 39.1 34.3 33.4 40.2 33.5 29.8 38.3 38.1 36.6 35.4 38.4 32.4 32.0 31.2 39.8 35.6 33.8 3. 某神经内科医师观察291例脑梗塞病人,其中102例病人用西医疗法,其它189 例病人采用西医疗法加中医疗法,观察一年后,单纯用西医疗法组的病人死亡13例,采用中西医疗法组的病人死亡9例,请分析两组病人的死亡率差异是否有统计学意义? 4. 某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关? 表4 八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号肺癌标化死亡率(1/10万)苯并(a)芘(μg/100m3) 1 5.600.05 2 18.50 1.17 3 16.23 1.05 4 11.400.10 5 13.800.75 6 8.130.50 7 18.000.65 8 12.10 1.20

第3章上机实验指导

第三章统计学实验指导 实验五:统计抽样与抽样分布 实验目的: 运用“数据分析”工具生成满足一定分布条件的随机数据。 理解抽样分布的实质。 能根据标准正态分布计算累积概率和指定累积概率下的分位数。 实验要求: 独立完成课堂各类习题和练习,按要求完成实验内容。 实验形式: 教师演示、指导 实验学时:2学时 实验内容: 1、简单随机抽样:从既定的总体数据中生成一个指定样本容量的样本 2、指定分布形态的随机数样本:根据指定总体分布形态,利用“随机数发生器”生成一个指定样本容量的样本。 3、已知总体数据的前提下,利用简单随机抽样得出一定数目的样本,验证样本统计量与总体参数间的关系。 4、利用函数相互计算Z分布条件下的概率与Z值。 一、简单随机抽样 是指从一个已知总体中,随机抽取一定容量的数据组成样本的过程。 操作方法:利用“数据分析”工具,选择“抽样”统计功能,进入抽样对话框。 输入区域:待抽样的总体数据,只能是数值型数据。如果变量名一同被选入,则选中“标志”,表示所选区域中第一个单元格不参与抽样,否则不选。抽样方法:周期——从第一个数据开始,按指定周期整数倍的位置选出数据组成样本,可理解成(非概率)等距抽样。 随机——简单随机重复抽样。样本数——样本容量 输出选项:指明样本数据的存放位置。通常为输出区域(定义起始单元格即可)。应用1:从容量为30的总体中随机重复抽取容量为10的样本。 应用2:模仿教材,从容量为4的总体中(取值分别为1、2、3、4)随机抽取容

量为2的所有样本。观察样本均值的抽样分布特征与总体分布特征间的关系。操作步骤:(1)按照重复抽样从总体中共组合出16个样本; (2)分别计算总体均值、方差、各样本组合的均值、方差; (3)对样本均值进行分组整理,并绘制次数分布图,观察形状。 结论:样本均值的抽样分布为对称单峰钟形分布(正态) 样本均值的均值为总体均值;样本方差的均值为总体方差;样本均值的方差为总体方差的1/n。 二、产生指定总体分布类型下的随机样本数据 如果已知某类变量的数据所服从分布的类型,根据其分布特征,我们可以在某种程度上“模拟”此分布条件下的随机数。 操作方法:“数据分析”工具中的“随机数发生器”统计功能。在对话框中: 变量个数:默认生成指定分布的样本数据列,即一次生成的样本个数,通常为1个样本列。 随机数个数:样本中数据的个数,即样本容量。 分布:常用的随机变量分布类型,比如离散变量对应的分布(柏努利、二项分布、泊松、模式、自定义等),连续变量的分布(均匀分布、正态分布等)。 参数:某特定分布类型的参数特征值。如均匀分布的起止值、正态分布的均值和方差、泊松分布的均值、伯努利分布的成功概率、二项分布的成功概率和试验总次数、指定数据及其对应出现概率的一般离散分布等。 随机数基数:通常不需设定基数。但在某种特殊情形下,有时候需要数据重现,在指定基数后,以后再产生同分布的随机数列时,输入该基数时,数据不再随机出现,而是和指定基数时产生的数据相同。 应用3:从一个总体均值为10,总体标准差为2的正态分布总体中,随机抽取容量为50的样本数据。 操作步骤:在随机数发生器中,选择正态分布类型,设计好参数取值和数据的存放区域即可生成随机数列。 应用4:生成容量为20的2个相同样本数据,生成条件:取值介于0到100之间的均匀分布。 操作步骤:利用随机数发生器,与正态分布操作类似,设定基数。

医学统计学上机试题-U

习题集(分析应用题) 1、某卫生防疫站对30名麻疹易感儿童经气溶胶免疫一个月后,测得其血凝抑制抗体滴度资料如下:请问:要反映其平均滴度,用何指标?为什么? 抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计 例数 2 6 5 10 4 2 1 30 2、测得某地300名正常人尿汞值,其频数表如下。欲根据此资料制定95%正常值范围。请问:用何种估计方法?(列出计算公式,不用计算) 300例正常人尿汞值(ug/L)频数表 尿汞值例数尿汞值例数尿汞值例数 0-4924-1648-3 4-4728-952-- 8-5832-956-2 12-4036-460--

16-3540-564-- 20-2244--68-721 3、某医师在研究血管紧张素I转化酶(ACE)基因I/D多态与Ⅱ型糖尿病肾病(DN)的关系时,将249例Ⅱ型糖尿病患者按有无糖尿病肾病分为两组,资料见下表。拟比较两组Ⅱ型糖尿病患者的ACE基因型分布有无差别,用何统计分析方法? DN组与无DN组2型糖尿病患者ACE基因型分布的比较 组别DD ID II合计 DN组42(37.8)48(43.3)21(18.9)111 无DN组30(21.7)72(52.2)36(26.1)138 合计72(28.9)120 (48.2) 57(22.9)249 4、某单位研究胆囊腺癌、腺瘤的P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各10份,用免疫组化法检测P53基因,资料见下表。欲分析胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别,用何统计分析方法? 胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较 病种阳性阴性合计 胆囊腺癌6410

统计学实验实习指导书(新版)

10 Excel在统计学中的应用 10.1 用Excel搜集与整理数据 10.1.1 用Excel搜集数据 统计数据的收集是统计工作过程的基础性环节,方法有多种多样,其中以抽样调查最有代表性。在抽样调查中,为保证抽样的随机性,需要取得随机数字,所以我们在这里介绍一下如何用Excel生成随机数字并进行抽样的方法。需要提醒的是,在使用Excel进行实习前,电脑中的Excel需要完全安装,所以部分同学电脑中的office软件需要重新安装,否则实习无法正常进行。本书中例题全部用Excel2007完成。 使用Excel进行抽样,首先要对各个总体单位进行编号,编号可以按随机原则,也可以按有关标志或无关标志,具体可参见本书有关抽样的章节,编号后,将编号输入工作表。 【例10-1】我们假定统计总体有200个总体单位,总体单位的编号从1到200,输入工作表后如图10-1所示: 图10-1 总体各单位编号表 各总体单位的编号输入完成后,可按以下步骤进行操作: 第一步:选择数据分析选项(如果你使用的是Excel2003,单击工具菜单,若无数据分析选项,可在工具菜单下选择加载宏,在弹出的对话框中选择分析工具库,便可出现数据分

析选项;如果你使用的是Excel2007,点击左上角Office标志图标,Excel选项,加载项,在下面的管理下拉列表中选择“Excel加载项”,转到,勾选“分析工具库”,确定。),打开数据分析对话框,从中选择抽样。如图10-2所示。 图10-2数据分析对话框 第二步:单击抽样选项,确定后弹出抽样对话框。如图10-3: 图10-3 抽样对话框 第三步:在输入区域框中输入总体单位编号所在的单元格区域,在本例是$A$1:$J$20,系统将从A列开始抽取样本,然后按顺序抽取B列至J列。如果输入区域的第一行或第一列为标志项(横行标题或纵列标题),可单击标志复选框。 第四步:选择“随机模式”,样本数为10。 在抽样方法项下,有周期和随机两种抽样模式。 “周期”模式即所谓的等距抽样(或机械抽样),采用这种抽样方法,需将总体单位数除以要抽取的样本单位数,求得取样的周期间隔。如我们要在200个总体单位中抽取10个,则在“间隔”框中输入20;如果在200个总体单位中抽取24个,则在“间隔”框中输入8

统计学上机实验指导三

前言加载“数据分析”功能 Excel菜单栏“工具”选项中“数据分析”工具是统计分析时经常需要用到的,在初次使用时会发现在Excel相应位置中找不到这一选项,其原因在于在安装Office办公集成软件或Microsoft Excel时,一般使用的是“自动”或“典型”安装。为此,需要使用者自己加载这一功能。 操作步骤是:在Excel界面中,单击“工具“菜单,显示各种条目,选中“加载宏”命令,在弹出的“加载宏”对话框中选择“分析工具库”,单击“确定”按钮,如图0-1和图0-2所示。 图0-1 在“工具”菜单中单击“加载宏”选项 图0-2 在“加载宏”列表中选择“分析工具库” 在加载成功“数据分析”选项后,单击“工具”菜单,即可出现“数据分析”选项,如图0-3所示。

图0-3 在“工具”菜单中单击“数据分析”选项 实验三抽样与参数估计 实验目的:熟练使用随机数字表及抽样命令抽取所需要的样本单位并进行简单的参数估计,本部分提供了两种抽样方法和四种参数估计的基本方法有利于学习者根据自己特点选择适当的方法进行参数估计,有利于帮助学习者理解抽样分布的含义 实验要求:同学们利用随机数字表从同一总体中抽选样本量相同的样本,根据样本数据利用描述统计命令计算样本均值及标准差,然后利用多个样本均值能够做出抽样分布;能够利用Excel计算得到不同分布下的临界值及总体均值的置信区间,并能结合实际背景对所得结果进行统计意义解释。 实验内容: 任务一: 1、利用实验指导三中的抽样方法对给的成绩进行抽样,随机抽取50个,计算样本的均值,标准差(直接利用数据分析里面的描述统计),抽样平均值的平均误差,及格率,及格率标准差(p131例子),及格率抽样平均误差。 2、均值估计:结合书本的计算公式利用抽样的结果,在置信度分别为0.8,0.9,0.9545,0.99下,估计总体的均值的置信区间 3、比例估计:结合书本的计算公式利用抽样的结果,在置信度分别为

田间试验设计与统计分析期末复习试题.doc

一、判断题 1. 在采用分层随机抽样时,若各区层所包含的抽样单位数不同,则从各区层抽取单位数应根据其所包含的抽样单位数按比例配置。(√) 2.二项分布属于连续型概率分布(×) 3.一般情况下,长方形尤其是狭长形小区的试验误差比正方形小区的大(×) 4.准确性是指在试验中某一试验指标或性状的观测值与其真值接近的程度(√) 5.调和平均数主要用于反映研究对象不同阶段的平均速率(√) 6.在计算植物生长率时,用调和平均数比用算术平均数更能代表其平均水平(×) 7.就同一资料而言,调和平均>数几何平均数>算术平均数(×) 8.通常将样本容量n30的样本称为大样本,将样本容量n30的样本称为小样本(√) 9.正态分布属于离散型概率分布(×) 10.统计分析的试验误差主要指随机误差。这种误差越小,试验的准确性越高(×) 二、填空题 1. 正交试验设计表的主要性质有正交性、代表性、综合可比性。 2. 两个变量数据依据确定性关系可分为函数关系和相关关系2种类型。 3. 常用统计图的绘制方法主要有直方图、多边形图、条形图、圆图这4种图形。 4.在田间试验中,由观察、测量所得的资料,一般可分为数量性状资料和质量性状资料两大类。 5. 小样本抽样分布主要包括三类分布:t分布、 X2分布和F分布。 6. 随机事件可分为:必然事件、不可能事件和基本事件3种类型 7. 常用的田间试验设计方法主要有随机区组试验、随机裂区试验、拉丁方试验。 8. 正交试验设计表的主要类型有两种分别相同水平正交表和混合水平正交表 9. 田间试验常用的随机抽样方法有简单随机抽样、分层随机抽样、整群随机抽样和多级随机抽样 10. 试验地土壤差异测量的方法有目测法和肥力测定法 12. 试验处理重复的作用分别是估计试验误差和降低试验误差。 13. 试验地土壤肥力差异的表现形式大致可分为肥力梯度的变化和斑块状变化。 14. 在研究玉米种植密度和产量的相关关系中,其中种植密度是自变数,产量是依变数 15. 小麦品种A每穗小穗数的平均数和标准差值为18和3(厘米),品种B为30 和4.5(厘米),根据 CV A 大于_ CV B _,品种_ A _ 的该性状变异大于品种_ B _。 16. 田间试验常用的随机抽样方法有、、和等 17.根据试验的内容将田间试验分为:品种试验、栽培试验、品种和栽培相结合的试验3种类型。 18. 统计学中,一般来说常见抽样的方法有典型抽样、随机抽样和顺序抽样3种方法。 19. 在Excel表格中计算正态分布概率值和反正态分布随机变量的函数分别是NORMDIST 和NORMINV

使用统计学实验报告

*****大学 应用统计学课程实验(上机)报告 专业班级: 学号: 学生姓名: 指导老师: 实验地点: 学期:

实验(上机)日期:第一次 实验(上机)主题:统计软件的运用 实验(上机)类别:验证性 完成方式:独立 实验(上机)目的与要求: 1、掌握启动和退出统计软件 2、掌握数据库的建立 3、搜集一些数据并建立数据库 4、进行统计计算(函数、描述性统计) 5、制作统计图 6、计算各种统计指标 实验(上机)内容及方法(学生填写) 第1步:打开Excel输入需要分析的数据,然后点击公式选项,选择其中需要的函数进行计算分析。 第2步:在A1:A20区域选取从-3到3,间距为0.058的数据序列作为X序列。在B1单元格中输入公式 “=NORMDIST(A1,0,1,FALSE)”,然后将公式复制到B1:B20区域,在B1:B20区域形成相对A1:A20区间点的正态分布概率密度函数序列。 第3步:选取自由度为2,在A1:A20区域填充从0—12的等差数列,步长为0.1.在B1单元格输入公式“=(A1×EXP(-A1/2)

/2)”即可得A1在自由度为2时的卡方分布概率值,然后将B1单元格的公式复制到B1:B20区域,同样选择图标向导和折线图,经过编辑和修饰得到卡方分布概率密度函数图。 实验(上机)过程与结果(学生如实记载上机操作内容、步骤及结果) 本专业男生身高数值(单位:cm): 165、167、168、172、175、173、168、170、180、178、175、181、172、170、169、177、173、168、170、171 1.计算统计指标:在菜单栏中选择工具,然后单击数据分析,再选择描述统计输入数据。 2.点击图表向导,选择折线图第一个样式。

统计学上机实验

实验五、数据的相关分析与回归分析 实验目的:应用Excel进行数据的相关分析以及回归分析 实验数据:从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下: 一、先在表格中画出散点图,可以看出产量和生产费用是正线性相关的关系 二、运用Excel数据分析工具中的回归分析来进行实验数据的处理 三、选定需要分析的数据、置信度以及输出结果的位置

四、输出数据 残差图 线性拟合图 五、分析数据得出实验结论 ①由得出的实验数据可以得到回归方程:Y=124.14998+0.42068x,由回归方程可以得知产量每增加1台,生产费用平均增加0.42068万元,由线性拟合图可以看出预测值与实际值相差较小。②由相关系数Multiple R 可以看出产量与生产费用两者高度线性正相关,并且线性拟合度较高。③由判定系数R2=0.8468=84.68%可以了解到在生产费用的取值变动中有 = 84.68%是由产量决定的,由此可见二者之间有较强的线性关系。④标准误差S e=SSE n?2 MSE=6.7617,则根据产量来估计生产费用时,平均的估计误差为6.7617万元。⑤计算出的检验统计量F=55.286,根据显著性水平α=0.05,分子自由度df1=1和分母的自由度df2=10,查F分布表,找到对应的临界值Fα=4.9646,由于F>Fα,则回归方程线性关系显著。⑥由残差图可以看出此模型为满意的模型。

实验六、复合型序列做趋势预测 实验目的:应用Excel进行数据的趋势预测以及得出后一年的数据结果 实验数据:下表是一家大型百货公司最近几年各季度的销售额数据(单位:万元),试对2016年各季度销售额进行预测。 一、在数据分析选项中选择移动平均并且在对话框中输入数据区域和移动间隔4然后求出移动平均值(移动平均法是通过对时间序列逐期递移求得平均数作为预测值的一种预测方法) 二、由于所分析的数据总项数为偶数,所以再进行一次二项移动平均,即得出中心化移动平均值

统计学实验指导

第二章统计学实验指导 实验一:统计整理与分组 实验目的: 运用excel进行常见数据类型的统计整理,能熟练运用菜单和各类函数进行数据筛选、排序,运用数据透视表绘制统计频数分布表。 实验要求: 独立完成课堂各类习题和练习,按要求完成实验内容。 实验形式: 教师演示、指导 实验内容: 1、品质数据分组:利用数据透视表直接绘制,但是需要注意排序数据 2、数值数据分组:对数据排序后,能分析选择数值数据的分组形式。 能利用数据透视表编制单项式分组统计次数数列; 熟练应用统计函数编制组距式分组统计次数分布数列。 一、统计数据的预处理 1、数据筛选:参见指导P37—39 (1)自动筛选: 将鼠标定位于数据文件的变量标题行; 点击菜单“数据”——筛选——自动筛选后,则在标题行出现下拉箭头; 在需要筛选的变量下点击下拉箭头,自行选择筛选功能(前10个,自定义),后确定。 自动筛选结果会自动从原数据区域中被选择出来显示,不符合条件的被屏蔽。 自动筛选一次只能执行一次筛选条件。 取消筛选:将数据“数据”——筛选——自动筛选再点击一次,去掉自动筛选前的“√”。(2)高级筛选: 选择空白区域创立筛选条件区域:筛选变量、筛选条件值 菜单“数据”——筛选——高级筛选后,进入高级筛选对话框;

筛选方式:通常是筛选结果另行放置,防止与原数据混淆。 列表区域:整个数据库区域,一般系统会自动选择。 条件区域:高级筛选可同时执行多个条件的综合筛选结果,选出符合条件的数据区域。 如果同时多个条件筛选,条件区域中将多个条件变量取值同行放置,表示“与”。 若至少满足多个条件之一,条件区域中将多个条件变量取值换行放置,表示“或”。 筛选文化程度为大学本科或岗位为管理员的员工则如此设置: 应用1:利用自动筛选选择男性员工; 利用高级筛选选择当前工资在3万元以上的工人; 利用高级筛选选择年龄在40岁以下或大学本科及以上的职工。 2、数据排序:参见指导P41 将鼠标定位于待分析数据区域的任意位置; 点击菜单“数据”——排序后,进入排序对话框; 排序对话框中: 主要关键字:排序变量。 次要关键字:各总体单位排序变量取值相同时,若指定次要关键字,则按此排序,否则按出现的先后顺序排。 我的数据区域:选择参与排序的数据区域。有标题行,则数据区域第一行不参与排序,一般数据区域首行为变量名时如此选择。否则,无标题行,数据从第一行第一列开始排序。 选项:指定升降序排列形式:次序、方向、方法,用于字符型数据的排序设置。 应用2:对加工零件数按照一定大小进行排序; 对售后服务质量按照一定优劣进行排序。 二、统计分组 统计整理及分析结果的编写通常在word 文档中录入和编辑,只要能用excel 生成相 对规范的统计表和统计图,然后可以复制到word 中进行美化排版即可。 管理员

统计学题目1

第21题: 实验设计中影响样本含量大小的因素为。 A.α B.参数的允许误差 C.β D.总体标准差 E.以上都是 第22题: 配对设计的秩和检验中,其H0假设为。 A.差值的总体均数为0 B.差值的总体中位数为0 C. μd≠0 D. Md≠0 E. μ1≠μ2 第23题: 样本率的标准误sp的特点有。 A.n越大,则sp越 B.p越大,则sp越大 C.1-p越大,则sp越大 D.np越大,则sp越大 E.n越大,则sp越小 第24题: 统计地图可用于表示。 A.某现象内部构成 B.某现象地理分布 C.各现象的比较 D.某现象的频数分布 E.某现象的发展速度 第25题: 在假设检验时,本应作单侧检验的问题误用了双侧检验,可导致。 A.统计结论更准确 B.增加了第一类错误 C.增加了第二类错误 D.减小了可信度 E.增加了把握度 第26题: 求正常人某个指标的正常值范围在理论上要求。

A.正态分布不能用均数标准差法 C.偏态分布不能用均数标准差法 D.偏态分布不能用百分位数法 E.对称分布不能用百分位数法 第27题: T分布是对称分布,它与标准正态分布相比较。 A.中心位置左移 B.中心位置右移 C.分布曲线峻峭一些 D.分布曲线平坦一些 E.以上都不是 第28题: 统计推断的主要内容为。 A.统计描述与统计图表 B.参数估计和假设检验 C.区间估计和点估计 D.统计预测与统计控制 E.参数估计与统计预测 第29题: 单因素方差分析中,不正确的计算公式是。 A. SS组内=SS总-SS组间 B. v总=v组间-v组内 C. MS组间=SS组间/v组间 D. MS组内=SS组内/v组内 E. F=MS组内/MS组间 第30题: 发展速度和增长速度的关系为。 A.发展速度=增长速度-1 B.增长速度=发展速度-1 C.发展速度=增长速度-100 D.增长速度=发展速度-100 E.增长速度=(发展速度-1)/100 第31题: 相关系数与回归系数可以是负值,是由于下列哪式可出现负值。 A. ∑(X-X)2 B. ∑(Y-Y)2 C. ∑XY-(∑X)(∑Y)/n

《田间试验设计与统计分析》试卷C

植物科学与技术专业090122 田间试验与统计分析课程代码2677 试题C 一、单项选择题(每小题1分、共20分。在每小题列出的四个备选项中只有一个是符合题 目要求的,请将其代码涂在答题卡上。) 1. 因素的水平是指 A.因素量的级别 B.因素质的不同状态 C.研究的范围与内容 D.因素量的级别和质的不同状态 2. 误差根据形成的原因不同,可分为 A.随机误差、系统误差 B.随机误差、人为误差 C.系统误差 D.偶然误差 3.如果田间试验无法在一天内完成,以下那种做法是正确的 A.同一小区必须在一天完成 B.几个区组可以同时操作 C.同一区组必须在一天完成 D.灵活安排 4.局部控制的主要作用是 A.降低误差 B.无偏估计误差 C.控制误差 D.分析误差 5.随机区组设计在田间布置时可采用以下策略 A.同一区组内小区可以拆开 B.不同区组可以放在不同田块 C.所有区组必须放在同一田块 D.区组内的小区可以顺序排列 6.随机区组设计 A.只能用于单因素试验 B.既能用于单因素又可用于多因素试验 C.只能用于多因素试验 D.只能用于田间试验 7.进行叶面施肥的试验中,对照小区应设置为 A.喷等量清水B.不喷C.减量喷D.以上均不正确 8.标准差的数值越大,则表明一组数据的分布()。 A.越分散,平均数的代表性越低 B.越集中,平均数的代表性越高 C.越分散,平均数的代表性越高 D.越集中,平均数的代表性越低 9.在使用变异系数表示样本变异程度时,宜同时列出()。 A.方差、全距 B.平均数、方差 C.平均数、标准差 D. 平均数、标准误 10.二项概率的正态近似应用连续性矫正时,其正态标准离差的表达中,错误的是 A、 c ||0.5 Y u μ σ -- =B、 c 0.5 Y u μ σ - =± C、 ()0.5 c Y u μ σ - = D、 c u= 11.盒中有24个球,从中随机抽取3个球,其中有1个球是红球,则可以判断该盒中的红球数为()。 A.肯定是8个 B.8个以上 C.8个以下 D.8个上下 12.与样本均值的抽样分布的标准差成反比的是 A.样本容量 B.样本容量的平方 C.样本容量的平方根 D.样本容量的二分之一13.正态曲线的理论取值范围是 A.6个标准差 B.± 3 C.±∞ D.没有限制 14.算术平均数的重要特性之一是离均差之和

《统计学》上机实验报告(一)

《统计学》实验报告一 姓名:王璐专业:财政学(税收方向)学号:2010128107 日期:2012年10 月9 日地点:实验中心701 实验项目一描述性统计、区间估计在EXCEL里的实现 一、实验目的 1、掌握利用EXCEL菜单进行数据的预处理; 2、掌握利用EXCEL进行描述性统计; 3、掌握利用EXCEL进行区间估计。 二、实验要求 1、EXCEL环境与数据预处理的操作; 2、描述性统计,包括统计图表的绘制;数据分组处理;集中趋势描述、离散程度描述、分布形状描述。 3、区间估计,包括总体均值、总体比例、总体方差的区间估计计算。 三、实验内容 (一)分类数据的描述性统计 实验数据:餐厅服务质量和价位评价.XLS 顾客服务质量评价的频数表(按性别分)、条形图、饼图 (二)数值性数据的描述性统计 实验数据:城乡居民储蓄数据.XLS 随着生活水平的逐渐提高,居民的储蓄存款也在日益增加,数据2.XLS是自1990年~2006年城乡居民人民币储蓄存款额,储蓄存款包括定期和活期(单位:元)。利用EXCEL,对数据2.XLS作如下分析: 1、城乡居民人民币活期存款的众数、中位数和均值是多少? 2、城乡居民人民币定期存款的方差和标准差是多少? 3、定期存款和活期存款相比,哪种数据的变动性更大? (三)总体参数的区间估计 1、成绩分析。实验数据:期末成绩.XLS 1

2 假设学生的各门期末考试成绩均服从正态分布,选定一门课程,并给出该门课程平均成绩的置信水平为95%的区间估计。 2、顾客满意度分析。 某超市为了了解顾客对其服务的满意度,随机抽取了其会员中的50个样品进行电话调查,如果有38个顾客对此超市的服务表示满意,试求对该超市服务满意的顾客比例的95%置信区间。 四、实验结果 (一)分类数据的描述性统计 A 顾客服务质量评价频数表(按性别分) 评价等级 男 女 极好 45 21 很好 98 52 好 49 35 一般 20 11 差 9 10 B 条形图 C .饼状图

统计分析实验1-熟悉SPSS

实验一熟悉SPSS 一、实验目的 通过本次实验,了解SPSS的基本特征、结构、运行模式、主要窗口等,了解如何录入数据和建立数据文件,掌握基本的数据文件编辑与修改方法,对SPSS有一个浅层次的综合认识。 二、实验性质 必修,基础层次 三、主要仪器及试材 计算机及SPSS软件 四、实验内容 1.操作SPSS的基本方法(打开、保存、编辑数据文件) 2.问卷编码 3.录入数据 五、实验学时 2学时(可根据实际情况调整学时) 六、实验方法与步骤 1.开机 2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS 3.认识SPSS数据编辑窗、结果输出窗、帮助窗口、图表编辑窗、语 句编辑窗 4.对一份给出的问卷进行编码和变量定义 5.按要求录入数据 6.联系基本的数据修改编辑方法 7.保存数据文件 8.关闭SPSS,关机。 七、实验注意事项

1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。 2.遇到各种难以处理的问题,请询问指导教师。 3.为保证计算机的安全,上机过程中非经指导教师和实验室管理人员 同意,禁止使用移动存储器。 4.每次上机,个人应按规定要求使用同一计算机,如因故障需更换, 应报指导教师或实验室管理人员同意。 5.上机时间,禁止使用计算机从事与课程无关的工作。 八、上机作业 (1)、定义变量:试录入以下数据文件,并按要求进行变量定义。 1)变量名同表格名,以“()”内的内容作为变量标签。对性别(Sex)设值标签“男=0;女=1”。 2)正确设定变量类型。其中学号设为数值型;日期型统一用“mm/dd/yyyy“型号;生活费用货币型。

3)变量值宽统一为10,身高与体重、生活费的小数位2,其余为0。

统计学知识竞赛题目及答案

统计学知识竞赛题目 及答案 Revised on November 25, 2020

必答题 1. 欲研究广东省 6 岁儿童的身高情况, 在广东省随机抽取了 200 名 6 岁儿童进行调查,以此为例说明同质、变异、总体与样本这几个概念。 答:同质体现在同为广东省、同为 6 岁儿童,变异体现在 200 名儿童的身高不同。 总体是指所有广东省 6 岁儿童,样本为 200 名 6 岁儿童。 2.卫生统计工作中的统计资料主要的来源有哪些 答:①统计报表。②经常性工作记录。③专题调查或实验。 3.简述统计工作全过程的四个步骤。 答:研究设计、收集资料、整理资料、统计分析。 4.试举例说明常见的三种资料类型。 答:(1).计量或测量或数值资料,如身高、体重等。 (2).计数或分类资料,如性别、血型等。 (3).等级资料,如尿蛋白含量-、+、++、+++、…。 5. 统计学上的变异、变量、变量值是指什么 答:变异:每个观察个体之间的测量指标的差异称为变异。 变量: 表示个体某种变异特征的量为变量。 变量值:对变量的测得值为变量值。 6. 简述编制频数表的步骤与要点。 答:(1)找出最大和最小值,计算极差。 (2)确定组距和列出分组计划: 第一组应包括最小值;最末组应包括最大值,并闭口。 (3)将原始数据整理后,得到各组频数。

7.描述计量资料集中趋势(一般水平)的指标有哪些,各适用于什么情况 答:常用描述平均水平的平均数有算术均数、几何均数和中位数。 算术均数适合:对称资料,最好是近似正态分布资料。 几何均数适合:经对数转换后近似对称分布的原始变量,常用于微生物学和免疫学指标。中位数适合:数据非对称分布、分布不清楚或开口资料的情形。 8. 描述计量资料离散程度(差别大小)的指标有哪些,各适用于什么情况 答:常见的几种描述离散程度的指标:极差或全距,四分位数差距,方差与标准差,变异系数。 极差适合:数据分布非对称的情形。 四分位数差距适合:数据分布非对称的情形。 方差与标准差适合:对称分布或近似正态分布资料,能充分利用全部个体的信息。 变异系数适用:当比较两资料的变异程度大小时,如果变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。 9. 统计描述的基本方法有哪些,各自有何特点 答:统计描述的基本方法:用表、图和数字的形式概括原始资料的主要信息。 表:详细、精确。图:直观。指标:综合性好。 10.简述变异系数的适用条件。 答:变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。 11. 怎样正确描述一组计量资料 答:(1).根据分布类型选择指标。 (2).正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料

统计学实验二

统计学实验二 文件管理序列号:[K8UY-K9IO69-O6M243-OL889-F88688]

新疆财经大学实验报告课程名称:统计学 实验项目名称:平均与离散指标统计分析 姓名: 学号: 班级: 指导教师:陈海龙老师 2014 年 11 月 12日 新疆财经大学实验报告

附:实验数据 1、一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15名工人,让他们分别用三种方法组装。15名工人分别用 :

①、计算各方法的平均值、中位数、标准差,离散系数。 方法A 方法B 方法C 平均 165.7778 平均 128.6111 平均 125 中位数 165.5 中位数 128.5 中位数 126 标准差 2.129776 标准差 1.649916 标准差 3.37813 离散系 数 0.012847 离散系 数 0.012829 离散系 数 0.027025 ②、评价采用什么方法来组装较优?试说明理由。 采用方法B 组装最优,因为B 的离散系数最小,离散程度越小,表示生产的产品最稳定,所以选A 组。 2、 有三种工业类股票的价格和发行量数据见。 方法1:=?+?+??+?+?= = ∑∑2000 55.14350036.121200042.6 2000 6.1535005.121200002.60F P F P I i i i p 0.9852 方法2:988 .0200055.14350036.121200042.6200055.1455.146.15200055.14350036.121200042.63500 36.1236.125.122000 55.14350036.121200042.612000 42.642.602.60 00 1=?+?+??? +?+?+??? + ?+?+??? = ?=∑∑ F P P P P I p

统计学原理实验指导书

路漫漫其修远兮,吾将上下而求索- 百度文库 统计学原理实验指导书 经济学院编 二○○八年二月

统计学原理实验一数据的整理与显示 一、实验目的 通过本次实验,掌握用EXCEL对数据进行整理、加工、作图,以发现数据中的一些基本特征,为进一步分析提供思路。 二、实验性质 必修,基础层次 三、主要仪器及试材 计算机及EXCEL软件 四、实验内容 1.数据的预处理 2.品质数据的整理与显示 3.数值型数据的整理与显示 五、实验学时 2学时 六、实验方法与步骤 1.开机; 2.找到“统计学原理实验一数据”,打开EXCEL文件; 3.按要求完成上机作业,并把文件用自己学号命名保存供老师检查; 4.完成实验报告,注意要对每个习题的结论与统计学解释写在实验报告上。 七、上机作业 演示题:A、B两个班学生的数学考试成绩数据见“统计学原理实验一”文件的“book3.演示”。 ①将两个班的考试成绩用一个公共的分组体系编制分布表;并计算出累积频数和累积频率; ②绘制复式条形图、环形图、雷达图; ③分析比较两个班考试成绩的分布特点及差异; 比较两个班考试成绩分布的特点 3.01.某行业管理局所属40个企业2002年的产品销售收入数据(单位:

万元): 152 105 117 97 124 119 108 88 129 114 105 123 116 115 110 115 100 87 107 119 103 103 137 138 92 118 120 112 95 142 136 146 127 135 117 113 104 125 108 126 152 105

统计学实验——期末试题

青岛工学院2013-2014学年第一学期 期末考查题目 科目:经济统计学(含SPSS)实验 一、用图表展示和语言描述下列方面: 1.受教育年限 2.起始薪金水平 3.当前薪金水平 4.性别 5.民族情况 二、估计一下公司所有人员的 1.平均薪水、 2.女性的比例、 3.少数民族的比例 给出置信水平为95%的估计区间 三、问:男性的工资与女性是否有显著差异 四、问:员工收入是否与受教育年限有关系 五、对员工收入与受教育年限进行线性回归 专业、年级:2011级电子商务1班 学号:201103105123 姓名:朱香莉

一、用图表展示和语言描述下列方面: 1.受教育年限: 语言描述:大部分人数的受教育水平在10~15年,说明受教育程度居中,较平均,没有较大的教育差距。但是高程度的受教育情况人数较少,导致该公司高技术人才较少,以后应该大量纳入高学历人才。 2.起始薪金水平: 语言描述:通过图表展示出起始薪金的数量多少和比率,可以看出刚开始的资金水平大部分集中在10000~20000之间,还算较平均应该和受教育程度有一定的关系,教育水平高的薪金相对高一些。 3.当前薪金水平: 语言描述:当前薪金通过比较起始薪金,可以看到所有人的工资都有所涨动,但是大部分的还是较集中在20000~40000,而还有一部分人涨幅较高,甚至翻倍,这其中原因与个人努力程度等都有关。

4.性别: 语言描述:由图表可以看出男女比例,男性比女性多不到50人。 5.民族情况: 语言描述:由图表可以看出大部分员工非少数民族,但我们不可以种族歧视!

二、估计一下公司所有人员的 1.平均薪水: 样本平均薪水X=34420 标准差s=17076 Z=1.96 公式:X±Z×(S/√n) 代入数据,算出大致区间[32898.7,35941.3],所以平均薪水在区间内。 2.女性的比例:女性216人,男性258人,公式:p±Z×√(p(1-p))/n,代入数据,得出在置信水平为95%的估计区间女性比例区间为[4 3.29%,48.28%] 3.少数民族的比例:少数民族人数104,非少数民族370,由上题公式算出少数民族比例在置信水平为95%的估计区间为[20.1%,23.9%] (给出置信水平为95%的估计区间) 三、问:男性的工资与女性是否有显著差异 答:由图看出,男性工资与女性工资有显著差异,因为F=119.7981>F crit=3.861235. 四、问:员工收入是否与受教育年限有关系: 答:由图表以看出,r=0.660559,0.5≦∣r∣<0.8, 所以员工收入与受教育年限的相关度为中度相关。

《统计学》实验指导书(3学分)

《统计学》实验指导书(3学分) 实验项目一:问卷数据的预处理 实验目的: 1. 掌握问卷在Excel中的录入方式; 2. 熟悉问卷数据的预处理。 实验要求和步骤: 一、学习问卷单选题、多选题以及开放题在Excel中的录入方法 1、单选题: 直接输入选择项A、B、C、D…等,或直接用1、2、3、4…数字表示选项,选中哪一项即在相应空格填上相应的字母或数字。 例:您的性别是(): 1 男 2 女 其中:Q1、Q2…表示问卷的问题编号,第一列的1、2、3…表示不同的问卷。 2、多选题: 每个选项占一列,被选中记为1,未被选中记为0,若存在需要填写的文字则在相 应位置填写相应文字。 例:3、您光临本地的目的是() A商务会议单独一列,选中填1,没有选中填0 B学术研讨同上 C团体旅游同上 D婚礼宴席同上 E亲朋好友相聚同上 F其他_______ 单独一列,没有选中填0,选中直接将填写内容录入相应表格 若某人选择了DE,则录入情况如下: Q3A Q3B Q3C Q3D Q3E Q3F 0 0 0 1 1 0 若某人选择了F,并填写内容为“工作调动”,则录入情况如下: Q3A Q3B Q3C Q3D Q3E Q3F 0 0 0 0 0 工作调动

其中:Q3表示问卷的问题编号,A、B…等表示该题的选项,如Q3C则表示“团体旅游” 3、开放题: 例:10、请谈一下您对本地的印象__________ 答案录入:在Q10 下方填写相应答案文字即可。 如:Q10 民风淳朴 二、学习对问卷数据进行检查 1、形式层面:录入的过程中及时进行数据有效性检查以防止问卷回答的非法值的出现例:您的性别是(): 1 男 2 女(Excel性别一列录入的答案只可能为1或2)选中B2单元格,点击数据→数据的有效性,如下图: 在数据有效性的对话框中的“允许”菜单中选择“序列”,“来源”中输入“1,2”(以逗号隔开。 ※“输入信息”选项中可以输入相关信息 ※“出错警告”中可以根据需要选择相应选项,“警告”中还可以输入文字提示

统计学实验实验报告题目

统计学实验报告 姓名: 学号: 年级专业: 年月日

一、实验目的: 1.熟练利用Excel的统计制表功能,准确的反映统计总体的数量特征及其数量关系 2.熟练利用Excel的统计制图功能,生动、具体的反映统计总体的数量特征及其数量关系 3.掌握各种统计图、表的性能,并能准确的根据不同对象的特点加以应用 4.了解描述统计的基本特征 5.学会用Excel计算平均数、众数、中位数等集中趋势指标 6.能够使用Excel计算全距、四份位距、方差、标准差等变异指标 7.掌握相关分析与回归分析的概念; 8.掌握相关分析、回归分析等统计分析方法 9.掌握回归预测的基本概念 10.学会使用Excel回归分析工具对实际问题进行回归预测 二、实验原理: 1.Excel2003中“图表绘制”功能 2.Excel 2003中“数据分析”工具的“直方图”命令 3.什么是直方图、折线图、频数分布曲线? 4.什么是条形图、柱形图? 5.什么是饼图? 6.什么是环形图?\ 7.Excel 2003中“数据分析”工具的“描述统计”命令 8.Excel 2003中“数据分析”工具的“排位与百分比排位”命令 9.Excel2003中的部分函数及公式 10.什么是描述统计? 11.常用的数据特征指标有哪两种趋势? 12.集中趋势指标主要有那些? 13.变异指标有哪些? 14.其他指标。 15.Excel 2003中“数据分析”工具的“相关系数”命令 16.Excel 2003中“数据分析”工具的“回归”命令 17.Excel2003中“图表绘制”功能 18.什么是相关分析? 19.什么是回归分析? 20.线性预测方法 三、实验所用软件及版本:Excel2003 四、实验主要内容: 1.已知甲、乙、丙、丁四家企业从1995-2005年的产量如下表,请分别用自动筛选和高级筛选找出四家企业年产量同时大于1200的年份。

统计学上机实验——Excel在统计中的应用.doc

统计学原理实习讲义-1 Excel在统计中的应用

《Excel在统计中的应用》 一、实验说明 (一)中文Excel 简介 Microsoft Excel 是美国微软公司开发的Windows 环境下的电子表格系统,它是目前应用最为广泛的办公室表格处理软件之一。自Excel 诞生以来 Excel 历经了Excel5.0、Excel95、Excel97 和Excel2000 等不同版本。随着版本的不断提高,Excel 软件的强大的数据处理功能和操作的简易性逐渐走入了一个新的境界,整个系统的智能化程度也不断提高,它甚至可以在某些方面判断用户的下一步操作,使用户操作大为简化。Excel 具有强有力的数据库管理功能、丰富的宏命令和函数、强有力的决策支持工具、图表绘制功能、宏语言功能、样式功能、对象连接和嵌入功能、连接和合并功能,并且操作简捷,这些特性,已使Excel 成为现代办公软件重要的组成部分。 由于大家对Excel的常用办公功能都比较熟悉,本实验重点介绍Excel在统计分析中的应用。 (二)实验目的与要求 本实验重点介绍Excel在统计分析中的应用,包括Excel在描述统计中的应用以及Excel在推断统计中的应用,要求学生熟练掌握运用Excel 进行统计分析的方法,并能够对分析结果进行解释。

二、实验 实验一 Excel 在描述统计中的应用 实验目的及要求 要求学生掌握运用Excel进行描述统计分析、绘制各种图表的技术。实验内容及步骤 (一)描述统计分析 例1-1:表1-1是1978-2005年我国城镇居民可支配收入数据,试求城镇居民可支配收入时间序列的基本统计量。 表1-1 1978-2005年我国城镇居民可支配收入(元) 年份城镇居民可 支配收入年份城镇居民 可 支配收入 1978 344 1992 2026.6 1979 405 1993 2577.4 1980 477.6 1994 3496.2 1981 500.4 1995 4283 1982 535.3 1996 4838.9 1983 564.6 1997 5160.3 1984 652.1 1998 5425.1 1985 739.1 1999 5854 1986 899.6 2000 6280 1987 1002.2 2001 6859.6 1988 1181.4 2002 7702.8

相关文档
最新文档