数据的描述性统计练习题

数据的描述性统计练习题
数据的描述性统计练习题

1数据的描述性统计练习题

一、填空题

1. 一组数据向某以中心值靠拢的倾向反映了数据的(集中趋势)。

2. (众数)是一组数据中出现次数最多的变量值。

3. 一组数据排序后处于中间位置的变量值称为(中位数)。

4. 不受极端值影响的集中趋势度量指标有(四分位数)(众数)(中位数)。

5. 一组数据的最大值与最小值之差称为(极差)。

6. (离散系数)一组数据的标准差与其相应的均值之比。

7. 数据分布的不对称性是(偏度)。

8. 数据分布的尖峰程度称为(峰度)。

9. 计算比率的平均数一般用(几何平均法),它实际上是各变量值对数的(算术平均数)。

二、单项选择题

1. 对于对称分布的数据,众数、中位数和平均数的关系是(B)

A. 众数>中位数>平均数

B. 众数=中位数=平均数

C. 平均数>中位数>众数

D. 中位数>众数>平均数

2. 可以计算平均数的数据类型是(C)

A.分类数据

B.顺序型数据

C.数值型数据

D.所有数据

3. 顺序数据的集中趋势测度的指标(B)

A.中位数

B.平均数

C.极差

D.标准差

4. 数值型数据的离散程度测度方法中,受极端变量值影响最大的是(A)

A.极差

B.方差

C.均方差

D.平均差

5. 当偏态系数为正数是,说明数据的分布是(C)

A.正态分布

B.左偏分布

C.右偏分布

D. U型分布

三、多项选择题

1. 数据的分布特征可以从以下哪几个方面测度和描述(ABCD)

A.集中趋势

B.分布的偏态

C.分布的峰态

D.离散程度

E.长期趋势

2. 受极端变量值影响的集中趋势的度量指标是(CDE)

A.众数

B.分位数

C.算数平均数

D.调和平均数

E.几何平均数

3. 加权算术平均数的大小的影响因素有(AC)

A.变量值

B.样本容量

C.权数

D.分组的组数

E.数据的类型

4. 数值型数据离散程度的测度指标有(ABCDE)

A.变异系数

B.极差

C.标准差

D.异众比率

E.四分位数

5. 离散系数的主要作用是(BD)

A.说明数据的集中趋势

B.比较不同计量单位数据的离散程度

C.说明数据的偏态程度

D.比较不同变量值水平数据的离散程度

E.说明数据的峰态程度

四、简答题

1. 什么是数据的集中趋势?反映数据集中趋势的指标有哪些?

数据的集中趋势指一组数据向某一中心值靠拢的倾向。

反映数据集中趋势的指标主要有:众数、中位数、分位数、平均数等。

2. 什么是数据的离散程度?常用测度离散程度的指标有哪些?

离散程度反映的是各变量值远离其中心值的程度。

反映数据离散程度的指标主要有:四分位差、方差、标准差、极差、离散系数等。

3. 怎样理解平均数在统计学中的地位?

平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础;平均数作为代表值,是误差相互抵消的结果,反映了事物必然性的数量特征。

4. 简述众数、中位数和平均数的特点和应用场合。

众数是一组数据分布的峰值,是一种位置代表值,不受极端值的影响,其缺点是不具有唯一性。虽然对数据型数据和分类数据也适用,但主要是用于分类数据的集中趋势测度值。

中位数是中间位置上的代表值,也是一种位置的代表值,其特点是不受极端值的影响。顺序数据可以计算众数,但以中位数宜。

平均数是根据数据型数据计算的,而且利用了所以信息,是实际中应用最广的集中趋势测度值。虽然数据型数据可以计算众数和中位数,但以平均数为宜。平均数的主要缺点是受极端值的影响,对于偏态分布,平均数的代表性差。特别是当偏态程度较大是,可用位置平均数代替。

5. 为什么要计算离散系数?

离散系数是一个相对指标,它一方面可以解决不同变量值水平的离散程度的对比;另一方面可以解决不同计量单位的离散程度对比。

matlab在统计数据的描述性分析的应用

统计数据的描述性分析 一、实验目的 熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。 二、实验内容 1 、频数表和直方图 数据输入,将你班的任意科目考试成绩输入 >> data=[91 78 90 88 76 81 77 74]; >> [N,X]=hist(data,5) N = 3 1 1 0 3 X = 75.7000 79.1000 82.5000 85.9000 89.3000 >> hist(data,5)

2、基本统计量 1) 样本均值 语法: m=mean(x) 若x 为向量,返回结果m是x 中元素的均值; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的均值。 2) 样本中位数 语法: m=median(x) 若x 为向量,返回结果m是x 中元素的中位数; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的中位数3) 样本标准差 语法:y=std(x) 若x 为向量,返回结果y 是x 中元素的标准差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理,n是样本的个数。 4) 样本方差 语法:y=var(x); y=var(x,1) 若x 为向量,返回结果y 是x 中元素的方差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的方差 var(x)运用n-1 进行标准化处理(满足无偏估计的要求),n 是样本的个数。var(x,1)运用n 进行标准化处理,生成关于样本均值的二阶矩。 5) 样本的极差(最大之和最小值之差) 语法:z= range(x) 返回结果z是数组x 的极差。 6) 样本的偏度 语法:s=skewness(x) 说明:偏度反映分布的对称性,s>0 称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s 接近0 则可认为分布是对称的。 7) 样本的峰度 语法:k= kurtosis(x) 说明:正态分布峰度是3,若k 比3 大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。 >> mean(data) ,

SAS数据的描述性统计分析答案

实验一数据的描述性统计分析 一、选择题 1、以下( B )语句对变量进行分组,在使用前需按分组变量进行排序? 以下( C )语句可对变量进行分类,在使用前不必按分类变量进行排序? 用( A )语句可以选择输入数据集的一个行子集来进行分析? (A)WHERE语句(B)BY语句(C)CLASS语句(D)FREQ语句2、排序过程步中必须用什么语句对变量进行排序?( A ) (A)BY语句(B)CLASS语句(C)WHERE语句 3、如果要对数据集中的数据进行正态性检验,需要使用哪个过程?( B )(A)MEANS (B)UNIV ARIATE (C)FREQ 4、用UNIV ARIATE过程进行数据分析,要求此过程输出茎叶图、正态概率图等,应在语句中加上什么选项?(plot ) 5、用UNIV ARIATE过程进行数据分析,在输出结果中哪个统计量是对样本均值 为零的T检验的概率值?( A ) (A)T: Mean (B)Prob>|S| (C)Sgn Rank (D)Prob>|T| 二、假设某校100名女生的血清总蛋白含量(g/L)服从均值为75,标准差为3的正态分布,试产生样本数据,并利用SAS软件解决下面问题: 1、计算样本均值、方差、标准差、极差、四分位极差、变异系数、偏度、峰度; 2、画出直方图(垂直条形图); 3、画出茎叶图、盒形图和正态概率图; 4、试进行正态性检验。 Data N; DO i=1to100; x=75+3*normal(12345); output; end; proc print; run; proc univariate data=N; var x; run; proc gchart data=N; block x; run; proc univariate data=N plot; var x;

学生成绩统计c语言

课程设计 课程名称____C语言课程设计___ 题目名称____学生成绩统计_____ 学生学院______物理学院_______ 专业班级____电子科学与技术___ 学号_____3110008570______学生姓名______胡健___________ 指导教师_______刘力斌________ 2012 年10 月17 日

C语言课程设计报告 一、C语言课程设计的目的: 进一步消化和巩固已学过的C 语言程序设计基础理论,学习和实践程序设计的各种技能,利用C 语言来设计各种应用程序和管理系统,为社会提供各种现代化的管理工具。根据课堂讲授内容,做相应的自主练习,消化课堂所讲解的内容;通过调试典型例题或习题积累调试C程序的经验;通过完成辅导教材中的编程题,逐渐培养学生的编程能力、用计算机解决实际问题的能力。在许多常规学科的日常教学中,我们不难发现这样一个现象,不少学生的思维常常处于混乱的状态。写起作文来前言不搭后语,解起数学题来步骤混乱,这些都是缺乏思维训练的结果。程序设计是公认的、最能直接有效地训练学生的创新思维,培养分析问题、解决问题能力的学科之一。即使一个简单的程序,从任务分析、确定算法、界面布局、编写代码到调试运行,整个过程学生都需要有条理地构思,这中间有猜测设想、判断推理的抽象思维训练,也有分析问题、解决问题、预测目标等能力的培养。 二、课程设计报告正文 课程设计题目的原文: 学生成绩统计 【问题描述】 学期考试结束,统计有N个班某班每个人的平均成绩,每门课的平均成绩,并按个人平均成绩从高到低的顺序输出成绩,输出不及格人名单。输入、输出格式自定。 【实现提示】 假设某班有:30人(姓名自定) 考试课程有:高等数学、物理、外语、C语言、德育5门课程。 将所有同学的成绩保留在文件中,对文件中的数据处理,输出所要求的内容,程序的功能主要包括3方面: ①输入成绩到文件中 ②输出成绩 ③输出不及格学生名单 ④成绩排序 ⑤修改记录 ⑥删除记录 ⑦插入记录等 主函数中对3个功能选择(菜单),调用对应的函数完成。 【测试数据】 自定模拟数据 题目的分析(需求分析): 该题目主要是锻炼学生对于运用C语言结构体,指针以及文件修改的能力,C语言最难的部分就在于指针,所以,能用最简洁的语句写出一个合理的程序,老师的目的就达到了。通过该课程设计的锻炼,加深学生对这些知识的掌握以及理解。

描述性统计分析报告--Descriptive Statistics菜单详解

第六章:描述性统计分析-- Descriptive Statistics菜单详解 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。 本章讲述的四个过程在9.0及以前版本中被放置在Summarize菜单中。 §6.1 Frequencies过程 频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。 和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并 不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。 6.1.1 界面说明 Frequencies对话框的界面如下所示:

该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:【Display frequency tables复选框】 确定是否在结果中输出频数表。 【Statistics钮】 单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。 现将各部分解释如下:

统计学专业学生成绩的相关性分析

安徽建筑大学 毕业设计 (论文) 题目统计学专业学生成绩的相关性分析 专业统计学 姓名王志海 班级1班 学号12207040141 指导教师宫珊珊 提交时间2016.6.6

统计学专业学生成绩的相关性分析 摘要:当代大学教育逐渐普及,在某种程度上已经失去了精英教育的定位.且随着时代的不同,大学生活变得丰富起来.由此引起的一个问题就是当代许多的大学生对学习失去了兴趣.在这样的背景之下,我们有必要探讨究竟有哪些因素会影响学生的学习成绩.因此本文在已有的大学生成绩的基础上,通过SPSS软件,采用统计学里的方差分析、相关分析与回归分析理论,对影响学生学习成绩的因素进行研究.由于收集的数据所限,本文只对影响学生成绩的课程种类、选课数目、挂科数量、班级四个因素进行相关的分析.首先,整合数据,采用以上提到的统计方法,对相关的因素进行显著性检验,其次,对于SPSS所生成的结果去进行统计分析,判断哪些因素对学生学习成绩产生了显著的影响,影响的程度又如何.研究结果表明:上面的四个因素中,课程种类、挂科数量对2015级统计学专业学生学习成绩的影响是显著的.而对于选课数目、班级这两个因素,通过检验我们发现它们对成绩有极弱的影响,在统计学上,我们可以认为它们与学生成绩之间没有显著的关系.该研究结果可以给教师们一些参考,以便于及时的调整授课方法,也便于教材的筛选.对于学生而言则可以了解自身的不足并加以改正,利于成绩的提高. 关键词:成绩影响因素、相关分析、回归分析、方差分析

Abstract: the increasing popularity of contemporary university education, in a certain extent has lost the positioning of the elite education. And as the different times, the university life becomes enriched. Caused by a problem is the contemporary many college students to learn lost interest. Under such a background, it is necessary for us to explore how factors which will affect the students' learning achievement. The in based on the existing student achievement, through the SPSS software by statistical variance analysis, correlation analysis and regression analysis theory, the impact on the students learning results were studied. Due to the limitation of the collected data. In this paper, to learn Types of courses grades, the number of course, hanging branches number and class four factors for analysis. First of all, data integration, using the above mentioned statistical methods, on related factors were significant test. Secondly, for the results generated by the SPSS to carry out statistical analysis, judge what factors on students' academic performance had a significant impact, influence and how. The results of the study show that: the above four factors, the types of courses, hanging branches number for the class of 2015 statistics majors learning achievement effect is significant. And for enrollment number, class of this two factors by inspection, we found them on the results Very weak influence, in statistics, we can think their relationship between student achievement and no significant. The research results can give some reference to the teachers, in order to facilitate the timely adjustment of teaching methods, textbook for screening. For students can understand self defects and corrected, conducive to performance improved. Key words: achievement influence factor, correlation analysis, regression analysis, variance analysis

利用Excel进行数据整理和描述性统计分析

实训一利用Excel进行数据整理和描述性统计分析 一、实训目的 目的有三:(1)掌握Excel中基本的数据处理方法;(2)学会使用Excel进行统计分组;(3)学会使用Excel计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解数据整理中的统计计算问题;理解描述性统计指标中的统计计算问题;已阅读本次实训指导书,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个描述性统计指标计算问题及相应数据(可用本实训所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 有顾客反映某家航空公司售票处售票的速度太慢。为此,航空公司收集了解100位顾客购票所花费时间的样本数据(单位:分钟),结果如下表。

航空公司认为,为一位顾客办理一次售票业务所需的时间在五分钟之内就是合理的。上面的数据是否支持航空公司的说法顾客提出的意见是否合理请你对上面的数据进行适当的分析,回答下列问题。 (1)对数据进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、饼图)。 (2)根据分组后的数据,计算中位数、众数、算术平均数和标准差。 (3)分析顾客提出的意见是否合理为什么 (4)使用哪一个平均指标来分析上述问题比较合理 答:(1): 2:

从表中我们可以得到中位数为众数为1平均数为标准差为 (3):合理,虽然他的平均数是<5属于正常范围,但是依旧有将近20%的购票时间>5分钟属于超过正常范围,那就是速度太慢了。平均数不能代表一切。 所以顾客提出的理由是正确的,购票太慢的现象确实存在。 (4):平均数比较合理,它能较好的反映购票的大概时间。比较有代表性! 实训二用Excel数据分析功能进行统计整理 和计算描述性统计指标 一、实训目的 学会使用Excel数据分析功能进行统计整理和计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解统计整理和描述性统计指标中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤

SPSS分析中学生成绩

2017年《SPSS技术应用》 ----期末考核论文 基于SPSS的中学化学例题教学效果研究 ----以延吉市某中学为例 二〇一七年六月

摘要 课程改革以来,课堂教学备受关注,尤其是如何实现高效课堂,是目前中学师生迫切需要解决的问题。中学化学是一门自然科学,本身具有微观性和抽象性的特点,使初中生在学习时比较困难,而例题是指导学生如何运用所学知识的范例,例题教学是中学化学课堂常见的教学方法。 本文通过调查统计对一个班级初中生实施案例教学前后的化学成绩,用SPSS统计软件进行对所得数据进行了描述量统计,方差齐性分析,独立单样本T 检验分析和相关分析,得出了在中学化学课堂上实施案例教学,有利于增强学生学习兴趣,提高学习积极性,进而提高化学成绩的结果。得出中学化学教师应该根据教学内容合理地选择例题并充分利用例题,以促进初中生对化学概念原理的认识和理解,对化学规律和方法的掌握以及化学学习效率的提高。 关键词:中学化学案例教学 SPSS软件统计分析

目录 摘要 ............................................................................................................................................. II 目录 .............................................................................................................................................. III 第一章绪论.. (1) 1.1 研究背景 (1) 1.2 研究目的及意义 (1) 1.3 国内外研究现状 (2) 1.3.1 SPSS应用国内外研究现状 (2) 1.3.2 案例教学国内外发展与研究 (3) 第2章相关概念及理论依据 (4) 2.1 概念界定 (4) 2.1.1例题 (4) 2.1.2例题教学 (4) 2.1.3 描述性统计分析 (4) 2.1.4 T检验 (4) 2.1.5 相关分析 (5) 第三章教学实施结果统计分析 (6) 3.1 数据来源 (6) 3.2 数据分析 (6) 3.1.1描述性统计结果 (7) 3.1.2 独立单样本t-检验结果 (8) 3.1.2 相关分析结果 (9) 第4章结论与建议 (10) 4.1 研究结论 (10) 4.2 研究建议 (10) 参考文献 (11)

SAS中的描述性统计过程(终审稿)

S A S中的描述性统计过 程 公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]

SAS中的描述性统计过程 (2012-08-01 18:07:01) 转载▼ 分类:数据分析挖掘 标签: 杂谈 SAS中的描述性统计过程 描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。 相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。 不同点: (1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量; (2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数;

(3)summary过程执行后不会自动给出分析的结果,须引用output 语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果; (4)univariate过程具有统计制图的功能,其它三个过程则没有; (5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。 统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。 chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。而gchart过程和gplot过程给出的是真正意义上的图形,可以用很多的语句和选项来控制图形的各方面的性质和特征。 chart和gchart与plot和gplot的区别则体现在不同的作图功能,前两个过程可以绘制出的图形主要有条形图(包括横条和竖条)、圆图、环形图和星形图等,后两个过程通常用一个记录中的两个变量值表示点的坐标来绘制图形,如散点图和线图等。

描述性统计分析-Eviews

主讲人:刘莎莎 第三讲 描述性统计分析
一、 序列窗口下的描述性统计分析
知识点 1:如何以建立组对象的方式将数据导入到 Eviews 中去(第二种导入数 据的方式) 。 知识点 2:如何在序列窗口下实现简单描述性统计量和直方图,将直方图和正态 分布曲线叠加在一起,从而更直观地观察数据的分布特征。 (如何将 EViews 图形 复制粘贴到 word 中) 知识点 3:如何在序列窗口下实现描述性统计量的假设检验 知识点 4:如何实现将单序列按某一变量分类后再进行描述性统计分析(本案例 的分类变量是该天是星期几) 知识点 5:如何实现将单序列按某一变量分类后再进行假设检验 知识点 6:如何画上证综指日对数收益率的 QQ 图 知识点 7:如何估计数据的经验分布函数的参数 案例数据说明:2003 年 1 月 6 日-2009 年 6 月 26 日上证综指日对数收益率。
二、序列组窗口下的描述性统计分析
知识点 1:如何通过打开 excel 文件的方式将数据导入到 Eviews 中去。 (第三种 导入数据的方式) 。 知识点 2:如何实现多变量的描述性统计量 知识点 3:如何实现多变量描述性统计量的假设检验 案例数据说明:国家统计调查队分别在两个地区调查了 10 个家庭的收入 知识点 4:如何计算当前序列组的相关系数矩阵,协方差矩阵

主讲人:刘莎莎
案例数据说明:1983-2000 年我国粮食生产与相关投入的数据,变量包括粮食产 量(单位:万吨)、农业化肥施用量(单位:万千克)、粮食播种面积(单位: 公顷)
附注:描述性统计量的计算公式
标准差(Std.Dev.)的计算公式是:
s=
2 ( y ? y ) ∑ t t =1
T
T ?1
其中,
yt 是观测值, y 是样本平均数。
偏度(Skewness)的计算公式是:
1 T yt ? y 3 S = ∑( ) T t =1 s
其中,
yt 是观测值, y 是样本平均数,s 是样本标准差,T 是样本容量。对
称分布的偏度是零,比如正态分布。
峰度(Kurtosis)的计算公式是:
1 T yt ? y 4 S = ∑( ) T t =1 s
其中,
yt 是观测值, y 是样本平均数,s 是样本标准差,T 是样本容量。
正态分布的峰度值是 3。

多组和分类数据的描述性统计分析

§3.2多组和分类数据的描述性统计分析17 ?盒子图 盒子图能够直观简洁地展现数据分布的主要特征.我们在R 中使用boxplot()函数作盒子图.在盒子图中,上下四分位数分别确定中间箱体的顶部和底部,箱体中间的粗线是中位数所在的位置.由箱体向上下伸出的垂直部分为“触须”(whiskers),表示数据的散布范围,其为1.5倍四分位间距内距四分位点最远的数据点.超出此范围的点可看作为异常点(outlier). §3.2多组和分类数据的描述性统计分析 在对于多组数据的描述性统计量的计算和图形表示方面,前面所介绍的部分方法不能够有效地使用,例如许多函数都不能直接对数据框进行操作.这时我们需要一些其他的函数配合使用. 1.图形表示: ?散点图:前面介绍的plot,可直接对数据框操作.此时将绘出数据框中所对应的所有变量两两之间的散点图.所做图框中第一行的散点图是以第一个变量为纵坐标,分别以第二、三...个变量为横坐标的散点图.这里数据举例说明. library(DAAG);plot(hills) ?盒子图:前面介绍的boxplot,亦可直接对数据框操作,其在同一个作图区域内画出各组数的盒子图.但是注意,此时由于不同组数据的尺度可能差别很大,这样的盒子图很多时候表达出来不是很有意义.boxplot(faithful).因此这样做比较适合多组数据具有同样意义或近似尺度的情形.例如,我们想做某一数值变量在某个因子变量的不同水平下的盒子图.我们可采用类似如下的命令: boxplot(skullw ~age,data=possum),亦可加上参数horizontal=T,将该盒子图横向放置. boxplot(possum$skullw ~possum$sex,horizontal=T) ?条件散点图:当数据集中含有一个或多个因子变量时,我们可使用条件散点图函数coplot()作出因子变量不同水平下的多个散点图,当然该方法也适用于各种给定条件或限制情形下的作图.其调用格式为 coplot(formula,data)比如coplot(possum[[9]]~possum[[7]] possum[[4]]),或 coplot(skullw ~taill age,data=possum); coplot(skullw ~taill age+sex,data=possum)

考试成绩的描述统计分析及其评定

考试成绩的描述统计分析及其评定 江苏省盐城卫生学校 于广华李信梅(盐城224001) 考试是评定学习成绩、衡量教学效果、选拔优秀人材的重要手段,也是学校实现培养目标,提供合格人材的保证。因此,考试成绩的定量分析是一项重要的工作内容。影响考试成绩的因素不仅有教师的授课质量、学生掌握知识的程度、考题的取样、命题的方法和难度,还有考试的组织形式以及学生的临场发挥等诸多方面。对于不同年级、不同课程的试卷,因为卷面分数的价值不等,分数之间没有可比性,削弱了教育测量的意义。所以并不能简单地以考试的卷面分数评价教学质量。如何体现考试成绩的评定功能、区分功能、预测功能、诊断功能、教学反馈功能以及激励导向等作用,值得进一步的研究。本文报告采用描述统计分析评定考试成绩的方法。 1. 对象和方法 本校1997年级护理专业(一)班的卫生保健、药物学和英语三门课程的期末考试卷面成绩,采用百分制计分,学生人数为50名。 运用MS Excel97 for Windows(中文版)软件对成绩进行描述统计,提供有关数据的趋中性和易变性的信息,如算术平均值、中值(中位数)、众数(模式)、标准差、偏斜度(偏度系数)、峰态(峰度系数)、区域(极差或全距)、最大值、最小值等参数。其中,偏斜度和峰态是用以判断成绩分布特征的两个重要参数。当偏斜度为零时成绩呈对称正态分布,大于零时为正偏态分布,小于零时为负偏态分布。峰态为零时成绩呈正态峰,大于零时为尖峭峰,小于零时为平阔峰。通过偏斜度和峰态可计算偏度和峰度(矩法),经U检验来推断分布的正态性。[1]服从正态分布的数据概率曲线具有对称性,其数据按概率落入一定范围内,如表1所见。 表1. 正态分布数据落入一定范围内的概率 范围μ±0.5σμ±0.674σμ±σμ±1.28σμ±1.5σμ±1.64σμ±1.96σμ±2.58σ 概率38% 50% 68% 80% 86% 90% 95% 99% μ:为总体算术平均值σ:为总体标准差 根据这些概率分布的特点评定成绩的优良等级,如取落入μ±σ内的概率为68%,落入μ±1.64σ外的概率为10%,落入余下的概率为22%,则可确定优秀、不合格各占5%,良好、合格各占11%,中等占68%。 1

第二章 描述性统计与成绩及试卷分析

第二章教学研究中的统计方法 教育调查与教育实验所获得的原始数据,初看起来杂乱无章,不得要领,只有经过统计整理和分析才能提取出有价值的信息。统计学是对令人费解的问题做出数字设想的艺术。 2.1统计分析方法简介 2.1.1 对照试验 一种新教学方法,或一种新课程标准问世。怎样设计一个实验来测试它的效果呢?最基本的方法是比较。 教学与课程研究者经常使用比较法。他们想知道一种实验(如使用新课标)对一种反应(如成绩与能力)的效应。为了寻找出来,他们把一个实验组的反应与一个对照组的反应作比较。 如果除了试验这一点,实验组与对照组完全相同,那么这两组的反应的差别就很可能归因于实验的效果。 但是,如果实验组相对于其它因素不同于对照组,则这些因素的影响就与实验的效果相混淆。 为了保证实验组与对照组相同,调研者随机地将实验对象分到实验组与对照组。随机对照实验就是这样

做的。 只要有可能,给对照组以中性但看上去很像实验的“安慰剂”。应该消除心理对实验的影响。 在双盲实验中,实验对象不知道自己是在实验组还是在对照组,那些评估反应的人也不知道这点。这样防止偏性。 2.1.2观察研究 教育调查属于观察研究。观察研究与对照试验不同,在一个对照实验中,是研究者决定谁在实验组和谁在对照组。而在观察研究中,正是实验对象安排他们自己到不同的组。而观察者只是观察所发生的情况。 例如,关于“数奥”训练对学习成绩与能力的影响的研究必定是观察性的,没人会为了讨好一位统计学家而去搞十年“数奥”。 为了解全省二十万教师对新课标的赞成的比例(参数),一般应用观察样本中赞成的比例(统计量)去推断总体的参数,并给出置信区间。 调查研究的设计问题是个重要问题。 人们常常关心一些敏感问题,例如学生在考试中有无作弊现象,社会上的偷税漏税现象等,这时的调查要精心设计问卷,设法消除被调查者的顾虑,使他们能够如实回

学生成绩统计系统

学生成绩统计系统 集团文件版本号:(M928-T898-M248-WU2669-I2896-DQ586-M1988)

目录 一、问题描述 (1) 二、基本要求 (1) 三、系统分析和设计 (2) 四、结构图 (2) 五、流程图 (2) 六、源程序代码 (6) 七、测试数据 (8) 八、软件说明 (11) 九、小结与体会 (11) 十、参考资料 (11) C语言课程设计实验报告 一、问题描述 编辑一个学生成绩统计软件 二、基本要求 1)每条记录由学号、姓名、若干门课程的成绩组成; 2)能计算每个学生的总分和平均分并显示; 3)能按平均分统计各分数段的人数,并以分布图显示,如右图所 示。 4)在此基础上,可进行文件操作。

三、系统分析和设计 函数的设计,其最终目的是要实现所需要的功能。本例中,是用main函数调用两个子函数来实现的! 1)文件的建立: 要想实现对学生成绩的统计,首先要建立一个文件用来存放学生信息,要用到FILE文件指针fp1=fopen("file1","w+") 2)程序的设计: 学生的信息放在结构体数组struct student_score s[N]中。 通过for循环,调用子函数getdata,从键盘接收学生信息(num,name,score[0],score[1],score[2],score[3]),并计算总分与平均分,返回学生信息return st到调用处。用fprintf函数向文件中逐一写入学生的信息,通过rewend(fp1)函数使文件指针回到文件头,用fscanf读学生信息,并显示在屏幕上。同时根据所读学生信息,统计各分数段的人数s1++,s2++,s3++,s4++,s5++,然后调用一个子函数putsgraph用来输出图表! 四、结构图 主函数 五、流程图

1数据的描述性统计练习题

1数据的描述性统计练习题 一、填空题 1. 一组数据向某以中心值靠拢的倾向反映了数据的(集中趋势)。 2. (众数)是一组数据中出现次数最多的变量值。 3. 一组数据排序后处于中间位置的变量值称为(中位数)。 4. 不受极端值影响的集中趋势度量指标有(四分位数)(众数)(中位数)。 5. 一组数据的最大值与最小值之差称为(极差)。 6. (离散系数)一组数据的标准差与其相应的均值之比。 7. 数据分布的不对称性是(偏度)。 8. 数据分布的尖峰程度称为(峰度)。 9. 计算比率的平均数一般用(几何平均法),它实际上是各变量值对数的(算术平均数)。 二、单项选择题 1. 对于对称分布的数据,众数、中位数和平均数的关系是(B) A. 众数>中位数>平均数 B. 众数=中位数=平均数 C. 平均数>中位数>众数 D. 中位数>众数>平均数 2. 可以计算平均数的数据类型是(C) A.分类数据 B.顺序型数据 C.数值型数据 D.所有数据 3. 顺序数据的集中趋势测度的指标(B) A.中位数 B.平均数 C.极差 D.标准差 4. 数值型数据的离散程度测度方法中,受极端变量值影响最大的是(A) A.极差 B.方差 C.均方差 D.平均差 5. 当偏态系数为正数是,说明数据的分布是(C) A.正态分布 B.左偏分布 C.右偏分布 D. U型分布 三、多项选择题 1. 数据的分布特征可以从以下哪几个方面测度和描述(ABCD) A.集中趋势 B.分布的偏态 C.分布的峰态 D.离散程度 E.长期趋势

2. 受极端变量值影响的集中趋势的度量指标是(CDE) A.众数 B.分位数 C.算数平均数 D.调和平均数 E.几何平均数 3. 加权算术平均数的大小的影响因素有(AC) A.变量值 B.样本容量 C.权数 D.分组的组数 E.数据的类型 4. 数值型数据离散程度的测度指标有(ABCDE) A.变异系数 B.极差 C.标准差 D.异众比率 E.四分位数 5. 离散系数的主要作用是(BD) A.说明数据的集中趋势 B.比较不同计量单位数据的离散程度 C.说明数据的偏态程度 D.比较不同变量值水平数据的离散程度 E.说明数据的峰态程度 四、简答题 1. 什么是数据的集中趋势?反映数据集中趋势的指标有哪些? 数据的集中趋势指一组数据向某一中心值靠拢的倾向。 反映数据集中趋势的指标主要有:众数、中位数、分位数、平均数等。 2. 什么是数据的离散程度?常用测度离散程度的指标有哪些? 离散程度反映的是各变量值远离其中心值的程度。 反映数据离散程度的指标主要有:四分位差、方差、标准差、极差、离散系数等。 3. 怎样理解平均数在统计学中的地位? 平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础;平均数作为代表值,是误差相互抵消的结果,反映了事物必然性的数量特征。 4. 简述众数、中位数和平均数的特点和应用场合。 众数是一组数据分布的峰值,是一种位置代表值,不受极端值的影响,其缺点是不具有唯一性。虽然对数据型数据和分类数据也适用,但主要是用于分类数据的集中趋势测度值。 中位数是中间位置上的代表值,也是一种位置的代表值,其特点是不受极端值的影响。顺序数据可以计算众数,但以中位数宜。 平均数是根据数据型数据计算的,而且利用了所以信息,是实际中应用最广的集中趋势测度值。虽然数据型数据可以计算众数和中位数,但以平均数为宜。平均数的主要缺点是受极端值的影响,对于偏态分布,平均数的代表性差。特别是当偏态程度较大是,可用位置平均数代替。

数据的描述性统计分析

统计分析往往是从了解数据的基本特征开始的。描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。 这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。 1 频数分析 (Descriptive Statistics - Frequencies) 频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各 种统计量来描述数据的分布特征。 下面我们通过例子来学习单变量频数分析操作。 1) 输入分析数据 在数据编辑器窗口打开“data1-2.sav”数据文件。 2)调用分析过程 在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。 图3-4 “Frequencies” 对话框 3)设置分析变量 从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。在这里我们选“三化 螟蚁螟[虫口数]”变量进入“Variable(s):”框。 4)输出频数分布表

Display frequency tables,选中显示。 5)设置输出的统计量 单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量: 图3-5 “Statistics”对话框 ①选择百分位显示“Percentiles Values”栏: Quartiles:四分位数,显示25%、50%和75%的百分位数。 Cut points for 10 equal groups:将数据平分为输入的10个等份。 Percentile(s)::用户自定义百分位数,输入值0—100之间。选中此项后,可以利用“Add”、“Change”和 “Remove”按钮设置多个百分位数。 ②选择变异程度的统计量“Dispersion”:(离散趋势) Std.deviation标准差 Minimum 最小值 Variance 方差 Maximum 最大值 Range 极差 S.E.mean均值标准误 ③选择表示数据中心位置的统计量“Central Tendency”:(集中趋势) Mean 均值 Median 中位数 Mode 众数 Sum 算术和

学生成绩的统计分析报告

·!!· 学生成绩的统计分析 楼裕胜 (金融职业学院,"#$$%$) 摘要:在以往的考试中,教师对学生成绩的分析,方法上比较单一,容上比较模糊。这不 利于教学信息的发掘和反馈,从而也影响了教学决策。因此,我们需要借鉴统计分析的方法,科学、严谨、定量地分析学生的考试成绩,从中找出有利于教学的信息,推动教学工作的不断进步。 关键词:学生成绩;统计;分析 考试的目的是为了检测、评价教学效果,推动和促进教学水平的不断提高。为充分发挥考试的功能,使考试真正为提高素质教育服务,建立科学合理的考试评价体系是关键所在。这种学生成绩的评价体系建立在统计理论的基础上,运用各种统计分析指标对考试的结果予以评价和监控,然后提出教学及考试中存在的不足。 一、考试试卷的统计分析 (一)试卷难度的分析 所谓难度是指考试中试题或者试卷的难易程度,是考试题目对学生知识和能力水平适合程度的指标。 1.难度的计算 以往教师在考试中对试题难度的测定大部分是凭感觉。这种方法本身比较模糊,对有经验的教师也并不是非常有效。根据难度的概念,得到如下公式。以.x.a表示第i题的成绩均值和满分值,则:第i题的难度: d=1-x/a 若第i题全部答对,则d=0;若第/题全部答错,则d=1;当d=0.5,说明此题难度适中。 试卷难度:试卷难度的测定建立在试题难度的基础上,以试题难度为变量,以试题满分值为权数的加权算数平均数。 一般而言,试卷都是以#$$分为满分,于是 对于学校的常规考试,目的在于测量个体差异。当d=0或1时,即试题全部答对或答错,该题便无法提供个体差异的信息。而只有当d=0.5时,题目才能做最大程度的区分度。但在实际工作中要使每题难度均达到0.5有一定的困难。因此,一般要求试卷平均难度为0.5左右,各试题的难度控制在0.5±0.2之间。 2.难度的比较 按以上公式计算的试题及试卷难度,只能看出不同试题或不同试卷的难易程度,但却不能分析题目或试卷之间的相对难度。如某试卷中,第一,第二,第三题的难度分别是0.3,0.4,0.5。从难度数据中可以看出,第一题相对较容易,第三题较难。但第二题与第一题的难度差和第三题与第二题的难度差是否相等?这却不一定。原因是不同试题的难度位于不同的等距量表,因而不具有可比性。为解决试题及试卷之间难度的相互对比,需要将以上公式计算的难度,通过正态分布表,转化为标准分。如:1 2$(",4 2,#(&&;1 2$(!,4 2,#()*; 1 2$(*,4 2$。显然,第二题与第一题的难度差为$(#",第三题与第二题的难度差为#()*,难度差并不相等。 (二)试卷区分度的分析

描述性统计分析

描述性统计分析 作者:清华大学中国企业研究中心阅读次数:24704次发布日期:2005-07-04 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 (1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。 (2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下: 平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。 中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 众数:是指在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之

间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。

(3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 (4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。 (5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。 示例SIM手机描述性统计分析 为简化起见,我们只分析SIM手机用户满意调查中的两个变量:“总体感知质量”和“总体满意度”变量。 (1)数据的频数分析 用SPSS软件的频数分析可以很容易地画出两个变量的频数图:

相关文档
最新文档