第一章 数据的初步整理

第一章 数据的初步整理
第一章 数据的初步整理

第一章数据的初步整理--统计图表的制定

**学习目的和要求**

通过本章的学习,了解数据的统计分类,了解次数分布表和次数分布图的编制过程,

掌握对数据分布的一些初步整理方法,提高对常见的次数分布图表的阅读能力及编制技能。

第一节数据的统计分类

一、数据的统计分类

二、数据统计分类应注意的问题

第二节统计表

一、统计表的作用

二、统计表的种类

第三节统计图

一、统计图的功用

二、统计图的种类

第四节次数分布的概念及次数分布表的编制

一、次数分布的概念及次数分布表的编制

二、次数分布图

练习题与思考题

第一节数据的统计分类

数据的统计分类又称统计分组。对研究中所获得的大量数据进行统计分组是对数据进行整理的第一步。所谓统计分组,就是根据被研究对象的特征,将所得数据划分到各个类别中去。对观测数据进行分类,在实验观测前、观测中,观测后都要进行。例如人们在进行凋查时,从来都是按一定类别计数,如房间内桌子是多少,椅子是多少;对某项教育措施拥护的人多少,反对的人多少,不表态的人多少等等。在整理数据时的分类工作,就是对观测中的分类再次核对、加工,使分类更趋合理、正确,这样才能使对数据的进一步分析研究建立在比较坚实的基础上。

一、数据分组前的准备

在心理与教育研究中,采用一定的观测手段,可得到大量的计数数据或测量数据。但是这些数据在获得过程中,由于实验者所掌握的观测标准不同,观测仪器的灵敏度不同,以及观测者方面某些异常因素的影响,都可以使观测结果产生一些因过失而造成的误差。因此,在对数据进行分组之前,要进一步核实,如果有充分的理由证明某个数据是受这些过失误差的影响,那就要将这些数据剔除出去,以免它们影响对结果的分析。在这个过程中必须要注意一个问题:那就是切忌随心所欲地挑选那些能够符合自己主观假设的数据,因为如果那样做,不仅违背科学原则,还是缺乏科研道德的表现。

在实验观测中,尤其在心理与教育科学实验中常会收集到一些变异性较大的实验数据,在进行整理时,如果没有充足的理由证明某数据是由实验中的过失所造成,那就不应轻易将其排除。如果要剔除这些极少数的数据,也应遵循三个标准差法则(简称3σ法则,即该数据是落在平均数加减三个标准差之外,关于这——点的具体方法,在第三章介绍)。

二、统计分组应注意的问题

(一)要分类正确。必须查明被研究现象的本质,掌握被研究现象的本质是分类的基础。因此,只有选择与被研究现象的本质有关的特性作为分类的依据,才能确保分类正确。分类时如果误用了非本质的标志,会导致错误的结论。除了要了解被研究现象的本质外,对心理学及教育学方面专业知识的熟悉及其专业范围内分类的了解,也有助于分类的正确进行。例如在实验心理学中对刺激判断的类别;“大于”、“等于”、“小于”有较清楚的了解时,在实验过程中对反应进行分类就易于进行。

(二)分类标志要明确,要能包括所有的数据。

在对数据进行分类时,所依据的特性称为分类的标志。整理数据时,分类标志要前后一致,而且标志要明确,不能含糊不清。这就是说,关于被研究现象本质特性的概念要明确,不能既是这个又是那个。另外,在分类时所依据的标志必须将全部数据包含进去,不能遗漏数据。例如,对一个班学生进行分类,依研究的需要,可以用性别为标志,将全班学生分为男生及女生两类。如果研究两个或两个以上的问题,分类标志也可以是两个或两个以上,分类标志的数目及分类的详细程度,都要看被研究对象的性质和研究任务而定。

三、性质类别与数量类别

分类标志有各种各样。如果将这些分类标志按形式划分一下,大致可分为性质类别与数量类别两种。所有的数据也因而可分为性质类别与数量类别两大类。

(一)性质类别。反映事物在组别、种类上的不同。不说明事物之间的数量差异。它只是按事物的性质不同,将被观测的事物加以划分的。例如将一组被试分为男性与女性,按年龄将其分为老年、中年及青年等等,这些不同的类别之间不说明差别的数量。如果分类标志是成绩优劣,并分为优、良、中、差等,也是不同的性质类别。这里分类标志本身包含着好与坏,但不能直接比较其相差的多少。

性质类别可根据事物的性质及研究的需要分成不同的层次,每个层次又可分为不同数量的细目。在对观测数据按性质标志分组时,究竟分多少层次和细目,一定要看研究的需要,而不是分类的层次越多越好。如果分类的数据要作进一步分析,这时还要看统计方法所提供的可能性。如果层次分得很多,但现有的统计方法处理不了,也是没有意义的。

(二)数量类别。这是以数据的取值大小为分类标志,将数据按数值大小排出一个顺序来。

第一种情况是直接按数值大小,由小到大排序。

第二种情况是等级排列。将数据按等级大小排列成序。

第二节统计表

一、统计表的作用

统计表是表示数字资料的一种重要方式,在对数据进行统计分类以后,一般都用统计表的方式加以表达。对数据进行分类以后,所得到的各种数量结果称为统计指标。把统计指标和被说明的事物用表格的形

式加以表示就构成统计表。统计表可以给人以一目了然、简洁、清晰的印象,表中的数据易于比较分析,是心理与教育科学研究报告和教育管理部门整理数据时普遍采用的方法。

二、统计表的构造和编制统计表的要求

统计表的构造一般包括如下几个项目。现将各项目的名称及编制要求一并叙述如下:

序号要写在表的左上方,序号一般以在文章中出现的先后顺序排列。

名称又称标题,是一个表的名称,应写在表的上方。标题的用语要简洁扼要,使人一望可知该表的内容。如果用语过简,可在下面附加说明,但这种情况不宜多用。

标目即分类的项目。标目的好坏决定统计表的质量,因而要认真酌定。标目一般在表的上面一行和左侧一列。如果分类的标志只有一个,写在表的左列或上行都可以。如果分类的标目有两个,且二者没有隶属关系,则左列与上行各一个。如果两个分类标志有隶属关系,则要都在一个方位(或上面或左侧)分两行分述(见表1—1)。

数字数字是统计表的语言,又称统计指标。它占据统计表的大部分空间,书写一定要整齐划一,位数要上下对齐,小数点后缺位的要补零,缺数字的项要划“一”。

表注写于表的下面。它不是统计表的必要组成部分。如果需要可对标题补充说明。数据来源、附记等都可作为表注的内容,文字可长可短。

另外,关于统计表的画法应注意以下几点:表的各纵行(或称纵列)之间要用线条隔开,表的两边纵线可以省去,上下两边须有横线,标目与数字间,数字与总计间,两个总标目之间都须用线条隔开。表的上下二横线线条要粗些等等。

三、统计表的种类

统计表可按形式及内容不同的分类标志,将其划分成不同的类型。不同类型的统计表的具体功能不同。下面介绍几种常用的统计表的类型。

简单表只列出调查名称、地点时序或统计指标名称的统计表。

分组表只有一个分类标志分组的统计表。

复合表统计分组的标志有两个或两个以上的表。若只有两个分组指标的称为两项表;若分组指标有三个的称为三项表,如此类推。统计表按形式分可分为定性式、统计式、函数式。

第三节统计图

一、统计图的功用

所谓统计图就是依据数字资料,应用点、线、面、体、色彩等的描绘制成整齐而又规律,简明而又知其数量的图形。统计图在数据整理中占有很重要的地位。一图知万言,一张简单的图形,就可以把一大堆数据中的有用信息概括地表现出来。图形比数字更为具体,能把事实或现象的全貌形象化地呈现出来,给人以清晰、深刻的印象,因而便于理解和记忆。统计图还有一定的艺术性,它可以表现得生动、有趣。但

它也有缺点,那就是图示的数量不易精确,如果制图不当,反而会掩蔽事实真相,因而在使用时应倍加注意。

统计图一般采用直角坐标系,横坐标用来表示事物的组别或自变量x,纵坐标常用来表示事物出现的次数或因变量Y,除直角坐标外还有角度坐标(如圆形图)地理坐标(如地形图)等。

二、统计图的结构与制图要点

图号及图题统计图的名称为图题或标题。图题的文字应简赅,只要求能扼要叙述统计图的内容,使人一见能知道该图所要显示的是何事、何物,发生于何时、何地。如果图示资料比较复杂,用语简单不能明了,这时图题可用大标题与小标题。图号是图的序号,图题与图号一般写在图的下方。图题的字体是图中所用文字中最大的,但也不能过大,要与整个图形的大小相称。一般与图形标目的顺序一致,自左至右书写。

图目是写在图形基线上的各种不同类别、名称,或时间、空间的统计数量,即横坐标上所用的各种单位名称。在统计图的横坐标及纵坐标上都要用一定的距离表示各种单位,这些单位称为图尺,有算术单位,亦有对数单位,百分单位等等,这要根据资料的情况加以选用,图尺分点要清楚,整个图尺大小要包括所有的数据值,如果数据值大小相差悬殊,图尺可用断尺或回尺法,减少图幅。

图形是图的主要部分,图形曲线要清晰,一般除图形线外,避免书写文字。要表示不同的结果,用不同的图形线以示区别,各种图形线的含义用图例标明,图例可选图中或图外一适当位置表示,这一切的总目的是为了使整个图和谐美观和均衡。

图注凡图形或其局部或某一点,需要借助文字或数字加以补充说明的,均称为图注。图注部分的文字要少,印刷字型要小,它可以帮助读者理解图形所示资料,提高统计图的使用价值,又不破坏图的美观。

此外,一个图形要使用各种线条,这些线条因在图中的位置不同而有不同的名称。包括:图形基线(横坐标)、尺度线(纵坐标)、指导线、边框线等。

三、统计图的种类

统计图可按形状、数字性质、图的用途等标志分为多种类别。心理与教育统计中常用的统计图可按形状划分为直条图、直方图、曲线图、圆形图、散点图等。下面分述各种图形的绘制方法、功用及特点。

条形图它主要用于表示离散型的数学资料,即计数资料。它是以条形长短表示各事物间数量的大小与数量之间的差异情况。条形图所用的条形形状各不相同,名称也有多种:如直条图(或者矩形条图),梯形条图,尖形条图等。直条图应用最多。

圆形图用于间断性资料,主要目的为显示各部分在整体中所占的比重,以及在各部分之间的比较。所要显示的资料多以相对数(如百分数)为主。圆形图的图尺部分为圆周,分度是将圆周等分为100份,每百分之一相当于3.6°,它的基线是在圆的上方或下方的半径。

线形图用于连续性资料,凡欲表示两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的情形,用线形图表示是较好的方法。这是教育与心理学实验报告中最常用的图示结果的方法。

直方图是表示连续性资料的频数分配,它是以矩形的面积表示频数分配的一种条形图,是统计学中常用而又有特殊意义的一种统计图。详见第四节。

散点图又称点图,它是以圆点的大小和同大小圆点的多少或疏密表示统计资料数量大小,以及变化趋势的图。它是以圆点分布的形态表示两种现象间相关程度的(详见第四章)

第四节次数分布的概念及次数分布表的编制

一、次数分布表

对于一组大小不同的数据划出等距的分组区间(称为组距),然后将数据按其数值大小列入各个相应的组别内,便可以出现一个有规律的表式。这种统计表称之为次数分布表。

(一)编制次数分布表的步骤

1.求全距。全距指最大数与最小数之间的差距。从被分组的数据中找出具有最大值与最小值的两个数据,然后从最大值的数据中减去最小值的数据,所得差数就是全距。

2.决定组数与组距。组距是指每一组的间距,用符号i表示。组距经常用2、3、5、10、20等数值表示。

组数分组数目要看数据的多少,如果数据个数在100个以上,习惯上一般分10—20组,常取12—16组。如果数据的总体分布为正态,可用下面的经验公式计算组数(K),这样可使分组满足渐近最优关系。i=全距/K,为了分组方便,常取上述的一些正整数,这势必影响分组多少。一般说来,分组数目或组距小有变化时,对次数分布表作用的显示和计算的准确性,不产生很大影响。因此对组数与组距并不要求严格界定。

分组多少与哪些因素有关?我们应该如何掌握它的标准?一般说来,分组的数目多,则组距小,计算精确。但它要求总的数据量大,否则会出现有的组距内无次数分布的现象,那将使整个数据的分布规律显示不明显,也就不能发挥次数分布表的作用了。如果分组少,组距就大,计算简单,但引进计算误差较大。因此,要做到既不增加搜集数据的工作量,又能使分组后的计算精确到最大限度,那么,按上述公式分组,是一个较好的方法。

3.列出分组区间。分组区间又称为分组阶段。列分组区间要注意以下几点:最高组区间内应能包含最大值的数据,最低组区·间应能含最小值的数据。最高组或最低组的下限最好是组距i的整数倍。这样便于确定各区间的下限与上限,减少计算。各分组区间的排列顺序,一般按纵坐标单位顺序排列,即数值大的分组区间排在上面。数值小的分组区间排在下面。为了书写方便,各分组区间只写下限的数值,然后在右侧画一横线,而且一般用整数。例如,分组区间可写为10—,20—,30—,40—等,但我们必须明确,实际上各组的精确界限应是9.5—19.499,19.5—29.499,29.5—39.499,在登记次数时,一定要按精确限划分数据的组别。

4.登记次数。依次将数据登记到各个相应的组别内,一般用划线记数( )或写正字的方法。为确保登记准确,第一次登记后需再核实登记一次。

5.计算次数(f)。各组的次数计算好后,还要计算总和即总次数。一是为了以后计算的需要,二是为了核对各组总和与数据的总数(N)是否相等。

6.抄录新表。登记核实后,重新制表,这个新表应有以下栏目:一栏为分组区间、二栏为组中值,各分组区间组中值的计算是精确下限加上组距i的二分之一。或精确下限与精确上限之和的一半。三栏为次数(f),四栏为相对次数,可用百分次数、或频数比率(f/N),这一栏有时可不用列出。这样整理的统计表就是次数分表。

(二)次数分布表的意义和缺点

编制次数分布表是对数据进行分类整理的一个很重要的步骤,它可将一堆杂乱无序的数据排列成序,这个表可告诉我们:大小数据的次数是多少,其分布情况如何。同时次数分布表还可显示这一组数据的集中情况(平均值大约在78-80之间)及差异情况等。次数分布表也有缺点,仅从这张表看,原始数据不见了,只见到各分组区间及各组的次数。

二、次数分布图

次数分布图有直方图、次数多边形图及累加次数分布图等。在次数分布表的基础上,若对分布进行精略分析:看其变动趋势、差异细节,获得更为直观印象就要绘制次数分布图。

(一)直方图

直方图又名等距直方图,它是以矩形的面积表示连续性随机变量次数分布的图形。是常用的统计图之一。

(二)次数多边形图

次数多边形图是线图的一种,是表示连续性随机变量次数分布的图形,因此又属于次数分布图。凡是等距分组的可以用.直方图表示的数据,都可用次数多边形图来表示。

(三)累加次数分布图

累加次数分布图有累加直方图与累加曲线两种,它们都是在累加次数分布表的基础上绘制的。

1.累加直方图。横坐标同直方图一样,标以分组区间,纵坐标是累加次数,其余步骤同绘制直方图的要求一样。

2.累加曲线,又称递加线。它的画法同次数多边形基本相同,不同点是横坐标为每分组区间的精确上限或精确下限),纵坐标是各分组的累加次数,分别标出各个交点,连接各交点即可画成累加曲线。如果有累加直方图,连接各组矩形的右顶点可画累加曲线。累加曲线的形式总是上升的,没有下降的情况,即使有的分组内无次数,曲线也不会下降。

累加曲线的形状大约有以下三种:一种是曲线的上枝(曲线靠近上端的部分)长于下枝(曲线靠近基线的部分),另一种形状是下枝长于上枝,第三种形状是上枝与下枝长度相当。曲线上枝长,说明大数端各组次数偏少且组数较多,各组的次数变化小。因此称次数分布的这种情况为正偏态分布,若小数端出现这种情况则称这种次数分布为负偏态分布,若曲线的上下枝相当,说明次数分布的大数端与小数端分组的数目及各组的次数相当,各组次数的变化也基本相同,次数分布的这种情形称为正态分布。

累加曲线的纵坐标可以不用实际次数而且相对次数为图尺表示,如果纵坐标是用累加百分数为图尺,则此累加曲线称为累加百分数曲线。若用频率为图尺,则此曲线称为累加频率曲线。这些曲线形式在心理与教育科研数据的整理中亦常有应用。

一、单项选择题

1.性质类别数据只是反映事物在()上的不同。(参考答案)

A、组别

B、形式

C、组别、种类

D、形式、种类

2.性质类别数据,只是反映事物在()上的不同( 参考答案)

A、种类

B、组别

C、种类或组别

D、组别或形式

3.以数据的取值大小为分类标志,并按顺序进行排列的数据是()( 参考答案)

A、性质类别数据

B、数量类别数据

C、计数数据

D、测量数据

4.下列图形中,用于表示连续性资料的图形是()( 参考答案)

A、直条图

B、圆形图

C、直方图

D、横条图

5.以圆点的多少或疏密表示统计资料数量大小,以及变化趋势的图是()( 参考

答案)

A、条形图

B、圆形图

C、线形图

D、散点图

二、填空题

1.统计分组就是根据被研究对象的______将所得数据划分到各个

类别中去。(参考答案)

2.整理数据时的分类工作就是对______的分类再次核对加工使分类

更趋合理、正确。(参考答案)

3.对数据进行分类时,所依据的______称为分类的标志。(参考答案)

4.分类标志有______与数量类别两种形式。(参考答案)

5.在比较同一特质、不同样本之间______的大小时,标准差的值大,

说明该组数据较分散。(参考答案)

6.在比较同一特质、不同样本之间______的大小时,标准差的值小,

说明该组数据较集中。(参考答案)

7.条形图适合于______的数字资料。(参考答案)

8.圆形图用于______资料,其目的是显示各部分在整体中所占的比重。(参考答案)

9.线形图主要用于______资料的变化发展趋势。(参考答案)

10.直方图是以矩形的面积表示______资料分布的一种条形图。(参考答案)

11.散点图是以圆点的大小和同大小圆点的多少或疏密表示______数量大小,

以及______的图形。(参考答案)

12.把一组大小不同的数据划出______的分组区间,再把数据按大小划入相应的组别内,

所构成的表称为次数分布表。(参考答案)

三、名词解释

1.次数分布表(参考答案)

2.条形图(参考答案)

3.圆形图(参考答案)

4.线形图(参考答案)

5.直方图(参考答案)

6.散点图(参考答案)

7.次数直方图(参考答案)

8.次数多边图(参考答案)

四、简答题

1.简答编制次数分布表的步骤。(参考答案)

2.统计分组应注意哪些问题?(参考答案)

3.直条图适合哪种资料?自选资料绘制直条图。(参考答案)

4.圆形图适合哪种资料?自选资料绘制圆形图。(参考答案) 如有侵权请联系告知删除,感谢你们的配合!

相关主题
相关文档
最新文档