利用SPSS进行统计描述

第三节利用SPSS进行统计描述

一、统计描述方法

在教育技术研究过程中收集到大量的资料数据，但从这些杂乱无章的资料中，很难对其总体水平与分布状况做出评价判断。因此，必须采用一些适当的方法对这些资料进行处理，使之简约化、分类化、系统化，从中发现它们的分布规律，掌握总体的特征，以便对其水平做出客观的评价。

统计描述方法，是研究简缩数据并描述这些数据的统计方法。将搜集来的大量数据资料，加以整理、归纳和分组，简缩成易于处理和便于理解的形式，并计算所得数据的各种统计量，如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等，以揭示其特点和规律。

（一）数据资料的整理和表示

在教育技术研究中，我们用各种方法搜集来的资料，一般是零散的，它只反映个别现象的个别特征，必须经过整理加工，使之系统化，才能计算统计指标，进行统计分析，为进一步研究提供有用的信息，首先要进行的是统计整理，它包含以下几部分内容：

1．数据检查

主要检查数据的完整性与正确性。统计资料完整性的检查，就是要根据调查项目检查是否填写齐全，避免遗漏，删去重复。正确性检查，就是检查搜集的资料是否真实可靠。特别是统计数字的真实性是统计工作的生命，统计资料的检查整理必须抓紧这一环。

数据检查可分为逻辑检查和计算检查两种方法。逻辑检查，是从理论和一般常识上来检查资料内容是否合理，指标之间是否矛盾。计算检查是检查统计数字在计算方法和计算结果上有否错误。

2．数据分类

数据分类就是把搜集来的数据进行分组归类。数据分类要做到既不重复、不遗漏，又不混淆，一般又可分为品质分类和数量分类。

品质分类：是按事物性质划分为不同的组别、种类。如以性别为标志可分为男与女；按“理解能力”、“学习态度”等为标志，又可分为好、较好、一般、差等几种水平，每种水平可看成类，每一类可给以相当的数量。可以通过各类所包含的数据再进行数量化的比较和分析。

数量分类：是按数量的属性分类。有顺序排列法、等级排列法和次数分布法等。

⒊数据的排序

数据排序：将各数据从大到小或从小到大进行排列。这样就可以看出最高分和最低分是多少，各分数出现的次数和位于中间的是什么数等。包括等级排列和次数排序。

等级排列：即根据顺序排列划分等级。但与顺序排列不同，它是按数值所含的意义确定的。若是学习成绩，应以数值大的排为第一等级；若是反映时间，则将最小的数值排为第一等级。

次数排序：即根据在指定的数值范围内，数据出现的频数大小排序。

⒋数据统计表

就是把所研究的教育技术现象和过程的数字资料，以简明的表格形式表现出来。它可以避免文字的冗长叙述，便于比较各项目之间的相互关系，便于总计、平均和其他统计值的计算，便于检查计算错误和项目遗漏。

⒌数据的图示法

数据的图示法是利用几何图形或其他图形等的描绘，把所研究对象的特征、内部结构、相互关系和对比情况等方面的数据资料，绘制成整齐简明的图形。它是用以说明研究对象和过程的量与量之间对比关系的一种方法。它能准确地表现统计资料，有助于对统计资料进行比较、对照、分析和研究。图示法，具有直观、形象，便于记忆和思考以及表达语言难以说清的内容之优点。

在教育技术研究中常用的有条形图、曲线图、直方图和圆形图等，其绘制方法是大家所熟知的，这里不作介绍。

（二）特征参数的计算

为了分析研究对象总体的特征，不必对总体中每一个单位都进行研究。而是通过抽样方法，按照随机性原则，从全部对象中，只抽取部分单位（样本组）加以研究，对于每组样本，首先应对其基本特征参数进行计算，以给出整体特征的统计描述。并根据统计数据，对总体对象作出具有一定可靠程度的估计和推测。常用的特征参数包括：

⒈集中量数

（1）算术平均数，用表示，设为各次观察的结果，则有:

上式中，表示平均分表示每个学生的得分，n表示学生人数。

（2）中数，是指一组按大小顺序排列起来的量数中的中间点的数，又称中位数，用Mdn

来表示。

（3）众数，是指一列数中出现次数最多的数值，常用M表示。

2．差异量数

集中量数在量尺上是一个点，表示各量数所在的位置。差异量数在量尺上是一段距离，表示一个量数与另一个量数或中心点之间的距离。只有知道了差异量数的大小，才能了解集中量数的代表性如何。差异量数愈大，集中量数的代表性愈小；差异量数愈小，则集中量数的代表性愈大。

在统计分析中经常应用的是标准差，它是与平均数的差数的平方和的平均数的算术平方根。

上式中，S为标准差

，为每个学生的得分与平均分的离差，上述公式计算步骤如下：

（1）先求出各数据与平均分的离差；

（2）求各个离差的平方和；

（3）将除以n再开方，即得标准差。

3．标准分数

标准分数的计算公式：

公式中x－原始分数，－平均分数，S－标准差。（三）次数分布

- 次数分布又称次数分配。是指总体或样本按随机变量（数据）大小次序在出现频率上的排列。

一般采用次数分布表、次数分布直方图或次数分布曲线来表示。

【例6-1】现有50名学生的成绩，原始数据如表6-1所示：（n=50）

1．次数分布表

为了显示该组样本在不同分数段中的次数分布情况，我们对该数组进行次数分布统计，编制出该数组的次数分布表。方法如下：

（1）求全距：最大数－最小数=98－51=47

（2）定组数，一般10－20组为宜。

（3）定组距，组距=（全距+1）/组数=（47+1）/10=4.7(取5)

（4）定组限，95-100，90-95，85-90……等

（5）求组中值：组中值=（上限+下限）/2，如95-100一组，

其组中值=（100+95）/2=97.5

（6）归类把原始数据，分别归到相关组中，得出次数分布表如表6-2所示：

2．次数分布曲线

根据这个次数分布表，可绘出对应的次数分布直方图、次数分布曲线和积累次数曲线，分别如图6-8、图6-9和图6-10所示。为了分析次数分布曲线的特征，我们可以把它与正态分布曲线相比较来进行研究。

3. 正态分布曲线

正态分布是一种理论分布，在次数分布中，中间的次数多，由中间往两边的次数逐渐减少，且两边的次数多少是相等的。根据正态分布绘成的曲线称为正态分布曲线，正态分布曲线形状如钟形，它的特点是中间成一高峰，由高峰向两侧逐渐下降，先向内弯，后向外弯，降低的速度是先慢后快，以后又再次减慢，最后达到接近底线，但永远不与底线相接，形成一个单峰的对称的钟形形态，如图6-11所示。

正态分布曲线的形状和位置由平均分和标准差S所决定。平均分对应于单峰位置，越大，曲线越往右移动。标准差S越大，曲线的单峰高度越低，宽度越大，显得越“胖”；S 越小，曲线的高度越高，宽度越小，显得越“瘦”。如图6-5所示。

在正态分布曲线图上，正态曲线以下，以S为距离单位所包括的面积是按一定比例分配的，若将正态曲线底边从-3S到3S分成四等分，每等分距离为1.5S，则每距离间隔之间所包括的面积比例如表6-3和图6-12所示。

利用正态分布曲线这些性质，我们可以得到划分不同学习水平等级的界限和学生人数比例的理论数值。例如对于常态=75，S=10的情况，其优、良、中、差各等级的分数范围和人数比例应如表6-4所示（N＝30）。

按照上述方法，对于一个给定的样本组

N=3

0，得知其平均分=83，标准差S=7.78，我们便可以得到学习水平等级的划分界线，并将人数比例的理论数和实际数相比较，如表6-5所示。

根据图6-12和表6-4，我们便可以得到如下结论：

（1）样本组的峰值位置位于的右侧，属于正偏态的情况。

（2）样本组的水平等级标准较高，分数要在94.7以上才能达到优等，而在71.3以下便认为是差等。

（3）样本组中优、良等级的实际人数（1+17）要比理论数（15人）所占的比例为多。

因此可以认为该总体属于平均水平较高的整体。

二、-S平面特征数据分析模型

为了综合地、直观地考察样本组的整体统计特征，我们给出一个-S平面分析模型，如图6-13。模型中的横坐标表示平均分的大小（），而纵坐标则表示标准差（S）的大小，坐标原点以常态作参考标准（＝75，S＝10）。用、S两个参数，可以确定样本组落在平面的某一

个象限，而不同的象限，将代表样本组具有不同的统计特征。为了说明各象限所代表的意义，表6-6给出了四组不同特征的数组，它们将分别位于不同的象限，具有不同的特点。利用平均分

和标准差S所在的位置，我们可以直观地看到样本组成绩的统计特征。

【例6-2】某班语文平均考试成绩为74分，标准差8分。甲学生得90分，乙学生为72分。通过标准分数的计算可以得知他们在全体同学中所出的位置。

（1）平均分

（2）标准差

按照求S步骤进行计算，可得到＝1819，代入公式（10-2）便可得到标准差S

对于这一组数据，由于=83＞75，S=7.78＜10，它处于第四象限，属于平均水平较高，且相对集中的水平。

三、利用SPSS进行统计特征分析

【例6-3】现有学生24人，分成两小组，在某一次期中测验中，某学科测验成绩如表6-7所示。试利用SPSS对该班学生成绩进行等级排序，并计算总平均分、总标准差，再分别计算两

组学生的平均分和标准差。根据处理结果，分析两组学生成绩的统计特征。

操作步骤：

⒈录入数据

录入数据的过程分为两个步骤，一是定义变量，二是录入变量值。

（1）定义变量：“学号”、“组别”与“成绩”。

（2）录入变量值：在数据编辑窗口中，按照表1的内容，将各变量值一一录入。录入后的部分界面如图6-14所示。

⒉数据的等级排序

（1）选择“Data→Sort Cases”命令，弹出“Sort Cases”对话框，把“成绩”变量选入“Sort by”中，并在Sort Order中选择“Descending（降序）”选项，将学生成绩按降序排列，如图6-15所示，单击“OK”按钮。

（2）排序结果

排序结果在数据编辑窗口可以即时浏览，如图6-16所示，并可以通过选择“File→Print…”

命令，将结果打印输出。

⒊平均分与标准差的计算

（1）计算总平均分与标准差

①选择“Analyze→Descripitive Statistic→Descripitives…”命令，弹出“Descripitive”对话框，从左侧将“成绩”变量选入“Variables”栏中，如图6-17所示。

②单击“OK”按钮，提交运行，输出结果如表6-8所示。

（2）分别计算两组学生的平均分和标准差

由于录入数据时两组数据是混合一列，所以在统计之前要将两组学生的数据拆分，在进行统计处理。

①数据拆分

选择“Data→Split File…”命令，弹出“Split File”对话框，激活“Organize by group”选项，从左侧选择“性别”变量进入“Groups Based on”栏目，最后激活“Sort the file by grouping variables”选项，如图6-18所示。单击“OK”按钮。

②与计算总平均分与标准差相同，选择“Analyze→Descripitive Statistic→Descripitives…”命令，弹出“Descripitive”对话框，从左侧将“成绩”变量选入“Variables”栏中。如图6-17所示。

③单击“OK”按钮，提交运行，输出结果如表6-9所示。

⒋统计特征分析

根据SPSS的统计处理所得结果如表6-10所示。

四、次数分布表的形成

【例6-4】根据表6-1中给出的50名学生的学习成绩，计算60分以下，60-70，70-80，80-90，90分以上的次数分布表。

操作步骤：

1．录入数据

定义变量“学号”和“成绩”，并按表3内容输入数据

2．转换数据，生成新变量

（1）选择“Transform→Recode→Into Different Varibles…”命令，弹出“Recode into Different Variables”对话框，将“成绩”选入“Numeric Variable”框中，并在“Output Variable”中输入新变量的

名字“分组”，单击框后的“Change”按钮，如图6-19所示。

（2）单击“Old and New Values…”按钮，弹出“Recode into Different Variables:Old and New Values”对话框。

在对话框中左侧第二个“Range”框中输入60，然后在“New Value”框中的“Value”后输入1，单击“Add”按钮，右侧的文本框中显示“Lowest thru 60→1”，表示用1代表60以下的分数。

在第一个“Range”框中输入“60”though“70”，然后在“Value”后输入2，单击“Add”按钮加入，即用2代表60到70之间的分数。同样，用3代表70到80之间的分数，用4代表80到90之间的分数。

在第三个“Range”框中输入“90”，然后在“New Value”框中的“Value”后输入5，单击“Add”按钮加入，即用5代表90以上的分数。

设置完成后如图6-20所示。

（3）单击“Continue”按钮，回到图11的对话框中，单击“OK”按钮，生成新的变量“分组”，界面如图6-21所示。

3．统计分析

（1）选择“Analyze→Descriptive Statistic→Frequencies”命令，弹出“Frequencies”对话框，从左侧选择“分组”，使其进入“Variable(s)”框中，如图6-22所示。

（2）选中“Display frequency tables”复选框，表示显示次数分布表。

（3）单击“Statistics”按钮，弹出“Frenquency:Statistics”对话框，视需要进行选择，如图6-23

所示。本例中采用默认值，设置完成后单击“Continue”按钮。

（4）在图6-22所示的对话框中，单击“Charts”按钮，弹出“Frenquencies:Charts”对话框，如图6-24所示。本例中选择“Histograms”（直方图）和“With normal curve”（带有正态曲线）两项，单击“Continue”按钮。

（5）在图6-22所示的对话框中，单击“Format”按钮，弹出“Frenquencies:Format”对话框，如图6-25所示。本例中取默认值，设置完成后单击“Continue”按钮。

（6）在图6-22所示的对话框中，单击“OK”按钮，提交运行，输出结果如表6-11所示。

4．结果分析

根据表6-11的输出结果可知，在60分以下的有8人，60-70分之间的有6人，70-80分之

间的有12人，80-90之间的有18人，90分以上的有6人。

利用SPSS进行统计描述

第三节利用SPSS进行统计描述一、统计描述方法在教育技术研究过程中收集到大量的资料数据，但从这些杂乱无章的资料中，很难对其总体水平与分布状况做出评价判断。因此，必须采用一些适当的方法对这些资料进行处理，使之简约化、分类化、系统化，从中发现它们的分布规律，掌握总体的特征，以便对其水平做出客观的评价。统计描述方法，是研究简缩数据并描述这些数据的统计方法。将搜集来的大量数据资料，加以整理、归纳和分组，简缩成易于处理和便于理解的形式，并计算所得数据的各种统计量，如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等，以揭示其特点和规律。（一）数据资料的整理和表示在教育技术研究中，我们用各种方法搜集来的资料，一般是零散的，它只反映个别现象的个别特征，必须经过整理加工，使之系统化，才能计算统计指标，进行统计分析，为进一步研究提供有用的信息，首先要进行的是统计整理，它包含以下几部分内容： 1．数据检查主要检查数据的完整性与正确性。统计资料完整性的检查，就是要根据调查项目检查是否填写齐全，避免遗漏，删去重复。正确性检查，就是检查搜集的资料是否真实可靠。特别是统计数字的真实性是统计工作的生命，统计资料的检查整理必须抓紧这一环。数据检查可分为逻辑检查和计算检查两种方法。逻辑检查，是从理论和一般常识上来检查资料内容是否合理，指标之间是否矛盾。计算检查是检查统计数字在计算方法和计算结果上有否错误。 2．数据分类数据分类就是把搜集来的数据进行分组归类。数据分类要做到既不重复、不遗漏，又不混淆，一般又可分为品质分类和数量分类。品质分类：是按事物性质划分为不同的组别、种类。如以性别为标志可分为男与女；按“理解能力”、“学习态度”等为标志，又可分为好、较好、一般、差等几种水平，每种水平可看成类，每一类可给以相当的数量。可以通过各类所包含的数据再进行数量化的比较和分析。数量分类：是按数量的属性分类。有顺序排列法、等级排列法和次数分布法等。 ⒊数据的排序

spss基本描述性统计实验指导

一、实验目的 1．熟悉SPSS软件其它数据预处理； 2．掌握数据的频率分析与基本统计分析；二、实验内容 1、对“职工数据”进行转置； 2、对“居民储蓄数据”中户口和职业作出频数统计，并画出饼图 3、对“居民储蓄数据”中存款金额分成五组分别为小于500元、501~2000元、2001~3500 元、3501~5000元、5000元以上，形成新的变量，并做出频数统计与直方图。 4、“居民储蓄数据”中“存款金额”对城镇户口与农村户口分别做出平均值、标准差、偏度与峰度统计量。三、实验步骤 1、对“职工数据”进行转置； 1）通过菜单“数据” “转置”如图一所示，进入图二所示的界面， 2）把“关键变量”职工号选入“名称变量”框中，使职工号成为变量名称，其余变量选入“变量”框中如图三所示 3）点击“确定”按钮，出现如图四所示结果。图一进入转置界面

图二转置界面图三转置操作图四输出结果 2、对“居民储蓄数据”中户口和职业作出频数统计，并画出饼图 1）如图五所示进入频率分析界面 2）在图六所示的界面中，选择频率分析变量“户口”与“职业”，并选中左下角的“显示频率表格”

3）点击图六的“图表”按钮，出现如图七的界面，选择“饼图”4）点击“确定”按钮，出现如图八分析结果。图五进入频率分析

图六选择频率分析变量图七选择输出图表

图八频率分析输出结果

3、对“居民储蓄数据”中存款金额分成五组分别为小于500元、501~2000元、2001~3500 元、3501~5000元、5000元以上，形成新的变量，并做出频数统计与直方图。 1）打开菜单Transform→record→into different variables, 给分组变量a5新的名称a51 2）点击“旧值和新值”按钮，出现如图十界面，给每一范围一新值，并点击“添加”按钮，直到所有范围都输完后，点击“继续”按钮。 3）点击图九所示“确定”按钮，则得到新的变量a51 4）打开菜单Analyze→Descriptive→Frequencies,出现图十一，选中“显示频率表格”，点击“图表”后，选择“直方图”后，点击“确定”按钮即得到结果。图九数据分组界面图十输入分组起始值

管理同学SPSS描述统计分析实验报告

描述统计分析一、实验目的与要求 1. 了解统计描述的常用工具及SPSS 中的统计描述模块。 2. 掌握分类变量和连续变量的统计描述方法及指标。二、实验内容提要 1．根据CCSS_Sample.sav 数据，分析受访者的年龄分布情况，尝试分城市/合并描述。 2．根据SPSS 自带数据Employee data.sav ，分析员工性别、受教育程度、少数民族、职位类别的分布情况，并尝试分析这些属性之间的关系以及这些属性和工资之间的关系。三、实验步骤根据CCSS_Sample.sav 数据在数据栏中找到拆分文件，点击，将城市添加到分组方式中，对城市进行拆分，点击确定。在分析中选择描述统计下的描述，点击确定。描述统计量 S0. 城市 N 极小值极大值均值标准差 100北京 S3. 年龄 378 18 65 36.43 13.129 有效的 N （列表状态） 378 200上海 S3. 年龄 387 18 65 37.76 13.674 有效的 N （列表状态） 387 300广州 S3. 年龄 382 18 65 34.87 11.544 有效的 N （列表状态） 382 根据SPSS 自带数据Employee data.sav 在分析一栏中的描述统计下找到频率，点击确定。性别分析表 Gender 频率百分比有效百分比累积百分比有效 Female 216 45.6 45.6 45.6 Male 258 54.4 54.4 100.0 合计 474 100.0 100.0

受教育程度分析表 Educational Level (years) 频率百分比有效百分比累积百分比有效 8 53 11.2 11.2 11.2 12 190 40.1 40.1 51.3 14 6 1.3 1.3 52.5 15 116 24.5 24.5 77.0 16 59 12.4 12.4 89.5 17 11 2.3 2.3 91.8 18 9 1.9 1.9 93.7 19 27 5.7 5.7 99.4 20 2 .4 .4 99.8 21 1 .2 .2 100.0 合计 474 100.0 100.0 少数民族分析表 Minority Classification 频率百分比有效百分比累积百分比有效 No 370 78.1 78.1 78.1 Yes 104 21.9 21.9 100.0 合计 474 100.0 100.0 2.选择分析，描述统计下的交叉表，点击确定，分析性别和受教育程度之间的情况，将性别添加到行，将受教育程度添加到列中，点击确定。

SPSS统计描述几个重要的统计指标

均值（平均值、平均数）: 表示的是某变量所有取值的集中趋势或平均水平。例如，学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。计算公式如下。中位数：定义：把一组数据按递增或递减的顺序排列，处于中间位置上的变量值就是中位数。它是一种位置代表值，所以不会受到极端数值的影响，具有较高的稳健性计算公式：一个大小为的数列，要求其中位数，首先应把该数列按大小顺序排列好，如果为奇数，那么该数列的中位数就是位置上的数；如果N为偶数，中位数则是该数列中第与第+1位置上两个数值的平均数众数：定义：众数是指一组数据中，出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如，制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。计算公式：手工计算众数比较麻烦，需要统计数据的次数分布。全距：定义：全距也称为极差，是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据，全距大的一组数据要比全距小的一组数据更为分散。计算公式：最大值－最小值。方差（Variance）和标准差（Standard Deviation）：定义：方差是所有变量值与平均数偏差平方的平均值，它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根，它表示了一组数据关于平均数的平均离散程度。方差和标准差越大，说明变量值之间的差异越大，距离平均数这个“中心”的离散趋势越大。

频数（Frequency）：定义：频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况，需要计算出学生所有分数取值，以及每个分数取值有多少个人，这就需要用到频数分析。变量的频数分析正是实现上述分析的最好手段，它可以使人们非常清楚地了解变量取值的分布情况。峰度（Kurtosis）：定义：峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量，峰度为0表示其数据分布与正态分布的陡缓程度相同；峰度大于0表示比正态分布高峰要更加陡峭，为尖顶峰；峰度小于0表示比正态分布平顶峰。具体的计算公式为