spss复习资料整理

合集下载

SPSS总复习题资料

SPSS练习题1.某种生产浴皂过程的设计规格为每批平均生产120块肥皂。

超过或低于这个标准都是不合理的。

有10批产品组成的样本中，每批生产的产品数据如下，假定总体服从正态分布。

108 118 120 122 119 113 124 122 120 123显著性水平为α=0.05，检验该样本结果能否表示该生产过程运作正常？解：这是一个单样本的T检验过程，设总体生产的产品数量平均值为μ，提出原假设H0=120。

Analyze→Compare Means→One-Sample T Test命令。

One-Sample Test结果显示，t统计量值为-0.705，相应的双尾显著性概率为0.498>0.05，因此没有理由拒绝原假设。

故认为据此样本数据推断总体，结果表示该生产过程运作正常。

2.公路损失数据研究机构的伤害和碰撞损失实验报告根据事故后的保险索赔数字对轿车型号进行评分，接近100的指数得分被认为是平均水平，较低的得分意味着更好、更安全的轿车型号。

下表所示数据是20款中型轿车和20型小型轿车的得分。

分析要点：（1）分别作出中型和小型轿车的五数概括（2）画出箱线图，并说明以上的汇总里关于中型轿车和小型轿车安全性的比较结果（3）进一步使用独立样本T检验比较中型轿车和小型轿车安全性解：（1）所谓的五数是指：最小值、25%下四分位数、50%的中位数、75%上四分位数和最大值。

首先对数据文件进行拆分，即按车型进行分组。

Data→Split File→Organize output by groups；Analyze→Descriptive Statistics→Frequencies，在Statistics对话框中选中Percentile Values栏目下的Quartiles复选框，并选中Dispersion栏目下的Minimum和Maximum两项，在Frequencies对话框中，单击OK按钮。

Statistics(a)小型a 车型= 小型Statistics(a)中型a ³µÐÍ = ÖÐÐÍ从结果可以看出：小型轿车得分的最小值73，25%的下四分位数为100.5，中位数为108.5，75%的上四分位数为121.5，最大值为140。

SPSS复习资料

【数据（D）】【合并文件（G）】【添加个案（C）】
横向合并数据文件：将一个SPSS数据文件的内容拼到数据编辑器窗口中当前数据的右边，依据两份数据文件的个案进行数据对接；（注：两个数据至少有一个名称相同的变量，都要先按关键变量值的升序排序）
【数据（D）】【合并文件（G）】【添加变量（V）】
合并变量包括一对一合并和一对多合并；一对一合并变量时，两个文件都要提供个案；一对多合并时，活动的和非活动的文件都可以作为关键字。
1、刻画集中趋势的描述统计量：均值、中位数、众数
集中趋势：一组数据向某一中心值靠拢的倾向
均值标准误：对样本均值与总体均值之间平均差异程度的估计，定义：
足够多的样本均值服从正态分布: ～N( , ) ,n为样本量。
2、刻画离散程度的描述统计量：样本标准差、样本方差、全距
离散程度：一组数据据远离中心值的程度
第一章
SPSS的英文缩写：
中文：社会科学统计软件包、统计产品与服务解决方案
1.1SPSS使用基础
SPSS的基本窗口
SPSS数据文件：.savSPSS输出文件：.spv
1.2SPSS的基本运行方式
1.3利用SPSS进行数据分析的基本步骤
建立数据文件加工整理数据数据分析解释分析结果
第二章、SPSS数据文件的建立和管理
2.1、SPSS数据文件
1.原始数据（原始的调查问卷）的组织方式：在数据编辑器窗口中的一行为一个个案，一列为一个变量
2．计数数据（经分组汇总）的组织方式：在数据编辑器窗口中的一行为一个分组，一列仍为一个变量
2.2、SPSS数据的结构和定义方法
1.变量名（是变量访问的分析的唯一标识）
变量的起名规则
2.变量名/值标签：对变量名/取值含义的解释说明

spss期末复习总结

复习总结社会学的理论就是解释现象背后的原因，寻找因变量背后的自变量，因果关系意味着：1共变关系2前后关系自变量在前、因变量在后3自变量与因变量之间是虚无关系第一章详析模型一、前置变量1、早期的调查表明，教育层次越高的人越容易投票给共和党，从该调查我们可以得出一条假说：受过良好教育的人在政治上比较保守。

但是，后来的调查表明，有个强有力的前置变量影响到了教育水平和投票行为，它就是父母的财富。

也就是说，父母的财富对孩子的政治倾向有先行的影响。

2、结婚年数越多→发病率越高年龄越大→结婚年数越多→发病率越高 3、住房拥挤→夫妻冲突住房拥挤→家庭经济收入水平→夫妻冲突火灾、火势大小二、中介变量强调过程是y x → ？还是y w x →→？职业地位是受收入影响的，收入又是受教育水平影响的 1、教育水平高→子女数量少教育水平高→重男轻女观念弱→子女数量少2、考虑一下教育和社会地位之间的关系，这两个变量有正相关关系。

但是，每个人都认识教育程度不高但是社会地位很高的人。

其原因可能是有另外一个变量渗入了：事业成功。

要了解事业成功是如何介入到教育与地位之间的，想想你认识的那些教育程度低但是由于事业成功而地位“不错”的人。

教育有助于地位提高。

不过事业成功会介入到教育和常规的社会地位中。

三、内含变量 y x →y x x x x →→⎪⎭⎪⎬⎫321而实际是y x →1 例子1 涂尔干提出整合影响自杀率，整合又是包括夫妻关系和子女关系的，但归根结底是整合中的子女关系影响的自杀率、子女关系导致的低自杀率，例子2 社会地位低导致精神病患者⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧⎪⎩⎪⎨⎧⎪⎩⎪⎨⎧→⎪⎭⎪⎬⎫权利、收入、教育、自致、种族、性别、出生、先赋、受歧视、低教育水平、贫穷2123211321 例子3、当引入自变量中的某一内含变量之后，使原关系更加具体化，证明因变量主要是由这一内含变量引起的。

这在社科研究中是经常遇到的情况。

比如，我们想象抽烟和肺癌之间可能有关系，其实不是抽烟和肺癌，抽烟当中某个具体因素是引起肺癌的更重要的原因，这说明因变量主要是这个内含变量引起的。

SPSS复习

SPSS复习1.变量标签和变量值标签的含义答：变量标签就是变量的解释说明，变量值标签是对变量与实际意义的翻译。

可以使数据显示和分析结果更直观。

2.多选题的录入：多重二分法：在编码的时候，对应每一个选项都要定义一个变量，有几个选项就有几个变量，这些变量均为二分类（二分类变量指该变量只有两个取值，“选中”和“未选”），它们各自代表对一个选项的选择结果。

该方法会出现很多数据为0的现象，录入数据工作量大。

多重分类法（适合选项较多的情况）：利用多个变量来对一个多选题的答案进行定义，实际需用多少个变量，由被访者实际可能给出的最多答案而定。

每个变量都有同一套值和值标签（演示）含有“其它，请指出”答案的附加内容的问题，也是先把“其它，请指出”作为问题的一个答案选项，而用另一个变量来表示“其它，请指出”的内容。

在数据录入完毕后再对附加内容根据频次高低进行编码，以进行更为深入的分析。

3.Recode和Automatic Recode有何区别？答：Recode为变量重新编码命令，Automatic Recode为自动重新编码命令。

两者的区别是：Automatic Recode命令是SPSS系统自动设定码为正整数，而Recode可以根据用户的需要指定特别的码值。

4.记录排序和变量编秩（Rank cases）的区别“记录排序”和前面的“变量编秩”不同，“变量编秩”排序后为在数据窗口建立一个新的变量来保存。

并且“记录排序” 可以对多个变量进行，而“变量编秩” 只能对一个变量进行。

5.数据分类汇总分类汇总:按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件.分类汇总产生的SPSS数据文件的记录数取决于分类变量的取值个数.多重分类汇总:文件的记录数等于各分类变量类别数的乘积;第一个为主分类变量,其他的依次为第二,第三分类变量。

步骤一:指定分类变量(Break Variables)和汇总变量(Aggregate Variables)步骤二:SPSS自动根据分类变量的取值将记录数据分成若干类,并对每类记录分别计算汇总变量的描述统计量.步骤三:将分类汇总的计算结果保存到一个SPSS数据文件中.6.数据转置（transpose）：创建一个新的数据文件，原文件中的行列被转置，使个案（行）成为变量，变量（列）成为个案。

spss期末复习总结

1-1、SPSS运行方式：菜单操作方式、程序运行方式、Include运行方式、Production Facility 方式。

1-2、Spss界面窗口：数据编辑窗口、结果管理窗口、结果编辑窗口、语法编辑窗口、脚本窗口。

1-3、在数据预处理中应用最广泛的是计算变量。

1-4、Spss基本模块不能直接实现的功能：统计分析、数据计划、数据收集。

1-6、spss不能直接打开*.html文件。

2-1、spss数据文件格式：每一行的数据成为一个记录；每一列为一个变量。

2-2、Spss数据编辑器界面为数据视图界面和变量视图界面（定义数据集的数据字典）。

2-3、变量名命名准则：必须以英文字母开口，其他部分可以含有字母、数字、下划线；变量名尽量避免和spss已有的关键字重复（sum、compute、anova）；变量名最长为64个英文字符或者32个中文字符；spss变量名不区分大小写。

2-4、变量的度量类型不是固定不变的，可以分局分析过程来改变变量的度量类型。

2-5、spss中字符型数据值区分大小写；字符型数据可以设置值标签。

2-6、对于数据的处理缺省值默认为”.”，字符串默认为空，若空字符串有意义，需在变量是同对缺省值进行定义。

2-7、spss只读入数据（excel）。

2-8、添加变量合并文件：一对一合并，一对多合并；合并相同个案数，不同属性的数据文件，为添加变量；合并数据之前，需按关键变量进行排序，合并的诗句恩见必须是.sav或已经在spss中打开的文件，并确保两个文件中需要合并的变量名称不同。

3-1、可视化分段方法：直接输入分割点；根据条件自动生成分割点。

3-2、填补缺失数据方法：序列均值、临近点均值、临近点的中位数、线性插值法、点处线性趋势。

3-3、在做统计分析之前一般要做数据效验，如果是录入错误则重新录入；若数据确实错误，则可将这些数据设置成缺失值。

3-4、“标记异常个案”过程基于个案偏离聚类组中心的大小来判断异常个案，一般用于探索性数据分析步骤中。

spss期末复习总结

spss期末复习总结复习总结社会学的理论就是解释现象背后的原因，寻找因变量背后的自变量，因果关系意味着：1共变关系2前后关系自变量在前、因变量在后3自变量与因变量之间是虚无关系第一章详析模型一、前置变量1、早期的调查表明，教育层次越高的人越容易投票给共和党，从该调查我们可以得出一条假说：受过良好教育的人在政治上比较保守。

但是，后来的调查表明，有个强有力的前置变量影响到了教育水平和投票行为，它就是父母的财富。

也就是说，父母的财富对孩子的政治倾向有先行的影响。

2、结婚年数越多→发病率越高年龄越大→结婚年数越多→发病率越高 3、住房拥挤→夫妻冲突住房拥挤→家庭经济收入水平→夫妻冲突火灾、火势大小二、中介变量强调过程是y x → ？还是y w x →→？职业地位是受收入影响的，收入又是受教育水平影响的1、教育水平高→子女数量少教育水平高→重男轻女观念弱→子女数量少2、考虑一下教育和社会地位之间的关系，这两个变量有正相关关系。

但是，每个人都认识教育程度不高但是社会地位很高的人。

其原因可能是有另外一个变量渗入了：事业成功。

要了解事业成功是如何介入到教育与地位之间的，想想你认识的那些教育程度低但是由于事业成功而地位“不错”的人。

教育有助于地位提高。

不过事业成功会介入到教育和常规的社会地位中。

三、内含变量y x →y x x x x →→??321而实际是y x →1 例子1 涂尔干提出整合影响自杀率，整合又是包括夫妻关系和子女关系的，但归根结底是整合中的子女关系影响的自杀率、子女关系导致的低自杀率，例子2 社会地位低导致精神病患者→权利、收入、教育、自致、种族、性别、出生、先赋、受歧视、低教育水平、贫穷2123211321 例子3、当引入自变量中的某一内含变量之后，使原关系更加具体化，证明因变量主要是由这一内含变量引起的。

这在社科研究中是经常遇到的情况。

自己整理SPSS复习资料

SPSS复习资料国贸1105朱浩1、SPSS的几种基本运行方式：菜单操作方式, 程序运行方式, Include运行方式, Production Facility方式P112、SPSS的5个窗口:数据编辑窗口,结果管理窗口,结果编辑窗口,语法编辑窗口,脚本窗口。

结果管理窗口：也称为结果视图或者结果浏览器,用于存放SPSS软件的分析结果。

整个窗口分为两个区:左边为目录区,是SPSS分析结果的目录;右边是内容区,显示与目录对应的内容。

3、数据管理的特点：SPSS数据编辑器的每一行数据称为一个个案或记录，每一列数据代表个体的属性。

P264、SPSS数据编辑器的2个界面及特点：数据视图界面和变量视图界面. P28数据视图界面的数据编辑区是数据的信息；数据视图可执行工具栏的操作；数据视图左边显示单元格和单元格所在列的变量名，右边显示单元格的内容。

变量视图的数据编辑区是变量的信息；变量试图界面不含编辑区选择栏。

5、变量视图的属性及其作用:P32变量的名称：给出变量或者属性的名称。

变量类型：选择变量的显示方式.a．数值型.常见的尺度变量。

默认的数值宽度为8，小数位为2b．逗号:整数部分用逗号分隔的数值。

在整数部分,从个位算起,每三位数一个逗号,小数点仍然为“.”c．点: 整数部分用点分隔的数值。

在整数部分,从个位算起,每三位数用一个点分隔.小数点为”，”d．科学计数法：表示数值型数据e．日期:显示格式格式为dd-mmm-yyyy；mm/dd/yyyy。

f．美元：数据前有美元符号。

可以选择具体数据的呈现方式g．设定货币：选用客户设定的货币格式。

方法为【编辑】→【选项】→选择“货币标签”h．字符串:由英文字母和数字组成,在输入数据时不应输入双引号变量宽度：对字符型变量,决定能输入的字符串的长度小数位的宽度：设定小数位的宽度变量标签：对变量名含义的进一步解释说明列：设定变量数据视图中列的宽度对齐方式：列数据的对齐方式变量宽度类型：设定变量度量标准，有度量、序号、名义三种选择6、SPSS的文件格式:扩展名为.sav P367、读入数据的3种类型及其方法：P38 P45 P51读入Excel数据：【文件】→【打开】→【数据】→文件类型选Excel→双击.xls 在SPSS 读入Excel文件时，必须先关闭要读的Excel数据文件，否则读入时会报告错误。

SPSS复习资料

第一章SPSS统计分析系统软件简介1）SPSS的几种基本运行方式：①菜单操作方式：这种方法图形用户界面友好、操作简单、形象直观，能够一步步引导用户完成对数据的描述和模型的建立。

②程序运用方式：是在Syntax编辑窗口输入程序。

也可以用任何文本编辑器中输入，也可以在相应菜单操作的对话框中，用“Paste”按钮可以把相应的操作转化为Syntax语言。

选择所有的语法命令行，单击“Run”运行程序。

或者在SPSS的语法编辑器窗口输入语法。

③ Include运行方式：在编写Syntax命令中，如果要调用其他语法文件时，除了复制粘贴现有的资源外，还可以用Include的命令。

④ Production Facility方式：Production Facility生产作业方式提供了以自动化方式运行SPSS Statistics 的功能。

2）SPSS界面提供的五个窗口：①数据编辑窗口：这个窗口主要用来处理数据和定义数据字典，它分为两个视图。

一个是用来显示数据的数据视图（数据视图用来显示数据集中的记录或个案），另外一个是变量视图（变量视图的功能是定义数据集的数据字典）。

②结果管理窗口：也称为结果视图或者结果浏览器，该窗口用于存放SPSS软件的分析结果。

分为左边目录区，是SPSS分析结果的目录；右边是内容区，显示与目录相应的内容。

③结果编辑窗口：是编辑分析结果的窗口。

选中要编辑的内容，双击或者点击右键选择“编辑内容”，选中的图形就会出现在“图表编辑器”中，可以开始编辑。

④语法编辑窗口：语法编程方式，能够完成窗口操作所能完成的所有任务，还可以完成许多窗口操作所不能完成的其他工作。

在这个窗口中，还可以调用开源软件R中的任何程序。

⑤脚本窗口：是用Sax Basic 语言编写的程序。

脚本可以使SPSS内部操作自动化，可以自定义结果格式，可以连接VB和VBA应用程序。

第二章数据文件的建立和管理1）数据管理的特点：数据编辑器的每一行数据称为一个个案，每一列数据代表个体属性，即变量。

spss整理

Spss知识点1.SPSS：①Statistical Package for the Social Sciences，即“社会科学统计软件包”②Statistical Product and Service Solutions，意为“统计产品与服务解决方案”2.SPSS两个常用窗口：数据编辑窗口(功能：定义SPSS数据的结构、录入编辑和管理待分析的数据 .sav) 结果输出窗口（功能：显示管理SPSS统计分析结果、报表及图形 .spv）3.利用SPSS做数据分析的一般步骤：12①建立SPSS 数据文件（定义数据文件结构、录入修改和编辑待分析的数据）②分析数据（统计分析之前的数据预处理、统计分析和建模）③结果的说明和解释④数据和分析结果的保存4.SPSS数据文件的特点：①SPSS数据文件的扩展名是：.sav ②SPSS数据文件属于结构性数据文件（数据结构:变量名、数据类型、变量名标签、变量值标签、缺失值的定义、度量尺度以及数据的显示属性；在数据编辑窗口的变量视图Variable View中完成。

数据内容：待分析的具体数据；在数据编辑窗口的数据视图Date View中完成。

）5.SPSS数据的基本组织方式：①原始数据的组织方式（数据编辑窗口中一行称为一个个案，所有个案组成完整的SPSS数据。

一列称为一个变量，每个变量都有一个名字，称为变量名，它是访问和分析SPSS每个变量的唯一标识。

）②计数数据的组织方式（数据编辑窗口中一行为变量的一个分组。

所有行囊括了该变量的所有分组情况。

一列仍为一个变量，代表某个问题或某个特征方面以及相应的计数结果。

）6.变量名：是变量访问和分析的唯一标志。

7.变量命名原则：①首字符必须是字母或汉字，后面可以是任意字母、数字或除了“！”、“？”、“*”之外的任意字母或数字②长度应少于64个字符（32个汉字）③不能用下划线“_”、句号和圆点作为变量名的最后一个字符④SPSS的变量名不能与SPSS的保留字相同，如ALL、AND、WITH、OR等⑤同一文件中变量名必须惟一，不区分大小写。

SPSS复习汇总

第一章：简介变量名首字母必须是中文或字母，不能与保留字相同，保留字：ALL、AND、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。

String字符型变量，不能进行运算。

Ordinal顺序数据。

排序：Data--Sort Cases转置：Data—Transpose（字符串变量不能转置）第二章：统计描述（只报告表格）频数分布表分析：Analyze---Descriptive Statistics---Frequencies（只有这个可以做频次表）V 方差、R全距、S.E.标准误、Skewness偏度系数、Kurtosis峰度系数。

描述过程：Analyze---Descriptive Statistics----Descriptives（特点是可将原始数据转换成标准评分值，以变量的形式存入数据库供以后分析）平均数分析：Analyze---Compare Means---Means（分组数据分别求某东西的平均数和方差等）第三章：相关分析（报告r、p，结论）六种相关：强正相关、弱正相关、强负相关、弱负相关、非线性相关、不相关（*有95%把握, **有99%把握）二元相关：Analyze---Correlate---Bivariate先做出散点图：Graphs---Scatter（散点图越接近圆，r≈0）为线性再进行相关分析。

Pearson积差相关：连续变量或是等间距变量间的相关分析Spearman等级相关：顺序数据（身高和体重的相关）Kendall等级相关：分列变量间的秩相关（十人的作文，两位老师评价，分析评价是否一致）双尾检验：不知道相关方向（正相关还是负相关）相关系数为0的概率单尾检验：知道相关方向Flag significant Correlations：相关系数右上用*表示显著水平为5%,用**表示显著水平为1% 报告：从上图可知，X和Y呈线性关系，可以进行XX相关分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章1.SPSS是软件英文名称的首字母缩写，其最初为Statistical Package for the Social Sciences的缩写，即“社会科学统计软件包”。

2.SPSS系统运行管理方式（SPSS的几种基本运行方式）有：（1）完全窗口菜单运行方式（2）程序运行管理方式（3）混合运行管理方式3.SPSS的界面提供的五个窗口：数据编辑窗口、结果管理窗口、结果编辑窗口、语法编辑窗口、脚本窗口。

第二章1.SPSS的文件类型：语法文件（*.sps）、数据文件（*.sav）、结果输出文件（*.spv）。

2.SPSS数据编辑器的每一行数据称为一个个案（Case）,每一个数据代表个体的属性，即变量（V ariable）。

3.SPSS变量名的命名规则：1）必须以英文字母开头，其他部分可以含有字母、数字、下划线（即“-”）；2）变量名尽量避免和SPSS已有的关键字重复，例如sum、compute、anova等；3）SPSS13及以后版本支持变量名最长为64Byte,即变量名最长为64个英文字符，或者32个中文字符；4）SPSS变量名不区分大小写，即SPSS认为Name、name、nAme这三个变量名没有区别。

4.变量度量类型：定量（个数、高度、温度等）、定序（“十分重要”、“重要”、“一般”、“不重要”）、定类（名字、地址、电话等）。

5.列和宽度的区别：变量宽度：对字符型变量，该数值决定了你能输入的字符串的长度；列：设定该变量数据视图中列的宽度。

7.默认的缺失值类型：数值型类型（.）、字符串类型（空格）。

8.数据文件的合并包括：纵向合并和横向合并（合并个案和合并变量），合并变量包括一对一合并和一对多合并。

9.SPSS用“（*）”表示变量来自于当前活动数据文件中的变量，而用“（+）”表示将要和当前数据文件进行合并的数据文件中的变量。

10.在合并数据文件之前，所有需要合并的数据文件必须预先按照关键变量进行升序排列。

否则，合并文件程序将失败。

11.（选择题）一对一合并变量时，两个文件都要提供个案；一对多合并时，活动的和非活动的文件都可以作为关键字。

课后练习题：6.下列可以作为SPSS变量名的是A).PRENTS12 B).1Name C).NOT TRUE D).@result7.SPSS中可以设置工作目录，具体设置可以按照以下菜单：A).【选项】→【设置】B).【编辑】→【选项】→【设置】C).【编辑】→【选项】→【文件位置】D).【文件】→【选项】→【设置】8.当合并Student-Infor.sav（参见表2-1）和Student-Scores.sav（参见表2-2）两个数据文件为一个数据集Student-Records.sav时，是增加记录还是增加变量？（表略，参见P67）A).增加记录B).增加变量C).都不是D).都正确9.对上题的文件合并中，那个变量是关键变量：（对应知识点11）A)学生ID B).性别C).年龄和班级D).科目E).成绩10.在合并两个SPSS文件时，正确的说法是：A).如果是添加变量，SPSS可以显示变量是来源于那个数据文件B).如果是添加个案，SPSS可以显示变量是来源于那个数据文件C).合并两个SPSS文件后，将无法辨别个案来自于哪一个文件D).以上都不正确第三章1.可是离散化的作用以及两类方法作用：可视离散化用于为定量变量创建分类变量，从而实现连续变量的离散化。

在统计分析中，有时候需要了解总体的大致分布状况，而不需要了解属性的具体信息。

两类方法：直接输入分割点和根据条件自动生成分割点。

2.数据缺失的可能原因，缺失值的定义以及如何处理缺失值？1）原因：○1在数据收集阶段，收集者没有收集到相应数据；○2应答着拒绝回答该问题，比如该问题涉及个人隐私；○3该问题对该应答者不适用，比如该问题是针对女性的，而应答者为男性。

2）定义：缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类，分组，删失或截断。

它指的是现有数据集中某个或某些属性的值是不完全的。

3）如何处理：首先应该想到重新回到数据收集阶段尽量收集到该数据，如果实在收集不到该数据，再考虑怎么处理缺失值，如果缺失数据不影响到具体的统计分析，则不对缺失值作任何处理（即缺失数据还是作为缺失数据处理），如果缺失数据影响到了具体的统计分析，则必须考虑采取适当方法来填补缺失数据。

3.SPSS提供的填补缺失值的方法有哪些？（作简要说明）1）序列均值为取整列数据的均值；2）临近点均值为去该缺失值临近的几个点的均值，具体几个点由附近点的跨度来设定；3）临近点的中位数为取该缺失值邻近的几个点的中位数，具体几个点由附近点的跨度来设定；4）线性插值法应用线性插值法填补缺失值。

用该列数据缺失值前一个数据和后一个数据建立插值直线，然后用缺失点在线性插值函数的函数值填充该缺失值；5）点处的线性趋势法应用缺失值所在的整个序列建立线性回归方程，然后用该回归方程在缺失点的预测值填充缺失值。

4.什么叫数据校验，作用是什么？数据校验即查找错误数据或者不一致数据的过程。

作用：如果数据没有收集到则尽量想办法补全；如果是录入错误则重新录入；如果数据确实错误，则可将这些数据设置成缺失值（即丢弃这些数据不进行分析）。

5.在选择个案If对话框中，构建选择“‘男性1’、‘黑种人2’、‘东北地区1’”的表达式：性别=1&种族=2&地区=1第四章1.统计分析的目的，描述性统计分析方法与推断性统计分析方法有什么不同？目的：是研究观察对象总体的特点。

区别：描述性统计分析方法是指应用分类、制表、图形以及概括性数据指标（如均值、方差）来概括数据分布特征的方法。

儿推断性统计分析方法则是通过随机抽样，应用统计方法把从样本数据得到的结论推广到总体的数据分析方法。

2.描述数据特征的统计量的两大类：一类表示数据的中心位置，另一类表示数据的离散程度。

3.比较均值、中位数、众数的区别与联系。

均值：○1用于数值型的数据，不能用于定类、定序型数据；○2易受极端值的影响；中位数：○1主要用于定序数据，不能用于定类数据；○2不受极端值影响；众数：○1主要用于定类数据；○2不受极端值影响；○3可能没有众数或多个众数。

对于数据变量和定序变量，可以用均值、中位数、众数；对于定类数据，只有众数。

4.对极差、方差、标准差作解释。

极差反映了变量的变异范围或离散幅度，在相同样本容量的两组数据中，全距大的一组数据比全距小的一组数据要分散。

方差和标准差越大，变量值之间的差异越大，距离平均数这个“中心”离散越大；越小，则这些数据更接近平均值。

5.分位数的类型，各自的含义。

四分位差是什么，大小说明什么？百分位数：一百等份，即P1.P2.P3.P4......P100；四分位数将观测数值按从小到大进行排序，然后分成四等份，出于三个分割点位置的观测值就是四分位数，即Q1.Q2.Q3；十分位数将观测数值按从小到大进行排序，然后分成十等份，出于九个分割点位置的观测值就是十分位数，即D1.D2.D3. (9)四分位差通常为Q3和Q1的差，用来衡量观测值的离散程度，四分位差越大则说明所观测的数据越分散，越小则说明所观测数据越集中。

6.分布的形状有偏度和峰度。

偏度是用来描述变量取值分布的偏斜方向，它衡量分布对称与否、分布不对称的方向和程度，取值一般在-3和3之间；峰度是用来描述变量取值分布形态陡缓程度的统计量，是指分布图形的尖峭程度或峰凸程度，取值范围可正可负可为零。

7.标准化分数也叫标准化值或Z分数，用于对变量的标准化处理。

意义：变量值X，Z分数表示大于或小于平均数几个标准差，可用来比较从两个不同单位抽取出来的两值。

8.统计图定类型：饼图、条形图（【分析】→【描述统计】→【频率】下），帕累托图（【分析】→【质量控制】→【排列图】）。

数值型：茎叶图、箱图、直方图（在【分析】→【描述统计】→【探索】下）。

9.对茎叶图、箱图的解释。

茎叶图是描述定量变量的一种图形方式，它除了能够给出直方图所给出的分布的信息外，还能够还原大部分原始数据的信息。

箱图是总结五数（最小值、第一四分位数、中位数、第三个四分位数、最大值）的图形表现。

（用‘o’表示离群值，用‘*’表示极端值，一般极端值会大一些。

）（要求会读图，P132-133）。

课后练习3.说明茎叶图和直方图区别。

如果想尽可能展现原始数据的信息，应该采用哪一种图形？茎叶图：茎叶图是描述定量变量的一种图形方式，它除了能够给出直方图所给出的分布的信息外，还能够还原大部分原始数据的信息。

优点：变量取值较多，不影响其显示效果；缺点：如果观测值较大，显示效果不好。

直方图：应用于连续型数据，表现在图形上直方图的各个正方条形之间没有任何间隔。

优点：变量值较多，观测值较多不影响显示效果，概括性好，反映次数分布直观；缺点：有信息损失，组数的确定带有一定的主观性。

如果想尽可能展现原始数据的信息，应该采用茎叶图。

4.说明帕累托图和直方图的区别。

帕累托图：直方图：8.为了生成某个给定变量的总和（即“total”），应该选用哪一个汇总统计量：A)mean B).sum C).median D).mode补充：1.（填空）单因素方差分析中，除基本分析外，一般还应做方差齐性检验和多重比较。

2. 中心趋势的描述：均值、中位数、众数、5%截尾均值；离散趋势的描述：极差、方差、标准差、分位数和变异指标。

3.P262。

会读图。