spss 教案4

spss 教案4
spss 教案4

第四讲 Transform 菜单项的讲解

教学目的:了解该菜单基本功能,并能够利用各项功能得到理想的处理结果;

教学重点:由已经存在的变量建立新变量;特定变量计数,使变量重新编码;

教学难点:变量重新编码;

具体教学内容:

在Transform的菜单里,包含了一些对数据进行编辑转换的命令菜单项。这些命令菜单具有独立的数据编辑功能。

https://www.360docs.net/doc/d72914017.html,pute:由已存在变量计算新变量

数据集建立以后,有时需要根据某种条件从已经存在的变量计算新变量。Compute命令提供了这一非常简便的功能。假设某公司要改革工资制度,实行新的月薪政策。在新的工资政策中,除了临时职员以外,每个职员的基本工资即起点为500美元;在浮动工资中,“教育年限”的因素将予以突出,每单位年将追加50美元;拉开职员之间的等级,实施岗位津贴制度,每1个等级单位津贴为200美元;对在公司的每个工作年予以240美元的鼓励。即“新月薪”=500+“教育年限”*50+1/“职位”*200+“工作时间”/12*240。为此,需要在“公司资料”文件中追加一项“新月薪”的记录。

点击Transform=>Compute,进入新变量生成界面。左上角“Target Variable”为目标变量名,在空白框里可以输入自定义的变量名称。输入新的变量名,激活了“Type & Lable”按钮,可以在这里对新变量进行详细的定义。

右边的Numeric Expression表示要在下面的空白框中建立一个数学表达式。该数学表达式与左边的新变量形成一个等式。可以直接键盘输入,也可以点按该界面中间的软键盘进行输入。输入完毕,在Numeric Expression的空白框中逻辑算式。操作完毕点击“OK”按钮即可完成新变量的建立。

另外,在该窗口的右下方显示的是函数窗口。这写函数都可以用于定义新的变量≠。点击在软键盘下方的“If”,可以进入条件界定的界面,可以完成对变量条件的界定,其默认选项是“Include all cases”,即包含全部记录。如果需要界定条件,则选中“Include if case satisfies condition”。

3.Count:特定变量值计数

≠选中某个函数并单击右键,系统就会弹出该函数的用法说明。

有些时候,我们需要对变量值中的一些特定的值进行计数。SPSS软件提供了这项功能,可以计算某个值或某些值在特定变量的取值中是否出现。选择菜单Transform=>Count,系统弹出Count对话框。

在进行计数的新文件中,将产生一个新变量,因此,该变量框中的“Target Variable”,可以输入自定义的新的变量名。这里我们就定义为“Count”。“Target Label”中的空白框中,可以输入新形成变量的标签。选中待计数的变量以后,进一步点击“Define Values”,进入值限定的界面,对需要计数的值进行定义。选择完毕,单击“Continue”回到计数窗口。

点击“If”按钮可以进入条件界定的界面,原理与用法与此前讲过的大致相同。

4.Recode变量值重新编码

有的时候,我们需要对数据进行列联表的分析,但是需要列入的变量往往因为是连续型,而不能满足分析条件。比如,我们面对的是“房产价格”、“月收入”两个连续型变量,需要判别它们之间是否相互独立。这时就需要将连续性变量转换为离散变量的格式。在统计工作中,有许多时候需要转换变量的类型。

Recode命令提供了变量转换的功能。它用于从原变量值按照某种对应关系生成新的变量值。有两种选项,一种是“Into Same Variables”表示将新值赋给原变量;一种是“Into Different Variables”,表示生成一个新的变量。

选择菜单Transform=>Record=>Into Different Variables。

将“新月薪”选入Input Variable=>Output Variable框,激活Output Variable框,在其中键入新变量名“月薪水平”并单击Change。然后点击“Old and New Values”,系统弹出变量值定义界面。

该窗口与前面见到的相类似,这里不再赘述。如果需要对哪些变量参与新变量的形成进行界定的话,可以点击“If”进行定义。

5.Categorize Variables:变量自动分类

Categorize Variables与Recode的对话框功能是非常类似的,用于将连续性变量有效值自动按要求分成等间距的几类。假设我们需要对变量进行分作等距离的6类。我们就可以点击Transform=> Categorize Variables,进入该界面。

该框左边为变量框。可以将变量选入右边的“Create Categories”,然后将右下方number of categories空白框中的默认值4改为6,单击“OK”,完成操作。回到原文件中,就可以看到新生成的变量,其观测值分别对应6个等级。

6.Rank Cases:连续变量排秩

在许多统计分析中,都会用到非参数统计方法,即不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法。在非参数统计中,秩和检验是比较常用的。“秩”就是等级,就是按照数据大小排定的次序号。这时,都需要对观测量进行排秩。SPSS软件的Rank Cases命令提供了这一功能。

假设我们现在需要对变量进行排秩。点击Transform=>Rank Cases,进入排秩界面。该选框有多种选项。由于排秩针对连续型变量,因此,字符串变量不显示在备选变量框里边。按照要求,首先我们将变量选入“Variable(s)”框中。“By”选框用于选入分组变量。分组还是不分组,排秩的结果是不同的。框的左下方“Assign Rank 1 to”框用于选择将秩次1赋予最小值还是最大值。“Display summary tables”选框用于确定是否形成说明的结果文件,默认选项为“是”。

下方的“Rank Types”按钮用于定义秩的类型。该选框提供了主要的秩类型,比如Rank (一般的秩)、Savage Score(指数分布规律计算的秩)、Fractional rank(分数形式的秩,等于一般的秩除以有效观测量的加权数)、Fractional rank %(百分比形式的秩,等于普通的秩除以有效观测量数再乘以100)、Sum of case weights(加权观测量总数)、Ntiles(按照百分比分组的秩,统一组的数据有相同的值)。默认值为Rank,即一般的秩。

如果单击More按钮,该选框下方延伸出更多的定义方式。点击“More”以后列出了两种常用的秩参数,有“Proportion estimates”(评估特定秩参数的累计分布比例)与“Normal scores”(与累计分布比例相对应的Z分数)。

选中秩参数项以后,会激活下面的四个选项。这些选项将选择进行上述两种比例评估方法的公式。其中“Blom”是系统默认选项,计算公式为(r-3/8)/(w+1/4);“Tukey”公式为(r-1/3)/(w+1/3);“Rankit”计算公式为(r-1/2)/w;“Van der Waerden”公式为r/(w+1)。这四个公式只能选其一。通常选择默认项就可以了。操作完毕,点击“Continue”回到主菜单。

主菜单中的“Ties”按钮用于定义对相同秩的处理方式。点击该按钮进入下一界面。这些选项是当出现同秩变量时,新形成变量的取值。可以是取平均秩次Mean、最小值Low、最

大值High,或当作一个连续的记录处理,即Sequential ranks to unique values,默认值为取平均秩次。这四个选项也是只能选其一的。选择完毕,点击“Continue”回到主界面。

上述操作完毕,我们就可以点击“OK”按钮,完成全部操作。生成的的结果说明文件主要对新变量进行了一定的说明。在原文件中,增加了新生成变量,就是我们对只进行排秩的结果。

7.Automatic Record:变量自动编码

在统计分析过程中,有的时候当分类变量不是连续数字时,产生的空白单元会降低系统性能,并且增加对机器存储的需求。同时,某些过程不允许使用字符串形变量作为衡量因素水平的标准,因此,需要将一些变量转换成为连续整数的形式。SPSS软件“Automatic Record”命令菜单,可以完成上述操作。该命令按照原变量值的大小生成新变量,变量值就是原值的大小次序。

点击Transform=>Automatic Recode,进入编码界面,选择待分析变量,激活下面的“New Name”选项框,在该空白框输入新的变量名,并点击“New Name”按钮,完成变量命名。“Recode Starting from”用来选择从最小值(Lowest value)还是最大值(Highest value)编码。默认是最小值。设置完毕,点击“OK”按钮,完成操作。伴随生成的结果文件,以表格的形式对新变量与新记录进行了说明。在原文件中,生成了经过命名的新变量。

8.Create Time Series:自动生成时间序列变量

该命令用于基于已经存在的时间序列变量转换生成新的变量。点击Transform=> Create Time Series,进入转换界面。

其中,“Function”包含有9个函数选项。“Function”框下,分别是“Order”,定义差分阶数;“Span”框,定义跨距。“Function”分别为Difference、Seasonal Difference、Centered moving average、Prior moving average、Running medians、Cumulative sum、Lag、Lead、Smoothing。

(1)Difference:差分。按照差分的阶数可以分为一阶差分、二阶差分等。计算一阶差分时,以变量的原始值为基础,用变量值减去前一个变量值即为当前一阶差分的值;二阶差分是以一阶差分为基础建立起来的,它的值等于当前的一阶差分减去前一个一阶差分即为当前二阶差分的值;同理可算n阶差分的值。N阶差分在算出的差分首部,将形成n个缺失值。

(2)Seasonal Difference:季节性差分。指有固定的时间间隔的差分。其前提是必须有时间序列型的变量(通过Data=>Define Dates命令建立)。

(3)Centered moving average:中心移动平均数。这种方法得到的新变量值,等于以当前值为中心建立的数据范围(即跨距)所囊括全部数据的平均数。

(4)Prior moving average:向前移动跨距平均数。用这种方法得到的新变量值,等于依据当前值向前移动一定范围(即跨距)所囊括数据的平均数。

(5)Running medians:中心移动中值。这与中心移动平均数相类似,用这种方法得到的新变量值,等于以当前值为中心建立的数据范围(即跨距)所囊括全部数据的中值。

(6)Cumulative sum:累加和。运用该方法建立起来的新变量值等于所依据变量的累加和。

(7)Lag:数据后移。运用该方法建立的新变量在值上等于所依据变量后移一定阶数的值。

(8)Lead:数据前移。该选项结果与Lag相类似,新变量在值上等于所依据变量前移一定阶数的值。

(9)Smoothing:数据平滑移动。该技术需要利用平滑法完成新数据的创建。

9.Replace Missing Value:替换缺失值

在统计分析过程中,经常需要将带有缺失值的选项排除在分析数据以外。但是有的时候,尤其是进行时间序列分析时,更不能将缺失值项排除在外。这都需要依据科学的原则对缺失值进行处理。“Replace Missing Value”提供了替换缺失值的功能,替换完毕将产生一个新的变量。

点击Replace Missing Value,进入转换界面。从该界面看来,与上一命令的界面是很相似的。按钮“Method”包含了5种替换方法。

(1)Series mean:列均值。即以整列变量的均值替换缺失值。

(2)Mean of nearby points:就近跨距均值。

(3)Median of nearby points:就近跨距中值。选择该项,其操作与Mean of nearby points命令相似,但是在新变量中,用跨距内的中值来代替缺失值。

(4)Linear interpolation:线性内插值。该方法利用缺失值向前与向后的最近有效值建构一个数据范围,将两个值之间的差值进行平均,建立数据的等级来作为内插的替换值。

(5)Linear trend at point:线性拟合值。采用最小二乘法对全部数据进行拟合,用拟合得到的数据值替换缺失值。

课堂讨论题目:行列转换有什么意义?什么时候需要对数据进行加权处理?

课后作业题目:课后上机操作行列格式转换,并进行总结。

相关主题
相关文档
最新文档