统计分析与SPSS课后习题课后习题答案汇总(第五版)
《统计分析与SPSS的应用(第五版)》课后练习答案(第6章)

《统计分析与S P S S的应用(第五版)》(薛薇)课后练习答案第6章SPSS的方差分析1、入户推销有五种方法。
某大公司想比较这五种方法有无显著的效果差异,设计了一项实验。
从应聘人员中尚无推销经验的人员中随机挑选一部分人,并随机地将他们分为五个组,每组用一种推销方法培训。
一段时期后得到他们在一个月内的推销额,如下表所示:第一组20.0 16.8 17.9 21.2 23.9 26.8 22.4第二组24.9 21.3 22.6 30.2 29.9 22.5 20.7第三组16.0 20.1 17.3 20.9 22.0 26.8 20.8第四组17.5 18.2 20.2 17.7 19.1 18.4 16.5第五组25.2 26.2 26.9 29.3 30.4 29.7 28.21)请利用单因素方差分析方法分析这五种推销方式是否存在显著差异。
2)绘制各组的均值对比图,并利用LSD方法进行多重比较检验。
(1)分析→比较均值→单因素ANOV A→因变量:销售额;因子:组别→确定。
ANOVA销售额平方和df 均方 F 显著性组之间405.534 4 101.384 11.276 .000组内269.737 30 8.991总计675.271 34概率P-值接近于0,应拒绝原假设,认为5种推销方法有显著差异。
(2)均值图:在上面步骤基础上,点选项→均值图;事后多重比较→LSD多重比较因变量: 销售额LSD(L)(I) 组别(J) 组别平均差(I-J) 标准错误显著性95% 置信区间下限值上限第一组第二组-3.30000* 1.60279 .048 -6.5733 -.0267 第三组.72857 1.60279 .653 -2.5448 4.0019第四组 3.05714 1.60279 .066 -.2162 6.3305第五组-6.70000* 1.60279 .000 -9.9733 -3.4267 第二组第一组 3.30000* 1.60279 .048 .0267 6.5733 第三组 4.02857* 1.60279 .018 .7552 7.3019第四组 6.35714* 1.60279 .000 3.0838 9.6305第五组-3.40000* 1.60279 .042 -6.6733 -.1267 第三组第一组-.72857 1.60279 .653 -4.0019 2.5448 第二组-4.02857* 1.60279 .018 -7.3019 -.7552第四组 2.32857 1.60279 .157 -.9448 5.6019第五组-7.42857* 1.60279 .000 -10.7019 -4.1552第四组第一组-3.05714 1.60279 .066 -6.3305 .2162第二组-6.35714* 1.60279 .000 -9.6305 -3.0838第三组-2.32857 1.60279 .157 -5.6019 .9448第五组-9.75714* 1.60279 .000 -13.0305 -6.4838第五组第一组 6.70000* 1.60279 .000 3.4267 9.9733第二组 3.40000* 1.60279 .042 .1267 6.6733第三组7.42857* 1.60279 .000 4.1552 10.7019第四组9.75714* 1.60279 .000 6.4838 13.0305*. 均值差的显著性水平为 0.05。
《统计分析和SPSS的应用(第五版)》课后练习答案解析(第7章)

《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第7章SPSS的非参数检验1、为分析不同年龄段人群对某商品满意程度的异同,进行随机调查收集到以下数据:满意程度年龄段青年中年老年很不满意126 297 156不满意306 498 349满意88 61 75很满意27 17 44请选择恰当的非参数检验方法,以恰当形式组织上述数据,分析不同年龄段人群对该商品满意程度的分布状况是否一致。
卡方检验步骤:(1)数据→加权个案→对“人数”加权→确定(2)分析→描述统计→交叉表格→行:满意度;列:年龄→Statistics→如图选择→确定满意程度 * 年龄交叉表计数年龄总计青年中年老年满意程度很不满意126 297 156 579 不满意306 498 349 1153满意88 61 75 224很满意27 17 44 88 总计547 873 624 2044卡方检验值自由度渐近显著性(双向)皮尔逊卡方66.990a 6 .000似然比(L) 68.150 6 .000线性关联.008 1 .930McNemar-Bowker 检验. . .b有效个案数2044a. 0 个单元格 (0.0%) 具有的预期计数少于 5。
最小预期计数为 23.55。
b. 仅为 PxP 表格计算(其中 P 必须大于 1)。
因概率P值小于显著性水平(0.05),拒绝原假设,不同年龄度对该商品满意程度不一致。
2、利用第2章第7题数据,选择恰当的非参数检验方法,分析本次存款金额的总体分布与正态分布是否存在显著差异。
分析→非参数检验→旧对话框→1-样本-K—S…→选择相关项:本次存款金额[A5] →确定结果如下:单样本 Kolmogorov-Smirnov 检验本次存款金额数字282正态参数a,b平均值4738.09标准偏差10945.569最极端差分绝对.333正.292负-.333检验统计.333渐近显著性(双尾).000ca. 检验分布是正态分布。
《统计分析与SPSS的应用(第五版)》课后练习答案(第1章)

《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第1章SPSS统计分析软件概述1、SPSS的中文全名和英文全名是什么SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案)英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions)2、SPSS有哪两个主要窗口它们的作用和特点各是什么SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。
数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据;结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。
3、什么是SPSS的数据集什么是SPSS的活动数据集SPSS的数据集:SPSS运行时可同时打开多个数据编辑器窗口。
每个数据编辑器窗口分别显示不同的数据集合(简称数据集)。
活动数据集:其中只有一个数据集为当前数据集。
SPSS只对某时刻的当前数据集中的数据进行分析。
4、SPSS有哪三种主要使用方式各自的特点是什么SPSS的三种基本运行方式:完全窗口菜单方式、程序运行方式、混合运行方式。
完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简洁和直观。
程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。
该方式适用于大规模的统计分析工作。
混合运行方式:是前两者的综合。
5、.sav、.spo、.sps分别是SPSS哪类文件的扩展名.sav是数据编辑器窗口中的SPSS数据文件的扩展名.spv是结果查看器窗口中的SPSS分析结果文件的扩展名.sps是语法窗口中的SPSS程序6、SPSS的数据加工和管理功能主要集中在哪些菜单中统计绘图和分析功能主要集中在哪些菜单中SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。
统计分析与SPSS课后习题课后习题答案汇总(第五版)

第一章练习题答案1、SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案)英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions)2、SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。
数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据;结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。
3、SPSS的数据集:SPSS运行时可同时打开多个数据编辑器窗口。
每个数据编辑器窗口分别显示不同的数据集合(简称数据集)。
活动数据集:其中只有一个数据集为当前数据集。
SPSS只对某时刻的当前数据集中的数据进行分析。
4、SPSS的三种基本运行方式:完全窗口菜单方式、程序运行方式、混合运行方式。
完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简洁和直观。
程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。
该方式适用于大规模的统计分析工作。
混合运行方式:是前两者的综合。
5、.sav是数据编辑器窗口中的SPSS数据文件的扩展名.spv是结果查看器窗口中的SPSS分析结果文件的扩展名.sps是语法窗口中的SPSS程序6、SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。
7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原则抽取样本,抽取样本时每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的。
概率抽样包括简单随机抽样、系统抽样(等距抽样)、分层抽样(类型抽样)、整群抽样、多阶段抽样等。
《统计分析与SPSS的应用第五版》课后练习答案

《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第2章SPSS数据文件的建立和管理1、SPSS中有哪两种基本的数据组织形式各自的特点和应用场合是什么SPSS中两个基本的数据组织方式:原始数据的组织方式和计数数据的组织方式。
●原始数据的组织方式:待分析的数据是一些原始的调查问卷数据,或是一些基本的统计指标。
●计数数据的组织方式:所采集的数据不是原始的调查问卷数据,而是经过分组汇总后的数据。
2、什么是SPSS的个案什么SPSS的变量个案:在原始数据的组织方式中,数据编辑器窗口中的一行称为一个个案或观测。
变量:数据编辑器窗口中的一列。
3、在定义SPSS数据结构时,默认的变量名和变量类型是什么如果希望增强SPSS 统计分析结果的易读性,还需要对数据结构的哪些方面进行必要说明默认的变量名:VAR------;默认的变量类型:数值型。
变量名标签和变量值标签可增强统计分析结果的可读性。
4、收集到以下关于两种减肥产品试用情况的调查数据,请问在SPSS中应如何组织该份资料问:在SPSS中应如何组织该数据数据文件如图所示:5、什么是SPSS的用户缺失值为什么要对用户缺失值进行定义如何在SPSS中指定用户缺失值缺失值分为用户缺失值(User Missing Value)和系统缺失值(System Missing Value)。
用户缺失值指在问卷调查中,将无回答的一些数据以及明显失真的数据当作缺失值来处理。
用户缺失值的编码一般用研究者自己能够识别的数字来表示,如“0”、“9”、“99”等。
系统缺失值主要指计算机默认的缺失方式,如果在输入数据时空缺了某些数据或输入了非法的字符,计算机就把其界定为缺失值,这时的数据标记为一个圆点“”。
在变量视图中定义。
6、从计量尺度角度看,变量包括哪三种主要类型请各举出一个相应的实际数据。
如何在SPSS中指定变量的计算尺度变量类型包括:数值型(身高)、定序型(受教育程度)以及定类型(性别)。
《统计分析与SPSS的应用(第五版)》课后练习答案(第9章)

《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第9章SPSS的线性回归分析1、利用第2章第9题的数据,任意选择两门课程成绩作为解释变量和被解释变量,利用SPSS提供的绘制散点图功能进行一元线性回归分析。
请绘制全部样本以及不同性别下两门课程成绩的散点图,并在图上绘制三条回归直线,其中,第一条针对全体样本,第二和第三条分别针对男生样本和女生样本,并对各回归直线的拟和效果进行评价。
选择fore和phy两门成绩体系散点图步骤:图形→旧对话框→散点图→简单散点图→定义→将fore导入Y轴,将phy 导入X轴,将sex导入设置标记→确定。
接下来在SPSS输出查看器中,双击上图,打开图表编辑在图表编辑器中,选择“元素”菜单→选择总计拟合线→选择线性→应用→再选择元素菜单→点击子组拟合线→选择线性→应用。
分析:如上图所示,通过散点图,被解释变量y(即:fore)与解释变量phy有一定的线性关系。
但回归直线的拟合效果都不是很好。
2、请说明线性回归分析与相关分析的关系是怎样的?相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。
相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。
只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。
如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。
与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。
线性回归分析是相关性回归分析的一种,研究的是一个变量的增加或减少会不会引起另一个变量的增加或减少。
3、请说明为什么需要对线性回归方程进行统计检验?一般需要对哪些方面进行检验?检验其可信程度并找出哪些变量的影响显著、哪些不显著。
《统计分析与SPSS的应用(第五版)》课后练习答案(第6章)
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第6章SPSS的方差分析1、入户推销有五种方法。
某大公司想比较这五种方法有无显著的效果差异,设计了一项实验。
从应聘人员中尚无推销经验的人员中随机挑选一部分人,并随机地将他们分为五个组,每组用一种推销方法培训。
一段时期后得到他们在一个月内的推销额,如下表所示:第一组20.0 16.8 17.9 21.2 23.9 26.8 22.4第二组24.9 21.3 22.6 30.2 29.9 22.5 20.7第三组16.0 20.1 17.3 20.9 22.0 26.8 20.8第四组17.5 18.2 20.2 17.7 19.1 18.4 16.5第五组25.2 26.2 26.9 29.3 30.4 29.7 28.21)请利用单因素方差分析方法分析这五种推销方式是否存在显著差异。
2)绘制各组的均值对比图,并利用LSD方法进行多重比较检验。
(1)分析→比较均值→单因素ANOVA→因变量:销售额;因子:组别→确定。
ANOVA销售额平方和df 均方 F 显著性组之间405.534 4 101.384 11.276 .000组内269.737 30 8.991总计675.271 34概率P-值接近于0,应拒绝原假设,认为5种推销方法有显著差异。
(2)均值图:在上面步骤基础上,点选项→均值图;事后多重比较→LSD多重比较因变量: 销售额LSD(L)(I) 组别(J) 组别平均差(I-J) 标准错误显著性95% 置信区间下限值上限第一组第二组-3.30000* 1.60279 .048 -6.5733 -.0267 第三组.72857 1.60279 .653 -2.5448 4.0019第四组 3.05714 1.60279 .066 -.2162 6.3305第五组-6.70000* 1.60279 .000 -9.9733 -3.4267第二组第一组 3.30000* 1.60279 .048 .0267 6.5733 第三组 4.02857* 1.60279 .018 .7552 7.3019第四组 6.35714* 1.60279 .000 3.0838 9.6305第五组-3.40000* 1.60279 .042 -6.6733 -.1267第三组第一组-.72857 1.60279 .653 -4.0019 2.5448 第二组-4.02857* 1.60279 .018 -7.3019 -.7552第四组 2.32857 1.60279 .157 -.9448 5.6019第五组-7.42857* 1.60279 .000 -10.7019 -4.1552第四组第一组-3.05714 1.60279 .066 -6.3305 .2162 第二组-6.35714* 1.60279 .000 -9.6305 -3.0838第三组-2.32857 1.60279 .157 -5.6019 .9448第五组-9.75714* 1.60279 .000 -13.0305 -6.4838第五组第一组 6.70000* 1.60279 .000 3.4267 9.9733 第二组 3.40000* 1.60279 .042 .1267 6.6733第三组7.42857* 1.60279 .000 4.1552 10.7019第四组9.75714* 1.60279 .000 6.4838 13.0305*. 均值差的显著性水平为0.05。
《统计分析与spss的应用(第五版)》课后练习答案(第3章)()
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第3章SPSS数据的预处理1、利用第2章第7题数据,采用SPSS数据筛选功能将数据分成两份文件。
其中,第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据;第二份数据文件是按照简单随机抽样所选取的70%的样本数据。
第一份文件:选取数据数据——选择个案——如果条件满足——存款>=1000&存款<5000&常住地=沿海或中心繁华城市。
第二份文件:选取数据数据——选择个案——随机个案样本——输入70。
2、利用第2章第7题数据,将其按常住地(升序)、收入水平(升序)、存款金额(降序)进行多重排序。
排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。
3、利用第2章第9题的完整数据,对每个学生计算得优课程数和得良课程数,并按得优课程数的降序排序。
计算转换——对个案内的值计数输入目标变量及目标标签,把所有课程选取到数字变量,定义值——设分数的区间,之后再排序。
4、利用第2章第9题的完整数据,计算每个学生课程的平均分以及标准差。
同时,计算男生和女生各科成绩的平均分。
方法一:利用描述性统计,数据——转置学号放在名称变量,全部课程放在变量框中,确定后,完成转置。
分析——描述统计——描述,将所有学生变量全选到变量框中,点击选项——勾选均值、标准差。
先拆分数据——拆分文件按性别拆分,分析——描述统计——描述,全部课程放在变量框中,选项——均值。
方法二:利用变量计算,转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算,标准差用函数SD完成标准差的计算。
数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、(创建只包含汇总变量的新数据集并命名)——确定5、利用第2章第7题数据,大致浏览存款金额的数据分布状况,并选择恰当的组限和组距进行组距分组。
《统计分析和SPSS的应用(第五版)》课后练习答案与解析(第5章)
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第5 章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下:80, 81, 72, 60, 78, 65, 56, 79,77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss 数据→分析→比较均值→单样本t 检验→相关设置→输出结果(Analyze->compare means->one-samples T test ;)采用单样本T 检验(原假设H0:u=u0=75, 总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值= 75差分的95% 置信区间t df Sig.( 双侧) 均值差值下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test 后的框中输入检验值(填75),最后ok!分析:N=11 人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean) 为2.87.t 统计量观测值为-4.22,t 统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14), 由此采用双尾检验比较 a 和p。
T 统计量观测值的双尾概率p-值(sig.(2-tailed) )为0.668>a=0.05 所以不能拒绝原假设;且总体均值的95% 的置信区间为(67.31,80.14), 所以均值在67.31~80.14 内,75 包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35 名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS 对上表数据进行描述统计,并绘制相关的图形。
《统计分析与SPSS的应用(第五版)》课后练习答案解析(第4章)
统计分析与SPSS 的应用(第五版)》(薛薇)课后练习答案第 4 章SPSS 基本统计分析1、利用第2 章第7 题数据采用SPSS 频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。
分析——描述统计——频率,选择“常住地” ,“职业”和“年龄”到变量中,然后,图表——条形图图表值(频率)——继续,勾选显示频率表格,点击确定。
户口所在地职业分析:本次调查的有效样本为282 份。
常住地的分布状况是:在中心城市的人最多,有200 人,而在边远郊区只有82 人;职业的分布状况是:在商业服务业的人最多,其次是一般农户和金融机构;年龄方面:在35-50 岁的人最多。
由于变量中无缺失数据,因此频数分布表中的百分比相同。
2、利用第2 章第7 题数据,从数据的集中趋势、离散程度以及分布形状等角度,分析被调查者本次存款金额的基本特征,并与标准正态分布曲线进行对比。
进一步,对不同常住地储户存款金额的基本特征进行对比分析。
分析——描述统计——描述,选择存款金额到变量中。
点击选项,勾选均值、标准差、方差、最小值、最大值、范围、偏度、峰度、按变量列表,点击继续——确定。
分析:由表中可以看出,有效样本为282 份,存(取)款金额的均值是4738.09 ,标准差为10945.09 ,峰度系数为33.656 ,偏度系数为5.234 。
与标准正态分布曲线进行对比,由峰度系数可以看出,此表的存款金额的数据分布比标准正态分布更陡峭;由偏度系数可以看出,此表的存款金额的数据为右偏分布,表明此表的存款金额均值对平均水平的测度偏大。
200 人,边远郊区为82 人。
两部分样本存取款金额均分析:由表中可以看出,中心城市有呈右偏尖峰分布,且边远郊区更明显。
3、利用第2 章第7 题数据,如果假设存款金额服从正态分布,能否利用本章所讲解的功能,找到存款金额“与众不同”的样本,并说明理由。
分析——描述统计——描述,选择存款金额到变量中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,《统计分析与SPSS的应用(第五版)》课后练习答案第一章练习题答案1、SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案)英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions)2、SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。
数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据;结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。
—3、SPSS的数据集:SPSS运行时可同时打开多个数据编辑器窗口。
每个数据编辑器窗口分别显示不同的数据集合(简称数据集)。
活动数据集:其中只有一个数据集为当前数据集。
SPSS只对某时刻的当前数据集中的数据进行分析。
4、SPSS的三种基本运行方式:完全窗口菜单方式、程序运行方式、混合运行方式。
完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简洁和直观。
程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。
该方式适用于大规模的统计分析工作。
混合运行方式:是前两者的综合。
】5、.sav是数据编辑器窗口中的SPSS数据文件的扩展名.spv是结果查看器窗口中的SPSS分析结果文件的扩展名.sps是语法窗口中的SPSS程序6、SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。
7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原则抽取样本,抽取样本时每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的。
概率抽样包括简单随机抽样、系统抽样(等距抽样)、分层抽样(类型抽样)、整群抽样、多阶段抽样等。
简单随机抽样(simple random sampling):从包括总体N个单位的抽样框中随机地抽取n个单位作为样本,每个单位抽入样本的概率是相等的。
是最基本的抽样方法,是其它抽样方法的基础。
优点:简单、直观,在抽样框完整时,可直接从中抽取样本,用样本统计量对总体参数进行估计比较方便。
局限性:当N很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难。
分层抽样(stratified sampling):将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度,组织实施调查方便(当层是以行业或行政区划分时),既可以对总体参数进行估计,也可以对各层的参数进行估计。
整群抽样(cluster sampling):将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对选中群中的所有单位全部实施调查。
优点:抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施。
缺点:估计的精度较差。
;系统抽样(systematic sampling):将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位,先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位。
优点:操作简便,可提高估计的精度。
缺点:对估计量方差的估计较困难。
多阶段抽样(multi-stage sampling):先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查。
群是初级抽样单位,第二阶段抽取的是最终抽样单位。
将该方法推广,使抽样的段数增多,就称为多阶段抽样。
优点:具有整群抽样的优点,保证样本相对集中,节约调查费用。
在大规模的抽样调查中,经常被采用的方法。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查,包括方便抽样、自愿抽样、配额抽样、判断抽样和滚雪球抽样等。
方便抽样:样本限于总体中易于抽到的一部分。
最常见的方便抽样是偶遇抽样,即研究者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。
“街头拦人法”就是一种偶遇抽样。
方便抽样是非随机抽样中最简单的方法,省时省钱,但样本代表性因受偶然因素的影响太大而得不到保证。
自愿抽样:某些调查对被调查者来说是不愉快的、麻烦的,这时为方便起见就采用以自愿被调查者为调查样本的方法。
判断抽样:研究人员从总体中选择那些被判断为最能代表总体的单位作样本的抽样方法。
当研究者对自己的研究领域十分熟悉,对研究总体比较了解时采用这种抽样方法,可获代表性较高的样本。
这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。
滚雪球抽样:以若干个具有所需特征的人为最初的调查对象,然后依靠他们提供认识的合格的调查对象,再由这些人提供第三批调查对象,……依次类推,样本如同滚雪球般由小变大。
滚雪球抽样多用于总体单位的信息不足或观察性研究的情况。
这种抽样中有些分子最后仍无法找到,有些分子被提供者漏而不提,两者都可能造成误差。
配额抽样也称定额抽样,是将总体依某种标准分层(群);然后按照各层样本数与该层总体数成比例的原则主观抽取样本。
配额抽样与分层概率抽样很接近,最大的不同是分层概率抽样的各层样本是随机抽取的,而配额抽样的各层样本是非随机的。
总体也可按照多种标准的组合分层(群),例如,在研究自杀问题时,考虑到婚姻与性别都可能对自杀有影响,可将研究对象分为未婚男性、已婚男性、未婚女性和已婚女性四个组,然后从各群非随机地抽样。
配额抽样是通常使用的非概率抽样方法,样本除所选标识外无法保证代表性。
8、、9、利用SPSS进行数据分析的一般步骤:数据的准备--数据的加工处理--数据的分析--分析结果的阅读和解释。
第二章练习题答案1、SPSS中两个基本的数据组织方式:原始数据的组织方式和计数数据的组织方式。
原始数据的组织方式:待分析的数据是一些原始的调查问卷数据,或是一些基本的统计指标。
计数数据的组织方式:所采集的数据不是原始的调查问卷数据,而是经过分组汇总后的数据。
2、个案:在原始数据的组织方式中,数据编辑器窗口中的一行称为一个个案或观测。
!变量:数据编辑器窗口中的一列。
3、默认的变量名:VAR------;默认的变量类型:数值型。
变量名标签和变量值标签可增强统计分析结果的可读性。
4、数据文件如图所示:5、缺失值分为用户缺失值(User Missing Value)和系统缺失值(System Missing Value)。
用户缺失值指在问卷调查中,将无回答的一些数据以及明显失真的数据当作缺失值来处理。
用户缺失值的编码一般用研究者自己能够识别的数字来表示,如“0”、“9”、“99”等。
系统缺失值主要指计算机默认的缺失方式,如果在输入数据时空缺了某些数据或输入了非法的字符,计算机就把其界定为缺失值,这时的数据标记为一个圆点“•”。
在变量视图中定义。
6、>7、变量类型包括:数值型(身高)、定序型(受教育程度)以及定类型(性别)。
在变量视图中定义。
7~9题软件操作,答案略第三章练习题答案1~8题软件操作,答案略9、SPSS排序功能仅实现将观测按用户指定顺序重新排列;拆分功能在按序排列的基础上,能够实现对数据按排序变量进行分组,并分组进行后续的统计分析。
第四章练习题答案·1、Statistics职业年龄户口所在地N Valid|282282282Missing000 \户口所在地Frequency Percent ValidPercent Cumulative PercentValid ;中心城市200边远郊区82*Total282:职业Frequency Percent ValidPercent:CumulativePercentValid 国家机关24[商业服务业54文教卫生18<公交建筑业15< 经营性公司18>学校15一般农户35;种粮棉专业户4% 种果菜专业户10(工商运专业户34退役人员17》金融机构35、现役军人3…Total282年龄`Frequency Percent ValidPercent Cumulative PercentValid 20岁以下4,20~35岁146¥35~50岁91}50岁以上41Total282—》分析:本次调查的有效样本为282份。
常住地的分布状况是:在中心城市的人最多,有200人,而在边远郊区只有82人;职业的分布状况是:在商业服务业的人最多,其次是一般农户和金融机构;年龄方面:在35-50岁的人最多。
由于变量中无缺失数据,因此频数分布表中的百分比相同。
2、分析:由表中可以看出,有效样本为282份,存(取)款金额的均值是,标准差为,峰度系数为,偏度系数为。
与标准正态分布曲线进行对比,由峰度系数可以看出,此表的存款金额的数据分布比标准正态分布更陡峭;由偏度系数可以看出,此表的存款金额的数据为右偏分布,表明此表的存款金额均值对平均水平的测度偏大。
分析:由表中可以看出,中心城市有200人,边远郊区为82人。
两部分样本存取款金额均呈右偏尖峰分布,且边远郊区更明显。
-3、利用描述菜单下窗口对话框中的“将标准得分另存为变量”功能实现。
对标准分数变量按降序排列,绝对值大于3的可视为“与众不同”的样本。
理由:标准化值反映的是样本值与样本均值的差是几个标准差单位。
如果标准化值等于0,则表示该样本值等于样本均值;如果标准化值大于0,则表示该样本值大于样本均值;如果标准化值小于0,则表示该样本值小于样本均值。
如果标准化值的绝对值大于3,则可认为是异常值。
4、利用列联分析实现。
首先编制列联表,然后进行卡方检验。
以户口和收入的列联分析为例:表中,卡方统计量的观测值等于,概率-P值等于。
若显著性水平设为,由于<,拒绝原假设,表明户口地与收入水平不独立。
!5、多选项分类法;存款的最主要目的是正常生活零用6、计算结果:卡方统计量:∑∑==-=ricjeijeijoijfff1122) (χ,用于测度各个单元格的观测频数与期望频数的差异,并依卡方理论分布判断差异是否统计显著。
由于期望频数代表的是行列变量独立下的分布,所以卡方值越大表明实际分布与期望分布差异越明显。
~本例中,由于概率P值小于显著性水平,应拒绝原假设,婆媳关系与住房条件有关系。
8、将计数数据还原为原始数据,采用交叉分组下的频数分析,并进行卡方检验。