社会统计学与spss应用技术练习题

社会统计学与spss应用技术练习题
社会统计学与spss应用技术练习题

2011—2012学年第二学期

《社会统计学与SPSS应用》练习题

一、单项选择题

1.只能把研究对象分类,即只能决定研究对象是同类或是不同类的,具有=与≠的数学属性,例如:性别,民族等变量,该类变量是(A)

A.定类变量

B.定序变量

C.定距变量

D.定比变量

2.根据上题内容,在操作SPSS软件时,在Measure选项中选择正确的是(B)A.

B.

C.

D.

3.针对出生婴儿性别状况的多年调查发现,新生婴儿男女性别比一直在50%左右摆动,但是对于某个家庭而言,是生男孩还是生女孩却具有偶然性。这说明新生婴儿性别状况属于(D)。

A.非统计现象

B.统计现象

C.非随机现象

D.随机现象

4.针对出生婴儿性别状况的多年调查发现,新生婴儿男女性别比一直在50%左右摆动,但是对于某个家庭而言,是生男孩还是生女孩却具有偶然性。这体现新生婴儿性别状况具有(D)。

A.确定性

B.因果性

C.必然性

D.随机性

5.为调查不同年龄段群体对某商品的偏好程度,把年龄划分为:婴幼儿、青少年、成年、中年、老年,那么,年龄划分违背了变量取值的原则。(B)A.完备 B.互斥 C.整体 D.差异

6.下列哪类变量能用折线图表示其分布状况?(C ) A.定类变量 B.定序变量 C.定距变量 D.虚拟变量

7.下列某变量取值状况的累积图,其中正确的表现形式是(B )。

8.下两图是正态分布密度曲线,两图的σ2相同,图1较之图2的密度曲线向左移了一些,这说明(C )。

A.μ1>μ2

B.μ1=μ2

C.μ1<μ2

D.μ1≥μ2

9.在SPSS 软件中,对于多选项分析而言,如下所示首先应该操作步骤的是(C )

A .

B .

C .

D .

图1 图2

10.下图所示的若为了测量集中趋势,需要在哪个□前打“√”的是(B )。

11.下图包含两条正态分布密度曲线,它们的μ相同,那么上方曲线的σ1与下方曲线σ2的关系是(C )。

A. σ1>σ2

B. σ1=σ2

C. σ1<σ2

D. σ1≥σ2 12.下列哪类分布图形随着自由度k 无限增加,逐渐趋于标准正态分布。(D ) A.E 分布 B. χ2分布 C. F 分布 D.t 分布

13.在进行区间估计时,置信度与显著性水平之和为(C )。 A. 0 B. -1 C. 1 D. 2

μ

14.在进行区间估计时,显著性水平为α,置信度为(C)。

A. 0

B. -α

C. 1-α

D. 2α

15.在拒绝原假设时出现的错误称为(D)。

A.第二类错误

B.纳伪的错误

C.以假当真错误

D.弃真的错误

16.大样本二总体均值差进行统计检验时与单样本均值检验相比,主要区别是(A)。

A.标准差

B.均值

C.统计量分布

D.临界值

17.大样本二总体成数差进行统计检验时与单样本成数检验相比,主要区别是(A)。

A.标准差

B.均值

C.统计量分布

D.临界值

18.如下表所示,求出2×2表中相关强度φ系数为(C)。

A. 1

B. 0.3

C. 0.5

D. 0.4

19.如下表所示,求出该表中同序对的个数为(B)。

A.310

B.624

C.524

D.314

20.两个定序变量之间Gamma系数取值范围为(A)。

A. [-1,1]

B. [-∞,0]

C. [0,+∞]

D. [0,1]

21.为测量两个定类变量相关系数,需要在下列哪项功能□前打“√”?(A)

二、填空题

1.所有变量值百分比对的集合称作百分比分布,又称变量的频率或相对频次分布。

2.在制作统计表时,需要对变量取值进行分组,一般分组点比原统计资料的精度要高一位,例如,原统计资料的年龄以年计算,统计范围为1~2岁、3~4岁、5~6岁、7~8岁等分为四组,实际分组为0.5~2.5岁、2.5~4.5岁、4.5~6.5岁、6.5~8.5岁等四组,那么,原统计资料的分组组界称为标明组界。

3.统计表必须具备的内容有表号、表头、标识行、主体行、表尾等五部分组成,这样才能构成一份完整的统计表。

4.某村家庭子女数量频次分布:2、3、1、4、2、4、3、2、1、2、0、1、2、3、1、3、2、0、4、2,在家庭子女数量这个变量取值中众值是 2 。

5.某社区六个家庭人口数量分布:3、4、5、8、9、9在家庭人口数量这个变量取值中中位值是 6.5 。

6.方差与标准差用来度量定距变量的离散程度的测量方法。

7.当变量的取值满足了完备性和互不相容性,那么取值和概率对的集合就是随机变量的概率分布。

A.

B.

D. C.

8.古典法产生于概率论发展的早期,以“在相似的条件下进行无数次实验”的观点来思考问题,以对象本身所具有的对称性而事先得到的,故被称为先验概率。9.统计推论的基础是概率论,内容包括两部分:参数估计与假设检验。

10.从总体中抽取容量为n的样本,可以看作n个独立同总体分布的随机变量ξ1,ξ2,……,ξn,那么,随机变量ξ1,ξ2,……,ξn的任何函数f(ξ1,ξ2,……,ξn )也是随机变量。我们把函数f(ξ1,ξ2,……,ξn )叫作统计量。

11.根据随机变量的观测值X1,X2,……,X n计算得到的一切统计数字特征(例如均值、方差)可以看作是相应统计量的观测值,统计量的分布又称抽样分布。

12.原假设(H0)又称虚无假设或解消假设,常常是根据已有的资料,或根据周密考虑后确定的。

13.备择假设(H1)又称为研究假设,当经过抽样调查,有充分根据否定原有假设时,就产生了需要接受其逻辑对立面的假设。

14.假设检验的基本原理是小概率原理。

15.在某个列联表中,只观察其中某一变量的分布,而不管另一个变量的取值,这样就得到边缘分布。

16.协方差表示两个定距变量观测值相对其各自均值所造成的共同平均偏差。17.两个定距变量的相关系数r是度量变量间的线性相关程度的,具有PRE性质,r的平方又称为判定系数有着直观的解释意义。

18.方差分析是研究定类变量与定距变量之间相关关系,主要分析或检验总体间的均值是否有所不同。

19.方差分析中把被解释掉的误差在总体误差中所占的比率称为相关比率。20.非参数检验是指“对分布类型已知的总体进行参数检验”之外的所有检验方法。

21.非参数检验方法是指这类方法的使用不需要对总体分布作任何事先的假定,也不是检验总体分布的某些参数,而是检验总体某类有关的性质。

三、判断题(根据题意,表述正确的在后面括号内打“√”,表述错误的在后面括号内打“×”)

1.在选用社会统计分析方法时,需要注意区分研究的是单变量还是多变量,前

者往往分析存在的关系及其强度,后者分析变量的集中或离散的特征情况。(×)2.在绘制统计表时,对于定序变量而言需要注意次序排列、变化趋势。(√)3.直方图可以用来反映定类变量的取值状况。(×)

4.直方图与条形图形状相同,没有什么本质区别。(×)

5.中位值比较适用于定距变量。(×)

6.某个变量取值呈正态分布,它的众值、中位值重叠,与均值不重叠。(×)7.某个变量取值呈正态分布,它的众值、均值重叠,与中位值不重叠。(×)8.统计推论是根据局部资料(样本资料)对总体的特征进行推断。(√)9.“抽样结果与总体参数不一致”是随机现象在推论中所特有的。(√)10.总体分布为正态分布N(μ,σ2),且方差已知,随着样本容量n的增加,也不能减少样本均值抽样分布的分散程度。(×)

11.若总体分布为正态分布,且方差已知,样本均值分布服从t分布。(×)12.若总体分布为正态分布,大样本均值的极限分布不是N(0,1)。(×)13.在区间估计中,置信度表示用置信区间估计的可靠性。(√)

14.在区间估计中,显著性水平表示用置信区间估计不可靠的概率。(√)15.大样本二总体均值差的分布不服从正态分布。(×)

16.大样本二总体成数差的分布不服从正态分布。(×)

17.两个定类变量之间以χ2为基础的相关性测量得到C系数具有减少误差比例性质。(×)

18.两个定类变量之间相关性测量得到λ系数不具有减少误差比例性质。(×)19.Gamma等级相关的G系数具有减少误差比例的性质。

20.斯皮尔曼等级相关系数r s具有减少误差比例的性质。

四、计算题(要求步骤完整,计算结果正确)

1.根据下表2008年某班级Q课程成绩统计分布情况,求某班级Q课程成绩的中位值。

2008年某班级Q课程成绩统计分布情况

成绩等级频次累计频次

不及格 3 3

及格12 15

中18 33

良好22 55

优秀 5 60

2.根据下表某城市抽样调查家庭月收入统计分布情况,求该市家庭月收入的中位值。

某城市抽样调查家庭月收入统计分布情况

家庭月收入频次累计频次(cf↑)累计百分比(%)500及以下10 10 10

500—1000 20 30 30

1000—2000 35 65 65

2000—3000 25 90 90

3000及以上10 100 100

3.下列统计表反映是抽取两个社区部分居民受教育年限的统计分布状况:

社区类别抽样数量(个)受教育年限分布状况(年)

A 5 7、3、11、10、4

B 6 6、5、5、8、10、8

根据抽样数据,求出两个社区的平均受教育年限各是多少?相同吗?

4.某系大学一年级共550人,Z课程期末考试成绩统计如下表,求该课程的平均分数是多少?

某系大学一年级Z课程期末考试成绩统计分布状况

分数学生数量

50 15

60 28

63 40

70 290

74 160

80 17

总和550

5.针对某村返乡人口状况进行调查,抽取11户大型联合家庭进行调查,各自家庭返乡人口数量分别为:2、2、3、4、4、4、5、5、6、6、7。求样本中返乡人口数量的四分互差是多少?

答案:Q=3

6.为了解某种新型奶制品的消费者偏好状况,访问了80个消费者,其中,选择喜欢的有25个,选择一般的有30个,选择不喜欢的有20个,选择无所谓的有5个。求反映偏好状况的四分互差是什么?

答案:有50%的消费者在喜欢与不喜欢之间。

7.设某工厂妇女从事家务劳动时间服从正态分布N(μ,0.662)。根据36人的随机抽样调查,每天平均从事家务劳动时间为2.65小时,求μ的双侧置信区间(置信度0.95,Zα/2=1.96,保留小数点后两位)

答案:[2.44,2.87]

8.为了对某工厂职工休闲时间进行研究。根据一次样本(n=33)的调查,平均

每天看电视时间为:=0.96小时,S=0.47,试求全厂职工平均每天看电视时间X

的区间估计(置信度为95%)。假定看电视时间服从正态分布N(μ,σ2),其中σ2未知。

解析:只知道总体的分布状况而不知道方差,只是样本均值分布服从t分布,需要查表,并且要注意t分布是对称分布。

=2.0369≈2.04 t α/2=±2.04

查表:t

α/2

答案:[0.79,1.13]

9.设某社区受教育程度服从正态分布N(μ,3.62),根据25人的随机调查,平

均受教育年限均值为11.5年,求μ的双侧置信区间(1-α=0.99,Zα/2=2.58,保留小数点后两位)

[9.64,13.36]

10.为了验证统计报表的正确性,作了共50人的抽样调查,人均收入的结果有=871元,S=21元,问能否证明统计报表中人均收入μ=880元是正确的(显著性水平α=0.05,Zα/2=±1.96)

分析与解析步骤:

(一)原假设H0 :μ=μ0 =880

(二)备择假设H1:μ≠μ0≠880

(三)统计量与拒绝域:

根据显著性水平α=0.05,查表拒绝域临界值:Zα/2=±1.96

(四)判断:

Z=-3.03<-1.96,拒绝原假设,即根据抽样调查不能认为人均收入为880元,统计报表是有误的。

11.某地区成年人中吸烟者占75%,经过戒烟宣传之后,进行抽样调查,发现100名被调查的成年人中,有63人是吸烟者。问戒烟宣传是否收到了成效?(α=0.05,Zα=-1.96)

解析步骤:

(一)原假设H0 :p=p0 =0.75

(二)备择假设H1:p<p0= 0.75

(三)统计量与拒绝域:

根据显著性水平α=0.05,查表拒绝域临界值:Z=-1.96

(四)判断:

Z=-2.77<-1.96,否定原假设,即认为戒烟宣传是有成效的,吸烟比例有所下降。

12.已知初婚年龄服从正态分布,根据9个人的抽样调查有:=23.5岁,S=3岁,问是否可以认为该地区平均初婚年龄已超过20岁(α =0.05)?

解:原假设H0:μ=20岁

备择假设H1:单边μ>20岁

统计量

查表自由度为8,α =0.05 ,t临界值为1.86,小于3.5,所以拒绝原假设,认为平均初婚年龄超过了20岁。

13.就近上学(表示为A)与乘车上学(表示为B)对学习影响,抽样结果如下:

问两者学习成绩是否有差别,如果有,哪种方式更好些?(α =0.05)

解:

(1)原假设H0:μA-μB =0

备择假设H1:μA-μB ≠0

(2)统计量

(3)拒绝域

查表α =0.05,Z α/2=1.96,小于7.04,所以,认为有差别,而且就近入学要好。14.以下表中是5对子代和父代之间年收入状况的抽样调查,求两者回归直线方程。

代际差别年收入状况(万元)

父代 2 4 6 8 10

子代 4 5 8 7 9

解析过程:

15.以下表中是5对子代和父代之间人际网络(好朋友数量)的抽样调查,求两者回归直线方程。

代际差别好朋友数量(个)

父代 2 4 6 8 10

子代 4 5 8 7 9

解析过程:

16.求下列表的λ系数与τ系数(α=0.05)。

(1)检验相关;(2)求λ系数;(3)τ系数

表4-3:某地区男女工作经历状况(单位:个)

不同状况男女共计无“跳槽”经历30 120 150

有“跳槽”经历30 20 50 共计60 140 200 答案:

检验两者之间存在相关。

841

.3

)1(

2=

α

χ

17.为了解学生活动能力与智商间是否有关,作了10名学生的抽样调查,结果如下:

问:学生活动能力与智商是否有显著差异(α=0.05)?

答案:无显著性差异,0.54<2.30

解答思路:参见320~321页例2,首先对智商进行排序,相同智商名次求取平均名次,然后按照以下步骤:

(1)原假设:ρ0=0或变量是相互独立的,备择假设

(2)统计量:

(3)临界值确定,做出判断。

《统计分析及SPSS的应用(第五版)》课后练习答案解析(第4章)

《统计分析与SPSS的应用(第五版)》(薛薇) 课后练习答案 第4章SPSS基本统计分析 1、利用第2章第7题数据采用SPSS频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。 分析——描述统计——频率,选择“常住地”,“职业”和“年龄”到变量中,然后,图表——条形图——图表值(频率)——继续,勾选显示频率表格,点击确定。 Statistics 户口所在 地职业 , 年龄 N Valid282282282 Missing00~ 户口所在地 Frequency Percent Valid Percent Cumulative Percent Valid 中心城市] 200 边远郊区82 Total282 职业 ( Frequency Percent Valid Percent Cumulative Percent Valid 国家机关24 商业服务业54 文教卫生18】公交建筑业15 经营性公司】 18 学校15

一般农户 35 种粮棉专业 户 4(种果菜专业 户 10 工商运专业户 ~ 34 退役人员17 金融机构35 现役军人3: Total282 、 年龄 Frequency Percent Valid Percent Cumulative Percent Valid 20岁以下4/ 20~35岁146 35~50岁: 91 50岁以上41 Total282

《 分析:本次调查的有效样本为282份。常住地的分布状况是:在中心城市的人最多,有200人,而在边远郊区只有82人;职业的分布状况是:在商业服务业的人最多,其次是一般农户和金融机构;年龄方面:在35-50岁的人最多。由于变量中无缺失数据,因此频数分布表中的百分比相同。 2、利用第2章第7题数据,从数据的集中趋势、离散程度以及分布形状等角度,分析被调查者本次存款金额的基本特征,并与标准正态分布曲线进行对比。进一步,对不同常住地储户存款金额的基本特征进行对比分析。 分析——描述统计——描述,选择存款金额到变量中。点击选项,勾选均值、标准差、方差、最小值、最大值、范围、偏度、峰度、按变量列表,点击继续——确定。 分析:由表中可以看出,有效样本为282份,存(取)款金额的均值是,标准差为,峰度系数为,偏度系数为。与标准正态分布曲线进行对比,由峰度系数可以看出,此表的存款金额的数据分布比标准正态分布更陡峭;由偏度系数可以看出,此表的存款金额的数据为右偏分布,表明此表的存款金额均值对平均水平的测度偏大。

教育统计学与SPSS课后作业答案祥解题目

教育统计学课后作业 一、P118 1 题目:10位大一学生平均每周所花的学习时间与他们的期末考试成绩见表6-17.试问: (1)学习时间与考试成绩之间是否相关? (2)比较两组数据谁的差异程度大一些? (3)比较学生2与学生9的期末考试测验成绩。 表6-17 学习时间与期末考试成绩 1 2 3 4 5 6 7 8 9 10 学习时间考试成绩40 58 43 73 18 56 10 47 25 58 33 54 27 45 17 32 30 68 47 69 解题步骤: (1)第一步:定义变量:“xuexishijian”、“xuexichengji”后,输入数据.如下图: 1

第二步:单击选择“分析(Analyze)”中的“相关(Correlate)”中的“双变量(Bivariate Correlations)”, 将上图中的“xuexishijian”和“xuexichengji”添加到右边变量框中,如下图: 第三步:点击“确定“后,输出结果如下图: 第四步:分析结果

3 由上图可知:学习时间与学习成绩之间的pearson 相关系数为0.714,p (双侧)为0.20。自由度 df=10-2=8时,查“皮尔逊积差相关系数显著临界值表”知:r 0.05= 0.623 ; r 0.01=0.765。 因为0.765 > 0.714 >0.623,所以在0.05水平上学习时间和学习成绩是相关显著的。 (2)SPSS 软件分析结果如下图: 由上图可知:学习时间标准差和平均值为:S 1=12.037 ?X 1= 29.00 ;学习时间标准差和平均值为:S 2=12.437?X 2=56.00 根据差异系数公式可知: 学习时间差异系数为:%100?=X S CV S =12.037/29.00×100%=41.51% 学习成绩差异系数为:%100?= X S CV S =12.437/56.00×100%=22.27% 有上述结果可知学习时间差异程度大于学习成绩差异程度。 (4) 把学生2和学生9的期末考试成绩转化成标准分数: Z 2=(X -?X) /S= (73—56)/12.437=1.367 Z 9=(X-?X)/S=(68—56)/12.437=0.965 由上计算可知:学生2期末考试测验成绩优于学生9的期末考试测验成绩。 二、P119 2 题目:某班数学的平均成绩为90,标准差10;化学的平均分为85,标准差为8;物理的平均分为79,标准差为15.某生这三科成绩分别为95,80,80.试问 (1) 该生在哪一学科上突出一些? (2) 该班三科成绩的差异度如何?有无学习分化现象? (3) 该生的学期分数是多少? (4) 三科的总平均和总标准差是多少? 解题步骤:

心理和教育统计学课后题答案解析

张厚粲现代心理与教育统计学第一章答案 1名词概念 (1 )随机变量 答:在统计学上把取值之前,不能准确预料取到什么值的变量,称为随机变量。 (2)总体 答:总体(population )又称为母全体或全域,是具有某种特征的一类事物的总体,是研究对象的全体。 (3)样本 答:样本是从总体中抽取的一部分个体。 (4)个体 答:构成总体的每个基本单元。 (5)次数 是指某一事件在某一类别中出现的数目,又称作频数,用f表示。 (6)频率 答:又称相对次数,即某一事件发生的次数除以总的事件数目,通常用比例或百分数来表示。 (7)概率 答:概率(probability), 概率论术语,指随机事件发生的可能性大小度量指标。其描述性定义。随机事件A在所有试验中发生的可能性大小的量值,称为事件A的概率,记为P(A)。 (8)统计量 答:样本的特征值叫做统计量,又称作特征值。 (9)参数 答:又称总体参数,是描述一个总体情况的统计指标。 (10)观测值 答:随机变量的取值,一个随机变量可以有多个观测值。 2何谓心理与教育统计学?学习它有何意义? 答:(1)心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理 与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论 找出心理与教育统计活动规律的一门学科。具体讲,就是在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按统计学原理和步骤加以整理、计 算、绘制图表、分析、判断、推理,最后得出结论的一种研究方法。 (2)学习心理与教育统计学有重要的意义。 ①统计学为科学研究提供了一种科学方法。 科学是一种知识体系。它的研究对象存在于现实世界各个领域的客观事实之中。它的主 要任务是对客观事实进行预测和分类,从而揭示蕴藏于其中的种种因果关系。要提高对客观 事实观测及分析研究的能力,就必须运用科学的方法。统计学正是提供了这样一种科学方法。统计方法是从事科学研究的一种必不可少的工具。 ②心理与教育统计学是心理与教育科研定量分析的重要工具。 凡是客观存在事物,都有数量的表现。凡是有数量表现的事物,都可以进行测量。心理 与教育现象是一种客观存在的事物,它也有数量的表现。虽然心理与教育测量具有多变性而 且旨起它发生变化的因素很多,难以准确测量。但是它毕竟还是可以测量的。因此,在进行 心理与教育科学研究时,在一定条件下,是可以对心理与教育现象进行定量分析的。心理与 教育统计就是对心理与教育问题进行定量分析的重要的科学工具。 ③广大心理与教育工作者学习心理与教育统计学的具体意义。 a. 可经顺利阅读国内外先进的研究成果。 b. 可以提高心理与教育工作的科学性和效率。

SPSS在统计学中的应用

SPSS基础之一:数据挖掘与统计学应用 数据挖掘与统计学应用数据挖掘与统计学应用基本框架一、关键词与摘要数据挖掘与统计应用之间关系数据挖掘的发展前景二、简介数据挖掘与统计学有着共同目标,但分析方法和性质不同三、统计学的性质统计学决不是数学的分支,而是一门独立学科统计分析是以样本推断总体,而数据挖掘使用的往往是总体数据统计应用和数据挖掘中模型的差别数据挖掘接触到的大量数据中的偶然因素可以使统计方法失效统计分析之前需要准备大量数据,以期得到确定的目的;数据挖掘往往已有数据库,而目的也是不确定的四、数据挖掘的性质什么是数据挖掘——不同学者对数据挖掘的定义目前数据挖掘的主要软件当前数据挖掘软件的特点当前的数据挖掘软件包中被用到的统计分析过程数据挖掘和计算机科学的联系在统计科学中萌芽,但随后绝大部分又被统计学忽略的方法领域——数据挖掘是否也会如此?五、讨论对数据挖掘的认识的误区数据挖掘与统计应用的前景一、关键词和摘要关键词:统计学数据挖掘知识发现摘要: 1、数据挖掘与统计应用之间关系统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两门学科的性质,重点论述它们的异同。数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM(数据挖掘)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释,并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这可能要求统计学家们改变他们的一些基本思路及操作原则。 2、数据挖掘的发展前景随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术在这些数据当中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则”,“时间序列”“聚集”,“分类”,“估值”等这几类. 据国外专家预测,在今后的5—10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。2000年7月IDC发布了关于信息存取工具市场的报告,其中估计1999年的数据挖掘的市场大概是7.5亿美元,估计在下个5年内市场的年增长率(Compound Annual Growth Rate)为32.4%,其中亚太地区为26.6%,并且预测此市场在2002年时会达到22亿美元。二、简介数据挖掘与统计学有着共同目标,但分析方法和性质不同统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。统计学有着正统的理论基础(尤其

统计分析与SPSS的应用第五版课后练习答案第9章

《统计分析与SPSS 的应用(第五版)》(薛薇) 课后练习答案 第9章SPSS 的线性回归分析 1利用第2章第9题的数据,任意选择两门课程成绩作为解释变量和被解释变量, 利用SPSS 提供的绘制散点图功能进行一元线性回归分析。请绘制全部样本以及不同性别下两门课程 成绩的散点图,并在图上绘制三条回归直线,其中,第一条针对全体样本,第二和第三条 分别针对男生样本和女生样本,并对各回归直线的拟和效果进行评价。 选择fore 和phy 两门成绩体系散点图 步骤:图形 旧对话框 散点图 简单散点图 定义 将fore 导入Y 轴,将phy 导入X 轴,将 sex 导入设置标记 确定。 00..00- O O O O O O O O 60.00- □ 8 □ □ ooo° cP O O OOD o O O 40 W- O O ° 0 °o O 0 o o o ° ° 0 o O O O 20.00- 0 ° 0 40.00 50.00 60.00 70.00 00.00 90.00 1M.OO

接下来在SPSS俞出查看器中,双击上图,打开图表编辑 '■-j female male

閒|匿恚層器-' * ;| !凹jW Array 在图表编辑器中,选择“元素”菜单选择总计拟合线选择线性应用再选择元素菜单点击子组拟合线选择线 性应用。

40.00 50 00 6G.Q0 70.00 00 00 90.00 1Q0.00 分析:如上图所示,通过散点图,被解释变量 y (即:fore )与解释变量phy 有一定 的线性关系。但回归直线的拟合效果都不是很好。 2、请说明线性回归分析与相关分析的关系是怎样的? 相关分析是回归分析的基础和前提, 回归分析则是相关分析的深入和继续。 相关分析需要依 靠回归分析来表现变量之间数量相关的具体形式, 而回归分析则需要依靠相关分析来表现变 量之间数量变化的相关程度。 只有当变量之间存在高度相关时, 进行回归分析寻求其相关的 具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之 前,就进行回归分析,很容易造成“虚假回归” 。与此同时,相关分析只研究变量之间相关 的方向和程度,不能推断变量之间相互关系的具体形式, 也无法从一个变量的变化来推测另 一个变量的变化情况,因此,在具体应用过程中, 只有把相关分析和回归分析结合起来,才 能达到研究和分析的目的。 线性回归分析是相关性回归分析的一种, 研究的是一个变量的增加或减少会不会引起另一个 变量的增加或减少。 3、请说明为什么需要对线性回归方程进行统计检验? 一般需要对哪些方面进行检验? 检验其可信程度并找 出哪些变量的影响显著、哪些不显著。 主要包括回归方程的拟合优度检验、 显著性检验、回归系数的显著性检验、 残差分析等。 线性回归方程能够较好地反映被解释变量和解释变量之间的统计关系的前提是被解释 变量和解释变量之间确实存在显著的线性关系。 00.00^ sex O female O male ■- female ^male Ft 2 ^140-)-0182 female: R 2 . ' = 0.208 male: R 2 ^n-0.16S 20.00- 60.00- 40.00- O O Q O

《spss统计软件》练习题库及答案

华中师范大学网络教育学院 《SPSS统计软件》练习题库及答案(本科) 一、选择题(选择类) (A)1、在数据中插入变量的操作要用到的菜单是: A Insert Variable; B Insert Case; C Go to Case; D Weight Cases (C)2、在原有变量上通过一定的计算产生新变量的操作所用到的菜单是: A Sort Cases; B Select Cases; C Compute; D Categorize Variables — (C)3、Transpose菜单的功能是: A 对数据进行分类汇总; B 对数据进行加权处理; C 对数据进行行列转置; D 按某变量分割数据 (A)4、用One-Way ANOVA进行大、中、小城市16岁男性青年平均身高的比较,结果给出sig.=,说明: A. 按照显著性水平,拒绝H0,说明三种城市的平均身高有差别; B. 三种城市身高没有差别的可能性是; C. 三种城市身高有差别的可能性是; 、 D. 说明城市不是身高的一个影响因素 (B)5、下面的例子可以用Paired-Samples T Test过程进行分析的是:A 家庭主妇和女大学生对同种商品喜好的差异; B 服用某种药物前后病情的改变情况; C 服用药物和没有服用药物的病人身体状况的差异; D性别和年龄对雇员薪水的影响 二、填空题(填空类) 6、Merge Files菜单用于合并数据库有两种情况:如果两数据库变量相同,是_观测对象__的合并;如果不同,则是_变量__的合并。 7、用于对计数资料和有序分类资料进行统计描述和简单的统计推断,在分析时可以产生二维或多维列联表,在统计推断时能进行卡方检验的菜单是_ Crosstabs __。 % 8、One-Samples T Test过程用于进行样本所在总体均数___与__已知总体均数_的比较。 三、名词解释(问答类) 9、Repeated Measures:重复测量的方差分析,指的是一个因变量被重复测量好几次,从而同一个个体的几次观察结果间存在相关,这样就不满足普通分析的要求,需要用重复测量的方差分析模型来解决。 10、Chi-Square test:卡方检验,它是非参数检验的一种方法,来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。 四、简答题(问答类) 11、用SPSS对数据进行分析的基本流程是什么 答:(1)、将数据输入SPSS,并保存; { (2)、进行必要的预分析(分布图、均数标准差等的描述等),以确定应采用的检验方法; (3)、按题目要求进行统计分析; (4)、保存和导出分析结果。 12、对数据进行方差分析时,Univariate菜单和Multivariate菜单最大的区别是什么 答:当因变量只有一个时,使用Univariate菜单,当因变量不止一个时,使用Multivariate菜单。 13、简述SPSS打开其它格式数据的几种方法 答:(1)、直接打开:选择菜单File==>Open==>Data或直接单击快捷工具栏上的打开按钮; (2)、使用数据库查询打开:选择菜单File==>Open Database==>New Query,根据向导打开数据; (3)、使用文本向导读入文本文件:选择菜单File==>Read Text Data ) 14、指定数据按某个变量进行排序需要用到哪个菜单

教育统计学复习题及答案

《教育统计学》复习题及答案一、填空题 1.教育统计学的研究对象是.教育问题。 2.一般情况下,大样本是指样本容量.大于30 的样本。 3.标志是说明总体单位的名称,它有.品质标志和数量标志两种。 4.统计工作的三个基本步骤是:、和。 5.集中量数是反映一组数据的趋势的。 6.“65、66、72、83、89”这组数据的算术平均数是。 7.6位学生的身高分别为:145、135、128、145、140、130厘米,他们的众数是。 8.若某班学生数学成绩的标准差是8分,平均分是80分,其标准差系数是。 9.参数估计的方法有和两种。 10.若两个变量之间的相关系数是负数,则它们之间存在。 11.统计工作与统计资料的关系是和的关系。 12.标准差越大,说明总体平均数的代表性越,标准差越小,说明总体平均数的代表性越。 13.总量指标按其反映的内容不同可以分为和。 二、判断题 1、教育统计学属于应用统计学。()

2、标志是说明总体特征的,指标是说明总体单位特征的。() 3、统计数据的真实性是统计工作的生命() 4、汉族是一个品质标志。() 5、描述一组数据波动情况的量数称为差异量数。() 6、集中量数反映的是一组数据的集中趋势。() 7、在一个总体中,算术平均数、众数、中位数可能相等。() 8、同一总体各组的结构相对指标数值之和不一定等于100%。() 9、不重复抽样误差一定大于重复抽样误差。() 10. 一致性是用样本统计量估计统计参数时最基本的要求。() 三、选择题 1.某班学生的平均年龄为22岁,这里的22岁为( )。 A.指标值 B.标志值 C.变量值 D.数量标志值 2.统计调查中,调查标志的承担者是( )。 A.调查对象 B.调查单位 C.填报单位 D.调查表 3.统计分组的关键是( )。 A.确定组数和组距 B.抓住事物本质 C.选择分组标志和划分各组界限 D.统计表的形式设计 4.下列属于全面调查的有( )。 A.重点调查 B.典型调查 C.抽样调查 D.普查 5.统计抽样调查中,样本的取得遵循的原则是( )。 A.可靠性 B.准确性 C.及时性 D.随机性 6. 在直线回归方程Yc =a+bx中,b表示( )。 增加1个单位,y增加a的数量增加1个单位,x增加b的数量 增加1个单位,x的平均增加量增加1个单位,y的平均增加量 7.下列统计指标中,属于数量指标的有() A、工资总额 B、单位产品成本 C、合格品率 D、人口密度 8.在其他条件不变情况下,重复抽样的抽样极限误差增加1倍,则样本单位数变为( )。 A.原来的2倍 B.原来的4倍 C.原来的1/2倍 D.原来的1/4倍 四、简答题 1.学习教育统计学有哪些意义?

应用统计学实验报告(spss软件)

我国31个省市自治区第三产业发展状况分析 (数据来源:中宏统计数据库)2010年31个省市第三产业增加值 一、因子分析 1.考察原有变量是否适合进行因子分析 为研究全国各地区第三产业的发展状况,现比较其第三产业增加值的差异性和相似性,收集到2010年全国31个省市自治区各类第三产业包括交通运输、仓储和邮政业,批发和零售业,住宿和餐饮业,金融业,房地产业及其他产业的年增产值数据。由于涉及的变量较多,直接进行地区间的比较分析非常繁琐,因此首先考虑采用因子分析方法减少变量个数,之后再进行比较和综合评价。 表1-1(a)原有变量的相关系数矩阵

由表1-1(a)可以看到,所有的相关系数都很高,各变量呈较强的线性关系,能够从中提取公因子,适合做因子分析。 表1-1(b)巴特利特球度检验和KMO检验 由表1(b)可知,巴特利特球度检验统计量的观测值为295.349,相应的概率p接近0,。如果显著性水平a为0.5,由于概率p小于显著性水平a,应拒绝零假设,认为相关系数矩阵与单位矩阵有显著差异。同时,KMO值为0.860,根据Kaiser给出了KMO度量标准可知原有变量适合进行因子分析。 2.提取因子 首先进行尝试性分析。根据原有变量的相关系数矩阵,采用主成分分析法提取因子并选取特征根值大于1的特征根。 表1-2(a)因子分析的初始解(一) 表1-2(a)显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度,表明对原有6个变量如果采用主成分分析法提取所有特征根(6个),那么原有变量的所有方差都可被解释,变量的共同度均为1。第二列是在按指定提取条件提取特征根时的共同度。可以看到,所有变量的绝大部分信息(大于84%)可被因子解释,这些变量的共同度均较高,变量的信息丢失较少,只有交通运输这个变量的信息丢失较多(近20%),因此本次因子提取的总体效果不理想。 重新指定特征根的标准,指定提取两个因子,结果如下:

最新spss统计练习题及答案

SPSS统计练习题及答案 一、选择题(选择类) (A)1、在数据中插入变量的操作要用到的菜单是: A Insert Variable; B Insert Case; C Go to Case; D Weight Cases (C)2、在原有变量上通过一定的计算产生新变量的操作所用到的菜单是: A Sort Cases; B Select Cases; C Compute; D Categorize Variables (C)3、Transpose菜单的功能是: A 对数据进行分类汇总; B 对数据进行加权处理; C 对数据进行行列转置; D 按某变量分割数据 (A)4、用One-Way ANOVA进行大、中、小城市16岁男性青年平均身高的比较,结果给出sig.=0.043,说明: A. 按照0.05显著性水平,拒绝H0,说明三种城市的平均身高有差别; B. 三种城市身高没有差别的可能性是0.043; C. 三种城市身高有差别的可能性是0.043; D. 说明城市不是身高的一个影响因素 (B)5、下面的例子可以用Paired-Samples T Test过程进行分析的是:A 家庭主妇和女大学生对同种商品喜好的差异; B 服用某种药物前后病情的改变情况; C 服用药物和没有服用药物的病人身体状况的差异; D性别和年龄对雇员薪水的影响 二、填空题(填空类) 6、Merge Files菜单用于合并数据库有两种情况:如果两数据库变量相同,是_观测对象__的合并;如果不同,则是_变量__的合并。 7、用于对计数资料和有序分类资料进行统计描述和简单的统计推断,在分析时可以产生二维或多维列联表,在统计推断时能进行卡方检验的菜单是_ Crosstabs __。 8、One-Samples T Test过程用于进行样本所在总体均数___与__已知总体均数_的比较。 三、名词解释(问答类) 9、Repeated Measures:重复测量的方差分析,指的是一个因变量被重复测量好几次,从而同一个个体的几次观察结果间存在相关,这样就不满足普通分析的要求,需要用重复测量的方差分析模型来解决。 10、Chi-Square test:卡方检验,它是非参数检验的一种方法,来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。 四、简答题(问答类) 11、用SPSS对数据进行分析的基本流程是什么? 答:(1)、将数据输入SPSS,并保存; (2)、进行必要的预分析(分布图、均数标准差等的描述等),以确定应采用的检验方法; (3)、按题目要求进行统计分析; (4)、保存和导出分析结果。 12、对数据进行方差分析时,Univariate菜单和Multivariate菜单最大的区别是什么? 答:当因变量只有一个时,使用Univariate菜单,当因变量不止一个时,使用Multivariate菜单。 13、简述SPSS打开其它格式数据的几种方法? 答:(1)、直接打开:选择菜单File==>Open==>Data或直接单击快捷工具栏上的打开按钮; (2)、使用数据库查询打开:选择菜单File==>Open Database==>New Query,根据向导打开数据; (3)、使用文本向导读入文本文件:选择菜单File==>Read Text Data 14、指定数据按某个变量进行排序需要用到哪个菜单?

教育统计学课后练习参考答案

教育统计学课后练习参考答案 第一章 1、教育统计学,就是应用数理统计学的一般原理和方法,对教育调查和教育实验等途径所获得的数据资料进行整理、分析,并以此为依据,进行科学推断,从而揭示蕴含在教育现象中的客观规律的一门科学。 教育统计学既是统计科学中的一个分支学科,又是教育科学中的一个分支学科,是两种科学相互结合、相互渗透而形成的一门交叉学科。从学科体系来看,教育统计学属于教育科学体系的一个方法论分支;从学科性质来看,教育统计学又属于统计学的一个应用分支。 2、描述统计主要是通过对数据资料进行整理,计算出简单明白的统计量数来描述庞大的资料,以显示其分布特征的统计方法。 推断统计又叫分析统计,它根据统计学的原理和方法,从我们所研究的全体对象(即总体)中,按照等可能性原则采取随机抽样的方法,抽出总体中具有代表性的部分个体组成样本,在样本所提供的数据的基础上,运用概率理论进行分析、论证,在一定可靠程度上对总体的情况进行科学推断的一种统计方法。 3、在自然界或教育研究中,一种事物常存在几种可能出现的情况或获得几种可能的结果,这类现象称为随机现象。 随机现象具的特点: (1)一次条件完全相同的实验有多种可能的结果(这样的实验称为随机实验); (2)在实验之前不能确切知道哪种结果会发生; (3)在相同的条件下可以重复进行这样的实验。 4、总体,也叫做母体或全域,是指具有某种共同特征的个体的总和。 当所研究的总体数量非常大时,可以从总体中抽取其中一部分个体来观测,由此来推断总体的信息,从总体中抽出的这部分个体就称为样本,它是用以表征总体的个体的集合。 通常将样本中样本个数大于或等于30个的样本称为大样本,小于30个的称为小样本。 5、复置抽样指每次抽出的个体经观测后,仍放回原总体,然后再从总体中抽取下一个个体。 6、反映总体特征的量数叫做总体参数,简称参数。反映样本特征的量数叫做样本统计量,简称统计量。 参数是总体的真正数值,是固定的常量,理论上应该通过计算总体中全部个体的数值而获得,但由于总体中个体的数量通常很大,总体参数往往很难获得,在统计分析中一般通过样本的数值来估计。在进行推断统计时,就是根据样本统计量来推断总体相应的参数。 第二章 1、按照数据的来源,可分为计数数据和度量数据;按照数据的取值情况,可分为间断性数据和连续性数据;按照数据的测量水平,可分为称名数据、顺序数据、等距数据和比率数据。 2、数据整理的基本方法包括对数据进行排序、统计分组、绘制统计图表等。 3、表的结构要简洁明了;表的层次要清晰;主谓分明。 4、连续性数据:(2),(3);间断性数据:(1),(4)。 5、略 6、(1)50;(2)75;(3)34;(4)5;(5)45

精选-《教育统计学》复习题及答案

《教育统计学》复习题及答案 一、填空题 1.教育统计学的研究对象是.教育问题。 2.一般情况下,大样本是指样本容量.大于30 的样本。 3.标志是说明总体单位的名称,它有.品质标志和数量标志两种。 4.统计工作的三个基本步骤是:、和。 5.集中量数是反映一组数据的趋势的。 6.“65、66、72、83、89”这组数据的算术平均数是。 7.6位学生的身高分别为:145、135、128、145、140、130厘米,他们的众数是。 8.若某班学生数学成绩的标准差是8分,平均分是80分,其标准差系数是。 9.参数估计的方法有和两种。 10.若两个变量之间的相关系数是负数,则它们之间存在。 11.统计工作与统计资料的关系是和的关系。 12.标准差越大,说明总体平均数的代表性越,标准差越小,说明总体平均数的代表性越。 13.总量指标按其反映的内容不同可以分为和。 二、判断题 1、教育统计学属于应用统计学。() 2、标志是说明总体特征的,指标是说明总体单位特征的。() 3、统计数据的真实性是统计工作的生命() 4、汉族是一个品质标志。() 5、描述一组数据波动情况的量数称为差异量数。() 6、集中量数反映的是一组数据的集中趋势。() 7、在一个总体中,算术平均数、众数、中位数可能相等。() 8、同一总体各组的结构相对指标数值之和不一定等于100%。() 9、不重复抽样误差一定大于重复抽样误差。() 10. 一致性是用样本统计量估计统计参数时最基本的要求。() 三、选择题 1.某班学生的平均年龄为22岁,这里的22岁为( )。

A.指标值 B.标志值 C.变量值 D.数量标志值 2.统计调查中,调查标志的承担者是( )。 A.调查对象 B.调查单位 C.填报单位 D.调查表 3.统计分组的关键是( )。 A.确定组数和组距 B.抓住事物本质 C.选择分组标志和划分各组界限 D.统计表的形式设计 4.下列属于全面调查的有( )。 A.重点调查 B.典型调查 C.抽样调查 D.普查 5.统计抽样调查中,样本的取得遵循的原则是( )。 A.可靠性 B.准确性 C.及时性 D.随机性 6. 在直线回归方程Yc =a+bx中,b表示( )。 A.x增加1个单位,y增加a的数量 B.y增加1个单位,x增加b的数量 C.y增加1个单位,x的平均增加量 D.x增加1个单位,y的平均增加量 7.下列统计指标中,属于数量指标的有() A、工资总额 B、单位产品成本 C、合格品率 D、人口密度 8.在其他条件不变情况下,重复抽样的抽样极限误差增加1倍,则样本单位数变为( )。 A.原来的2倍 B.原来的4倍 C.原来的1/2倍 D.原来的1/4倍 四、简答题 1.学习教育统计学有哪些意义? 答:(1)教育统计是教育科学研究的工具; (2)学习教育统计学有利于教育行政和管理工作者正确掌握情况,进行科学决策; (3)教育统计是教育评价不可缺少的工具; (4)学习教育统计学有利于训练科学的推理与思维方法。 2.统计图表的作用有哪几方面? 1)表明同类统计事项指标的对比关系; (2)揭示总体内部的结构; (3)反映统计事项的发展动态; (4)分析统计事项之间的依存关系; (5)说明总体单位的分配; (6)检查计划的执行情况; (7)观察统计事项在地域上的分布。 3.简述相关的含义及种类。 答:相关就是指事物或现象之间的相互关系。

spss统计练习题及答案

SPSS 统计练习题及答案 一、选择题(选择类) (A )1、在数据中插入变量的操作要用到的菜单是: A In sert Variable; B In sert Case; C Go to Case; D Weight Cases (C )2、在原有变量上通过一定的计算产生新变量的操作所用到的菜单是: A Sort Cases ; B Select Cases ; C Compute ; D Categorize Variables (C )3、Transpose 菜单的功能是: A 对数据进行分类汇总; B 对数据进行加权处理; C 对数据进行行列转置; D 按某变量分割数据 (A ) 4、用One-Way ANOVAS 行大、中、小城市 16岁男性青年平均身高的比较,结果给出 sig=,说明: A. 按照显著性水平,拒绝 H,说明三种城市的平均身高有差别; B. 三种城市身高没有差别的可能性是; C. 三种城市身高有差别的可能性是; D. 说明城市不是身高的一个影响因素 (B ) 5、下面的例子可以用 Paired-Sampies T Test 过程进行分析的是: A 家庭主妇和女大学生对同种商品喜好的差异; B 服用某种药物前后病情的改变情况; C 服用药物和没有服用药物的病人身体状况的差异; D 性别和年龄对雇员薪水的影响 二、填空题(填空类) 6、Merge Files 菜单用于合并数据库有两种情况:如果两数据库变量相同,是 —变量—的合并。 7、用于对计数资料和有序分类资料进行统计描述和简单的统计推断,在分析时可以产生二维或多维列联表,在统计推 断时能进行卡方检验的菜单是 Crosstabs ____ 。 8 One-Sampies T Test 过程用于进行_样本所在总体均数 _______ 与__已知总体均数_的比较。 三、名词解释(问答类) 9、Repeated Measures :重复测量的方差分析,指的是一个因变量被重复测量好几次,从而同一个个体的几次观察结 果间存在相关,这样就不满足普通分析的要求,需要用重复测量的方差分析模型来解决。 10、Chi-Square test :卡方检验,它是非参数检验的一种方法,来检验变量的几个取值所占百分比是否和我们期望的 比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是 25%,或者是否符合我们所给出的一个比例(如分别为 10% 四、简答题(问答类) 11、 用SPSS 对数据进行分析的基本流程是什么 答:(1 )、将数据输入SPSS 并保存; (2)、进行必要的预分析(分布图、均数标准差等的描述等) (3 )、按题目要求进行统计分析; (4)、保存和导出分析结果。 12、 对数据进行方差分析时, Uni variate 菜单和Multivariate 答:当因变量只有一个时,使用 Uni variate 菜单,当因变量不止一 个时,使用 13、 简述SPSS 打开其它格式数据的几种方法 答:(1)、直接打开:选择菜单 File==>Open==>Data 或直接单击快捷工具栏上的打开按钮; (2) 、使用数据库查询打开:选择菜单 File==>Open Database==>New Query ,根据向导打开数据; (3) 、使用文本向导读入文本文件:选择菜单 F ile==>Read Text Data 14、 指定数据按某个变量进行排序需要用到哪个菜单 _观测对象—的合并;如果不同,则是 30% 40%和 20%)。 ,以确定应采用的检验方法; 菜单最大的区别是什么 Multivariate 菜

《统计分析与SPSS的应用(第五版)》课后练习答案解析(第4章)

WORD 格式整理 《统计分析与SPSS的应用(第五版)》(薛薇) 课后练习答案 第 4 章 SPSS基本统计分析 1、利用第2章第7题数据采用SPSS频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。 分析——描述统计——频率,选择“常住地”,“职业”和“年龄”到变量中,然后,图表——条形图——图表值(频率)——继续,勾选显示频率表格,点击确定。 Statistics 户口所在职业年龄 地 Valid282282282 N Missing 000 户口所在地 Frequency Percent Valid Cumulative Percent Percent 中心城市20070.970.970.9 Valid 边远郊区8229.129.1100.0 Total282100.0100.0 职业 Frequency Percent Valid Cumulative Percent Percent 国家机关248.58.58.5 商业服务业5419.119.127.7 文教卫生18 6.4 6.434.0 公交建筑业15 5.3 5.339.4 Valid 经营性公司18 6.4 6.445.7学校15 5.3 5.351.1 一般农户3512.412.463.5 种粮棉专业 4 1.4 1.464.9 户

WORD 格式整理 种果菜专业 10 3.5 3.568.4 户 工商运专业 3412.112.180.5户 退役人员17 6.0 6.086.5 金融机构3512.412.498.9 现役军人3 1.1 1.1100.0 Total282100.0100.0 年龄 Frequency Percent Valid Cumulative Percent Percent 20 岁以下4 1.4 1.4 1.4 20~35 岁14651.851.853.2 Valid 35~50 岁9132.332.385.5 50 岁以上4114.514.5100.0 Total282100.0100.0

现代心理与教育统计学课后题完整版50612

第一章绪论 1.名词解释 随机变量:在统计学上,把取值之前不能预料取到什么值的变量称之为随机变量 总体:又称为母全体、全域,指据有某种特征的一类事物的全体 样本:从总体中抽取的一部分个体,称为总体的一个样本 个体:构成总体的每个基本单元称为个体 次数:指某一事件在某一类别中出现的数目,又成为频数,用f表示 频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。频率通畅用比例或百分数表示概率:又称机率。或然率,用符号P表示,指某一事件在无限的观测中所能预料的相对出现的次数,也就是某一事物或某种情况在某一总体中出现的比率统计量:样本的特征值叫做统计量,又叫做特征值 参数:总体的特性成为参数,又称总体参数,是描述一个总体情况的统计指标 观测值:在心理学研究中,一旦确定了某个值,就称这个值为某一变量的观测值,也就是具体数据 2.何谓心理与教育统计学学习它有何意义 心理与教育统计学是专门研究如何运用统计学原理和方法,搜集。整理。分析心理与教育科学研究中获得的随机数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。 3.选用统计方法有哪几个步骤 首先要分析一下试验设计是否合理,即所获得的数据是否适合用统计方法去处理,正确的数量化是应用统计方法的起步,如果对数量化的过程及其意义没有了解,将一些不着边际的数据加以统计处理是毫无意义的 其次要分析实验数据的类型,不同数据类型所使用的统计方法有很大差别,了解实验数据的类型和水平,对选用恰当的统计方法至关重要 第三要分析数据的分布规律,如总体方差的情况,确定其是否满足所选用的统计方法的前提条件 4.什么叫随机变量心理与教育科学实验所获得的数据是否属于随机变量 随机变量的定义:①率先无法确定,受随机因素影响,成随机变化,具有偶然性和规律性②有规律变化的变量 5.怎样理解总体、样本与个体 总体N:据有某种特征的一类事物的全体,又称为母体、样本空间,常用N表示,其构成的基本单元为个体。特点:①大小随研究问题而变(有、无限)②总体性质由组成的个体性质而定 样本n:从总体中抽取的一部分交个体,称为总体的一个样本。样本数目用n表示,又叫样本容量。特点:①样本容量越大,对总体的代表性越强②样本不同,统计方法不同 总体与样本可以相互转化。 个体:构成总体的每个基本单元称为个体。有时个体又叫做一个随机事件或样本点

《统计分析与SPSS的应用(第五版)》课后练习答案.doc (1)

《统计分析与SPSS的应用(第五版)》课后练习答案 第一章练习题答案 1、SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案) 英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions) 2、SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。 ●数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据; ●结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。 3、SPSS的数据集: ●SPSS运行时可同时打开多个数据编辑器窗口。每个数据编辑器窗口分别显示不同 的数据集合(简称数据集)。 ●活动数据集:其中只有一个数据集为当前数据集。SPSS只对某时刻的当前数据集 中的数据进行分析。 4、SPSS的三种基本运行方式: ●完全窗口菜单方式、程序运行方式、混合运行方式。 ●完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按 钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简 洁和直观。 ●程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工 编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。该方式适用 于大规模的统计分析工作。 ●混合运行方式:是前两者的综合。 5、.sav是数据编辑器窗口中的SPSS数据文件的扩展名 .spv是结果查看器窗口中的SPSS分析结果文件的扩展名 .sps是语法窗口中的SPSS程序 6、SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。 7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原则抽取样本,抽取样本时每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的。概率抽样包括简单随机抽样、系统抽样(等距抽样)、分层抽样(类型抽样)、整群抽样、多阶段抽样等。 ●简单随机抽样(simple random sampling):从包括总体N个单位的抽样框中随机地 抽取n个单位作为样本,每个单位抽入样本的概率是相等的。是最基本的抽样方法,是其它抽样方法的基础。优点:简单、直观,在抽样框完整时,可直接从中抽取样 本,用样本统计量对总体参数进行估计比较方便。局限性:当N很大时,不易构造 抽样框,抽出的单位很分散,给实施调查增加了困难。 ●分层抽样(stratified sampling):将抽样单位按某种特征或某种规则划分为不同 的层,然后从不同的层中独立、随机地抽取样本。优点:保证样本的结构与总体的 结构比较相近,从而提高估计的精度,组织实施调查方便(当层是以行业或行政区 划分时),既可以对总体参数进行估计,也可以对各层的参数进行估计。 ●整群抽样(cluster sampling):将总体中若干个单位合并为组(群),抽样时直接抽 取群,然后对选中群中的所有单位全部实施调查。优点:抽样时只需群的抽样框, 可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施。缺点:估

相关文档
最新文档