现代心理教育与统计学第三版复习资料(张厚粲)

合集下载

张厚粲《现代心理与教育统计学》(第3版)配套题库[课后习题](差异量数)

第4章差异量数1．度量离中趋势的差异量数有哪些?为什么要度量离中趋势?答：（1）度量离中趋势的差异量数有全距、四分位差、百分位差、平均差、标准差与方差。

差异量数就是对一组数据的变异性，即离中趋势特点进行度量和描述的统计量，也称离散量数（measures of dispersion）。

（2）度量离中趋势的必要性在心理和教育研究中，要全面描述一组数据的特征，不但要了解数据的典型情况，而且还要了解特殊情况。

这些特殊性常表现为数据的变异性。

因此，只用集中量数不可能真实地反映出它们的分布情形。

为了全面反映数据的总体情况，除了必须求出集中量数外，这时还需要使用差异量数。

2．各种差异量数各有什么特点?答：（1）标准差计算最严密，它根据全部数据求得，考虑到了每一个样本数据，测量具有代表性，适合代数法处理，受抽样变动的影响较小，反应灵敏。

缺点是较难理解，运算较繁琐，易受极端值的影响。

（2）方差的描述作用不大，但是由于它具有可加性，是对一组数据中造成各种变异的总和的测量，通常采用方差的可加性分解并确定属于不同来源的变异性，并进一步说明各种变异对总结果的影响。

因此，方差是推论统计中最常用的统计量数。

（3）全距计算简便，容易理解，适用于所有类型的数据，但它易受极值影响，测量也太粗糙，只能反映分布两极端值的差值，不能显示全部数据的差异情况，仅作为辅助量数使用。

（4）平均差容易理解，容易计算，能说明分布中全部数值的差异情况，缺点是会受两极数值的影响，但当数据较多时，这种影响较小，因有绝对值也不适合代数方法处理。

（5）百分位差易理解，易计算，不易受极值影响，但不能反映出分布的中间数值的差异情况，也仅用作补助量数。

（6）四分位差意义明确，计算方便容易，对极端值不敏感，较不受极端值影响。

当组距不确定，其他差异量数都无法计算时，可以计算四分位差。

但是，四分位差无法反映分布中所有数据的离散状况，不适合使用代数方法处理，受抽样变动影响较标准差大。

张厚粲《现代心理与教育统计学》(第3版)配套题库[课后习题](线性回归)

dfR 1
MSR
SSR dfR
=118.95
dfE N 2 =8
MSE
SSE dfE
8.08
F MSR =14.72 MSE
查 F 表， F0.01(1,8) 5.32 ， F F0.05(1,8)
5．某研究所 10 名学生研习某教授的高级统计课程，期中与期末考试成绩见下表。请问该教授是否可以利用期中考试成绩来预测期末考试成绩?
4/6
圣才电子书十万种考研考证电子书、题库视频学习平台

解：（1）建立回归方程
经计算 X 79.2， Y 84.2， sX 8.75， sY =4.52
dfE N 2 =8
MSE
SSE dfE
230.5
F MSR =9.15 MSE
查 F 表， F0.05(1,8) 5.32 ， F F0.05(1,8)
3/6
圣才电子书

方差分析表如下
十万种考研考证电子书、题库视频学习平台
变异来源
自由度
平方和
均方
F
F0.05(1,8)
bYX
Y Y
2
=0.57
X X
a Y bX 23.13
则回归方程为 Yˆ 23.13 0.57X 。
（2）对回归方程进行检验
SST
Y2
Y 2
N
=3952.5
SSR
b2
X
2
X
N
2
=2108.6
SSE SST SSR =1843.9
dfR 1
MSR
SSR dfR
=2108.6
SST SSR N 2
MSE =15.18
2

张厚粲《现代心理与教育统计学》(第3版)配套题库【章节题库】第1章~第3章【圣才出品】

第三部分章节题库第1章绪论一、单选题1．三位研究者评价人们对四种速食面品牌的喜好程度。

研究者甲让评定者先挑出最喜欢的品牌，然后挑出剩下三种品牌中最喜欢的，最后再挑出剩下两种品牌中比较喜欢的。

研究者乙让评定者将四种品牌分别给予1—5的等级评定，（1表示非常不喜欢，5表示非常喜欢），研究者丙只是让评定者挑出自己最喜欢的品牌。

研究者甲，乙，丙所使用的数据类型分别是：（）A．类目型---顺序型---计数型B．顺序型---等距型---类目型C．顺序型---等距型---顺序型D．顺序型---等比型---计数型【答案】B2．调查了n＝200个不同年龄组的被试对手表显示偏好程度偏好程度年龄组数字显示钟面显示不确定30岁或以下90401030岁以上104010该题自变量与因变量的数据类型分别是：（）A．类目型-顺序型B．计数型-等比型C．顺序型-等距型D．顺序型-命名型【答案】D3．157．5这个数的上限是（）。

A．157．75B．157．65C．157．55D．158．5【答案】C4．随机现象的数量化表示称为（）。

A．自变量B．随机变量C．因变量D．相关变量【答案】B5．实验或研究对象的全体被称之为（）。

A．总体B．样本点C．个体D．元素【答案】A6．下列数据中，哪个数据是顺序变量?（）A．父亲的月工资为1300元B．小明的语文成绩为80分C．小强100米跑得第2名D．小红某项技能测试得5分【答案】C二、概念题1．描述统计（吉林大学2002研）答：描述统计指研究如何整理心理教育科学实验或调查的数据，描述一组数据的全貌，表达一件事物的性质的统计方法。

比如整理实验或调查来的大量数据，找出这些数据分布的特征，计算集中趋势、离中趋势或相关系数等，将大量数据简缩，找出其中所传递的信息。

2．推论统计（中国政法大学2005研，浙大2000研）答：推论统计又称推断统计，主要研究如何通过局部数据所提供的信息，推论总体或全局的情形；如何对假设进行检验和估计；如何对影响事物变化的因素进行分析；如何对两件事物或多种事物之间的差异进行比较等。

张厚粲《现代心理与教育统计学》(第3版)配套题库[课后习题](多变量统计分析简介)

第13章多变量统计分析简介1．探索性因素分析与验证性因素分析有什么区别?答：(1)探索性因素分析（exploratory factor analysis，简写为EFA）就是指传统的因素分析。

这种因素分析方法对于观察变量因子结构的寻找，并未有任何事前的预设假定。

对于因子的抽取、因子的数目、因子的内容以及变量的分类，研究者也没有事前的预期，而是由因素分析的程序去决定。

在典型的EFA中，研究者通过共变关系的分解，找出最低限度的主要成分（principal component）或共同因子（common factor），然后进一步探讨这些主成分或共同因子与个别变量的关系，找出观察变量与其相对应因子之间的强度，也就是因子负荷值（factor loading），以说明因子与所属的观察变量的关系，决定因子的内容，为因子取一个合适的名字。

由于传统的因素分析企图找出最少的因子来代表所有的观察变量，因此研究者必须在因子数目与可解释变异量（explained variance）两者间寻找平衡点。

因为因素分析至多可以抽取出相等于观察变量总数的因子数目，这样，虽然可以解释全部百分之百的变异，但失去因素分析找寻因子结构的目的，但如果研究者企图以少数几个较明显的因子来代表所有的项目，势必然将损失部分可解释变异来作为代价。

因而在EFA中，研究者相当一部分工作是在决定因子数目与提高因子解释的变异（即R square）。

(2)验证性因素分析（confirmatory factor analysis，简写为CFA）是在研究人员积极改善传统因素分析的限制，扩大其应用范围的基础上产生的。

这类因素分析要求，研究者对于潜在变量的内容与性质，在测量之初就必须有非常明确的说明，或有具体的理论基础，并已先期决定相对应的观察变量的组成模式，进行因素分析的目的是为了检验这一先期提出的因子结构的适合性。

这种因素分析方法也可用于理论架构的检验，它在结构方程模型中占有相当重要的地位，有着重要的应用价值，也是近年来心理测量与测验发展中相当重视的内容。

张厚粲《现代心理与教育统计学》第3版笔记和课后习题含考研真题详解(概率分布)【圣才出品】

3 / 64
圣才电子书十万种考研考证电子书、题库视频学习平台

1．离散分布与连续分布这是依随机变量是否具有连续性来划分的概率分布类型。当随机变量只取孤立的数值时，这种随机变量称做离散随机变量，即计数数据。离散随机变量的概率分布又称作离散分布，可用分布函数加以数量化描述。在心理与教育统计中最常用的离散分布为二项分布，除此之外还有泊松分布（ Poisson distribution ）和超几何分布（ hypergeometric distribution）等。连续分布是指连续随机变量的概率分布，即测量数据的概率分布，它用连续随机变量的分布函数描述它的分布规律。统计中最常用的连续随机变量的分布为正态分布，其他连续分布如负指数分布、威布尔分布等。 2．经验分布与理论分布这是依分布函数的来源而划分的分布类型。经验性分布（empirical distribution）是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。经验分布往往是总体的一个样本，它可对所研究的对象给以初步描述，并作为推论总体的依据。理论性分布（theoretical distribution）有两个含义，一是随机变量概率分布的函数——数学模型，二是指按某种数学模型计算出的总体的次数分布。随机变量概率分布的性质，由它的特征数来表达。这些特征数主要有期望值，即理论平均数；方差，即理论的标准差的平方。因此，在统计推论部分通常只用平均数和标准差，而不采用其他集中量数与差异量数。 3．基本随机变量分布与抽样分布这是依概率分布所描述的数据特征而划分的概率分布类型。心理与教现代心理与教育统对学育统计中常用的基本随机变量分布有二项分布与正态分布。抽样分布（ sampling distribution）是样本统计量的理论分布。样本统计量有：平均数、两平均数之差、方差、

张厚粲《现代心理与教育统计学》(第3版)配套题库[课后习题](假设检验)

第8章假设检验1．从假设检验的过程看，统计推断有什么特点? 答：（1）假设检验的基本过程是①根据问题要求，提出虚无假设0H 和备择假设1H 。

②选择适当的检验统计量。

③规定显著性水平α。

④计算检验统计量的值。

⑤做出决策。

（2）从假设检验的过程看，“反证法”是统计推论的一个重要特点。

假设检验是推论统计中最重要的内容，它的基本任务就是事先对总体参数或总体分布形态做出一个假设，然后利用样本信息来判断原假设是否合理，从而决定是否接受原假设。

假设检验的基本思想是概率性质的反证法。

为了检验虚无假设，首先假定虚无假设为真。

在虚无假设为真的前提下，如果导致违反逻辑或违背人们常识和经验的不合理现象出现，则表明“虚无假设为真”的假定是不正确的，也就不能接受虚无假设。

若没有导致不合理现象出现，那就认为“虚无假设为真”的假定是正确的，也就是说要接受虚无假设。

2．从α与β两类错误的关系分析，为什么α与β的和不一定等于1？答：α与β是在两个前提下的概率。

α是拒绝0H 时犯错误的概率（这时前提是“0H 为真”）；β是接受0H 时犯错误的概率（这时“0H 为假”是前提），所以αβ+不一定等于1。

图8．3 α与B 的关系示意图如果010H μμ=：为真，关于i X 与μ的差异就要在图8．3中左边的正态分布中讨论。

对于某一显著性水平α，其临界点为X α。

（将两端各/2α放在同一端）。

X α右边表示0H 的拒绝区，面积比率为α；左边表示0H 的接受区，面积比率为1α-。

在“0H 为真”的前提下随机得到的i X 落到拒绝区时拒绝0H 是犯了错误的。

由于i X 落到拒绝区的概率为α，因此拒绝在“0H 为真”时所犯错误（I 型）的概率等于α。

而又落到0H 的接受区时，由于前提仍是“0H 为真”，因此接受0H 是正确决定，i X 落在接受区的概率为1α-。

，那么正确接受0H 的概率就等于1α-。

如0.05α=则10.95α-=，这0．05和0．95均为“0H 为真”这一前提下的两个概率，一个指犯错误的可能性，一个指正确决定的可能性，这二者之和当然为1。

张厚粲现代心理与教育统计学第3版笔记和课后习题含考研真题

张厚粲《现代心理与教育统计学》（第3版）笔记和课后习题（含考研真题）第一部分复习笔记本章重点ü心理与教育统计的研究内容ü选择使用统计方法的基本步骤ü统计数据的基本类型ü心理与教育统计的基本概念一、统计方法在心理和教育科学研究中的作用（一）心理与教育统计的定义与性质1．心理与教育统计学是专门研究如何运用统计学原理和方法，搜集、整理、分析心理与教育科学研究中获得的随机性数据资料，并根据这些数据资料传递的信息，进行科学推论找出心理与教育活动规律的一门学科。

2．具体讲，就是在心理与教育研究中，通过调查、实验、测量等手段有意地获取一些数据，并将得到的数据按统计学原理和步骤加以整理、计算、绘制图表、分析、判断、推理，最后得出结论的一种研究方法。

3．统计学大致分为理论统计学（theoretical statistics）和应用统计学（applied statistics）两部分。

前者侧重统计理论与方法的数理证明，后者侧重统计理论与方法在各个实践领域中的应用。

心理与教育统计学属于应用统计学范畴，是应用统计学的一个分支。

类似的还有生物统计、社会统计、医学统计、人口统计、经济统计等。

（二）心理与教育科学研究数据的特点1．心理与教育科学研究数据与结果多用数字形式呈现2．心理与教育科学研究数据具有随机性和变异性3．心理与教育科学研究数据具有规律性4．心理与教育科学研究的目标是通过部分数据来推测总体特征（三）学习心理与教育统计应注意的事项1．学习心理与教育统计学要注意的几个问题（1）学习心理与教育统计学时，必须要克服畏难情绪。

心理与教育统计学偏重于应用，只要有中学数学知识就具备了学好心理与教育统计学的前提。

（2）在学习时要注意重点掌握各种统计方法使用的条件。

（3）要做一定的练习。

2．应用心理与教育统计方法时要做到：（1）克服“统计无用”与“统计万能”的思想，注意科研道德。

（2）正确选用统计方法，防止误用和乱用统计。

张厚粲《现代心理与教育统计学》(第3版)【章节题库】(非参数检验)

第11章非参数检验一、单选题1．秩和检验法首先由（）提出。

A．弗里德曼B．维尔克松C．惠特尼D．克—瓦氏【答案】B2．秩和检验与参数检验中的（）相对应。

A．两独立样本平均数之差t检验B．相关样本的t检验C．独立样本的t检验D．配对样本差异显著性t检验【答案】C3．符号检验法与参数检验中的（）相对应。

A．两独立样本平均数之差t检验B．相关样本的t检验C．独立样本的t检验D．配对样本差异显著性t检验【答案】D4．在秩和检验中，当两个样本容量都大于10时，秩和分布为（）。

A．T分布B．接近t分布C．接近正态分布D．接近F分布【答案】C5．参数检验中两独立样本的平均数之差的t检验，对应着非参数检验中的（）。

A．秩和检验法B．中数检验法C．符号检验法D．符号等级检验法【答案】B6．运用非参数分析时，要求处理的数据是（）。

A．十分精确的B．自由分布的C．大量的D．等级形式的【答案】A二、多选题1．非参数检验包括（）A．秩和检验法B．中数检验法C．符号检验法D．等级方差分析【答案】ABCD2．两个独立样本的非参数检验方法有（）A．秩和检验法B．中数检验法C．符号检验法D．等级方差分析【答案】AB3．配对样本的非参数检验方法有（）A．秩和检验法B．中数检验法C．符号检验法D．等级方差分析【答案】CD三、概念题1．非参数检验（华东师大2002研，西北师大2002研，苏州大学2002研）答：非参数检验指对总体分布形式所知甚少，需要对未知分布函数的形式及其他特征进行假设检验。

常见的非参数检验有符号检验、秩和检验、中数检验等。

其优点：（1）不需要对被检验的总体作出关于正态性或其他特定分布的假定；（2）容易理解、容易操作、应用范围广。

缺点是功效较低，因为它常会丢失数据中的信息。

经常属于大样本检验。

2．参数检验(parametric test)答：参数检验是统计假设检验的一种。

与“非参数检验”相对。

适用于总体分布形式已知。

张厚粲《现代心理与教育统计学》第3版笔记和课后习题含考研真题详解(参数估计)【圣才出品】

（三）区间估计与标准误 1．区间估计的定义区间估计（interval estimation）就是根据估计量以一定可靠程度推断总体参数所在的区间范围，它是用数轴上的一段距离表示未知参数可能落入的范围，它虽不具体指出总体参数等于什么，但能指出未知总体参数落入某一区间的概率有多大。区间估计在点估计的基础上，不仅给出一个估计的范围，使总体参数包含在这个范围之内，而且还能给出估计精度并说明估计结果的有把握的程度。 2．置信区间与显著性水平置信区间，也称置信间距（confidence interval，CI），是指在某一置信度时，总体参数所在的区域距离或区域长度。置信区间的上下二端点值称为置信界限（ confidence limits）。显著性水平（significance level）是指总体参数落在某一区间时，可能犯错误的概率，用符号α表示。有时，也称之为意义阶段、信任系数等。1-α为置信度或置信水平（confidence level）。 0.95 置信区间=0.05 显著性水平的置信区间。 0.99 置信区间=0.01 显著性水平的置信区间。显著性水平在假设检验中，还指拒绝虚无假设时可能出现的犯错误的概率水平。
一、点估计、区间估计与标准误参数估计分为点估计和区间估计。（一）点估计的定义点估计（point estimation）是用样本统计量来估计总体参数，因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示，所以称为点估计。
1 / 39
圣才电子书十万种考研考证电子书、题库子书、题库视频学习平台

3．区间估计的原理与标准误区间估计是根据样本分布理论，用样本分布的标准误（SE）计算区间长度，解释总体参数落入某置信区间可能的概率。区间估计存在成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时，总希望估计值的范围小一点，成功的概率大一些。但在样本容量一定的情况下，这两个要求是一对矛盾。如果想使估计正确的概率加大，势必要将置信区间加长，就像在百分制的测验中，估计一个人的得分可能为 0 至 100 分之间就绝对正确一样。反之，如果要使估计的区间变小，那就会降低正确估计的概率。统计分析中一般采取一种妥协办法：在保证置信度的前提下，尽可能提高精确度。规定正确估计的概率，即置信度为 0.95 或 0.99，那么显著性水平则为 0.05 或 0.01，这是依据 0.05 或 0.01 属于小概率事件，而小概率事件在一次抽样中是不可能出现的原理规定的。α =0.01 表示反复抽样 1000 次，则得到的 1000 个区间中不包含参数真值的仅为 10 个左右。 0.05 水平和 0.01 水平也是人们习惯上常用的两个显著性水平。区间估计的原理是样本分布理论。在计算区间估计值，解释估计的正确概率时，依据的是该样本统计量的分布规律及样本分布的标准误（SE）。也就是说，只有知道了样本统计量的分布规律和样本统计量分布的标准误才能计算总体参数可能落入的区间长度，并对区间估计的概率进行解释，可见标准误及样本分布对于总体参数的区间估计是十分重要的。样本分布可提供概率解释，而标准误的大小决定区间估计的长度。一般情况下，加大样本容量可使标准误变小。

张厚粲《现代心理与教育统计学》(第3版)配套题库[课后习题](卡方检验)

1 / 21
圣才电子书十万种考研考证电子书、题库视频学习平台

两个母总体是同质的，反之，则说这两个母总体是异质的。
3．比率的显著性检验与 2 检验的哪些应用有相同功能?
答：在只有两项分类的 2 检验与比例的显著性检验相同。在比率显著性检验时，先将所关心的某一性质的实计数换算成比率 p ， p 1 q ， q 为非某一性质分类的次数比率。若
圣才电子书十万种考研考证电子书、题库视频学习平台

第 10 章卡方检验
1．对于计数数据的统计分析方法有哪些? 答：可用于计数数据的统计分析方法有： 2 检验、配合度检验、四个表独立检验、多重列联表分析等。
2． 2 检验法在计数数据的分析中有哪些应用? 答： 2 检验因研究的问题不同，可以细分为多种类型，如配合度检验、独立性检验、同质性检验等等。（1）配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近，这种 2 检验方法有时也称为无差假说检验。当对连续数据的正态性进行检验时，这种检验又可称为正态吻合性检验。（2）独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立性的问题。两个因素是指所要研究的两个不同事物。例如性别与对某个问题的态度是否有关系，这里性别是一个因素，分为男女两个类别，态度是另一个因素，可分为赞同、不置可否、反对等多种类别。各因素分类的多少视研究的内容及所划分的分类标志而定。这种类型的 2 检验适用于探讨两个变量之间是否具有关联（非独立）或无关（独立），如果再加入另一个变量的影响，即探讨三个变量之间关系时，就必须使用多维列联表分析方法。（3）同质性检验主要目的在于检定不同人群母总体在某一个变量的反应是否具有显著差异。当用同质性检验检测双样本在单一变量的分布情形，如果两样本没有差异，就可以说

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章绪论1.描述统计（descriptive statistics)主要研究如何将实验或调查得到的大量数据进行图表整理或简缩成有代表性的数字（即统计量数），使其能客观、全面地反映这组数据的全貌，将其所提供的信息充分显现出来，为进一步统计分析和推论提供可能。

2.描述统计只限于对试验样本所得观测数据的统计分析，不考察其总体的特性。

3.推论统计(inferential statistics)是以描述统计为基础，从而解决由局部到全体的推论问题，即通过对一组统计量的计算分析，推论该组数据所代表的总体特性。

4.变量(variables)：一个可以取不同数值的物体属性/事件。

5.事前无法预期结果的变量——随机变量6.观测值（原始取值）：事后测定的某一结果。

7.概念理解：[涉及“实验”] 自变量（及其各水平）& 因变量（及相应的反应指标）；[涉及“调查”，粗略对应于] 属性变量& 反应变量8.计数资料(count data)：计算个数的数据，（如人口数，学校数，男女数等）9.计量资料(measurement data)：借助于一定的测量工具或一定的测量标准而获得的数据（如分数，身高，体重，IQ）10.称名数据(nominal data)：只区分属性或类别上的不同，只可计数，不能排序（性别，学科，职业）11.等级/顺序数据(ordinal data)：可排序，但无相等单位，不能加减。

（等级评定，受教育程度，职称）12.等距数据(interval data)：具有相等单位，无绝对零的数据，能加减不能乘除。

13.比率数据(ratio data)：既表明量的大小，又具有相等单位，可以加减乘除，具有绝对零点。

14.称名数据和顺序数据合称为离散数据。

15.等距数据和比率数据合称为连续数据。

16.离散数据(discrete data)又称为不连续数据，这类数据在任何两个数据点之间所取的数据的个数是有限的。

17.连续数据(continuous data)指任意两个数据点之间都可以细分出无限多个大小不同的数值。

18.总体(population)：具有某种特征的一类事物的全体。

用N表示。

19.个体(individual)：构成总体的每个基本单元。

20.样本(sample)：从总体中抽取的一部分个体。

21.频数（frequency）：某一时间在某一类别中出现的数目22.频率：某一事件数目与此类别所有事件数目之比。

23.概率：用P。

某一事件在无限的观测中所能预料的相对出现的次数。

24.参数（parameter）：描述总体特征的统计指标25.样本统计量/特征值：描述样本特征的统计指标。

26.统计量（statistics）：样本的特征值第二章统计图表1.统计分组是根据被研究对象的特征，将所得数据划分到时各个级别中去。

2.统计分组应注意的问题：①分组要以被研究对象的本质特性为基础。

②分类标志的确立必须坚持穷尽性和互斥性原则。

3.分组次数分布表编制步骤：①求全距（最大值与最小值之差）②决定组距与组数③列出分组区间（精确组限、组中值）：注意核实是否满足穷尽和互斥原则。

④登记并计算次数⑤编制次数分布表。

4.条形图适用资料为离散数据，饼图适用资料是间断性（离散性）资料，线形图、散点图用于连续性资料5.条形图与直方图的区别：①适用资料不同；②横轴标尺不同；③图形形状不同。

6.累加折线图 → 累加曲线图（如，图2-8）：分正偏态、正态、负偏态三种（如，图2-9）P.437.第三章集中量数1.集中趋势：数据向某方向的集中程度。

离中趋势：数据彼此的分散程度。

用来描述一组数据这两种特点的统计量即为集中量数和差异量数。

2.平均数的计算：N fX X c∑=，i N fd AM X ⨯+=∑其中，∑f 为各组数据的总次数（等于N ），X c 为各分组区间的组中值，f 为各组次数，AM 为估计平均数，i 为组距。

p.563.平均数的特点①离均差总和为0。

②每个数加上C ，则所得平均数为原平均数加上C。

③每个数乘以C，则所得平均数为原平均数乘以C。

4.平均数的优缺点1、优点：①反应灵敏。

②计算严密。

③计算简单。

④简明易解。

⑤适合于进一步代数演算。

⑥较少受抽样变动的影响。

2、缺点：①易受极值的影响。

“修剪平均数”②若有数据不够确切，则无法计算该样本平均数。

5.中数又称中位数/中点数，符号为Md（Median），是指一组数据中位于较大一半与较小一半中间位置的那个数。

适用资料：顺序数据及以上6.中数计算方法，p.617.中数优点：计算严密；计算简单；简明易解。

缺点：反应不灵敏；不适合进一步代数演算；受抽样变动影响较大。

8.众数又称范数/密集数/通常数，符号Mo（Mode），是指一组数据中出现次数最多那个数。

适用资料：称名数据及以上9.众数一般计算方法：直接观察10.众数优点：简明易解。

缺点：反应不灵敏；不适合进一步代数演算；受抽样变动影响较大。

11.正态分布中三者相等，正偏态中M > Md > Mo，负偏态中M < Md < Mo。

P.66第四章差异量数1．全距又称两极差，用最大值与最小值之差来表示离中趋势，符号R （range），R=X max-X min适用于等距数据及以上（将就也会用于顺序数据），计算所得数值越大，表明数据越离散/分散。

2．百分位差：用百分位数之间的差值来表示离中趋势，常用的有P90-P10、P93-P7。

3．四分位差（及四分位数）可视为百分位差的一种，符号Q（quartile deviation），公式Q =（P75 - P25）/2（即第三个四分位数与第一个四分位数之差的一半）4．平均差：离均差绝对值的均值，符号A.D.，公式5．平均差优缺点：描述离中趋势/离散程度最为直观，计算简单严密易懂、反应灵敏、受抽样变动影响小；但受限于取绝对值不利于进一步代数运算，因此仍属低效，应用不多。

（与平均数差不多）6．方差：离均差平方的均值，符号S2，公式7．标准差：符号S、s或SD，公式8．方差性质：①方差的可加性和可分解性②每个数加上C，则所得标准差等于原标准差。

③每个数乘以C，则所得标准差为原标准差乘以C。

9．优势①反应灵敏。

②计算严密。

③(还算)计算简单。

④(还算)简明易懂。

⑤适合于进一步代数演算。

⑥较少受抽样变动的影响。

缺点：①受极端数据影响大，若有缺失值，则计算不出标准差10．差异系数（coefficient of variation）用以比较多组数据之间离散程度的大小。

常用于：①同一团体不同观测值离散程度的比较（如，身高vs. 体重）；②（各均值相差较大时）不同团体同种观测值离散程度的比较（如，成人体重vs. 小孩体重）11．差异系数计算公式：①适用资料至少是等距，理论要求为比率数据；②尚不能进行统计推论。

12．标准分数（standard score，又称Z分数）是以标准差为单位来表示一个原始分数在团体中所处的相对位置量数。

可用以比较多个数在其所在数组分布中的相对位置的高低（Z分数越大，表明该数据在其分布中取值越大、相对位置越靠前）。

计算公式：13．标准分数的优缺点优点：可比性；可加性；明确性；稳定性。

缺点：计算相对繁琐；常为负数或带有小数，难理解标准分数的应用（适用前提：正态变量）⑴（利用Z分数具有可比性）用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。

⑵（再利用Z分数具有可加性）计算不同质的观测值的总和，以表示在团体中的相对位置。

[自习例4-9、4-10]⑶表示标准测验分数。

（如，“离差智商”，自习）⑷极端数据的取舍：M±2S或M±3S标准（即“正负两个或三个标准差原则”）第五章相关关系1.相关关系：变量之间存在相互联系，但不能直接做因果判断。

2.相关系数（coefficient of correlation）：变量间相关程度的数字表现形式，即表示相关强度的指标（相关量数）。

符号：样本r ，总体ρ3.取值范围：-1≤r≤1该式表明：①相关系数的取值范围介于-1.00至+1.00之间，他是一个比率，常用小数形式表示。

②正负只表示方向，取值大小表示相关的强弱程度（值越大，相关越高）。

③相关系数r=+1.00时表示完全正相关。

④它只是顺序数据；4.散点图（scatter plot）以点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度。

5.皮尔逊积差相关（Pearson’s product-moment correlation）适用资料适用资料[诸多条件缺一不可！]①（大样本的）成对数据（表现为两组数据存在一一对应关系），每对数据相互独立。

②正态双变量（即两总体服从正态分布或渐近正态的单峰分布）。

[样本咋样就不管了]③两数据类型均为连续数据（即等距/比率数据）。

④两变量呈直线相关（先用散点图预测）6.皮尔逊积差相关计算公式：7.斯皮尔曼等级相关（Spearman’s rank correlation）符号：rR或rS适用资料①两列变量，成对数据，各对数据相互独立；②均为顺序数据（及以上）；③直线相关。

8.斯皮尔曼相关（较之积差相关）优点：适用范围大；缺点：精确度低。

因此，凡符合计算积差相关的资料，不要用等级相关计算。

9.斯皮尔曼等级相关计算公式：10.肯德尔W系数（和谐系数，Kendall’s concordance coefficient）P128适用资料：多列等级变量。

采用等级评定法或排序评定法所获得的资料。

（评分者信度）11.肯德尔U系数（一致性系数，Kendall’s consistency coefficient）适用资料：多列等级变量。

采用对偶比较法所获得的资料。

12.点二列相关分为：真正的vs. 人为的二分变量；后者可降级为前者。

13.点二列相关适用资料：连续变量与真正的二分变量,常用以评价是非题之类测验的内部一致性等。

连续数据与人为二分变量常用二列相关.14.求连续变量与顺序变量之间相关系数的降级方法通常为：①连续↘顺序求斯皮尔曼等级相关；②顺序↘称名求质量相关。

（前者居多）15.多列相关适用资料：两列正态变量，连续+人为地分成多组。

16.四分相关适用资料：两个都是人为的二分变量（本来是连续数据），其R ×C表为四格表。

17.Φ相关（系数）适用资料：两个都是真正的二分变量，其R×C表为四格表。

第六章概率分布1.频率：在对随机事件进行n次观测中，事件A出现m次，则m/n称为n 次试验中A出现的频率。

2.后验概率：当n→∞时，m/n将稳定于某个常数P上，P即为概率。

特点：试验之前无法预计，只有借助试验结果来估计。

3.先验概率：如果基本事件的总数为n，事件A包括m个基本事件，则事件A出现的概率记作P(A)=m/n。