心理统计学公式
相关系数 公式

相关系数公式相关系数(CorrelationCoefficient)是分析两个变量之间的线性相关程度的重要工具,广泛应用在统计学、金融学、心理学和生物学等各个学科领域。
相关系数公式用于描述两个变量之间的线性关系,主要有三类:皮尔逊相关系数(Pearson Correlation coefficient)、斯皮尔曼相关系数(Spearman Correlation coefficient)和卡方相关系数(Chi-Square Correlation coefficient)。
一、皮尔逊相关系数皮尔逊相关系数(Pearson Correlation coefficient)是测量两个变量间线性关系最常用的测量工具之一。
皮尔逊相关系数主要用于计算两个变量之间的线性关系的密切程度,皮尔逊相关系数的计算公式如下:皮尔逊相关系数r= (X i -X)(Y i -Y)/∑ (X i -X)2 (Y i -Y)2 其中,X i 、Y i别表示第i个样本的X变量和Y变量取值,X和Y分别是X变量和Y变量的总体均值,X i 、Y i 为X和Y的样本值,n为总样本数量。
皮尔逊相关系数的取值范围在-1到1之间,当r的绝对值为1时表示两个变量之间的线性关系最佳;当r=0时表示两个变量之间没有线性关系;当r的绝对值小于1时,表示两个变量之间有一定的线性关系,而且绝对值越大,表示关系越密切。
二、斯皮尔曼相关系数斯皮尔曼相关系数(Spearman Correlation coefficient)是用来衡量两个变量间线性关系密切程度的指标,在对于两个变量线性关系不明显或者关系异常时,采用斯皮尔曼相关系数比较好。
斯皮尔曼相关系数的计算公式如下:斯皮尔曼相关系数r= d i 2/ N (N2-1)其中,d i第i个分值差的平方和,N表示样本数。
斯皮尔曼相关系数的取值范围在-1到1之间,当r的绝对值为1时表示两个变量之间的线性关系最佳;当r=0时表示两个变量之间没有线性关系;当r的绝对值小于1时,表示两个变量之间有一定的线性关系,而且绝对值越大,表示关系越密切。
教育与心理统计学 第六章 方差分析考研笔记-精品

第六章方差分析第一节方差分析概述一.方差分析的定义[用途]定义:用途方差分析也称为变异数分析,是在教育与心理研究中最常用的变量分析方法,其主要功能在于分析测量或实验数据中不同来源的变异对总变异的贡献大小,从而确定测量或实验中因素对反应变量是否存在显著影响。
即用于置信度不变情况下的多组平均数之间的差异检验。
它既可以比较两个以上的样本平均数的差异检验,也可以应用于一个因素多种水平以及多个因素有多种水平的数据分析。
二.方差分析的作用方差分析主要应用于两种以上实验处理的数据分析,同时匕徽两个以上的样本平均数,推断多组资料的总体均数是否相同,也即检验多组数据之间的均数差异是否有统计意义。
在这个意义,也可以将其理解为平均数差异显著性检验的扩展。
当我们用多个t检验来完成这一过程时,相当于从t分布中随机抽取多个t值,这样落在临界范围之外的可能大大增加,从而增加了I型错误的概率,我们可以把方差分析看作t检验的增强版。
方差分析一次检验多组平均数的差异,降低了多次进行两组平均数检验所带来的误差。
在进行方差分析时,设定的假设是综合虚无假设,即假设样本所归属的所有总体的平均数都相等。
如果检验的结果是存在显著性差异,只能说明多组平均数之间存在显著性差异,但是无法确定究竟哪些组之间存在显著性差异,此时需要运用事后检验的方法来确定。
三.方差分析的相关概念一(一)数据的变异(1)变异:统计中的变异是普遍存在的7一般意义上的变异是指标志(包括品质标志和数量标志)在总体单位之间的不同表现。
可变标志的属性或数值表现在总体各单位之间存在的差异,统计上称之为变异,这是广义上的变异,即包括了品质标志和数量标志,有时仅指品质标志和在总体单位之间的不同表现。
注:随机性,即变异性。
(2)组间变异[组间差异]:组间变异表示处理间变异,主要指由于接受不同的实验处理(实验处理效应)而造成的各组之间的变异,可以用两个平均数之间的离差来表示,可将组间离差平方和记为SS AO组间差异可用组间方差来表征,用符号MS B表示。
(完整word版)现代心理与教育统计学

心理统计学第一章概述描述统计定义:研究如何把心理与教育科学实验或调查得来的大量数据科学的科学的加以整理概括和表述作用:使杂乱无章的数字更好的显示出事物的某些特征,有助于说明问题的实质。
具体内容:1数据分组:采用图与表的形式。
2计算数据的特征值:集中量数(平均数中数)离散量数(方差)3计算量事物间的相关关系:积差相关(2列 3列多列)推断统计定义:主要研究如何利用局部数据(样本数据)所提供的信息,依据数理统计提供的理论和方法,推论总体情形。
作用:用样本推论总体。
具体内容:1如何对假设进行检验。
2如何对总体参数特征值进行估计。
3各种非参数的统计方法。
心理与教育统计基础概念数据类型一从数据来源来划分1计数数据:计算个数或次数而获得的数据。
(都是离散数据)2测量数据:借助一定测量工具或测量标准而获得的数据。
(连续数据)二根据数据所反映的测量水平1称名数据(分类)定义:指用数字代表事物或数字对事物进行分类的数据。
特点:数字只是事物的符号,而没有任何数量意义。
统计方法:百分数次数众数列联相关卡方检验等。
(非参检验)2顺序数据(分类排序)定义:指代事物类别,能够表明不同食物的大小等级或事物具有的某种特征的程度的数据。
(年级)特点:没有相等单位没有绝对零点。
不表示事物特征的真正数量.统计方法:中位数百分位数等级相关肯德尔和谐系数以及常规的非参数检验方法。
3等距数据(分类排序加减(相等单位))(真正应用最广泛的数据)定义:不仅能够指代物体的类别等级,而且具有相等的单位的数据。
(成绩温度)特点:真正的数量,能进行加减运算,没有绝对零点,不能进行乘除计算。
统计方法:平均数标准差积差相关 Z检验 t检验 F检验等。
4比率数据(分类排序加减法乘除法(绝对零点))定义:表明量的大小,也具有相等单位,同时具有绝对零点。
(身高反应时)特点:真正的数字,有绝对零点,可以进行加减乘除运算。
在统计中处理的数据大多是顺序数据和等距数据。
教育与心理统计学 第二章 常用统计参数考研笔记-精品

第二章常用统计参数第二章常用统计参数用参数来描述一组变量的分布特征,便于我们对数据分布状况进行更好的代表性的描述,也有利于我们更好地了解数据的特点。
常见的统计参数包括三类:集中量数、差异量数、地位量数(相对量数X相关量数。
描述统计的指标通常有五类。
第一类集中量数:用于表示数据的集中趋势,是评定一组数据是否有代表性的综合指标,比如平均数、中数、众数等。
概述[不背]第二类差异量数:用于表示数据的离散趋势,是说明一组数据分散程度的指标,比如方差、标准差、差异系数等。
第三类地位量数:是反映个体观测数据在团体中所处位置的量数,比如百分位数、百分等级和标准分数等。
第四类相关量数:用于表示数据间的相互关系,是说明数据间关联程度的指标,比如积差相关、肯德尔和谐系数、①相关等。
第五类:是反映数据的分布形状,比如偏态量和峰度等(不作介绍I第一节集中量数(一)集中量数的定义(种类、作用)[湖南12名]描述数据集中趋势的统计量数称为集中量数。
集中量数能反映大量数据向某一点集中的情况。
常用的集中量数包括算术平均数、加权平均数、几何平均数、中数、众数等等,它们的作用都是用于度量次数分布的集中趋势。
(二)算术平均数(平均数、均数)(一级)简述算术平均数的定义和优缺点。
(1)平均数的含义算术平均数可简称为平均数或均数,符号可记为M。
算术平均数即数据总和除以数据个数,即所有观察值的总和与总频数之比。
只有在为了与其他几种集中.数洞区别时,如几何平均数、调和平均数、加权平均数,才全称为算术平均数。
如果平均数是由变量计算的,就用相应的变量表示,如又匕算术平均数是用以度量连续变量次数分布集中趋势及位置的最常用的集中量数,在一组数据中如果没有极端值, 平均数就是集中趋势中最有代表性的数字指标,是真值的最佳估计值。
(2)平均数的优缺点简述算术平均数的使用特点[含优缺点]算术平均数优点①反应灵敏。
观测数据中任1可一个数值或大或小的变化,甚至细微的变化,在计算平均数时,都能反映出来。
(完整版)现代心理与教育统计学

心理统计学第一章概述描述统计定义:研究如何把心理与教育科学实验或调查得来的大量数据科学的科学的加以整理概括和表述作用:使杂乱无章的数字更好的显示出事物的某些特征,有助于说明问题的实质。
具体内容:1数据分组:采用图与表的形式。
2计算数据的特征值:集中量数(平均数中数)离散量数(方差)3计算量事物间的相关关系:积差相关(2列3列多列)推断统计定义:主要研究如何利用局部数据(样本数据)所提供的信息,依据数理统计提供的理论和方法,推论总体情形。
作用:用样本推论总体。
具体内容:1如何对假设进行检验。
2如何对总体参数特征值进行估计。
3各种非参数的统计方法。
心理与教育统计基础概念数据类型一从数据来源来划分1计数数据:计算个数或次数而获得的数据。
(都是离散数据)2测量数据:借助一定测量工具或测量标准而获得的数据。
(连续数据)二根据数据所反映的测量水平1称名数据(分类)定义:指用数字代表事物或数字对事物进行分类的数据。
特点:数字只是事物的符号,而没有任何数量意义。
统计方法:百分数次数众数列联相关卡方检验等。
(非参检验)2顺序数据(分类排序)定义:指代事物类别,能够表明不同食物的大小等级或事物具有的某种特征的程度的数据。
(年级)特点:没有相等单位没有绝对零点。
不表示事物特征的真正数量。
统计方法:中位数百分位数等级相关肯德尔和谐系数以及常规的非参数检验方法。
3等距数据(分类排序加减(相等单位))(真正应用最广泛的数据)定义:不仅能够指代物体的类别等级,而且具有相等的单位的数据。
(成绩温度)特点:真正的数量,能进行加减运算,没有绝对零点,不能进行乘除计算。
统计方法:平均数标准差积差相关Z检验t检验F检验等。
4比率数据(分类排序加减法乘除法(绝对零点))定义:表明量的大小,也具有相等单位,同时具有绝对零点。
(身高反应时)特点:真正的数字,有绝对零点,可以进行加减乘除运算。
在统计中处理的数据大多是顺序数据和等距数据。
三按照数据是否具有连续性离散数据连续数据变量观测值随机变量变量:指心理与教育实验观察调查种想要获得的数据。
心理统计学-课程讲义4

【课程讲义】第四章差异量数【教学目标】明确差异量数是描述数据离中趋势的一种量数,它与集中量数一起描述数据的全貌;明确标准差是所有差异量数中代表性最好的;掌握各种差异量数的概念、性质、计算方法、适用条件。
【学习方法】了解、理解、计算与应用。
【重点难点】差异量数的概念及适用条件;各种差异量数的计算方法;标准分数及百分等级的概念、适用条件及计算方法。
【讲义内容】前一章讨论的集中量数反映的是一组数据的集中趋势,代表一组数据的一般水平。
但是客观事物总是千差万别的,一组数据中不是所有的数值都与一般水平相等,而是有的高些,有的低些,彼此参差不齐。
描述一组数据波动情况的量数成为差异量数。
差异量数常用来衡量集中量数的代表性程度。
差异量数越大,则集中量数的代表性越小;差异量数越小,则集中量数的代表性越大。
差异量数分为:绝对差异量数和相对差异量数绝对差异量数:标准差,方差,四分差;相对差异量数:差异系数另外,本章还讲到相对地位量数:标准分数,百分等级。
第一节标准差一、标准差的概念及适用条件(一)概念标准差是一组数据中每个数据与其算术平均数之差的平方和,除以总的数据个数,再求算术平方根。
标准差的计算公式为:n XS2)(X-∑=(4.1)X为算术平均数,n为数据的个数。
(二)适用条件1.与算术平均数配合使用,与算术平均数的适用条件相同。
即一组数据的一般水平适合用算术平均数描述时,其离散程度宜用标准差描述;2.计算其他统计量时,如差异系数,标准分数,相关系数等,需要用到标准差;3.在推论统计中,尤其是进行方差分析时,常用方差表示数据的离散程度。
二.标准差的计算方法(一)未分组资料标准差的计算方法1.基本公式法用标准差的定义n XS2)(X-∑=,计算标准差。
例1 某校四年级举行数学竞赛,一班、二班分别派九名选手参加,成绩如下表。
试比较两个班的成绩。
4-1 四年级一班九名学生竞赛成绩统计表4-2 四年级二班九名学生竞赛成绩统计表解:先求年级一班的平均数和标准差。
(整理)心理测量学基本概念和常考公式及其计算
心理测量学基本概念和常考公式及其计算一、重点公式及计算1、一个包括40个题目的测验信度为0.80,欲将信度提高到0.90,通过斯皮尔曼一布朗公式的导出公式计算出至少应增加()个题数。
A、60B、100C、50D、40此题可见基础教材第355页,须注意,教材中这个地方已被勘误过。
正确的是K=2.25,测验长度应为原来的2.25倍,90个题目。
即需要增加的题目数为90-40,50个题目。
正确答案:C、50。
2、下面是某求助者的WA I S-RC的测验结果。
言语测验(VIQ)量表分:知识12、领悟10 、算术7、相似性1l、数字广度6、词汇13;操作测验(PIQ)量表分:数字符号9 、图画填充8 、木块图6 、图片排列7 、物体拼凑10 ;VIQ=96 、PIQ=87 、全量表的平均分为9问题:求助者词汇测验得分的百分等级是( )。
选项:A.16 B.50 C.84 D.98正确答案:C遇到这种问题,只要记住10为平均数,标准差是3的情况下,得分为13的话正好高出一个标准差,高出一个标准差对应的百分等级就是84。
(注:本题是韦氏智力测验,它以10为平均数,3为标准差。
遇到此类问题要记住,处于平均数的位置它的百分等级是50,高于一个标准差百分等级是84,高于2个标准差百分等级是98,低于一个标准差百分等级是16,低于2个标准差百分等级是2)3、智龄的计算:假如某儿童4、5、6岁组的题目全部通过,7岁通过4题,8岁通过3题,9岁通过2题,其智龄为()。
以其全部通过的最高年龄为起点,6+4*2+3*2+2*2=6岁+18月= 7岁6个月4、百分等级公式:PR=100-(100R-50)/N小东在30名同学中语文成绩是80分,排列第五名,那么他的百分等级是()PR=100-(100*5-50)/30 =855、如果要挑得分高的20%的被试,须求出相当于()百分等级的测验分数。
806、离差智商的计算公式:7、测量标准误的估计公式中,SX代表()。
心理统计学名词解释
心统名词解释:统计学:是研究如何搜集、整理、分析反映事物总体的数字资料,并以此为依据,对总体特征进行推断的原理和方法。
教育统计学:是运用数理统计的原理和方法研究教育问题的一门应用科学。
它提供各种统计方法的应用条件,对统计计算结果进行解释。
随机变量:表示随机现象各种结果的变量。
总体:是具有某(些)共同特征的总和。
样本:是从总体中抽取的作为观测对象的一部分个体。
描述性统计(Descriptive Statistics):研究如何整理实验或调查得到的大量数据,找出这些数据的分布特征。
集中量(CENTRAL TENDENCY):是代表一组数据典型水平或集中趋势的量。
(种类:平均数(MEAN) ; 中位数(MEDIAN) ; 众数(MODE)等)中位数:是位于依一定大小顺序排列的一组数据中央位置的数值,大于及小于这一数值各有一半数据分布着。
众数:是集中量的一种指标,用Mo表示,它有理论众数和粗略众数两种。
理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。
粗略众数是指一组数据中频数出现最多的那个数。
差异量:表示一组数据变异程度或离散程度的量称为差异量。
四分位数:将一组已排序的数据按个数四等分的百分数,分别是位于25%,50%,75%的百分位数。
相关量:相关系数?相关:两个变量之间不精确、不稳定的变化关系。
推断统计(Inferential Statistics):根据样本所提供的信息,运用概率的理论进行分析、论证,在一定可靠程度上对总体分布特征进行估计、推测。
二项分布:重复进行n次二项试验后不同成功次数x所对应的概率分布。
正态分布:如果随机变量X的概率密度函数为f(x)=(自己写公式),则称X服从正态分布。
t分布:又称“学生分布”,如果随机变量t的概率密度函数为f(t)=(自己写公式),则称t服从t分布。
自由度:总体参数估计量中变量值独立自由变化的个数。
简单随机抽样:从总体中完全以随机形式抽取若干个个体组成一个样本。
心理统计学复习题
第一章※1.心理与教育统计的定义与性质;名词解释心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据所传递的信息,进行科学推论找出心理与教育活动规律的一门学科;2.心理与教育统计学的内容描述统计、推论统计的界定;名词解释描述统计:主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质;推论统计:主要研究如何通过局部数据所提供的信息,推论总体的情形;※3.心理与教育科学研究数据的特点;填空、选择、简答多用数字形式呈现数据具有随机性和变异性随机因素,随机误差,随机现象数据具有规律性研究目标是通过部分数据推论总体※4.心理与教育统计的数据类型;填空、选择1.按照数据观测方法或来源划分2.按照测量水平3.数据是否连续A.计数数据 A.称名数据 A.离散数据B.测量数据 B.顺序数据 B.连续数据C.等距数据D.比率数据※5.变量、观测值与随机变量;名词解释变量:是指一个可以取不同数值的物体的属性或事件;由于其数值具有不确定性,所以被称之为变量;变量的具体取值即观测值;随机变量:指在取值之前不能预料取到什么值的变量,一般用X,Y表示;※6.总体、个体与样本;名词解释总体:又称母体、全域,是指具有某种特征的一类事物的全体;个体:组成总体的每个基本单元;样本:从总体中抽取的一部分个体,构成总体的一个样本;※7.参数与统计量;名词解释参数又称为总体参数,是对总体情况进行描述的统计指标;统计量又称特征值,是根据样本的观测值计算出来的一些量数,它是对样本的数据情况进行描述;第二章1.对数据资料进行初步整理的基本方式;填空、选择排序和统计分组2.统计分组应该注意的问题;简答要以被研究对象的本质特性为分组基础;分类标志被研究对象的本质特性要明确,能包括所有的数据;“不能既是这个又是那个”3.分组的标志形式;填空、选择性质类别称名数据与顺序数据与数量类别;4.组距与分组区间;填空、选择组距:任意一组的起点与终点的距离; i= R / K, 常取2、3、5、10、20;分组区间组限即一个组的起点值和终点值;起点值为组下限,终点值为组上限;组限有表述组限和精确组限两种;5. 不同图表形式所各自适用表示的资料类型;选择、填空表/图适用的数据类型简单次数分布表计数/测量,离散数据/连续数据分组次数分布表连续性测量数据相对次数分布表累加次数分布表直方图 连续性随机变量 累加次数分布图连续性随机变量条形图 计数资料/离散型数据资料,称名型数据圆形图 间断性资料 线形图 连续性资料 散点图连续性资料第三章1.集中趋势与离中趋势;名词解释 集中趋势:数据分布中大量数据向某方向集中的程度,即在某点附近取值的频率较其它点大的趋势;离中趋势:数据分布中数据彼此分散的程度;2.对一组数据集中趋势的进行度量的统计量有哪些 填空、选择 算术平均数、中数、众数、加权平均数、几何平均数和调和平均数等;3.算数平均数的计算方法未分组与分组数据两种情况;填空、选择、计算 一未分组数据计算平均数的方法 公式 :表示原始分数的总和,N 表示分数的个数; 二 用估计平均数计算平均数数据值过大时,利用估计平均数an estimated mean 可以简化计算;具体方法,先设定一个估计平均数,用符号AM 表示,从每一个数据中减去AM,使数据值变小,最后将其加入总的计算结果之中; 公式:X ˊ=Xi-AM三分组数据计算平均数的方法组中值假设散布在各区间内的数据围绕着该区间的组中值Xc 均匀分布; 计算公式Xc 为各区间的组中值,f 为各区间的次数,N 为数据的总次数, 四分组数据平均数的估计平均数方法AM 为估计平均数,i 为次数分布表的组距, d 可称为组差数4.平均数的特点;填空、选择 在一组数据中,每个变量与平均数之差称为离均差的总和等于0 ;在一组数据中,每一个数据都加减上一个常数C,则所得的平均数为原来的平均数加常数C;在一组数据中,每一个数据都乘除以一个常数C,则所得的平均数为原来的平均数乘除以常数C;5.平均数的优缺点;简答1优点 :反应灵敏;计算严密;计算简单;简明易解;适合于进一步用代数方法演算;较少受抽样变动的影响; 2缺点:易受极端数据的影响 ;若出现模糊不清的数据时,无法计算平均数;6.计算与应用平均数的原则;简答 同质性原则平均数与个体数据相结合的原则平均数与标准差、方差相结合的原则7.中数的应用;简答当一组观测结果中出现两个极端数目; 次数分布的两端数据或个别数据不清楚需要快速估计一组数据的代表值;8.众数的计算方法、众数的优缺点及应用;简答、计算一计算众数的方法 1、直接观察法a. 原始数据:例:22,26,7,89, 26 ,4,9b. 在次数分布表中,次数最多的那个分组区间的组中值为众数; 2、公式法 用公式计算的众数称为数理众数; 1 皮尔逊经验法 2金氏插补法 公式:iXX N=∑'X XAM N=+∑NfXcX ∑=iNfd AM X ∑+=13d o M M M M -=-a b a bf Mo L if f +=+⨯9.平均数、中数与众数的关系;选择、填空、简答 正态分布: Mo=Md=M在偏态分布中,M 永远位于尾端,Md 位于中间,两者距离较近 Mo=3Md-2M在正偏态分布中,M> Md> Mo 在负偏态分布中,M< Md< Mo第四章1.对一组数据离中趋势进行度量的差异量数有哪些 各自的意义是怎样的 填空、选择 全距、四分位差、百分位差、平均差、标准差和方差等;2. 平均差、方差及标准差的计算公式每一个数据都参与运算;填空、选择、计算 平均差计算公式: 样本方差的计算公式: 样本标准差的计算公式:3. 方差与标准差的性质与意义;选择、填空、简答方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点; 标准差是一组数据方差的平方根, 标准差的性质:每一个观测数据加上一个相同常数C 之后,计算到的标准差等于原标准差;若Yi=Xi+C 则有 每一个观测数据乘以一个相同常数C 之后,则所得标准差等于原标准差乘以这个常数;若Yi=Xi ×C 则有每一个观测值都乘以同一个常数CC ≠0,再加上一个常数d,所得的标准差等于原标准差乘以这个常数C;若Yi=Xi ×C+d C ≠0 则有方差与标准差的意义1方差与标准差是表示一组数据离散程度的最好指标;其值越大,说明次数分布的离散程度越大,该组数据较分散; 其值越小,说明次数分布的数据比较集中,离散程度越小; 2优点:反应灵敏;计算公式严密;容易计算;适合代数运算;受抽样变动小;简单明了;3在正态分布中,可确定平均数上下几个标准差内的数据个数;1-1/h24. 标准差的应用差异系数,标准分数与异常值的取舍;选择、填空、简答、计算 一、差异系数标准差:绝对差异量数对同一特质使用同一观测工具进行测量,所测样本水平比较接近时,可直接比较标准差大小差异系数coefficient of variation,又称变异系数、相对标准差等,它是一种相对差异量,用CV 来表示;差异系数应用于①同一团体不同观测值之间离散程度的比较;②对于水平差异较大,但进行的是同一种观测的各种团体 二、标准分数标准分数standard score,又称基分数或Z 分数Z- score,是以均值为参照点,以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数; 即原始数据在平均数以上或以下几个标准差的位置; 公式:三、异常值的取舍三个标准差法则当数据较多时,如果数据值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值舍弃;当数据较少时,需考虑全距与标准差之比,再加以其他处理;5. 标准分数的意义及计算公式;选择、填空、简答、计算 见第4题第二点 标准分数的优点可比性可加性明确性稳定性6. 标准分数的性质;选择、填空、简答Z 分数的性质Z 分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量;一组原始分数转换得到的Z 分数可以为正值,也可以是负值; 凡小于平均数的原始分数的Z 值为负数,大于平均数的原始分数的Z 值为正数,等于平均数的原始分数的Z 值为零; 所有原始分数的Z 分数之和为零,Z 分数的平均数也为零;即∑Z=0,=01Ni i X N=-1N i i X X AD N =-=∑21nii =21()1n i i XX S n =-=-∑s x s X X Z =-=ss XY=XYssC ⨯=s sXYC ⨯=一组原始数据转换后Z 分数的标准差是1,即Sz=1.若原始分数成正态分布,则转换得到的所有Z 分数的均值为0,标准差为1的标准正态分布standard normal distribution7. 标准分数的应用;选择、填空、简答用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低;某学生的身高、体重哪个在班级中位置在前面计算不同质的观测值的总和或平均值,表示在团体中的相对位置;计算各科的总成绩表示标准测验分数Z’=aZ+b IQ=15Z+100 T=500+100Z第五章1.事物之间的关系类型;填空、选择 因果关系、共变关系和相关关系;2.相关的类型;填空、选择 正相关、负相关和零相关;3.散点图的不同形式与不同的相关关系的对应;填空、选择4.积差相关的计算的前提条件;选择、填空、简答 积差相关的适用条件: 成对数据,样本容量要大>30; 两变量来自的总体均为正态分布; 两个变量都是连续数据/测量数据;两变量之间为线性关系:可根据相关散布图判断;5.积差相关的计算公式;填空、选择、计算6. 斯皮尔曼二列与肯德尔多列等级相关的适用数据类型;选择、填空斯皮尔曼二列等级相关适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30;肯德尔和谐系数常以 W 表示,适用于多列等级变量相关程度的分析; 肯德尔和谐系数可以反映多个等级变量变化的一致性;肯德尔U 系数又称一致性系数,适用于对K 个评价者的一致性进行统计分析;7. 质与量相关的数据类型及具体的相关类别;选择、填空 一列为等比或等距的测量数据,另一列按性质划分的类别质量相关包括点二列相关、二列相关和多系列相关;8. 点二列、二列与多列相关的适用数据资料;选择、填空 一、点二列相关适用资料:一列变量为等距或等比数据,且其总体分布为正态,另一列变量为二分称名变量;二、二列相关适用资料:一列变量为等距或等比数据,另一列变量为人为划分二分变量,且两列变量数据的总体分布均为正态; 三、多列相关适用资料:适合处理两列正态分布变量,一列为等比或等距的测量数据;另一列变量被人为地划分为多种类别; 9. 相关系数值的解释;选择、填空、简答相关系数表示两个变量之间的关系程度,不是等距的测量值,只能说绝对值大者比小的相关更密切一些; .相关系数的大小表示关系密切程度,正负号表示方向; 两变量之间的关系可能受到第三方影响相关关系不等于因果关系出现相关原因:X 引起 Y ;Y 引起X ;X 、Y 同时受另一变量影响第六章 概率分布1.概率、后验概率与先验概率的界定;名词解释 概率probability 是表示随机事件出现可能性大小的客观指标; 后验概率或统计概率:通过对随机事件的观测和试验得到的概率先验概率古典概率:在特殊情况下直接计算的比值,是真实的概率而不是估计值;2.概率的基本性质;选择、填空、计算 一概率的公理系统 任何随机事件A的概率都是在0与1之间的正数,即 0 ≤ PA ≤1 必然事件的概率等于1,即 PA= 1不可能事件的概率等于零,即 PA= 0二概率的加法定理 在一次实验或调查中,若事件A发生,则事件B就一定不发生,这样的两个事件为互不相容事件;两个互不相容事件之和的概率,等于这两个事件概率之和()()()A B A B P P P +=+三概率的乘法定理适用于几种情况组合的概率,即几种事件同时发生的情况 若事件A发生不影响事件B是否发生,这样的两个事件为互相独立事件;两个互相独立事件同时出现的概率,等于这两个事件概率的乘积,即3.概率分布的界定及类型;名词解释 概率分布probability distribution 是指对随机变量取不同值时的概率分布情况的描述,一般用概率分布函数进行描述;类型 依随机变量是否取连续数据分类,可将概率分布分为离散型概率分布与连续型概率分布; 依分布函数的来源,可将概率分布分为经验分布与理论分布;依所描述的数据特征,将概率分布分为基本随机变量分布与抽样分布;4.正态分布的特征;简答 正态分布的形式是对称的,对称轴是经过平均数的垂线;正态分布中平均数所对应点最高,然后逐渐向两侧下降;拐点位于+1s 处;正态曲线下的面积为1,过平均数的垂线左右两部分面积均为;面积即概率,即值为每一横坐标值的随机变量出现的概率;正态分布是一族分布;因平均数与标准差不同有不同的分布形态;所有正态分布都可以通过Z 分数公式非常容易地转换成标准正态分布; 正态分布中各差异系数间有固定比率标准正态曲线下标准差与概率面积有一定的数量关系;+1s 包括%的个体 + 包括95% + 包括99%+3s 包括%可疑值取舍的依据 +4s 包括%5.二项分布的应用——解决含有机遇性质的问题;计算二项分布函数除了用来求成功事件恰好出现X 次的概率之外,在教育中二项分布主要用于解决含有机遇性质的问题即主要用来判断试验结果是由猜测造成还是真实结果之间的界限; 分布的情况及分布特点;简答 t 分布是常用的一种随机变量分布,也称为学生氏分布;t 分布受自由度df=n-1,即一个统计量中可以自由变化的数目影响,与总体标准差无关;t 分布的特点平均数为0,以平均数为中心左右对称分布,左侧t 值为负,右侧t 值为正; 形状与正态分布曲线相似,峰态比较高狭,t 分布曲线随自由度的变化而变化变量取值没有固定范围,-∞— +∞之间;样本容量越大n-1>30,t 分布越接近正态分布,方差大于1,方差为1;当n-1<30,t 分布与正态分布相差较大,离散程度更大,分布图中间变低尾部变高;第七章 参数估计1.总体参数估计的界定及类型;名词解释 根据样本统计量对相应总体参数所作的估计叫作总体参数估计;总体参数估计分为点估计和区间估计;2.点估计与区间估计的界定;名词解释 由样本的平均数和标准差估计总体的平均数和标准差即为点估计;由样本的平均数和标准差估计总体平均数和标准差的取值范围则为区间估计;3. 良好点估计量的标准;简答无偏性如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量;有效性当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低;一致性当样本容量无限增大大样本时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量;充分性一个容量为n 的样本统计量,应能充分地反映全部n 个数据所反映的总体的信息;1X X X t s s n μμ--==-()()B A B A P P P ⋅=⋅)(4. 置信区间、置信水平与显着性水平;名词解释 置信区间,也称置信间距confidence interval,CI 是指在某一置信度时,总体参数所在的区域距离或区域长度; 置信度,即置信水平,是作出某种推断时正确的可能性概率;如.95和.99的置信区间;1-α显着性水平是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示;5. 区间估计的原理;简答根据抽样分布理论,用抽样分布的标准误SE 计算区间长度,解释总体参数落入某置信区间可能的概率;置信度为.95和.99,以及相对应的.05与.01的显着性水平是习惯上常用的两个数值,其依据是.05与.01的概率属于小概率事件,小概率事件在一次抽样中是不可能出现的;区间估计依据的是该样本统计量的分布规律及样本分布的标准误SE; 6. 总体平均数估计正态分布或t 分布;简答、计算 平均数区间估计的基本原理通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体或非正态总体中的n >30的样本,而计算出来的实际平均数是无数容量为n 的样本平均数中的一个;根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性;因为样本平均数的平均数与母总体的平均数相同,因此,对平均数总体的平均数进行估计就是对母总体平均数的估计;估计总体平均数的步骤1.根据样本的数据,计算样本的平均数和标准差; 2.计算平均数抽样分布的标准误 ; 1当总体方差 已知时, 2当总体方差 未知时,3.确定置信水平或显着性水平;4.根据样本平均数的抽样分布确定查何种统计表; 总体方差已知时,查正态表,总体方差未知时,查t 值表 5.计算置信区间;6.解释总体平均数的置信区间;总体平均数μ的估计1.当总体 已知时,查正态分布表 ①总体正态,不管样本容量大小, ②总体非正态,大样本n>30,平均数的抽样分布呈正态,总体平均数的置信区间为:例题:某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95%和99%置信区间;解:10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ=;无论样本容量大小,一切样本平均数的抽样分布呈正态分布;于是可用正态分布来估计该校10岁女童身高总体平均数95%和99%的置信区间;2. 总体方差 未知,查t分布表 ①总体正态,不管样本容量大小, ②总体非正态,大样本n>30,平均数的抽样分布为t 分布,平均数的置信区间为:例题:从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26;试估计该校三年级学生阅读能力总体平均数95%和99%的置信区间;解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差σ未知,样本的容量较小n=12<30,在此条件下,样本平均数与总体平均数离差统计量服从呈t 分布;于是需用t 分布来估计该校三年级学生阅读能力总体平均数95%和99%的置信区间;3.总体非正态,大样本平均数的抽样分布接近于正态分布,用正态分布代替t 分布近似处理:例题:从某年高考中随机抽取102份作文试卷,算得平均分数为26,标准差为,试估计全部考生作文成绩95%和99%的置信区间;解:学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,样本平均数与总体平均数离差统计量呈t 分布;但是由于样本容量较大n=120>30,t 分布接近于正态分布,因此可用正态分布近似处理;第八章 假设检验1.假设检验的概念与原理小概率事件;名词解释、简答2σ2σxσnx σ=σ2σ2σ11-=-n s n s n x σ()()n S t X n S t X n df n df 12/12/--⋅+<<⋅-ααμnSZX nSZ X n n 12/12/--⋅+<<⋅-ααμ利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验;设立标准的依据:小概率事件样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了;把出现概率很小的随机事件称为小概率事件;当概率足够小时,可以作为从实际可能性上,把零假设加以否定的理由;因为根据这个原理认为:在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的;2.假设检验中的两类错误及其之间的关系;名词解释、简答对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误;Ⅰ型错误α错误意味着当实验处理效应不存在时,研究者却得出结论,处理效应存在;Ⅱ型错误 β错误意味着当实验处理效应确实存在时,但是假设检验却没有识别出来;两类错误之间的关系 α与β是两个前提下的概率;+不等于1 对于固定的n , 与一般情况下不能同时减小; 要想减少与,一个方法就是要增大样本容量n;统计检验力:1-3.虚无假设与备择假设;名词解释H0:零假设,或称原假设、虚无假设null hypothesis 、解消假设;是要检验的对象之间没有差异的假设;H1:备择假设alternative hypothesis,或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设;4.单侧与双侧检验的确定;简答 略5.假设检验的步骤;简答 ⑴ 提出假设虚无假设和备择假设 ⑵ 确定做出结论的标准确定显着性水平 ⑶ 选择检验统计量并计算统计量的值 ⑷.做出统计结论6.平均数的显着性检验单总体检验的几种不同情况;简答、计算 ⑴.总体为正态,总体标准差σ已知平均数的抽样分布服从正态分布,以Z为检验统计量,其计算公式为: ⑵.总体为正态,总体标准差σ未知,样本容量小于30平均数的抽样分布服从t 分布,以t 为检验统计量,计算公式为: ⑶.总体标准差σ未知,样本容量大于30平均数的抽样分布服从t 分布,但由于样本容量较大,平均数的抽样分布接近于正态分布,因此可以用Z 代替t 近似处理,计算公式为: ⑷.总体非正态,小样本不能对总体平均数进行显着性检验;7.平均数差异的显着性检验双总体检验的几种不同情况;简答、计算平均数差异的显着性检验时,统计量的基本计算公式为:1.两总体正态,总体标准差已知总体标准差已知条件下,平均数之差的抽样分布服从正态分布,以Z作为检验统计量,计算公式为: 2.两总体正态,标准差未知,方差齐性,n1或n2小于30总体标准差未知条件下,平均数之差的抽样分布服从t 分布,以t 作为检验统计量,计算公式为: 3.两总体非正态,n1和n2大于30或50总体标准差未知条件下,平均数之差的抽样分布服从t 分布,但样本容量较大,t 分布接近于正态分布,可以以Z近似处理,因此以Z ′作为检验统计量,计算公式为: 4.总体非正态,小样本不能对平均数差异进行显着性检验;第九章 方差分析1.方差分析的主要功能;填空、选择、简答方差分析又称为变异分析analysis of variance,ANOVA,是由斯内德克提出的一种变量关系的检验方法;其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响; 2.方差分析的基本原理综合的F 检验与方差的可加性;简答 一、方差分析的基本原理:综合的F 检验 一综合虚无假设与部分虚无假设方差分析通过对多组平均数的差异进行显着性检验,分析实验数据中不同来源的变异对总变异影响的大小; 二方差的可分解性方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来源的分量;因而它所依据的基本原理是变异的可加性;3.方差分析将总平方和分解为几个不同来源的平方和:组内平方和实验误差,包括个体差异与组间平方和实验处理效应;简答方差分析是将总平方和分解为几个不同来源的平方和实验数据与平均数离差的平方和;然后分别计算不同来源的方差,并计算方差的比值即F值;根据F值是否显着,对几组数据的差异是否显着作出判断; 4.方差分析的基本假定;选择、简答 ⑴ 总体正态分布⑵ 变异的相互独立性,即各实验处理是随机且相互独立的一般情况下都能满足XDSE X X t 21-=XDSE X XZ 21-='。
心理学考研之心理统计学笔记
心理学考研之心理统计学笔记The document was prepared on January 2, 2021心理统计学笔记1基本概念总体:具有某些共同的、可观测特征的一类事物的全体,构成总体的每个基本单元称为个体样本:由于不能或没必要对整个总体进行研究,我们只能从总体中选择出一些个体代表总体,这些个体的集合叫样本变量:本身是变化的或者对于不同个体有不同值得特征或条件常量:本身不变且对不同的个体的值也相同参数:描述总体的数值,它可以从一次测量中获得,也可以从总体的一系列测量中推论得到比例:全组中取值为X的比例,p=f/N插值法:一种求两个已知数值之间中间值的方法,其假设所求解点附近数据呈线性变化统计量:描述样本的数值,与参数的获得方式相同随机取样:从总体抽取样本的一种策略,要求总体中的每一个个体被抽到的机会均等取样误差:样本统计量与相应的总体参数之间的差距偏态分布:分数堆积在分布的一端,而另一端成为比较尖细的尾端,其与对称分布对应次数分布:一批数据在某一量度的每一个类目所出现的次数情况离散型变量:由分离的、不可分割的范畴组成,临近范畴之间没有值存在连续型变量:在任何两个观测值之间都存在无限多个可能值,它可被分割成无限多个组成部分2学习建议①将注意放在概念上,心理统计应该是一门概念性的科学,而非纯数学.②一定要将统计方法与心理学研究的情景结合起来学习.③弄懂一个概念再开始学习下一个,心理统计中的概念应用性较差却是之后做题的基础.④做题按照推荐格式能避免出错几率.3统计检验总表数据类型单样本问题独立样本比较相关样本比较多组样本的比较相关问题独立样本重复测量等距型总体正态分布单样本t/z检验独立样本t/z检验相关样本t检验独立样本方差分析重复测量方差分析Pearson积差相关分布形态未知大样本下的相应的t/z检验大样本下的相应的t/z检验大样本下的相应的t检验转化为顺序型转化为顺序型顺序型符号检验法曼-惠特尼维尔克松克-瓦氏单向弗里德曼双向等级SpearmanU检验T检验方差分析方差分析等级相关命名型χ2匹配度检验χ2独立性检验符号检验法χ2独立性检验χ2独立性检验一、描述统计描述统计是指用来整理、概括、简化数据的统计方法,侧重于描述一组数据的全貌,表达一件事物的性质.一统计图表统计表和统计图简单明确、生动直观地表达数量关系,具有一目了然、整洁美观、容易理解等特点.它们是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式.在制定统计图表之前,一般首先要对数据进行以下两种初步整理:①数据排序:按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列②统计分组:根据被研究对象的特征,将所得到数据划分到各个组别中去1.统计图统计图:用点、线、面的位置、升降或大小来表达统计资料数量关系的一种陈列形式组成:坐标轴、图号、图题、图目、图尺、图形、图例、图注分类:条形图、圆图、线性图、直方图、散点图、茎叶图2.统计表统计表:将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式组成:隔开线、表号、名称、标目、数字、表注分类:简单表、分组表、复合表二集中量数集中量数又叫集中趋势,是体现一组数据一般水平的统计量.它能反映频数分布中大量数据向某一点集中的情况.1.算数平均数1定义算数平均数:即所有观察值的总和与总频数之商,简称为平均数或均数平均数一般与标准差、方差相结合使用.2特点①在一组数据中每个变量与平均数之差的总和等于零②在一组数据中,每一个数都加上一个常数C,所得的平均数为原来的平均数加常数C③在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以常数C3意义算数平均数是应用最普遍的一种集中量数,它在大多情况下是真值最好的估计值.4优缺点优点:反应灵敏、计算严密、计算简单、简明易解、适合于进一步用代数方法盐酸、较少受抽样变动的影响缺点:易受极端数据的影响、不能在出现模糊数据时计算2.中数1定义中数:按顺序排列在一起的一组数据中居于中间位置的数,在这组数据中,有一半数据比它大,一般数据比它小,等价于百分位数是50的那个数.2算法①数列总个数为奇数时,第 n+1/2 个数就是中数②数列总个数为偶数时,可取位于中间的两个数的平均数作为中数③分布中有相等的数时,将重复的数字看成一个连续体,利用中间分数的精确上下限使用插值法3优缺点优点:计算简单、容易理解、不受极端值影响、能在有模糊数据情况下使用、可在顺序型数据时使用缺点:代表性低、不够灵敏、稳定性低、需要排序、不能进一步做代数运算3.众数1定义众数:在次数分布中出现次数最多的那个数的数值众数可能不只一个.在正偏态分布时,平均数最靠近尾端,中数位于其与众数之间. 2优缺点优点:能在数据不同质的情况使用,能避免极端值干扰缺点:不稳定、代表性差、不够灵敏、不能做进一步的代数运算三差异量数差异量数就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数.1.离差与平均差离差:分布中的某点到均值得距离,其符号表示了某分属于均值之间的位置关系而数值表示了它们之间的绝对距离离差之和始终为零.平均差:次数分布中所有原始数据与平均数绝对离差的平均值2.方差与标准差和方:每一个离差值平房求和由于离差正负值互相抵消无法代表离中趋势我们引入和方的概念1总体的方差和标准差方差:每个数据与该组数据平均数之差乘方后的均值,即离均差平房后的均数作为样本统计量用符号s2表示,作为总体参数用符号σ2表示,也叫均方.标准差:方差的平方根作为样本统计量用符号s表示,作为总体参数用符号σ表示.2样本的方差和标准差样本的变异性往往比它来自的总体的变异性要小.为了校正样本数据带来的偏差,在计算样本方差时,我们用自由度来矫正样本误差,从而有利于对总体参数更好的无偏差估计:3性质①每一个观测值都加一个相同的常数C之后,计算得到的标准差等于原来的标准差②每一个观测值都乘以一个相同的常数C,所得到的标准差等于原标准差乘以这个常数4意义方差与标准差是表示一组数据离散程度的最好指标,它们是统计描述与统计推断分析中最常用的差异量数,它们的优点有:反应灵敏、计算严谨、计算容易、适合代数运算、受抽样变动影响小、意义简单明了3.变异系数当遇到下列情况时,不能用绝对差异量来比较不同样本的离散程度,而应当使用相对差异量数,最常用的就是差异系数.①两个或两个以上样本所使用的观测工具不同,所测的特质相同②两个或两个以上样本使用的是同种观测工具,所测的特质相同,但样本间水平差异较大差异系数:一种最常用的相对差异量,为标准差对平均数的百分比四相对量数1.百分位数百分位数:在整个分布中,在某一值之下或等于该值的分数的百分比,所对应的分数百分位数和百分等级是同一操作定义的两端.当我们求累计次数占总体的百分比是,所对应的分数和百分比的值分别为百分位数和百分等级.2.百分等级百分等级:常模团体中低于该分数的人所占总体的百分比百分等级一定要对应分数区间的精确上限.百分等级和百分位数都可以由已知数据用差值法求解.3.标准分数1定义标准分数:以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数,也叫Z 分数离平均数有多远,即表示原始分数在平均数以上或以下几个标准差的位置.2性质①Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量②一组原始分数转换得到的Z分数可正可负,所有原始分数的Z分数之和为零③原始数据的Z分数的标准差为1④若原始分数呈正态分布,则转换得到的所有Z分数均值为0,标准差为1的标准正态分布3优点①可比性——不同性质的成绩,一经转换为标准分数,就可在同一背景下比较②可加性——不同性质的原始数据具有相同的参照点,因此可相加③明确性——知道了标准分数,利用分布寒暑表就能知道其百分等级④稳定性——转换成标准分数之后,规定了标准差为1,保证了不同性质分数在总分数中权重一样4应用①比较几个分属性质不同的观测值在各自数据分布中相对位置的高低②计算不同质的观测值得总合或平均值,以表示在团体中的相对位置③若标准分数中有小数、负数等不易被人接受的问题,可通过 Z'=aZ+b 的线性公式将其转化成新的分数如韦氏成人智力量表五相关量数由于实验法适用范围的限制,有的时候我们只能对变量间进行相关研究,也就是看两者是否有互相跟随的变化关系.相关研究所得到的是一种描述统计,我们仅仅能用其描述两个变量互相跟随的程度大小,至于他们之间是否有因果关系或者是共变关系则不可妄下定论.相关系数:两列变量间相关程度的数字表现形式作为样本的统计量用r表示,作为总体参数一般用ρ表示.正相关:两列变量变动方向相同负相关:两列变量中有一列变量变动时,另一列变量呈现出与前一列变量方向相反的变动零相关:两列变量之间没有关系,各自按照自己的规律或无规律变化1.积差相关也就是Pearson相关.1前提①数据要成对出现,即若干个体中每个个体都有两种不同的观测值,并且每队数据与其它对子相互独立②两列变量各自总体的分布都是正态的,至少接近正态③两个相关的变量是连续变量,也即两列数据都是测量数据④两列变量之间的关系应是直线性的2公式r也就等于X和Y共同变化的程度除以X和Y各自变化的程度.2.等级相关也就是Spearman相关1适用范围①当研究考察的变量为顺序型数据时,若原始数据为等比货等距,则先转化为顺序型数据②当研究考察的变量为非线性数据时2公式将原始数据转化为顺序型数据,仍然用Pearson相关公式计算即可.3.肯德尔等级相关1肯德尔W系数也叫肯德尔和谐系数,原始数据资料的获得一般采用等级评定法,即让K个被试对N件实物进行等级评定.其原理是评价者评价的一致性除以最大变异可能性.代表评价对象获得的K个等级之和RiN代表等级评定的对象的树木K代表等级评定者的数目2肯德尔U系数其与肯德尔W系数所处理的问题相同,但评价者采用对偶比较法,即将N件事物两两配对分别进行比较为对偶比较记录表中i>j格中的择优分数rij4.点二列相关与二列相关1点二列相关适用于一列数据为等距正态变量,另一列为离散型二分变量.X是与二分称名变量的一个值对应的连续变量的平均数pX是与二分称名变量的另一个值对应的连续变量的平均数qp与q是二分称名变量两个值各自所占的比率s是连续变量的标准差t2二列相关适用于两列变量都是正态等距变量,但其中一列变量被人为地分成两类.y为标准正态曲线中p值对应的高度,查正态分布表能得到5.Ф相关适用于两个变量都是只有两个点值或只表示某些质的属性.其中a、b、c、d分别为四格表中左上、右上、左下、右下的数据二、推断统计推论统计就是指运用一系列的数学方法,将从样本数据中获得的结果推广到样本所在的总体.进行推论统计的关键在于所抽取的样本要能够尽量接近所要研究的总体.一推断统计的数学基础1.概率概率:表明随即时间出现可能性大小的客观指标概率的定义包含以下两种,当观测次数够多时他们是相等的.后验概率:对随机事件进行n次观察,某一事件A出现的次数m与观测次数n的比值在n趋近无穷时所稳定在的常数p先验概率:在满足试验可能结果数有限且每一种结果出现的可能性相等的条件下,随机事件包含的结果数除以结果总数2.正态分布当样本量足够大时,我们会发现生活中许多变量的分布都近似于正态曲线,因此有“上帝偏爱正态分布”一说.1特点①正态曲线的形状就像一口挂钟,呈对称分布,其均值、中数、众数实际上对应于同一个数值②大部分的原始分数都集中分布在均值附近,极端值相对而言比较少③曲线两端向靠近横轴处不断延伸,但始终不会与横轴向交④正态分布曲线转化为z分数后人以z分数与零点对应曲线下面积固定2用法①依据Z分数求概率,即已知标准分数求面积②从概率求Z分数,即从面积求标准分数值③已知概率或Z值,求概率密度,即正态曲线的高3.二项分布二项分布:对于一个事件有两种可能A和B,但我们对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布μ=二项分布的均值为pnσ=方差公式为2npq标准差的公式为σ=4.抽样原理与抽样方法1抽样原理抽样的基本原则是随机性原则,所谓随机性原则,是指在进行抽样时,总体中每一个个体是否被抽选的概率完全均等.由于随机抽样使每个个体有同等机会被抽取,因而有相当大的可能使样本保持和总体有相同的结构,或者说,具有最大的可能使总体的某些特征在样本中得以发现,从而保证由样本推论总体.2抽样方法①简单随机取样法②系统随机取样法③分层随机取样法④多段随机取样法5.抽样分布样本分布:样本统计量的分布,是统计推论的重要依据1正态分布及渐近正态分布样本统计量为正态分布或者接近正态分布的情况都可根据正态分布的概率进行统计推论.总体分为正态或接近正态,方差已知,样本平均数和方差的分布为正态分布①样本平均数分布的平均数和方差与母体的平均数和方差有如下关系:②样本的方差及标准差的分布也渐趋于正态分布,其分布的平均数与标准差和总体有如下关系:2t 分布t 分布是一种与方差无关而与自由度有关的分布,很类似正态分布,我们可以将正态分布看作t 分布当自由度为正无穷时的特例.总体分布为正态,方差未知时,样本平均数的分布为t 分布:X σ= 其中1n s -= 3χ2分布χ2分布的构造是从一个服从正态分布的总体中每次抽去n 个随机变量,计算其平方和之后标准化的一个分布.分布曲线下的面积都是1,但伴随着n 取值的不同,自由度改变,曲线分布形状不同,而当自由度趋近于正无穷时χ2分布即为正态分布,因此其于t 分布一样都是一族分布,而正态分布都是其中的特例.4F 分布如果有两个正态分布的总体,我们从其中各自取出两个样本,各自计算出χ2,则: 更多情况下,我们所计算的F 两样本取自相同总体,此时可将上式化简为:二参数估计当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计.总体参数估计问题可以分为点估计与区间估计.1.点估计、区间估计与标准误良好估计量的标准①无偏性——用多个样本的统计量估计总体参数的估计值,其偏差的平均数为零②有效性——当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好③一致性——当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数④充分性——样本的统计量是否充分地反映了全部n个数据所反映总体的信息点估计:用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计结果也以一个点的数值表示区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围,这个区间就叫做置信区间,相应的概率成为置信度,这两个量是共通变化的,置信区间越大,置信度越高;区间估计是用数轴上的一段距离表示未知参数可能落入的范围及落入该范围的概率.标准误:样本平均数分布的标准差总体方差未知时用估算的总体方差计算标准误.2.总体平均数的估计当总体方差未知时,则使用t分布对应置信度3.标准差与方差的区间估计1标准差的区间估计2方差的区间估计三假设检验可以说,每一个实验的存在,仅仅是为了给事实一个反驳虚无假设的机会. ——1.假设检验的原理假设检验:统计学中的一种推论过程,通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在差异假设检验的实质是对可置信性的评价,是对一个不确定问题的决策过程,其结果在一定概率上正确的,而不是全部.1两类假设对于任何一种研究而言,其结果无外乎有两种可能,即是否符合我们预期.一般来说证伪一件事情比证实一件事容易,在行为科学的研究中,由于我们无法了解总体中除样本以外的个体情况,因此尝试拒绝虚无假设的方法优于证明备择假设.备则假设:因变量的变化、差异却是是由于自变量的作用往往是我们对研究结果的预期,用H1表示.虚无假设:实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在观察到的差异只是随机误差在起作用,用H0表示.2小概率原理小概率原理:小概率事件在一次试验中几乎是不可能发生的至于什么就算小概率事件,那就是我们在计算前明确的决策标准,也就是显着性水平α.在检验过程中,我们假设虚无假设是真实的,同时计算出观测到的差异完全是由于随机误差所致的概率.之后将其与我们实现界定好的显着性水平比较,从而考虑是否依据小概率原理来拒绝虚无假设.3两类错误本部分内容请参照实心信号检测论对照来看. ——MJ注Ⅰ型错误:当虚无假设正确时,我们拒绝了它所犯的错误,也叫α错误研究者得出了处理有效果的结论,而实际上并没有效果,即所谓“无中生有”Ⅱ型错误:当虚无假设是错误的时候,我们没有拒绝所犯的错误,也叫β错误假设检验未能侦查到实际存在的处理效应,即所谓“失之交臂”两类检验的关系①α+β不一定等于1②在其他条件不变的情况下,α与β不可能同时减小或增大4检验的方向性单侧检验:强调某一方向的检验,显着性的百分等级为α双侧检验:只强调差异不强调方向性的检验,显着性百分等级为α/2对于同样的显着性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单侧检验犯β错误的概率较小,我们也说它的检验效力更高.5假设检验的步骤①根据问题要求,提出虚无假设和备择假设②选择适当的检验统计量③确定检验的方向性并规定显着性水平④计算检验统计量的值⑤将统计量的值与临界值对比做出决策2.样本与总体平均数差异的检验1总体正态分布且方差已知obs X X z μσ-=其中X σ=0μ和0σ分别为总体的平均数和方差2总体正态分布而方差未知0obs X X t s μ-=其中X s =S =S 为用样本和方估算出的总体方差3.两样本平均数差异的检验12obs obs D X X X Z t σ-==这是两样本平均数检验的通用公式,所不同的仅在于标准误的计算1总体方差已知①独立样本②相关样本D X σ=r 为两组变量之间的相关系数2总体方差未知①独立样本方差差异不显着时②相关样本a.相关系数未知:D X σ=其中d 为每一对对应数据之差b.相关系数已知:D X σ=4.方差齐性检验1样本方差与总体方差当从正态分布的总体中随机抽取容量为n 的样本时,其样本方差与总体方差比值服从χ2分布:2220ns χσ=由自由度1df n =-查χ2表,依据显着性水平判断2两个样本方差之间①独立样本22s F s =大小其中当两样本自由度相差不大时可用n s 代替n-1s查表时11221,1df n df n =-=-②相关样本22t =其中2df n =-5.相关系数的显着性检验①积差相关a.当ρ=0时:t =其中2df n =-b.当ρ≠0时:先通过查表将r 和ρ转化为费舍Z r 和Z ρ然后进行Z 检验②等级相关和肯德尔W 系数在总体相关系数为零时:查各自的相关系数表,判定样本相关显着四方差分析1.方差分析的原理与基本过程1方差分析的概念方差分析的目的是推断多组资料的总体均数是否相同,也即检验多组数据之间的均数差异是否有统计意义.当我们用多个t 检验来完成这一过程时,相当于从t 分布中随机抽取多个t 值,这样落在临界范围之外的可能大大增加,从而增加了Ⅰ型错误的概率.我们可以把方差分析看作t 检验的增强版.2方差的可分解性方差分析依据的基本原理就是方差的可加性原则.作为一种统计方法,方差分析把实验数据的总变异分解为若干个不同来源的分量.数据的变异由两部分组成:组内变异:由于实验中一些希望加以控制的非实验因素和一些未被有效控制的未知因素造成的变异,如个体差异、随机误差组内变异是具体某一个处理水平之内的,因此在对总体变异进行估计的时候不涉及研究的处理效应.组间差异:不仅包括组内变异的误差因素,还包括了是不同组所接受的实验处理不同造成的影响如果研究数据的总变异是由处理效应造成的,那么组间变异在总变异中应该占较大比例.B MS 表示组间方差,B B B SS MS df =,1B df k =-,k 表示实验条件的个数 W MS 表示组内方差,W W WSS MS df =,()1W df k n =-,n 表示每种实验条件中的被试个数 3方差分析的基本假定①样本必须来自正态分布的总体②每次观察得到的几组数据必须彼此独立③各实验处理内的方差应彼此无显着差异为了满足这一假定,我们可采用最大F 比率法2max max2min s F s =,求出各样本中方差最大值与最小值的比,通过查表判断.4方差分析的基本步骤Ⅰ 求平方和①总平方和是所有观测值与总平均数的离差的平方总和 ()22T G SS X N =-∑其中G 表示所有数据的总合,N 表示总共的数据个数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
心理统计学公式 第三章集中量数 一、算术平均数 1.原始数据计算公式※ 1211nniiXXXXXnn 2.简捷公式 二、中位数(中数) 1. 原始数据计算法※ a. 无重复数据 b.有重复数据 b1.重复数没有位于数列中间 方法与无重复数一样 b2.重复数位于数列中间 若重复数的个数为奇数 若重复个数为偶数 先将数据从小到大(从大到小)排列 三、众数 a. 皮尔逊经验公式:分布近似正态※
算术平均数、中位数、众数三者的关系※ 在正态分布中:
在正偏态分布中: 在负偏态分布中: 四、其它集中量数 1. 加权平均数(Mw)※
2. 几何平均数(Mg)※
3、调和平均数(MH)
第四章离散量数
个数为第则为奇数若21,nMdn2,122nnXXMdn则为偶数若
XnX1'1xnAMXXMdMo23
OMMdXOMMdXOMMdX
nngXXXM21
inHXNXXXXXNM1)1...1111(1
1
4321 一.全距 R (又称极差):※ R=Xmax-Xmin 百分位数的计算方法: Pp为所求的第P个百分位数 Lb为百分位数所在组的精确下限 f 为百分位数所在组的次数 Fb为小于Lb的各组次数的和 N为总次数 i为组距 百分等级: 四分位差:a未分组数据 b分组数据 二.平均差 1. 原始数据计算公式:※
2. 次数分布表计算公式: 三.方差和标准差的定义式:※
原始数据导出公式 次数分布表计算公式 导出公式 213QQQ
iLXfFnPbbR)(100
XXADn
fXcXADn
nXXS22
nXXS2
22
2
nXnXS2
2
nXnXS
nXXfSci22)(nXXfSci2)(
22
2
nXfnXfScc
22
nXfnXfScc 总标准差的合成: 四.相对差异量※ 差异系数 标准分数(基分数或Z分数) 或 第六章 概率分布 后验概率: 先验概率 概率的加法定理※ 概率的乘法定理※ 正态分布曲线函数(概率密度函数) 公式:
y= 概率密度,即正态分布的纵坐标 = 理论平均数
= 理论方差
= 3.1415926; e =
2.71828(自然对数) x = 随机变量的取值 (- < x < )
标准正态分布 将正态分布转化成标准正态分布的公式※
iiTiiiTnXXnSnS
22
2
iiTiiiTnXXnSnS
22
%100XSCVSXXZ
X
Z
n
mPA
n
mWA
BABAPPP)(
nnAAAAAAPPPP2121)(
BABAPPP)(
nnAAAAAAPPPP2121)(
22
22)(/XeNxfy 次数分布是否为正态分布的检验方法 皮尔逊偏态量数法 T分数 麦克尔创建 T=10Z+50 二项分布 二项分布的平均数为※ 二项分布的标准差为※ t 分布※ 2分布 F分布 第七章参数估计 平均数区间估计的计算 ① 总体正态,σ已知(不管样本容量大小),或总 体非正态,σ已知,大样本※ 平均数离差的的抽样分布呈正态,平均数的置信区间为:
② 总体正态,σ未知(不管样本容量大小),或总 体非正态,σ未知,大
)1,0(~NXZs3SKsSK)(或ooMMMMXnXXnqpCpnxb),,(
XnXqpXnXn
!!
!
npnpq
)1(~ntnSXt
2222122nii1)(2222122ndfnsxxnii分布的自由度此时
21vV
vU
21
vV
vUF
nZXnZX22 样本 平均数离差的抽样分布为t分布,平均数的置信区间为:
③总体正态,σ未知,大样本 平均数的抽样分布接近于正态分布,用正态分布代替t分布近似处理:
④ 总体非正态,小样本可不能进行参数估计,
1122nStXn
StXdfdf
nSZXnSZX
22 即不能根据样本分布对总体平均数进行估计。 标准差分布的标准差: 二、方差的区间估计 根据χ2分布:
得出总体方差0.95与0.99置信区间
三、两总体方差之比的区间估计 根据F分布,可估计二总体方差之比的置信区间
第八章假设检验※ 决策 H0性质
拒绝H0 不拒绝H0
H0为真 I类错误 概率=α=显著性水平 正确决策 概率=1-α=显著性水平 H0为假 正确决策 II类错误,概率=
221222)1()(nsnXXi
22/)1(21222/21)1()1(
nnsnsn
2122112/2222122112/11nnn
nssFssF
概率=1-β=统计检验力 β 判断 实际
有信号 无信号
无信号 虚报 正确否定 有信号 击中 漏报
双侧检验与单侧检验(假设的形式)※ 假设 双侧检验
单侧检验
左侧检验 右侧检验
原假设 H0 : m = m0 H0 : m m0 H0 : m m0 备择假设 H1 : m ≠m0 H1 : m < m0 H1 : m > m0
双侧Z检验统计决断规则※ ∣Z∣与临界值比较 P值 显著性 检验结果 ∣Z∣<1.96 P>0.05 不显著 保留H0,拒绝H1
1.96≤∣Z∣<2.58 0.05≥P>0.01 显著*
在0.05显著
性水平拒绝H0,接受H1
∣Z∣≥2.58 P≤0.01 非常显著** 在0.01显著性水平拒绝H0,接受H1 单侧t检验统计决断规则※ ∣t∣与临界值比较 P值 显著性 检验结果
∣t∣<t(df)0.05 P>0.05 不显著 保留H0,拒绝H1
t(df)0.05≤∣t∣<t(df)0.01 0.05≥P>0.01 显著* 在0.05显著性水平拒绝H0,接受H1
∣t∣≥t(df)0.01 P≤0.01 非常显著** 在0.01显著性水平拒绝H0,接受H1
平均数差异的显著性检验 两个总体都是正态分布、两个总体方差都已知 总体标准差已知条件下,平均数之差的抽样分布 服从正态分布,以Z作为检验统计量,计算公式 为:
⑴两样本相关
⑵两样本独立
⑴相关样本的平均数差异检验 建立假设:虚无假设:u1=u2(或uD=0);备选假设: u1u2 (或uD 0); 选择检验统计量并计算 Z分布 确定检验形式 双侧 单侧
XDSEXXZ21
nrXXZ212221212
222121
21
nnXXZ
nrXXZ212221212