心理学考研笔记心理统计篇

心理学考研笔记心理统计篇
心理学考研笔记心理统计篇

第一章绪论

统计学内容(凑字数):

(1)描述统计(整理数据):第二章图表第三章集中量数第四章差异量数第五章相关(2)推论统计(推断总体):第七章参数估计;第八第十第十一章假设检验。

(3)实验设计(取样,实验条件控制,结果分析):第九章方差第十二章回归第十三章因子分析第十四章样本选择

数据类型:

(1)观测方法:计数数据:能数出来的

计量数据:用工具量的

(2)测量水平:称名数据:类别

顺序数据:类别、次序--------心理测验的原始数据是这个

等距数据:类别、次序、相差程度-------心理测验数据都会转换成这个

等比数据:类别、次序、相差程度、相差比例

(3)是否连续:离散数据:非连续,有个数能数出来

连续数据:中间可以无限细分出无数个值

第二章图表

统计表:

(1)次数表:简单次数分布表:无论什么类型数据只要用来记录次数就可,数据少时使用分组次数分布表:同样只要记录次数就能用,数据多时使用

相对次数分布表:用比率和百分数表示次数。

累加次数分布表:需知道某个数据以下和以上人数时使用。

双列次数分布表:两列变量的次数用同一个表来表示。

不等距次数分布:无法等距分组时使用。

(2)其他表:简单表:无分类

分组表:一个分类

复合表:多个分类

统计图:

(1)次数图:直方图(表分布):横坐标连续数据,纵坐标频次

次数多边图:直方图条条去掉连成线就是这个。比直方图轮廓好易看出规律。

累加次数分布图:横坐标(等距数据以上)分组区间;纵坐标(任何记录次数的数据)累加次数

累加曲线:累加次数分布图曲线化。可更好的看出数据的形态(正态,偏态)(2)其他图:条形图(表内容):对计数或离散数据进行描述

圆形图(表内容):不连续的数据-----------可以按比例分的数据

线形图(表变化):连续型数据进行描述

散点图(表相关):横坐标可计数可离散,纵坐标必须连续数据

茎叶图(表分布和保留具体数值):两位数的数据次数

箱型图(表数据离散状况)

第三章集中量数:一组数据的最佳代表值

算数平均数:最好的集中量数,能用就用这个

(1)何时不能使用:有极端数值时,有模糊数据时。

(2)使用时要注意:同质性:同一观测手段,同一标准,相同特质。

平均数与个体数值结合。

与方差标准差结合:方差大,平均数代表性差

中数:何时使用:有极端数值的时候,有数据模糊时,需要快速估计时。

众数:何时使用:需要快速估计时公式法算众数:众数=3中-2平

有不同质数据时

有极端数据时

需要估计次数形态时

其他集中量数(太麻烦不需要算,会用就行):

(1)加权平均数:考虑权重时使用(2)几何平均数:求增长比率的平均数

(3)调和平均数(倒数平均数):求平均速率时使用

第四章差异量数:一组数据散开或聚集的程度

绝对差异量数:(1)-(5)一个比一个好,但方差标准差基本同时使用。

(1)全距(最不可靠):但计算快,用于瞬间解大概范围,然后确定分组。仅用了极端值。(2)百分位差:集中量数是中数时用。排除了极端值。

(3)平均差(不用):有绝对值无法统计分析。方差和标准差是它的升级版...所以...可怜了..(4)方差:为消除平均差绝对值的缺点,用离均差的平方来除N

①性质:可加性,可分解性

②总体方差:SS ÷N

③样本方差:SS ÷n-1

(5)标准差:平方后与原数据单位不一致(如:厘米,平方变成平方厘米),所以开个方

①性质:不可进行代数运算(两个标准差不能直接计算,可做其他统计推导)

②应用:差异系数(后面有);异常值取舍(平均数±3个标准差外的排除)

切比雪夫定律:(1-1/h2)的人落在平均数±h X标准差这个区间内。

相对量数:相对就是要比较

(1)差异系数(相对差异量数):不能用绝对差异量比较时使用。

(2)标准分数(相对位置量数):用标准差为单位,表示一个分数距离平均数的位置。

①性质:无实际单位(单位是标准差);有正有负;均值为0,标准差为1的正态分

布。

②优点:i.可比(单位相同);ii.可加(作为单位的标准差是等距的);iii.明确(可得到百分等级);iv.稳定

③应用:i.比较不同质的值在各自分布中的位置;ii.计算不同质的值的总和或平均数(3)百分位数与百分等级(相对位置量数):互为逆运算;表此点以下包含数据的百分比

①百分位数:得知百分比,去算一个值如:求一个点,点以下占了总体的10%

②百分等级:得知一个值,去算百分比如:给一个点,点以下占总体百分之几?

第五章相关关系:按我说...这章就不重要,不可能考大计算,那成考数学了,而且一点也不

心理。选择还说的过去。

基本知识(撑页):

(1)三种关系:因果关系 共变关系 相关关系(无法确定是之前2种关系)

(2)相关系数:取值 正负 绝对值大小表示强度

(3)散点图:左低右高--正相关 左高右低--负相关 乱七八糟--0相关

积差相关:适用资料:不少30对的连续数据,都成正态,计算线性相关

数据类型:两列等距或等比数据

应用:信度(前后两次测验的积差相关作为信度的估计)

效度(选一个类似作用的测验,求积差相关作为效度估计)

决定系数(相关系数的平方,是第十二章内容)

相关矩阵(要测多个变量的相关,可只能两两求,就画个表来表示)

等级相关:顺序数据时使用,斯是两列用,肯是多列用。

(1)斯皮尔曼:等级数据以上都可,如是等比等距不要求为正态。(可算非线性)

数据类型:两列为顺序数据以上都可以

(2)肯德尔:这种公式就随缘吧╮(╯▽╰)╭考试考多列还不得算吐血?

W:①多个人对多个东西进行排序 ②1个人多次评价N 个东西

U :东西被多人两两比较;

数据类型:多列为顺序数据。

质与量相关:

(1)点二列:一列为等比等距,一列真正二分(要求等比等距的是正态)

(2)二列: 一列为等比等距,一列人为二分(都要求正态)

(3)多列: 一列为等比等距,一列多分

二列和点二列的真正区别:二分变量到底是不是正态。只要不明确就用点二列。

品质相关

(1)四分:两列人为二分

(2)Phi 系数:两列真正二分

(3)列联表相关:两列多分

瞬间背完关键公式:至于其他的太麻烦也不会考计算╮(╯▽╰)╭

斯皮尔曼:用两列等级作为XY 直接套用积差相关公式

点二列:把二元变量作为0,1编码,直接套用积差相关公式

Phi 系数:相邻相加再相乘对角线相乘再相减

=φr

(本来想5,6章放一页的...可是我要看鬼吹灯-。=,就随手加了个背公式撑页)

第六章概率分布(概率是用来连接总体和样本的桥梁)

基本概念

(1)公理:随机事件概率是非负,一定条件必然发生概率为1,一定条件必然不发生为0

(2)加法率:A or B 概率相加 (3)乘法率:A and B 概率相乘

正态分布(最常用的连续分布)

(1)特征:对称,中间高,面积1,多形态,各差异量成比例,标准差与面积有固定关系

(2)检验:平均数 - 众数(为正就是正偏态,负就是负偏态,0就是正态)

(3)应用: 已知概率求Z 分数

已知Z 分数求概率

等级评定变等距数据:等级数据算成比例,用正态图表示,在用中点算累加比

确定题目难易:算通过率,0.5减去通过率(不记正负号)然后转换Z

确定人数:6除等级数目得到每个等级的距离Z ,求P ,乘总人数

正态化分数:原始分数排序,统计各分数出现频数算P ,0.5减去P 转Z

二项分布(最常用的离散分布)

特征:p=q 时对称,p≠q 偏态(P 是小概率,np ≥5接近正态)

接近正态时平均数:np =μ 标准差:npq =σ

应用:解决机遇问题:利用平均数,标准差,和Z 值就能算出临界点了(接近正态时)

t 分布:均值0,对称(0为中点,右正左负),取值无限,n -1>30可接近为正态,方差为1

卡方分布:正偏态,正值,可加,连续型。(df>2时,平均数=df ;方差=2df )

F 分布: 正偏态,正值。(分子自由度为1时,F 值等于t 相同自由度值的平方)

补:中心极限定律:定律一:任何抽样分布的平均数等于总体平均数

定律二:平均数的抽样分布近似正态(样本足够大),不论总体什么样

定律三:平均数抽样分布标准差=总体标准差除根号n (样本容量)

第七章参数估计:

基本概念

(1)良好估计标准:无偏,有效(变异小),一致(样本越多越准),充分(利用全部数据)

(2)点估计:估计一个确定的点(不准) 如:平均数就是点估计

(3)区间估计:估计一个区间,并给出把握程度。

(4)显著性水平和置性区间:犯错概率是显著性水平,相对的是置信区间。

与标准误关系:n 大致标准误小-区间小;方差增加,水平不变,致标准误大-区间大

(5)标准误:样本的某个统计量的抽样分布的标准差

总体平均数的估计

(1)总体方差已知:全Z (2)总体方差未知:用t ,n>30总体什么样都用Z (中极定律二)

方差与标准差的区间估计

标准差的区间估计:Z

方差的区间估计:卡方

两总体方差之比区间估计:F (包含1就是齐)

第八章假设检验

基础知识

两类错误:Ho 为真,但拒绝了Ho ,叫弃真错误,I 形错误

Ho 为假,但接受了Ho ,叫取伪错误,II 形错误

单双侧:单侧强调方向,双侧强调差异。

平均数显著性(样本与总体)

总体正态,总体方差已知:Z 总体正态,总体方差未知:t

总体非正态:Z (根据中心极限定律)

平均数差异的显著检验(样本与样本)

两总体正态,两总体方差已知:独立样本:Z (标准误公式=两个样本各自标准误相加) 相关样本:Z

两总体正态,两总体方差未知:独立样本:方差齐:t

方差不齐:柯克兰t 检验

相关样本:相关系数已知:t

相关系数未知:t

两总体非正态,其他的都随缘:独立样本: Z 相关样本: Z

方差的差异检验(方差齐性检验):

样本方差与总体方差的差异检验:卡方

两个样本方差差异检验:独立样本:F 相关样本:t

相关系数的显著性检验

积差相关系数的显著性检验:ρ=0:t (总体上无相关,但抽样不一定)

ρ≠0:Z (一般认为是偏态,所以要r 转Z )

其他相关系数:

点二列:t 二列:Z 多列:积差的表 四格:Z 斯皮:斯皮的表 肯德尔:W 的表 相关系数差异检验(样本与样本):独立被试:Z 同组被试:t

第九章方差分析:基础知识

一般线性模型: ①不同水平造成了处理的变异。每个被试都接受了一种处理,所以每个分数与总平均数的差异中包含了这种变异。

②没有处理效应时,每个分数也不完全相等,因为还会有随机误差(就是

残差:未能被处理效应所解释的误差,如果实验控制好,就只有抽样的随机误差)。

③所以线性模型为:每个数据=平均数+处理效应+随机误差(残差)

可分解性:(1)算出SSt 得到总平方和,反应了全部数据的变异情况。

(2)算出SSw 得到组内平方和,反应了随机误差(残差or 实验误差)变异情况

(3)算出SSb 得到组间平方和,反应了处理效应变异,但是,处理也受到了实验误差的影响,所以也包含了误差变异

(4)平方和不能比较,因受到项目数影响,所以要除去项目数。(无偏)

(5)组内方差组间方差=F =实验误差

实验误差处理效应+两个实验误差应该很相近,所以F 值低时,说明处理效应基本没影响。(批注里说组内设计)

第九章+十三章多因素方差的部分

单因素方差分析:(原理上页已经分析)

(1)完全随机设计:略 (2)随机区组设计:略 (3)r 2=SSB/SST (决定系数)

(4)事后检验:Dunn (控制α水平,如α为0.05,要比较4次,那每次显著性水平就0.05/4)

Tukey (常用)算个值确定组间到达显著性水平的最小差异(值叫HSD )

Fchehfe (最安全) scheffe (引发高II 型错误) N -K (q 检验,需排等级)

多因素(只谈两因素。多于两因素实用价值低,外加计算量大,不可能考,就略了):

(1)与单因素区别:组间变异包括了A 因素变异,B 因素变异,AB 交互作用变异。

(2)检验主效应(A 因素为例,B 同理):

①完全随机双因素:实验误差

实验误差因素处理变异+=A F ②随机区组双因素:)

实验误差(除个体差异)实验误差(除个体差异因素处理变异+=A F (3)交互作用:实验误差

各因素的变异)差(组间误差不能用主效应解释的方-=F (4)简单效应:删掉一个因素,当成单因素来算 )

组内方差(差所求简单效应的组间方w MS F = (5)决定系数:r 2=SSA/SSA+SSW (A 因素为例)

(6)事后比较:三个水平以上才需要,那么多水平两两比较会累死的,不可能考。

第十章卡方检验(配合度,独立,同质)

基础知识(因变量是类别或称名变量就不能用t 和F 检验了,只能用卡方)

(1)假设:分类排斥(不会同属多个类),观测独立(不相互影响),期望次数(5以上)

f0实际次数,fe 理论次数) (3)矫正:合并,增加样本,去除样本,公式法

配合度检验(样本率与已知总体率的比较)

(1)自由度:df=C -1;C 是分类项数 (2)耶茨矫正:原始公式分子括号内绝对值-0.5

(3)应用:检验无差假说:算理论次数时,各分类概率相等。

分布概率(按正态算概率):6?÷分类数,曲线下面积作为概率,算理论次数

吻合性检验(样本分布判断总体分布是否正态):用于确定用参数还是非参 比率或百分数(计数为百分数):去掉百分号用原始公式算,算出来的值×N/100 独立性检验(自由度:df=(R -1)(C -1))

(1)基本公式(除四格都用):)(1-f f f y i xi 20i 2∑

=N X fxi 行和,fyi 列和,foi 实际次数 (2)四格表:独立:

))()((22D B C A D C B A N BC AD X ++++=-)()((矫正:分子括号内绝对值减N/2) 相关:D A D A X +=)-(2

2(矫正:分子括号内绝对值减1)

!!(超级无敌重要:这里的相关样本指的是前后两次测量同一批被试)

第十一章非参数检验(不能用参数时候用)

特点:没有前提,适合顺序资料,小样本,不能考虑全部信息,无法处理交互作用。

两个独立样本的非参数检验(对应独立样本t 检验,总体分布未知和小样本时用)

(1)秩和检验:计算:两样本容量≤10:混合排序,两样本等级分开相加,取数字小的T 两样本容量>10:求秩和平均和秩和标准差,用Z 检验

(2)中数检验:计算:混合排列求中数,用2样本大于小于中数的数目列四格表,X 2检验

(两检验适用资料相同:原始数据类型随意,反正能转换成顺序数据就行)

相关样本的非参数检验(对应配对样本t 检验,总体未知用)

(1)符号检验法:计算:N ≤25:统计配对数据差值的正负号,取数字小的查符号检验表 N>25:用二项分布的方法算出平均数标准差,用Z 检验

(2)符号等级检验法:计算:N ≤25:差值的绝对值排等级,加上符号,统计正负号个数,用较小的值查表。查T 表

N>25:完成上面的步骤,再求平均数标准差,用Z 检验 等级方差分析(方分要求正态;独立;方差齐,不满足这些或小样本时使用)

(1)柯瓦氏单向方分(对应完全随机) (2)佛里德曼两因素等级方分(对应随机区组)

第十二章线性回归(超级无敌重要)

基础知识

(1)回归分析与相关分析:回归是变量数学模型,相关是变量密切程度。相关是回归基础

(2)回归模型与回归系数:模型是?=a+bX ,b 就是Y 对X 的回归系数;

(3)建立方法:平均数:按奇偶分组,列二元一次方程,解方程。

最小二乘法:X Y b -a = ;∑-∑--=)()(X X Y Y X X 2)

(b

(4)回归系数与相关系数关系:回归系数:s s b X r Y Y X ?=? 相关:b b r Y X X Y ???=

回归模型的检验与估计(有效性和显著性检验结果一样,会一个就行)

(1)回归模型有效性检验(方分)N Y Y SS

T )(22∑-=∑ ????????∑-=∑N X X SS

R )(b 222 SS SS SS R T E -=

df 回归=1 ;df 残差=N -2;df 总=N -1 ;F=MSR/MSE

(2)回归系数的显著性检验(假检):公式:SEb

-b t β=(β=0) ∑-=

)(X X YX

SE 22s

b s 2

XY =MSE 所以只需会上个方法就行

(3)决定系数:SSR/SST ;回归分析中,为了看回归效果用的。

回归方程应用

(1)用样本回归方程进行预测或估计:

①点预测:最小二乘法算回归方程,然后用方程直接预测。

②区间预测:算出标准差MS S E XY = 上下2个标准差包含95.44% 如果有相关系数:r 21-?=S S Y XY 或s s 22

-1r Y

YX = (2)真值的预测区间(加强版):上面的估计是根据回归方程而言的,而回归方程只对当前样本有效,样本变动回归方程也变动,那上面方法就不准了。但书上噼里啪啦说一堆,最后把标准误公式给省了,所以最后只需要把上面区间的方法中Z 换成t 其他就一样了。

(3)回归分析与相关分析综合使用:先分析相关,有线性相关才建立模型,然后进行预测。

(上面的区间预测和真值预测区间的算法,参考第七章参数估计)

第十三章:多元变量统计分析(除多因素方差部分)(超级不重要)

多重线性回归(对两个或两个以上自变量对因变量影响进行分析,没办法考计算)

(1)模型建立:偏回归系数:①?=a+b1X1+b2X2②b1,b2叫做Y 对X1,X2的偏回归系数。 标准偏回归系数:①Z Z Z X X Y 2211ββ+=②β1β2叫做偏回归系数

标准回归方程:原始分数转成标准分数,用标准分数建方程(公式如上) b1=β1·Sy/Sx2? b2=β2·Sy/Sx2

(2)多重线性回归检验:方差分析:SST=∑y 2;SSR=b1∑x1y+b2∑x2y+.....;SSE=SST -SSR dft=N -1; dfR=k (自变量个数) ;dfE=N -1-k

决定系数:∑∧=∑)()(Y Y Y R --Y 22

2

R 就是Y 与Y 尖的相关系数。

偏回归系数显著性检验:巴拉拉能量卡多拉潘多拉这个不考,变!

多重线性回归的预测区间:emm...看看公式就知道不可能考

(3)自变量的选择:最优方程选择法,同时多回归法,逐步多重回归,层次多重回归 因子分析(不太重要,但很有选择和冷门简答的潜质)

(1)类别:①R 型:针对变量②Q 型:针对样本

①探索性:没有预期,走一步算一步。②有预期,为了检验预期是否合理

(2)基本思想:因子不可观测,但可通过外在计算估计或抽取得到。数学原理:共变抽取

(3)过程:计算相关矩阵,因子抽取,因子数目,因子旋转

(4)应用:①检验效度②简化内容③编制测验(项目分析等)

(补充其他多变量统计方法:判别分析,聚类分析)

第十四章:抽样原理和方法

抽样的原则:最基本的是随机化,其他的包括省时省力,有效准确。

抽样方法:(1)简单随机抽样:直接在总体里随机抽(抽签,随机数字)

(2)等距抽样:先排序,每隔若干个抽一个。

(3)分层抽样:按特征分层,在每层内随机抽(要求:层内变异小层间变异大)

(4)两阶段随机抽样:先把总体分成M 部分,从M 中抽取m 个作为第一阶段。

然后从m 中抽取样本作为第二阶段。

样本容量的确定:方法:①公式②查表(两种方法都包括平均数估计和比率估计法)

相关主题
相关文档
最新文档