测试胜任能力而非智力(中文翻译)

测试胜任能力而非智力(中文翻译)
测试胜任能力而非智力(中文翻译)

测试胜任能力而非“智力”

翻译人:池锦瑾人力1002班

如果一个人会运用美国传统的评价标准——大小、影响力、盈利能力来判断成功,那么这项测试运动在美国就取得了成功。智力和能力测试被应用于包括学校、学院和雇主在内的任何领域。在学校不用考试分数来记录学生是一项落后的标志。教育考试服务社独自雇佣了大约2000人,每年给在学院中有上进心的人进行学习能力测验,支出了一大笔钱去支持一项大型的基础研究操作。这个测验对于年轻人的生活具有巨大的影响力,它可以判定他们中的一些人在学习上是合格的,另外一部分是不合格的。这个测试成为了一个非常有效的方法用于筛选黑人、西班牙语裔和其他少数申请大学的人,直到出台了最新的“免责条款”(在一些人的反对之下)。在发放录取通知时除了测试成绩,还要将学生的其他素质考虑在内,招生人员反对这样做。但是Wing和Wallach等(1971)严谨的研究已经发现只通过测试成绩决定是否录取的方法只在一个非常有限的程度上是正确的。

为什么智力和能力测试拥有如此之大的权力?用什么来证明使用这种测试方法来挑选大学申请者或应聘者是正当的呢?这项运动的成功是基于何种假设?在我们继续盲目的推广使用这项测试,作为掌握许多美国人生存权力的工具之前,这项测试应当受到仔细的检验。

很明显,关键点在于智力测试是否具有有效性。除非它是正确有效的,否则它的应用是不正当的。而且我坚信不可能有压倒性的证据证明它的有效性,虽然大多数人不假思索的认为它是有效的。事实上,对于测试者给出的测试结果,我们选择直接相信它,而没有屈服于强烈的怀疑感,比如,最新的尝试显示ESP的存在。我的目标是怀疑地检查用于证明智力和能力测试正确性的主要证据,而且从检查回顾中得出一些推论,作为新的条目将来运用到测试中。

让我们一开始就要同意脑部受损和智力迟钝的人在智力测试上没有其他人做的好。Wechsler(1958)最早用这项标准来验证他的工具,虽然这个有一项非常明显的缺点:脑补受损的人几乎在任何测试中都做不好,所以这很难证明就是“缺乏智力”才导致较低的测试分数。这里并没有运用多重方法、多重品质标准。

测试预测学校的成绩

人们在能力测试中做的游戏类似于老师在课堂上要求做的。事实上,许多Binet最初的测试都是从法国学校老师的练习中借鉴过来的。所以能力测试的分数与学校成绩高度相关一点也不令人吃惊。整个学习能力测验运动极大程度上依靠这个不可否认的事实。智力测试的支持者,比如McNemar(1964),经常暗示这是唯一的一种必要有效性。McNemar 评论道“心理公司的差别能力测验手册包含一个令人吃惊的总数为4096的效度系数,是的,我统计过他们。”女士们和先生们,你们还想问什么?直到我亲自看了那本手册(McNemar当然没有启发我)我才证实了我的怀疑,就是几乎每个效度系数都涉及预测课程成绩——换句话说,在相似类型测试中的表现。

那么成绩呢?作为预测因子他们的有效性是多少呢?事实上研究者在证明学校成绩与其它行为重要性之间关联性遇到了困难,除了在能力测试中表现良好。但是普通大众,包括许多心理学家和大学官员,只是一直无法相信或接受这个事实。在课堂上表现良好的人,在生活中依然做的很好,这对于教育工作者似乎是不证自明的。虽然反对这项观点的证据在一段时间内不断地积累,但他们完全的无视了。在20世纪50年代早期,一个由我担任主席的社会科学研究委员会研究了这个问题,并且得出结论:虽然达到成绩水平看起来与人生成功的未来措施有关,但是成绩上的表现与此(未来成功)关联性很小。换言之,高中毕业或大学毕业给了人们去寻找更高水平工作的凭证,但是在高中成绩差的学生和顶尖的学生在生活

中做的一样好。作为一名大学老师,我发现这很难接受,直到我做了一个简单的检验。20世纪40年代后期,在我所任教的Wesleyan大学,我从一个班级中挑选了前8名顶尖学生(成绩都是A),和8名几乎都达不到平均水平的差生(只得到C等级或更低),然后对比他们在20世纪60年代早期从事的工作。令我吃惊的是,15到18年之后,我根本不能区分这两组人。在这两组中都有律师、医生、科学研究者和高中大学老师。我观察到的唯一区别就是成绩好的同学进入了好的法律或医学院校,学习成绩差的同学一开始就进入二流的法律和医学院校就很满意了。但是即使拥有如此的优势,成绩好的人与成绩差的相比依然没有更显著的成功。毫无疑问,在今天C等的学生在严格的招生测试标准之下甚至不可能进入二流的法律医学院校,这对于社会有利吗?

这个结果已经被英国(Hudson,1960)和美国的许多研究者(cf.Hoyt,1965)仔细地记录下来了。Berg(1970),在一本名为《教育和就业重大的训练掠夺》的书中总结研究发现,不管是工厂工人还是银行行员或者空中交通指挥员在职业上是否成功与受教育程度和学校成绩均无关。Taylor、Smith和Ghiselin(1963)指出,甚至那些像科学研究者一样的高智力工作,优秀的在职表现也与突出的大学成绩无关。在研究成功中,排名前三的大学平均成绩是2.73(大约是B-),而最后三名是2.69(也是B-)。这项事实已经知道很长一段时间了。非常明显,测试运动使得保持一个神话般的精英管理社会面临着严重的危险。精英管理社会就是关于小圈子之外的任何措施,没有任何有价值的措施具有显著的可论证的正确性。心理学家经常开玩笑说智力就是智力测试衡量出来的东西。如此接近全部事实或者只有真相看起来很不舒服,但是当公众比我们自己更加认真,并且用这项测试去筛选获得教育和高地位工作机会的人们,这岂不是很有趣?这些智力测试游戏为什么被称之为卓越?

更进一步的说,为什么对于已经在这些游戏中做的很好的人还要保持良好的教育呢?这实际上就是大学正在做的,当他们从申请者当中挑选出有高SAT分数的人。这是不是就像我们去教那些本来打网球就很棒的人?有人认为教育的目的恰恰是提高那些原来表现的不够好的人的能力。所以当心理学家依据SAT来判断谁最有可能在大学期间表现优秀,他们就是在含蓄地建议这些人就是录取的“最佳结果”。但是从另一方面说,如果大学致力于证明他们能更好的培育人才,那高分的学生就是最差的结果,因为他们的提高空间很小。可以肯定的是,老师喜欢课程成绩优秀的学生,但是社会允许老师去决定谁值得接受教育吗,尤其是当老师感兴趣的表现与其它任何类型生活表现具有非常小的关系时?

智力测试开发能力可以保证工作的成功吗?

大多数心理学家认为可以;当然普通大众也如此认为(Cronbach,1970,p.300),但是比起有人认为它应该能证明这样的信心,证据更加令人不满意。

例如Thorndike和Hagen(1959)调查了超过10000个调查对象,获取了12000个能力测试分数和许多种后来职业成功方法之间的相互关系,得出了一个结论,即显著的相互关系的数量并不会超过偶然的预期。换言之,这些测试是无效的。但是心理学家继续使用它们,相信低效度一定是受到了职业不接受低分的人这一定程度上的限制。但是即使在这里,在这个领域中,进入所需的特征对于成功实际上是否重要依然不清晰。有人可能认为手指灵巧度是成为牙医的关键,而且要进入这一领域的话还需要一个最低的测试分数。但是Thorndike 和Hagen(1969)发现这些与牙医的收入负相关。Holland和Richard(1965)以及Elton和Shevel(1969)揭示了学生在大学学习能力倾向的分数与他们在社会领导力、艺术、科学、音乐、写作、演讲和戏剧上的实际成就之间不存在一贯的关系。

我们从Ghiselli’s(1966,p.121)的结论中了解到什么呢?他的结论是基于一项研究50年的综述,即在所有类型的工作中,一般智力测试与可训练性的相关系数是0.42,与能力的相关系数是0.23,这些相关系数是根据超过10000个案例得出的。心理学家相信智力测试是有效的预测工作成功的预测因子,这不足为奇。不幸的是,评价Ghisellli’s的结论是不可能的,

因为他没有引用来源,也没有陈述清楚他的每个相互性的能力是如何测量的。我们可以从他的结果中得出一些结论,而且我们可以做出一个很好地预测,即工作能力是通过主管的评级或者通过例如主管对于营业额、晋升、工资增长等意见的间接指标来测量。

通过观察非常有趣的是,在更高地位的工作中智力测试和能力之间的相关性高于在较低地位的工作中(Ghiselli,1966,pp.34,78)。考虑到这样一个事实:作为推销商品的推销员和律师,智力测试的分数与能力之间的相关系数是-0.08,而作为股票债券推销员相关系数是0.45。这应该成为一个理解智力测试的有力线索,但是很多观察者忽略了它或者简单的认为成为股票债券推销员比游说者需要更多的通用能力。但是这两种工作在社会地位、语言、腔调、服饰、礼仪以及教育和家庭这些工作成功所必需的因素之间的联系也有所不同。验证能力测试的许多工作能力措施基本问题是它们很大程度上要依赖人们带给这份工作的证书——习惯、价值观、口音、利益等等——这意味着他对于管理人员和客户是可接受的。就我们所知,社会阶级背景也有助于在能力测试中取得高分(Nuttall&Fozard,1970)以及获得成功所需的个人证书,智力测试的分数和工作成功之间的联系经常是人为造成的,他们之间的联系与阶级成分有关。雇主有权利去选择上了合适学校的债券推销员,因为他们做的更好,但是心理学家没有权利去争论这是因为他们的智力让他们在工作中更有能力。

我们知道相关性不等于因果关系,但是我们可以忽略它。太多的心理学家仍然为高声誉或低声誉的工作报告平均能力测试分数,错误的推断出从事高水平的工作比低水平的工作更需要这种类型的大脑。例如,Jensen(1972)最近写到:

IQ可以告诉我们任何事情的现实意义吗?它和我们通常所认为的心智能力常识性的概念有关联吗,因为我们认为它和教育与职业表现有关?是的,的确是,毫无疑问……9或10岁之后的IQ还预测最终成人职业地位,这与预测学术表现具有一样高的程度……一项职业中人们的平均IQ与职业的平均收入水平、普通公众给予的声望有非常近的联系[p.9] 当然,他留下了这样一个印象:导致平均IQ分数和工作威望存在联系的就是我们通常所认为的心智能力。但是这项联系可以合理的理解为,为了获得从事高地位职业所要求词汇和其他习惯需要更多的拉力和机会。试图将导致工作成功中证书的因素和能力的因素区分开的研究非常少。

Ghiselli(1966)直接没有考虑工作能力的标准对验证测试意味着什么。比如,他研究发现警察和侦探智力测试分数与能力之间的相关系数是0.27(p.83),至于警察的表现是如何衡量的这一关键问题并没有加以关注。通过主管评级来衡量吗?如果这样的话,就会歧视黑人警察,因为白种主管将他们看做低等人种(Baehr,Furcon,&Froemel,1968)。那公众呢?他们对于警察服务的评价难道不应该作为标准的一部分吗?最近的一篇关于证明警察的表现和能力测试分数有关的综述得出了两者之间没有稳定显著的关系。这里没有具体的证据表明人们必须以合理怀疑的态度去看待智力测试分数与工作成功之间假设的关联性。

关于用智力测试测量出来的能力对生活结果的作用的简单论述,有些不谨慎的人不加鉴别的就接受了它,一些其他例证可以给这些人以警告。它广泛的论述了智力促进一般的适应和导致低神经质。比如,Anderson(1960)从1950年14到17岁男孩的智力测试分数中获得了一个显著的相关系数以及5年后普遍适应水平。正如经常被阐述的那样,我们可以假定智力能更好的的促进生活适应能力。这听起来十分合理,但是“智力”测试是测试在学校表现良好能力的(去参加学术型测试),而Anderson的大多数样本是从在校生或正准备参加工作的人中挑选出,那些在学校表现不好的或者因此第一份工作没有找好的人很有可能被认为是他们自己或其他人没有调整好。在这里测试只是标准的一部分,而且人为地引入了相关性。考虑到事实,在女孩中智力测试分数和适应性有相同的不显著相关系数0.06,假使这听起来不像被Anderson专门陈述出来的特别的推论。我们要得出对于女孩智力不能促进适应能力的结论吗?如果去论证以测试出的与学术成功相关的能力去取得成功(和今后的适应能力)

对男孩比女孩更重要,这样会更合理。但是这与不严谨的推论出智力测试能测量出一项可以成功解决生活中难题的能力,因为高IQ的孩子心理更健康,相差甚远(Jensen,1972)。

为了更加生动的说明,首先假设你是波士顿Roxbury部分的一个犹太居民,为了能成为一名警察,你必须参加一项为时3个小时的智力测试,测试包括你必须知道“平息”、“放火狂”和“词典”的意思,如果你不了解这些词语或不能做与这些词语类似的游戏,那么你就不合格,而且能当类似于门卫的工作已经很满意了,因为马萨诸塞州公务员制度委员会不接受“智力”测试。你肯定会感到生气、失望与失败,因为你不知道这些词就被认为是低智力的,也因此只能从事低地位的工作,一点也不开心。你促成了低智力与低工作地位和低调整能力之间著名的相互关系。心理学家应该感到羞耻,因为他们促进对智力的看法形成了这样一种测试程序,尤其是没有确凿的证据证明这种类型智力测试的表现与警察的表现有显著关系。

权力在控制生活结果标准上的作用

直到最近,心理学家对于控制标准的强大利益集团在反对心理学家之前在测试中验证过的东西上所起的作用非常的天真。Terman觉得通过心理学测试方法测试的“天才”,他的研究已经决定性的证明“天才”是生活中成功的关键因素。总的来说,他的研究得到了心理学家的认可。比如,Kohlberg,LaCrosse和Ricks(1970)在总结陈述中总结Terman和Oden (1947)的研究“明显具有天赋的人比普通人在职业、婚姻和社交上更容易成功,而且在心理学‘道德偏差’方面也更少(比如酗酒者和同性恋)。”Jensen(1972)也同意这种说法:最具有说服力的证据证明IQ与“现实生活”的能力指标有关是由Terman和他的同伴在斯坦福大学的一项经典研究提供的……Terman发现大部分高IQ的孩子成人之后在测量成就的每项指标上都明显地超过一般人群:完成更高层次的教育;获得更多学术上的荣誉和奖励;更高的职业地位;高收入;产出更多的文章,书籍,专利和其他创造性的东西;更多的进入名人录;更低的离婚率……这些发现毫无疑问的证实了IQ测试测量了在现代技术社会中具有很显然重要性的特征。说智力测试测量的能力是无关紧要的就相当于拒绝文明。[p.9].

我不想拒绝文明,或者认为智力测试是无关紧要的,但是我想强调的是Terman的研究并没有明确地证明正是智力测试测量出的能力

表1:参加多种多样IQ和SES类别测试(六年级)学生的人数以及接下来上大学的百分比

社会经济地位

IQ

高上大学% 低上大学%

高低51

33

71

18

57

96

23

5

Note, x> = 11.99, t < .01, estimated tetrachoric r = .35, SES X IQ.(Table adapted from Havighurst et al., 1962. Copyrighted by Wiley,1962.)

导致了高IQ孩子的成功。Terman的研究只是展示了有钱有权的人可以获得更多的机会从而在生活中做得更好。如果即使他说的是对的话,那么说心理学家毫无疑问地确定智力测试测量出的能力是在社会中高水平表现的重要因素,这是对社会的不负责。因为用目前的方法标准来衡量Terman的研究(以及与之类似的)是很幼稚的。并没有尝试去寻求平等的机会获得职业和社交方面的成功。经过比较(某刻加利佛尼亚所有的人,包括散工)发现他那些有才华的人都来自于社会的高阶层。他不能明确地证明就是“天资”(正如他的测试中反应出来的)导致他的组中人的突出表现。很合理的推断那些有钱有权有知识的人的孩子更有可能

在职业、婚姻和社交方面获得成功,因为他们拥有更多的物质资源。用另外一种方式来解释,请看表1的数据,在这方面它的发现很具有代表性。这是Hacighurst、Bowman、Liddle、Matthews和Pierce(1962)从美国中部的一个非常典型的小镇中获得的。有人观察到社会阶层与IQ之间以及IQ和所上大学(导致职业成功)之间具有通常的强关联。对于这项发现的传统解释是愚笨的孩子更有可能来自于低阶层,因为他们的家长也是愚笨的,这也解释了为什么他们是低阶层的。高IQ的孩子很大一部分上大学了,因为他们更加聪明也更加适合大学的学习。这是因为IQ本来就是预测学术上的成功的。更多上大学的聪明的人经常来自上层阶级,这是因为上层阶级里包含更多的聪明的人。所以传统的观点已经消失多年了。这对于Terman和他的支持者来说是简单和明显的。

然而,仔细观察表1,另外一种解释也貌似正确,虽然它与前种解释相比没有更加需要数据。对比“偏常”箱中高社会经济地位低IQ与低社会经济地位高IQ上大学的比例,发现低阶层中聪明的孩子(高IQ)并没有比高阶层中“愚笨”的孩子更有可能上大学,虽然他们有高能力去上大学。为什么会这样?很有可能是因为这些虽然聪明但是贫穷的孩子没有钱去上大学,或者他们根本不想上,他们想去工作或做其他事情。他们没有办法像上层阶级孩子一样通过到其他的因素(价值观、愿望、金钱)促使上大学,用当前术语说,他们处于不利地位。但是现在我们有一个可供选择的解释关于上大学,也就是社会经济地位与能力都可以作为这种类型成功的很好的预测因子。我们如何解释测试测量出来的能力是上大学的关键因素呢?如果来自贫穷家庭,极少数孩子去上大学,即使他们有不错的应试能力。有人可以认为他们是被迫受害者:他们没有机会或不被鼓励去上大学。而且是不是同样这种压制力量会阻止他们在学校好好学习?

属于权力精英(高社会经济地位)不仅会通过家庭关系帮助年轻人上大学找工作,也会让他们在小时候更容易获得进入特定工作所需的证书。现代社会,这些证书包括SAT应用的文字和文字游戏技能。在中世纪,像法律、医药、神学等有学识的职业需要懂得拉丁文。只有能够读写拉丁文的年轻人才能从事这些职业。如果对拉丁人进行这些测试,我可以肯定他们得分更高。而且那些成长在拉丁语环境的人肯定比从没有接触过拉丁语的穷人家的孩子得分更高,从而更容易获得那份工作。但是我们能得出结论我们正在处理一个普通能力因素吗?许多犹太人也感觉到他们在同样的处境中,为了在测试中表现突出他们必须学好英语。最近我在牙买加,我周围的穷人说着一种我不能理解的英语。如果我坚持,他们会耐心的用一种我可以理解的方式说,但是我感觉自己像一个迟钝的人。我很好奇如果我在牙买加的社会我会做的怎样呢,而且这种英语是有钱有权者的标准(顺便说一下,当然不是啦),他们通过这个标准进入好的学校找到好的工作(有可能由牙买加测试服务机构管理的测试来决定)?我会感到受到压迫而不是不聪明,因为毫无疑问这项测试会决定我是一个理解缓慢并且不懂普通的词汇的人。

当Cronbach(1970)提出了这项测试“是现存障碍的真实信息“,当然他是正确的。但是心理学家应该意识到正是社会中有权的人决定了什么是障碍。不管是任何有权力的组织强加的测试能力的最终标准,我们都应该更加谨慎的接受。

这是不是意味着智力测试是无效的呢?当你认真的检验一个心理学的问题,答案取决于你的意图是什么、适用于什么?当然它们在预测谁能够获得那些证书、非常重要的有声望的工作是有效的。白肤色也是这样:它在有声望的工作中是一个有效的工作成功预测因子。但是没有人认为白肤色本身是一个能力因素。许多著名的智力测试分数和能力之间的相关没有提出更大的要求去代表一个能力因素。

预测学校的成功有效吗?当然有效,因为在学校成功与否取决于参加类似类型的测试。但是,测试和学校成绩都不能有力的预测许多生活层面的真实胜任能力,除了个人所关注的证书的优势。

有没有关于在控制了其他变量的情况下用普通智力测试预测胜任能力的研究?我断言关于这个问题我很难找到一个很好的仔细对照的研究,因为研究者并没有下功夫研究:他们坚信他们在测量真实的胜任能力,所以不用麻烦去证明了。研究确实表明特殊测试分数与工作相关技能之间存在显著正相关。比如,知觉能力分数与文书能力有关,词汇、快速记忆、代换和算术测试也与之有关。运动能力测试分数与车辆操作者的能力有关(Ghiselli,1966)。如此等等。这些是我们在安全没有争议的基础上将测试当做标准的例子。但是这还远远不能推断存在一种普遍能力因素让人们能胜任他所尝试的任何领域。表明这种普遍能力因素的证据被处于顶端社会阶层的掌权者严重污染了,他们坚信自己拥有的技能具有优越的适应能力。

我们从这里去哪里?

对测试运动的批判一点也不新鲜。早期识别人才的社会科学研究委员会委员15年前已经得出了一些类似的观点(McClelland,Baldwin,Bronfenbrenner,& Strodtbeck,1958)。但是这项运动所基于的信念一直很坚定,所以理论或实证的反对至今未产生影响。测试运动还在壮大并且深入到了社会的每个角落。它不太可能被终止,即使少数有权力的组织去阻止它。因为这个测试歧视的反对那些不能接触文化、测试所控制的进入资格的人。我们希望测试人员能知道正在发生什么并且将他们的能量投入到更加合理的方向。如果在实践中应用它们,那么由测试高考的专门委员会发表的报告Board(1970)是观念正在改变的一项重要的标志。这个报告的要点是大学入学应该评估一系列才能并且以文件的方式提供给大学。这是向正确方向迈了一步,如果每个人都坚定的铭记在心,即从广泛的理论和实践意义上,建立这些新方法有效性的标准不应该是“在学校的成绩”而是“在生活中的成绩”。

我现在处于负责地位,已经批判过了测试运动,我感觉我有责任去提出一些选择。我是如何做的与众不同或更好呢?我并不介意提供建议,但是我意识到其中的一些建议在其他理由上具有可批判性,正如我之前一直批判的程序一样。所以,我必须给予它们一种谦虚的精神,因为至少有一部分人对追问那些对于我们所做失去信心的人感兴趣。我的目标是对不同的观点进行头脑风暴,而不是非常有力地证明我的建议是至今为止最好的。一个人如何测试胜任能力,如果我用“胜任力”作为传统智力测试可供选择方法的标志?

1、最好的测试是标准抽样。这一点太明显了根本不值一说,但是经常被兜售一般智力因素的如McNemar和Jensen等心理学家所掩盖。如果你想知道一个人开车技术如何,那么让他参加驾照考试,抽样调查他开车的能力。不要让他参加遵照指令进行的纸质考试,一般智力测试等。正如以上所说,这里有充足的证据证明抽样调查的工作技能能够预测工作能力。

学术能力测试能成功正是因为它大多采用标准抽样。正如已经指明的,学习能力测验(SAT)所测试的技巧正是老师所追寻的并且要给予高分的。因为已经广泛认为能力测试可以预测谁能够在学校表现良好,所以没有人可以拒绝它。当我们认为这些技巧有一些更普遍的有效性时才会出现麻烦,正如像智力一样使用词语中所暗示的那样。但是即使少量的标准测试也会显示不存在一种工作要求人们去做类比词语或从4个含义中选择最正确的之类的工作。

标准抽样意味着测试者要走出办公室,去实地测量工作所涉及的绩效。如果你想测试谁是一个好警察,那就去看看警察做了什么。在他周围跟着他,把他的行为做成一个列表,对列表中的行为进行抽样来筛选申请者。一些工作取样应该基于理论和实践。如果警察歧视黑人,很显然这不能作为标准的一部分,因为法律规定了不能歧视他们。所以测试中包含申请者不能歧视。抽样调查警察在与他所服务的人交流时所需的词汇,不包括警察不需要知道的词汇。而且不要依靠主管来评判谁是个好警察,因为严格说这不是工作分析而是分析高绩效涉及到什么。比如,Baehr等(1968)发现上级评价很高的黑人警察在爱德华个人偏好测试中顺从比例得分很高。在白人警察中没有这样的相关性。换言之,如果你是个黑人并且想要

成为一个好警察,那么你至少要顺从白人权力系统。尽量温和的说,任何用这个发现去挑选黑人警察的心理学家都应该为这个不正确的工作分析感到内疚。

简言之,标准抽样涉及理论和实践,它需要真正的成熟。早期的测试者比后来的测试者更知道如何做的更好,因为他们没有涉及“智力”测试的天赋世界而只是简单的互相验证。未来的测试者要重新学习如何进行标准抽样。如果有人想知道什么是优秀的老师,那他必须拿到教室的录像带。Kounin(1970)就是这样做的,然后他发现了区分好老师与坏老师的行为。为了挑选未来的商人、科学研究者、政治领导和幸福婚姻的伴侣,必须对他们的表现进行严谨的行为分析,并预先找到抽样适应性行为的方法。这个任务并不简单。他要求有不同于传统测试条目的新心理学技巧。这不亚于重新修订角色本身——将文字游戏和统计数据转换为行为分析。

2、设计的测试要能反应个人所学的变化。去找到一个不能被训练和经验改变的人性虽然很难但是并不是不可能,不管它是一只眼眨或是抄袭Kohs的街道设计。对于传统的智力测试者来说这真是一个令人讨厌的事实,因为他一直在寻找一些不可更改不能伪造的智能指数。他通过尝试对测试答题得分的方法进行保密,这样人们就不会学到如何在测试中做的更好,并且通过挑选那些得分稳定的测试来做出反应。稳定性是指能反映天生能力的分数并不会随着经验发生改变,但是它也意味着这个测试对人们在知道或做等方面的重大改变不敏感。就是说涉及到的技巧是专门化以及与一般经验无关的,所以一个人即使学习了很多,他在这个特殊领域也没有特殊的表现。比如,做类比之类的文字游戏的能力并不会受到高教育的影响,因为没有老师会让他的学生们做词汇类比。因此,会类比经常被看做是天生能力的一种。当然,它也可以被称为一项专门化的成就,一般智慧的增加不会转化成它,也不会让它发生任何变化。我们为什么对这种特殊技能感兴趣呢?正如我们所见,除了在参加相似的测试或者需要高测试分数来获取证书的情况下,任何生活方面的标准都与这些技能无关。放弃去寻找纯能力因素,并且挑选一些具有一定意义有效性的测试,它们测量出的分数随着一个人经验、智慧和有效处理生活中各种任务的能力的增长而发生变化。这样做非常聪明的。因此,新测试方法的第二个原则成为了第一个必然结果。如果是测试样本生活表现行为,那么一个决定这些测试是否有效的方法就是观察当他们生活表现行为的胜任能力提高时他们的执行能力是否提高。比如如果通过公平对待少数人群作为评价出色警察的一部分,那么就应该用公平(或缺乏民族优越感)测试来挑选警察,并且要反应到警察招募工作公平心的增长上。一项心理学的隐蔽偏见,借鉴了固定遗传倾向的概念,表明任何特性比如种族偏见,是不可能通过训练改变的。一个偏执的人永远都偏执。没有确凿的证据能证明这项特性或者人类任何其他特性不能改变。所以坚持设计一个能够反映特性增长的新测试是非常有价值的。

3、如何提高被测试的特性的公开与明确性呢?这项原则与心理学家目前努力实践的完全对立。它们受到了美国心理学会伦理委员会的支持,对许多测试的答案进行保密以防人们私下练习并学习如何在测试中做的更好或者伪造一个高分。在阅读、拼写或者开车测试中伪造一个高分是不可能的,除非你执行标准行为。但是当测试行为与标准行为之间有更多的间接关联时,造假是有可能的。比如,通过数百项的条目来预测飞行训练的成功时,孩童时代弹钢琴也被看做是有效的。但是没有人知道原因:可能这与手工能力有关,可能是一项社会等级变量或者在实践中具有责任心。老派测试者不能不关心这个原因只要这个项目起作用。但是他们必须保证非常谨慎,因为想要成为飞行员的人可以很容易的证明他们弹过钢琴,只要他们知道这个答案有助于他们被挑选到。如果会弹钢琴真的能帮助人们成为飞行员,在二战中没有心理学家会麻烦的核查是否真的是这样,然后让大家知道这个观点并鼓励申请者去学习弹钢琴具有了一定的意义。这样的话标准抽样就非常接近刚刚所提议的测试,事先告知被测试者如何提高将要测量的特性。

或再举个例子,通过做类比来预测学校成绩非常公平,此外没有一个人知道究竟为什么,因为一般家庭作业不会涉及做类比。所以心理学家必须具有安全意识,以防如果学生拿到了类比测试的答案,他们可以练习并变得善于做类比从而获得“伪造”的高分。在这里通过伪造的意思是可以在类比方面做的很好并不是标准行为的一部分,否则就不能认为是伪造。当然,这个测试必须与高分之间有一些间接联系,这样的话通过练习在类比方面做的很好就破坏了它的预测功能,因此高分是“伪造”的。一个人可以做类比但是这并不意味着他能取得更好的成绩。这样说来,整个程序就像是测试者所从事的一项奇怪的伪装,因为从行为上讲他们不知道正在进行什么,并且只要项目起作用他们拒绝不怕麻烦地去查明。让学习者知道将要测试的标准行为,然后心理学家、老师和学生合作一起努力去提高学生绩效测试的分数,这在理论和实用上这是多么的简单啊!当然,某些学业成绩测试采用这种模型。比如,在爱荷华州的基本技能测试,学生和老师都知道学生的拼写、阅读和算术能力如何测试,学生应该如何准备考试,他能得多少分等等。我在这里提议所有的测试均采用这种模型。如果不这样做就陷入了与申请者之间的权力游戏之中,它是关于答案的保密性和所隐藏的知识背后的关联性,其实这种关联性是不存在的。

4、测试应该评估一系列生活成果的胜任能力。如果我们按照所提议的那样抛弃了普通的智力和能力测试,并且转向了基于工作分析的标准抽样,那么这个测试对于涉及的标准会极端的精确,这存在着危险。比如,ABLE项目(Gagne, 1965)已经辨别了超过50种的独立技能,它们可以通过选矿工人学徒(工作家庭:木工和相关职业)的退出水平来评估。它们包括“测量角度”、“削尖工具和飞机”、“用指标和图表识别紧固件的大小和型号”等技能。这个方法具有至今所提出的测试新面貌的所有特性:测试是标准抽样;测试中出现了技能的提高;如何通过测试是众所周知的;老师和学生可以一起合作提高绩效。然而,因为几十种不同的职业,一个人要通过成百或上千的特殊实验。为了一些目的,评估在一系列生活成果方面普遍有用的胜任能力是值得的,不止包括职业成果还包括社交成果等。ABLE项目成功的识别了作为一个服务站的服务生所需的手工技艺,但是关于服务生是否令顾客满意,它没有得到一个简单的指数。

一些胜任能力是传统可识别的,包括读、写和计算技巧。另外一些是传统上所谓的人格变量,虽然他们更应该被认为是胜任能力。让我向大家展示一些实例。

(a)沟通技巧。许多工作和大多数人际交往的情景里都需要人们通过语言、外貌和手势将他打算或想要做的事情表达出来。书写只是测试这些技巧中的一个简单方法。那这个人可以将词语进行排列让读者立马就能理解吗?通常假设文字游戏不能预测这项技能。我不会忘了申请哈佛研究生院一个黑人学生的例子。他在米勒类比试验中只得了5%的分数,但是从他发表的大学论文中可以很明显的看出他能够清晰有效的思考和写作。尽管他已经表现了类比试验所预测的标准行为,但我依然无法说服我的同事接受他。然而如果他被接受了,那么作为一个心理学家他将来可能会写论文提醒他的同事不要再做类比了。我非常的惊讶我的同事经常这样说:“我不在乎他能写多好,只看这些测试分数就好了。”测试者很害怕出现这样的情况,他们写了公共免责声明,但是为了阻止对测试分数的盲目信仰,他们做了什么实际的事呢?

1968年在埃塞俄比亚,我们尝试去发现美国和平队志愿者所教的中学生学到了多少英语,在这个过程中我们遇到了麻烦。正如其他地方,通常测试的方法是给学生一个“填空”,多项选择的客观测试,看学生是否知道词语的含义、理解正确的语法形式等等。我们认为这种测试忽略了标准行为中最重要的部分。所以我们要求学生写一个简短的故事,之后我们会对故事进行客观地编码,不是通过语法和拼写的正确性,而是通过学生在给定的时间内正确地表达想法的复杂性。这提供了一个测量英语流畅度的方法,可以预测它确实与埃塞俄比亚成人的职业成功以及学业的成功有关系。但奇怪的是,它几乎与通常测试英语胜任能力的文

字游戏技巧有显著的负相关关系(Bergthold,1969)。

重要的沟通技巧是非语言的。印度的谚语说,“白人说骗人的假话,”无疑这句话是说在其他事情上白人不能按照他所说的去做。知道社会环境正在发生什么并据此确定情感基调,这对于生活结果标准来说是非常重要的。比如,Newmeyer(1970)发现了测量成功做出合适的情绪以及成功理解各种人的情绪的方法。他发现在某一年龄阶段黑人男孩比白人男孩在这个独有的沟通技巧上一贯表现的更好,这是比纸笔测验更加关键的标准行为的类型。

(b)耐心,或者心理学家所称的反应延迟,看起来是对许多生活结果非常重要的人性。比如,在许多服务性职业中,客户的需要经常是令人恼怒的,这就非常需要耐心。对于拥有权力去惩罚令他恼怒的人的警察来说,他们也更为需要有耐心。Kagan,Pearson和Welch (1966)已经发现这项人性非常容易被测量,它在长时间内非常稳定并可以被直接教会。

(c)适度的目标设定在成就相关的测试中非常重要,这点我在别处已经充分解释过了(McClelland,1961)。在许多生活情景中,既不能将目标设置的太高也不能太低,否则都会导致失败。许多履行情境被设计去测量设置适度的和可实现的目标并且帮助人们学习如何在未来设置更加现实的目标的趋势(Alschuler,Tabor, & Mclntyre, 1970; McClelland & Winter,1969)。

(d)自我发展。许多学者们(看Erikson,1950; Loevinger, 1970; White, 1959)已经详细论述了存在一种通用的胜任能力,它会随着年龄而发展并且某些人可以达到比其他人更高的水平。Costa(1971a)最近为自我发展开发了一个主题理解测验,它好像有许多这里提到过的新测试方向所缺乏的方面。这个从特性中抽样出来的思想在某种意义上表现了标准行为,比如在第一步,一个人是被动从众的思考,然而在第四步,在他的描述中人们能够为了他人积极主动(一个更加成熟的胜任能力)。这个测试的得分能够很好地预测哪个初中或高中生能被老师认为更有能力(即使当智力和分数之间的关联消除时),此外初中阶段一个特殊类型的教育将显著提高学生自我发展的比例。也就是说,增加主动感的训练产生了结果,这个结果显著的体现在分数上。学生和老师可以一起合作提高这种思考能力,培养学生能胜任生活的许多其他层面。

5、测试应该涉及操作行为和应答行为。几乎现存的测试都有的一个巨大缺点是它们事先结构化了情境,要求测试者做出特定类型的反应。它们的目标是评估一个人做出特定反应和选择的能力。但是个人在测试之外的生活中很少面对如此清晰明确的选择,比如“哪种狗更有可能咬人”或者“根据下列数填空:1 3 6 10 15 ____,”或者“下列词语中哪个与词典的含义最接近……”如果我们参考调查对象的后期行为,在这个意义上,设计的刺激情境是为了唤醒特定类型的反应,之后生活更有以操作反应为特征的倾向,操作反应是即使没有特定的刺激个人也会自发的做出反应。这项事实很有可能解释了大多数现存测试不能预测生活结果行为的原因。调查对象一般不能预测自发反应。用一个很粗糙的例子来说,心理学家可以评估个人喝啤酒能力的不同,但是如果用这种方法去预测实际啤酒随时间的消耗量,这两者的相关性很有可能非常低。一个人能喝多少啤酒与他实际喝了多少并不相关。

测试者经常使用应答行为去节省给答案打分的时间,并获得更高的重测信度。也就是说,人们在高结构化情景中比非结构化情景中更容易做出同样的反应。但是盲目的追求这些目标导致测试缺乏重大的效度,因为生活不是简单的结构化的,它不允许人们从事先确定好的答案中进行选择。n项成就测量是一种自发反应,主体在模糊的指令下做出反应(讲故事),对3组不同样本进行为期12到14年的预测,发现他们不知不觉的从事创业企业的工作(McClelland,1965)。在这里自发反应是预测一个自发反应——自发地思考如何一直做更好的倾向可以预测一系列随着时间而自发的行为,这些将导致个人进入与企业有关的职业。但是通过调查对象的自发反应进行预测或者反过来,并不起作用,至少对于男性是这样(McClelland,1966)。n项成就分数与成绩或学术测试分数(调查对象测量的)并不相关,

成绩与进入与企业相关的职业也不相关(看McClelland,1961)。

即使在有很强结构性的测试情境中,也要允许比通常实践中有更多的操作性行为。不久之前我们尝试去寻找一个现存的绩效测试,具有高n项成就的人在这项测试中也应表现很好,这项测试可以很好地替代在特定场合讲故事的主题理解测验。理论上,这样的测试要当个体在解决问题时为了找到最有效的方式而生成大量的选择时,允许操作性行为。但是令我们吃惊的是我们找不到这样的测试。目前发散思维测试统计了一个个体可以想到的自发反应的数量(比如,纸夹最初的用法),这项测试不要求人们找到最佳的选择。许多其他测试仅仅要求人们找到测试者所写项目中的正确答案。这所需要的就是测试项目。测试项目有许多正确答案,但是根据效能的标准,人们必须选择其中最好的一个。这个任务非常贴近我们,并且非常像高n项成就的人行动特征类型。所以我们发明了一个航空公司调动测试(Bergthold,1969),在航空公司的人会面临许多问题,他们要以最少的时间、能源、资金以及不便之处将乘客从A市送到B市。根据提供的时间表,如果被试者有精力将他们都考虑在内,就能产生几个可选择的能够解决问题的路线,但是只有一个是最有效的。这项测试保证与n项成就分数的关联性很低。但关键点是为了产生可供选择的解决方案它要求更多逼真的操作性行为,因此它应该在许多低结构化的情境中更具预测力。

6、测试应该对自发思维模式进行抽样以得到多种行为结果最大的概括性。正如已经提到的,定义职业测试的行为目标运动可以导致巨大的专一性以及低预测力小技能的庞大目录。解决这个问题的办法是集中定义思维代码,因为按照定义,它们能更广泛的适应多种多样的行为可能性。这就是说,它们代表一个比任何给定行为自身更高要求的行为性抽象概念,给定行为自身没有能力用言语去代表其他行为。从经验事实讲,它就是这样起作用的。n项成就分数,也就是操作性想法测量,从目标设定到颜色和时期偏好的职业风格有许多行为关联(McClelland,1961),在这方面作为行为者个体没有能力去相互预测。一个由操作思维测量近期提供的例子表明,权力动机与四项行为特征之间有很低的正相关,这四项行为是:喝酒、赌博、积累威望量、坦白有许多尚未实施的攻击性冲动(McClelland, Davis, Kalin, & Wanner, 1972)。这些行为特征相互之间完全不相关,所以在因子分析中它们不可能出现在同一维度中。但有趣的是它们似乎是权力驱动可选择的表达途径,因为权利动机分数与这些选择中最佳表达的相关性比任何单独的一个选择或者比他们的总分数都要高。思维特征,这里是对“有影响”和引起关注的渴望,就是高阶抽象,它让测试更加具有预测力,在通过赌博、喝酒等行为来引起更大关注的不同方法上。如果通过关注思维模式开始的,而不是去推测一系列行为背后的想法——出现在传统特征分析各种因素中,未来的测试者应该更近一步地去寻找生活成果层面的概括性能力特征。

我坚持这种方法已经近20年了,但就我看来,在我的雄辩之下,测试运动很少被影响。为什么?有许多原因:人们坚持n项测试分数是无效的是因为它不能预测学校成绩,具有讽刺意味的是,最初设计的目的是为了预测生活成果而不是学校的成绩。或者他们争论在理论基础上这个测试不能预测所有类型的成就(Klinger,1966)。但是在单一的编码目录之外的实际问题是操作思维测量是不可靠的。只是大多数是不可靠的,而非全部。Costa(1971b)的自我发展分数一年的重测稳定系数是0.66,N=223。如果测试的目标是选人,比如挑选高n 项成就的人,那么不可靠性就是致命的缺点。那些被拒绝的申请者可以质疑他们被错误的排出在外了,或证明下次他们可以取得更高的成绩,这些心理学家将没有很好的防御措施。人们可以想象心理学家被生气的家长围攻的场面,因为这些家长的孩子们由于低n项成就分数而没有进入心仪的大学。

但是在新测试运动中,要强调教育进展评估和识别以选择为目的的固定特性同样重要。操作思维测量前个目标来说是非常可靠的。教育者可以用它们来评估一个课堂或者新型教学方法是否有思考去提升自我发展的趋势,就像用Costa测量方法评估的那样。教育者不关心

哪个孩子在测试中表现突出,因为他不打算用这种方法去挑选学生进行特殊对待。所以测试的不可靠性毫无关系。作为一个管理者,他用测试信息决定学校目标是否通过这种或另外一种教育方法来传递。在某种意义上,这种思维测试的不可靠性也是个优点,如果它们鼓励教育者停止只想到挑选,并且鼓励他们更多地思考评估教育程序。

这是不是意味着测试可靠性不重要呢?当然不是这样啦。有时它是可靠地诊断缺陷的重要一部分。在其他场合,可以用测试去挑选那些非常适合做某一工作的人。所以关于可靠性有些事情要做了。因此,一个高n项成就分数的人比低n项成就分数的人更适合销售工作。但从以挑选为目标的角度看,思维样本编码目录中n项成就测试是不可拥护的,因为它不可靠。在这个例子里,思维编码可以作为标准,通过标准更多的绩效测试可以被验证。比如航空公司调度测试分数是可靠的,如果它与基于思维样本的n项成就是稳定相关的,那么在进行挑选时它可以替代后者。事实上,思维编码可以作为寻找行为模式丛的工具,行为模式丛可以被更加可靠地测量,以得到多种生活成果中心领域的胜任能力指数。比如,如果一项提高的社会化权力分数(McClelland等,1972)可以更多的描述成功的警察而不是不成功的警察,正如预期的,与社会化权力相关的行为,比如领导力和影响力,会用来挑选有潜力的好警察。这个s权力分数本身并不好用,因为它不可靠,并且当你学习了得分系统它还是“伪造”的。但是作为更多可靠测试的验证标准它是非常重要的,因为它广泛的实用和理论关系网络对于寻找可以用于挑选目的的行为特点来说是非常有用的。

当这为新测试运动列举六项原则可以影响职业测试时,事实上它仍在学校有巨大的影响力,并且目前最严重的危害是误导人们相信在学校表现好就意味着人们更有能力,因此,因为一些真正能力因素在生活中也能做好。如果像教育考试服务社这样的组织考虑了这六项原则,那么他们具体地应该做哪些改变呢?首先,它应该从词汇表中取消智力术语,并且论及学习成就测试或多或少的具体内容。非特定内容成就(从前叫做“能力”)确实可以预测应试或符号处理能力,而且这些能力对某些生活成果标准非常重要,比如为他人组织测试去通过或者作为一个职工非常的熟练(Ghiselli,1966)。但是在现有证据的基础上,把他们归为一般智力是一个非常严重的实践和理论上的错误。

一旦天生的智力哲学被丢弃了,很显然这样一个测试服务的作用就是把一些不同领域中学术和非学术成就概要文件报告给学校。然后,在选择的情况中,就要大学去决定它是否具有教育性程序,能够促进在给定的低绩效领域中的成长。从数学上讲,如果绩效已经很高了,那么大学能提升绩效的空间就很小,并且在开始,对低成就的同学,大学应该好好想想在其他领域如何教育他。这个概要文件应该包括基于思维样本的自我发展和道德发展一般特性的措施(Kohlberg & Turiel, 1971),因为无论如何更高教育性系统应该提高这些一般胜任能力。

不仅在入口而且在教育的任何一点,成就概要都应该给老师、管理者和学生关于要求的特性是否有所成长以反馈。之后测试结果成了一个帮助学生和老师重新设计教学过程以达成共同目标的工具。只有这样教育性测试从目前的宣判程序变成它打算成为的真正服务程序。

心理测量学考试试题(附有答案)

一、单项选择题 1.下列对测量的描述,正确的是( B ). A.测量就是心理测量 B.就是依据一定的法则用数字对事物加以确定 C.就是用数字来描述事物的法则 D.测量就是用一些题目或数字来描述事物的属性 2.参照点就是确定事物的量时,计算的(A ) A.起点 B.中点 C.终点 D.重点 3.用1代表男,用2代表女等等,这样的量表通常叫做(A )量表。 A. 命名 B.顺序 C.等距 D.等比 4.我们通常将学生的考试结果按名次排队,这些名次属于(B )量表。 A. 命名 B.顺序 C.等距 D.等比 5.在顺序量表中,变量具有(C )。 A.相等单位 B.绝对零点 C.等级 D.可以做加减乘除运算 6.0℃并不意味着没有温度,这种说法是(A )。 A.对 B.错 C.不确定 D.不存在 7.其数值可以进行加、减、乘、运算的量表是(D )。 A. 命名变量 B.顺序变量 C.等距变量 D.等比变量 8.一般来说,心理测量是在()变量上进行的。 A. 命名 B.顺序 C.等距 D.等比 9.下列说法中,正确的是(D )。 A.将具有代表性行为构成的项目集,对代表性人群进行测试,标准化后的数量化系统; B.用标准化测验或量表,在标准情境下,对人的外显行为进行观察,并将结果按照数量或类别加以描述的过程。 C.对心理的某方面的品质,采用多种手段进行系统性的观察和综合评价。

D.心理测验就是依据心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。 10.测验的客观性不包括(C )的客观性。 A.测验的刺激 B.对反应的量化 C.绝对的标准 D.对结果的推论 11.错误的测验观不包括(D )。 A.测验万能论 B.测验无用论 C.心理测验即智力测验 D. 以上一个也不是 12.(B )编制了世界上第一个正式的心理测验。 A.高尔顿 B 比内 C.卡特尔 D.奥蒂斯 13.近些年来,我国心理学家正在致力于心理测验的(A )研究。 A.本土化 B.数量化 C.引进并修订国外量表 D.大量测验 14.(B )是由具有某种共同特征的人所组成的一个群体,或是该群体的一个样本。 A. 团体 B.常模团体 C.受测人群 D.样本 15.常模样本量的大小,一般最低不小于(D )。 A. 100或200 B.800或1000 C.20或25 D.30或100 16.全国性常模,样本量要在(B )之间。 A.1000-2000 B. 2000-3000 C. 3000-4000 D. 4000-5000 17.样本大小适当的关键是样本要有(A )。 A.代表性 B.特殊性 C.相关性 D.可比性 18.取样是指从(C )中选择有代表性的样本。 A.总体 B.群体 C.目标人群 D.样本 19.随机号码法是(A )。 A. 简单随机抽样 B. 系统抽样 C.分组抽样 D.分层抽样 20.系统抽样法的关键是计算(D )。 A. 样本量 B.总体 C.哪个班 D.组距

职业能力测试

职业能力 概念: 能力:是指那些直接影响活动效率,使活动得以顺利完成的心理特征的总和。它总是和人的某种活动相联系,并表现于活动之中,是影响活动效率的最基本最直接的心理因素。按能力的倾向性,心理学家一般都把能力分为一般能力和专门能力。一般能力,即智力,指运用于各个活动领域的能力,如观察、记忆、思维等能力。专门能力,指完成某一专门活动所需要具备的能力,如音乐、绘画、表演等能力。 日常生活和职业活动的观察和研究都表明,人的职业能力各不相同,有人善于言语交谈,有人善于操作,有人善于理论分析,有人善于事务性工作。每个人都有自己独特的能力结构。社会上的职业也是多种多样的,各种职业对从业者的能力要求各不相同,有的需要语言能力,有的需要计算能力,有的需要动手能力。某一职业所需要的人的能力为职业能力。在社会大多数职业中,有时需要几种能力的综合。由于人的能力各有长短、优劣,很难整齐划一,这就需要在企业管理工作中,充分考虑人力资源因素。使用人员从事某项工作时,要充分考虑人的能力的个别差异,根据每个员工的能力情况安排适合的工作,做到人尽其才,才尽其用,各得其所,促进生产及工作任务的顺利完成。 职业能力测验 评分说明: 职业能力的评定采用“五级量表”:强、较强、一般、较弱、弱。每级评定都有相应的权重参数,将评定等级乘以权重参数,然后把6项数值加起来,再除以6,就得到一组评定的等级分数。五个等级含义:“1”为强;“2”为较强;“3”为一般;“4”为较弱;“5”为弱。评定等级可能有小数点,如等级2.2,表示此种水平能力称低于较强水平,高于一般水平。 例如第一组 第一组:强较强一般较弱弱 ⑴善于表达自己的观点(○)()()()() ⑵阅读速度快,并能抓住中心内容()()(○)()() ⑶清楚地向别人解释难懂的概念()(○)()()() ⑷对文章中的字、词、段落和篇章的理解、分析和综合的能力 ?????????????????? ()()(○)()() ⑸掌握词汇量的程度()(○)()()() ⑹中学时你的语文成绩()(○)()()()

智力测量量表对比表

原创及修订适用范 围 施测步骤具体实施记分转换结果解释主要功能其它 韦氏成人智力师表 WAIS--RC 根据斯皮尔曼的二因素论1955年韦 克斯 1981年龚 耀先 16岁以 上的成 年人分 农村和 城市 先言语VQ VIQ,后 操作PQ PIQ ,也可 先做操作 的。 FQ FIQ 知识、领悟、算术、 相似性、数字广度 (限时90S)、数词 (言语测试) 数字符号、图画填充 (20S)、木块图、 图片排列、图形拼凑 (操作) 无限时的一和般 10--15S 原始分:算术及五操 作有时间限制,以反 应速度和正确性作 为评分依据。 各项得分相加为原 始分,缺一项分计算 加权分。 量表分为标准 20分,平均10 分,标准差3 分。VQ PQ FQ 智商VIQ PIQ FIQ平均100 分,标准差10 分。 离差智商 极超常》130 超常120-129 高于平常110-119 平常90-109 低于平常80-89 边界70-79 较轻:50--69 中度:35--49 重度:20--34 极重度:0--19 知:广能记 领:判运解 算:数推记 相:逻抽概G 数:注记 词:言理概G 数字:学知灵 图填:视辩记理 木块:辩空视结 图排:分观社预 图拼:局整概知 辩 优点:三套衔 接,离差智 商,智力人 格。 缺点:衔接欠 佳,起点难, 项目多。 联合瑞文 CRT 标准型、彩色型,72题,前三单元为彩色,后三单元黑白图案。 根据斯皮尔曼的二因素论1935瑞文 非文字智 力测量 李丹王栋 1989年 5--75岁 粗评智 力等级 量表。 可用于 有言语 障碍的 1、三年级 正常---65 以下可团 体。 2、限时40 分钟,20、 30各各报 时间一次。 原始分为三级评分, 对1分,错0分。 原始分------百 分等级------IQ 分 离差智商 平均分为100 分,标准差为 10. 极优:》130 优秀:120--129 中上(聪明)110-119 中等:90--109 中下(迟钝)80--89 边缘:70--79 轻度:55--69 中度:40--54 重度:25--39 极重:《24 中国比内 51道试题 从易到难 2--18岁 每一年龄3道题。比内、西 蒙1905 年, 吴天敏 1982年 2---18岁 农村城 市共用 一套 连续5题不 过,停止, 说:”好了, 就到这吧, 谢谢你。 通过1题记1 分 实得分加补加分为 总分 离差智商平均 数为100,标准 差为16. 实足年龄加总 分,从智商表 中查出相应智 商。 非常优秀:》140 优秀:120-139 中上:110-119 中等:90--109 中下:80-89 边缘:70--79 智力缺陷:《69 “你自己想 一想” 施测被测相 对而坐。

教育心理学

当代教育心理学 第一章教育心理学及其研究 第一节教育心理学的研究对象与应用 已理解: 1、教育心理学研究对象:教育心理学定义,学习与教学相互作用过程(学生,教师,教学内 容,教学媒体,教学环境); 2、教育心理学的应用:(1)教学:科学还是艺术;(2)教心的作用:理论与实践; 未理解:无 第二节教心的发展概况 已理解: 1、发展过程:初创(20世纪20年代以前),发展(20~50年代),成熟(60~70年代),深化(80 年代以后); 2、教心的研究趋势:学习者的能动性,主体性;学习的内在过程和机制;社会环境影响;实 际情景影响;文化背景影响;学习环境设计和有效教学模式;研究信息技术的利用。 未理解:无 第三节教育心理学的研究方法 已理解: 1、研究方法:质性研究和定量研究;观察法;调查法,实验法; 2、教育经验总结法; 3、教育行动研究:行动研究法:特点情境性,合作性,参与性,自我评价;环节; 4、设计型研究; 5、研究步骤:科研选题,形成研究问题,确定变量及其测量技术,提出假设和选择研究方法; 6、研究的有效性。 未理解:无第二章学生心理 第一节学生的认知发展 已理解: 1、皮亚杰的认知发展论:建构主义的发展观,图式(同化和顺应) 2、皮亚杰的认知发展阶段论:感知运动阶段,前运算阶段,具体运算阶段,形式运算阶段;

3、影响发展的因素:成熟,练习和经验,平衡化 5、皮亚杰发展理论对教育的影响:新皮亚杰理论; 6、维果茨基的发展观:文化历史发展观,心理发展观; 7、最近发展区;ZPD定义; 8、内化学说:自我中心言语; 9、维果茨基的理论对教学的影响:搭建支架 未理解:无 第二节学生的情感和个性发展 已理解: 1、个性与社会发展:埃里克森的社会化发展理论,发展危机; 2、革新和社会化发展理论在教学中的应用; 3、自我意识:主体的我和客体的我; 4、自我意识的结构:自我认识,自我调节,自我体验; 5、自我概念: 6、自尊:自尊的三个先决条件:重要感,成就感,力量感。 未理解:无 第三节学生的个体差异 已理解: 1、个体的智力差异:智力的心理测量学理论:流体智力和晶体智力 2、当代智力的系统理论:多元智能理论(霍华德.加德纳),逻辑—数学智能,智力三元理论(分 析能力,创造能力,应用性能力)(斯滕伯格); 3、成分亚理论,情境亚理论,经验亚理论; 4、个体的学习风格差异:奈欣斯三维理论,雷诺六维理论,科尔勃的两维坐标理论; 5、常见的学习风格差异:感觉通道:视觉型,听觉型,动觉型学习者; 6、认知风格:场依存与场独立;反思性与冲动型;整体性和系列性(整体性策略和系列性策 略);深层加工和表层加工; 7、社会文化背景及性别差异:文化刻板印象,多元文化教育; 8、性别差异:性别和性别角色,性别角色认同,资历和学业性别差异; 9、教育中的性别偏差:性别偏向,性别图示。 未理解:无

职业能力测试题和标准答案

职业能力倾向测试题 之一 首先,请你先完成下面的这个心理小测验。 操作指令:以下有60道题目。如果你认为自己是属于这一类人,便在序号上画个○,反之,便不必做记号。答题时不需要做反复思考。 1.我喜欢自己动手干一些具体的能直接看到效果的活。 2.我喜欢弄清楚有关做一件事情的具体要求,以明确如何去做。 3.我认为追求的目标应该尽量高些,这样才可能在实践中多获成功。 4.我很看重人与人之间的友情。 5.我常常想寻找独特的方式来表现自己的创造力。 6.我喜欢阅读比较理性的书籍。 7.我喜欢生活与工作场所布置得朴实些、实用些。 8.在开始做一件事情以前,我喜欢有条不紊地做好所有准备工作。 9.我善于带动他人、影响他人。 10.为了帮助他人,我愿意做些自我牺牲。 11.当我进入创造性工作时,我会忘却一切。

12.在我找到解决困难的办法之前,通常我不会罢手。13.我喜欢直截了当,不喜欢说话婉转。 14.我比较善于注意和检查细节。 15.我乐于在所从事的工作中承当主要责任人。 16.在解决我个人问题时,我喜欢找他人商量。 17.我的情绪容易激动。 18.一接触到有关新发明、新发现的信息,我就会感到兴奋。19.我喜欢在户外工作与活动。 20.我喜欢有规律、干净整洁。 21.每当我要作重大的决定之前,总觉得异常兴奋。22.当别人叙述个人烦恼时,我能做一个很好的倾听者。23.我喜欢观赏艺术展和好的戏剧与电影。 24.我喜欢先研究所有的细节,然后再做出合乎逻辑的决定。25.我认为手工操作和体力劳动永远不会过时。 26.我不大喜欢由我一个人负责来做重大决定。 27.我善于和能为我提供好处的人交往。 28.我善于调节他人相互之间的矛盾。

斯坦福比纳智力量表

斯坦福—比纳智力量表 1905年,法国心理学家比纳和西蒙编制了第一个诊断异常儿童智力的测验,即著名的“比纳—西蒙量表”(Binet-Simon Scale)。该量表包括30个项目,从易到难排列,以通过题数的多少作为鉴别智力高低的标准。1908年和1911年作者对量表先后修订了两次,测验项目增加到59个,并按年龄分组,从3岁到15岁。该量表首次采用心理年龄(mental age,MA)即智龄来计算成绩,儿童通过哪个年龄组的项目,便表明他的智力与几岁儿童的 平均智力水平相当。 比纳认为,智力是一种判断的能力,创造的能力,适应环境的能力。因而他从复杂任务入手,着重测量判断、理解、推理等高级心理过程,即智力中的普通因素。 美国斯坦福大学教授推孟(L.M.Terman)在1916年修订了比纳—西蒙量表,即斯坦福—比纳智力量表(Stanford-Binet Scale)。该测验有90个项目,其最大特点是引入智力商数(intelligence quotient,IQ,简称智商)的概念。所谓智商,就是心理年龄(MA)与实足年龄(chronological age, CA)之比,也称比率智商,作为比较人的聪明程度的相对指标。 1937年、1960年推孟对斯坦福—比纳量表曾做过两次修订,1972年在测验内容不变的情况下,对1960年修订本重新做了标准化,常模是从更具代表性的新样本中得到的。1960年修订后的斯坦福—比纳量表共有100多个项目,这些项目被分为20个年龄组。2~5岁儿童每半岁为一组,每组有6个正式项目,一个备用项目;6~14岁每岁为一组,每组也有6个正式项目和一个备用项目。此外还有一个普通成人组和三个不同水平的优秀成人组 的项目。 仅以6岁组和10岁组为例,测验包括以下内容。 6岁: 1.词汇:在45个词中正确解释6个。 2.区分:说出两物的不同点。 3.图画补缺:指出画中物体缺少的部分。 4.数概念:从一堆积木中取出需要的块数。 5.类比:类似于“夏天热,冬天……”这样的题目。 6.迷津:用铅笔画出最短通路。 备用:看图讲故事。 10岁: 1.词汇:在45个词汇中正确解释11个。 2.在一个三维的图中数出立方体的数目。 3. 解释抽象词。 4.说明理由:说出一种规则和偏好的理由。

比奈-西蒙智力测量量表附答案

智力测验 完成时间:45分钟 1.五个答案中哪一个是最好的类比? 工工人人人工人人工对于221112112相当于工工人人工人人工对于 A. 221221122 B. 22112122 C. 22112112 D. 112212211 E. 212211212 2.找出与众不同的一个: A. 铝 B. 锡 C. 钢 D. 铁 E. 铜 3.五个答案中哪一个是最好的类比? A B C D E 4.找出与众不同的一个: A B C D E 5.全班学生排成一行,从左数和从右数小明都是第15名,问全班共有学生多少人? A. 15人 B. 25人 C. 29人 D. 30人 E. 31人 6.一个立方体的六面,分别写着A、B、C、D、E、F六个字母,根据以下四图,推测B的对面是什么字母

ACDEF 7.找出与“确信”意义相同或意义最相近的词: A. 正确 B. 明确 C. 信心 D. 肯定 E. 真实 8.五个答案中哪一个是最好的类比? 脚对于手相当于腿对于 A. 肘 B. 膝 C. 脚趾 D. 手指 E. 臂 9.五个答案中哪一个是最好的类比: A B C DE 10.如果所有的甲都是乙,没有一个乙是丙,那么,“一定没有一个丙是甲”。这句话是A. 对的 B. 错的 C. 既不对也不错 11.找出下列数字中特殊的一个: 1 3 5 7 11 13 15 17 12.找出与众不同的一个: A B C D E

13.小明比小强大,小红比小明小。下列述中哪一句最正确? A. 小红比小强大 B. 小红比小强小 C. 小红与小强一样大 D. 无法确定小红与小强谁大 14.找出与众不同的一个: A B C D E 15.五个答案中哪一个是最好的类比? “预杉”对于“须杼”相当于8326对于 A. 2368 B. 6283 C. 2683 D. 6328 E. 3628 16.小明有12枚硬币,共3角6分钱。其中有5枚硬币是一样的,那么这五枚一定是: A. 1分的 B. 2分的 C. 5分的 17.找出与众不同的一个 A. 公里 B. 英时 C. 亩 D. 丈 E. 米 18.经过破译敌人密码,已经知道了“香蕉苹果大鸭梨”的意思是“星期三秘密进攻”,“苹果甘蔗水蜜桃”的意思是“执行秘密计划”,“广柑香蕉西红柿”的意思是“星期三的胜利属于我们”,那么,“大鸭梨”的意思是: A. 秘密 B. 星期三 C. 进攻 D. 执行 E. 计划 19.五个答案中哪个是最好的类比? 爱对于恨相当于英勇对于 A. 士气 B. 安全 C. 怯懦 D. 愤怒 E.恐怖 20.一本书的价格降低了50%。现在,如果按原价出售,提高了百分之几? A. 25% B. 50% C. 75% D. 100% E. 200% 21.五个答案中哪一个是最好的类比?

职业能力倾向结果测试

职业能力倾向测验

统计分数的方法: 1.对每一类能力倾向计算总分数。对每一道题目,我们采取“强”、“较强”、 “一般”、“较弱”、“弱”五等级,供您自评。每组5道题完成后,分别统计各等 级选择的次数总和,然后用下面公式计算出该类的总计次数(把“强”定为第一 项,以此类推,“弱”定为第五项;第一项之和就是选“强”的次数和)。总计次 数:(第一项之和× 1)+(第二项之和× 2)+(第三项之和× 3)+(第四项之和 × 4)+ (第五项之和× 5)。 2.计算每一类能力倾向的自评等级。自评等级:总计次数/5 3.将自评等级填在下表: 根据结果对照下表,可找到你适合的职业

(1)BEC职业能力测验1:机械推理、空间关系、言语推理、数学能力、言语运用、字词知识、知觉速度和准确性、手指速度和灵活性. (2)BEC职业能力测验2:言语推理、运算能力、抽象推理、文书速度与准确性、机械推理、空间关系、词汇测验、言语运用 (3)一般能力倾向成套测验:智力、言语能力、数理能力、书写知觉、空间判断能力、现状知觉、运动协调、手指灵巧度、手院灵巧度 (4)一般能力倾向测验:语言能力、数学计算、逻辑推理、资料分析、机械推理、空间关系、知觉速度 (5)个人职业素质评价系统:机械推理、空间关系、言语推理、数学能力、言语运用、字词知识、知觉速度与准确性、手指速度与灵活性 (6)行政职业能力倾向侧验(AAT):知觉速度与准确性:判断推理能力:言语理解;资料分析:数量关系。│ (7)一般行政能力倾向侧验(GAAT):数童关系、言语理解、判断推理和资科分析。题型:数列推理、数字运算、选词填空、语句表达、言语理解、事件排序、常识判断、图形推理、演绎推理和资料分析 (8)行政职业能力倾向侧验:知觉速度:数盆关系:判断推理:言语理解:资料分析 职业能力倾向侧验:言语理解:判断推理:数量关系:资料分析:思维策略 (9)职业心理倾向测评系统:言语理解与表达、数字运算、空间判断、形态知觉、颜色辨别、办公文书事务力、口头指示语理解、反应时、速度知觉、手指灵巧性、手腕灵活性、手臂稳性、双手协调性、双臂协调性、腕指速度 (10)汽车司机安全驾驶性向测验:辨别、图形推理、镜像时钟判断、图形异同判断、错字核查、方向把握 敏感性与沟通能力测验 编辑:河北招聘网| 来源:卓博才经

比奈-西蒙智力测量量表(附答案)

完成时间J 45分钟内 1-五个答案中哪一个是最好的类比 工工人人人工人人工对于2相当于工工人人工人人工对于 A. 2 B. C. D. 1 E. 2 2-找出与众不同的一个: A ?铝 B ?锡 C ?钢 D.铁 E.铜 3.五个答案中哪一个是最好的类比 5, 全班学生排成一行,从左数和从右数小明都是第15名,问全班共有学生多少人 A. 15 人 B ? 25 人 C. 29人 D. 30人 E. 31 人 6, 一个立方体的六而,分别写着A 、B 、J D 、E 、F 六个字碌,根据以下四张图,推测B 的对而是什么 字母 对于 A 相当于 O' 十△& (C ) (d) 4. 找出与众不同的一个: 对于 (e) V H F (旳 (坊 (C ) (d) (e)

ABC (1) (2) (3) (4) 7.找出与"确信"意义相同或意义最相近的词: A.正确 B.明确C?信心 D.肯定 8.五个答案中哪一个是最好的类比 脚对于手相当于腿对于 A?肘B?膝 C.脚趾 D.手指 E.臂 9,五个答案中哪一个是最好的类比: 对于相当于对于 A (b) (C)(d) 10-如果所有的甲都是乙, A.对的B,错的没有一个乙是丙,那么, C.既不对也不错 “一泄没有一个丙是甲”。这句话是 11. 1 找出下列数字中特姝的一个: 3 5 7 11 13 15 17 12, 找出与众不同的一个: D (a) G (b) c (C) (d) R (e)

13.小明比小强大,小红比小明小。下列陈述中哪一句最正确 A.小红比小强大 B.小红比小强小 C.小红与小强一样大 D?无法确;^小红与小强谁大 14.找出与众不同的一个: (a)(C)(d>(e) 15-五个答案中哪一个是最好的类比 “预杉”对于"须杼”相当于8326对于 A. 2368 B. 6283 C. 2683 D. 6328 E. 3628 16.小明有12枚?币,共3角6分钱。其中有5枚硬币是一样的,那么这五枚一泄是: A.1分的 B.2分的 C.5分的17.找出与众不同的一个 A.公里 B.英时C?亩D?丈E?米18-经过破译敌人密码,已经知道了“香蕉苹果大鸭梨"的意思是“星期三秘密进攻","苹果甘蔗水蜜桃"的意思是“执行秘密计划",“广柑香蕉西红柿"的意思是"星期三的胜利属于我们",那么,"大鸭梨”的意思是: A.秘密 B.星期三 C.进攻 D.执行 E. il?划 19.五个答案中哪个是最好的类比 爱对于恨相当于英勇对于 A. 士气 B.安全 C.怯懦 D.愤怒 E.恐怖 20.一本书的价格降低了50%。现在,如果按原价出售,提高了百分之几 A. 25% B. 50% C. 75% D. 100% E. 200% 21.五个答案中哪一个是最好的类比

心理测量学 论述题

心理测量学论述题 1、讨论韦氏量表测验的主要构成(p114) (1)韦氏认为,智力是个人有目的行动、理智地思考以及有效地应付环境的整体的或综合的能力。基于这一定义,他设计了11个分测验,综合考察智力的各个方面。 (2)包括言语量表和操作量表。 言语量表6个:常识,数字广度,词汇,算术,理解,类同 操作量表5个:填图,图片排列,积木图案,物体拼凑,数字符号(3)言语量表: 1、常识:构成:29个涉及广泛知识的题目,要求被试用几句话或几个数字回答, 问题由易到难排列。 测量:被试知识的广度,一般学习能力,并可以此评价被试的文化背景。 优点:常识测量易与被试建关系,不易引起被试紧张和厌倦,通常将此测 验作为第一个分测验。 缺点:易受文化背景和被试熟悉程度的影响。 3、数字广度:构成:包括顺背和倒背两部分 测量:短时记忆能力和注意力 临床表明,对智力低的测得是短时记忆能力,对智力高的测的 是注意力,且得分未必会高。 同时,违拗症和脑功能障碍的病人一般得分较低。 优点:简便易行 缺点:可靠性低,受偶然因素影响较大,对智力的G因素负荷不太高。 5、词汇:构成:35个难度逐渐加大的词,以文字形式呈现给被试,要求被试说出 每 个词的意思。 测量:言语理解能力,与抽象概括能力有关,能在一定程度上指出被试的 知识范围和文化背景。 优点:测量智力G因素的最佳指标,可靠性很高。 缺点:计分较麻烦,评分标准难把握,实施时间较长。 7、算术:构成:14个小学程度的算术文字题,由易到难排列,主试口头提问,被 试 心算并口头回答。 测量:顺序推理能力,计算和解决问题的能力以及集中思想的能力。该能 力随年龄而发展,故能考察智力的发展。 优点:测试简便 缺点:导致被试紧张 9、理解:构成:16个按难易程度排列的问题,要求被试说出在某种情形下的最佳 活 动方式,为什么要遵守社会规则以及解释常用成语。 测量:普通常识,判断能力,运用实际知识解决问题的能力,对伦理道德 和价值观念的理解能力。 优点:对智力的G因素负荷较大,与常识测验相比,受文化教育影响小 缺点:计分难以掌握

职业能力测试问卷

【问卷】 每一道题目分“强”、“较强”、“一般”、“较弱”“弱”五等级,请在选定的栏目打√。 (一)一般学习能力倾向(G)强1 较强2 一般3 较弱4 弱5 1.快而容易地学习新内容 2.快而正确地解数学题 3.你的学习成绩 4.对课文的字、词、段落篇章的理解、分析和综合能力 5.对学习过的知识和记忆能力 (二)言语能力倾向(V)强1 较强2 一般3 较弱4 弱5 1.善于表达自己的观点 2.阅读速度和理解能力 3.掌握词汇量的程度 4.你的语文成绩 5.你的文学创作能力 (三)算术能力倾向(N)强1 较强2 一般3 较弱4 弱5 1.作出精确的测量 2.笔算能力 3.口算能力 4.打算能力 5.你的数学成绩 (四)空间判断能力倾向(S)强1 较强2 一般3 较弱4 弱5 1.解决立体几何方面的习题 2.画二维度的立体图形 3.看几何图形的立体感 4.想象盒子展开后的平面图 5.想象三维度的物体 (五)形态和知觉能力倾向(P)强1 较强2 一般3 较弱4 弱5 1.发现相同图形中的细微差别 2.识别物体的形状差异

3.注意物体的细节部分 4.观察物体的图案是否正确 5.对物体的细微描述 (六)书写知觉能力倾向(Q)强1 较强2 一般3 较弱4 弱5 1.快而准地抄写资料(如姓名、日期、电话号码等) 2.发现错别字 3.发现计算错误 4.能很快查找编码卡片 5.自我控制能力(如较长时间抄写资料) (七)眼手运动协调能力倾向强1 较强2 一般3 较弱4 弱5 1.玩电子游戏 2.打篮球、排球、足球一类活动 3.打乒乓球、羽毛球运动 4.打算盘能力 5.打字能力 (八)手指灵巧度(F)强1 较强2 一般3 较弱4 弱5 1.灵巧地使用很小的工具 2.穿针眼、编制等使用手指的活动 3.用手指做一件小艺品 4.用计算器的灵巧度 5.弹琴 (九)手腕灵巧度(M)强1 较强2 一般3 较弱4 弱5 1.用手把东西分类 2.在推拉东西时手的灵活度 3.很快地削苹果 4.灵活地使用手工工具 5.在绘画、雕刻等手工活动中的灵活性 一、统计分数的方法: 1.对每一类能力倾向计算总分数。每组五道题完成后,分别统计各等级选择的次数总和用下

韦氏幼儿智力量表测验报告样本

中国修订韦氏幼儿智力量表测验报告 一、实验背景: 韦氏幼儿智力量表是当今国际心理学界公认的已被广泛应用的个别智力测验量表。此量表最早由美国韦克斯勒()教授于1949年编制出版,我们使用的是龚耀先和戴晓阳主持修订的版本,其中国化程度较高,除沿用韦氏测验的基本构架外,在测验内容上作了很大改变:跟WISC-R相比,沿用项目仅占%,所编项目占%,修改原版项目占%,使之更为适合中国经济、文化背景,符合中国儿童心理发展特点。 二、实验目的: (1)增进对智力概念和内涵理解 (2)熟悉掌握韦氏幼儿智力量表的施测方法 (3)学会初步分析韦氏幼儿智力量表的测验分数 三、方法步骤: (一)、总测验施测方法: C-WYCSI必须由有经济的、受过良好心理测验训练,并学习过此方法的主试使用。主试必须遵照手册中规定的方法,不得任意更改,否则结果不可靠。每一份测验都有指导测验的方法的指导语,在必要时可以适当更换成被试可以理解的语句,但内容不得增减。指导语的内容,即可指导被试的进行作业,又不会有暗示回答的作用。如果适当增减,也要遵守此原则。 主试必须熟练操作技术,包括指导语,测验器材的放置方法,计时,记录,每个分测得停止规定,取得儿童的合作,处理测验的意外事件,计分标准,结果计算方法,结果解释,报告书写等。 进行一次C-WYCSI的检查,原则上一次做完,特殊原因(如疲劳)需要中断时,也得在一个分测验后休息,休息时间不得过长,万一在未完成一份测验需要中途休息,在继续此分测验时,不要紧接已做完的项目开始,而要重复已做的一、二个项目,以便重新熟悉测验情境,使精神活动进入循环渐进的状态,特别是在测验项目前后连续关系非藏密切时。 (二)分测验的具体施测方法:、 1、知识测验 方法:在介绍本测验时,往往要先用一个缓冲的问题,如“告诉我你叫什么名字?”这个问题不计分,然后开始测验。一次让儿童回答每个问题,如果回答不清楚,可以说:“你的意思是什么?”或说:“请告诉我多些?” 停止测验:连续五次零分停业 计分:每题回答正确计分,个别问题回答不完全者视其回答情况记分,总分取四舍五入方法。 指导语:现在我来问你一些问题,请你回答。 2、动物下蛋测验 材料:一个画有蛇、鸡、鱼、乌龟四种动物的形板;一盒有28个黑、白、蓝、黄四色的塑料球。 方法:板上每一方格中有一个洞和一种动物。顶上四种动物下面的洞中分别嵌有不同颜色的塑料球,要求儿童将相应颜色的塑料球放在每个动物下面的洞中。在测验开始时先确定儿童是右利手还是左利手,可问她用哪只手写字(幼年儿童让其拿一件东西,看他用哪只手)。将形板放在儿童面前,将装有28个有色塑料球

心理测量学重点知识整理

1、著名美国学者波林指出;在测验领域中.“19世纪80年代是高尔顿的10年,90年代是卡特尔的10年,20世纪头10年则是比奈的10年。 2、比奈与其助手西蒙发表《诊断异常儿童智力的新方法》,在这篇文章中介绍的就是第一个智力量表——比西量表。 3、心理测量的性质:(1)心理测量的间接性(2)心理测量的相对性(3)心理测量的客观性 4、心理测验的种类:(一)按测验的功能分类1.能力测验 2.学绩测验 3.人格测验 (二)按测验的对象分类 1.个别测验 2.团体测验 (三)按测验材料分类 1.文字测验 2.非文字测验 (四),按测验的目的分类 1.描述性测验 2.诊断性测验 3.预示性测验(五)按测验的难度和时限分类1.速度测验2.难度测验(六)按测验的要求分类 1.最高作为测验2.典型作为测验 (七)按测验的性质分类 1.构造性测 2.投射性测验(八)按测验的应用分类1.教育测验 2.职业测验 3.临床测验 5、下面是两种常见的排列方式: 1.并列直进式 2.混合螺旋式 6、对测验项目的分析包括定性分析和定量分析两个方面。 7、误差的种类:一种是随机误差,又叫可变误差,这是由与测量目的无关的偶然因素引起而又不易控制的误差,它使多次测量产生了不一致的结果。此种误差的方向和大小的变化完全是随机的,无规律可循。另一种是系统误差,又叫常定误差,这是由与测量目的无关的变因引起的一种恒定而有规律的效应,稳定地存在于每一次测量中,此时测值虽然一致,但不正确。8、经典测量理论的基本思想:把任何一个测验成绩都看做是真分数和测量误差的和,即:X=T+E (这里X为实得分数或观测分数,T是假设的真分数,E是测量误差) 9、估计信度的方法:①再测信度②复本信度③分半信度④同质性信度⑤评分者信度 10、信度系数有两个实际用处:一是用来评价测验,二是用来对分数作解释。 11、效度分为内容效度、构想效度和校标效度。 12、测验间法:①相容效度②区分效度③因素效度 13、分数的合成类型:①项目的组合②分测验或量表的组合③测验或预测源的组合 14、根据测量对象的性质和特点,不同形式的测量可分为:物理测量、胜利测量、社会测量(对社会现象的测量)、心理测量。 15、测量的参照点:a) 绝对参照点:以绝对的零点作为测量的起点b) 相对参照点:以人为确定的零点为测量的起点 16、Stevens将量表从低到高分为4个等级:a)命名量表:用数字来代表事物或对事物进行分类b)顺序量表:给个体赋值,使数值的大小次序与个体在所测量的心理特性上的多少、大小、高低等的次序相符合c)等距量表:给个体赋值,使数值间的差不仅能够反映出对应个体在所测量心理特性上的排序,而且能够反映出对应个体在该特性上的差异程度d)比率量表:给个体赋值,使数值间的比率能够反映对应个体在测量心理特性上比率 17、心理与教育测量的理论基础:1918年,桑代克曾提出:“凡客观存在的事物都具有其数量”。1939年,麦柯尔进一步指出:“凡是有其数量的事物都可以测量。” 1、心理测验:通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析一种科学手段 2、难度:测验项目的难易程度 3、区分度:指测验项目对被试的心理特性的区分能力 4、误差:是在测量中与目的无关的变因所产生的不准确或不一致的效应。 5、真分数:就是在测量没有误差时所得到的真值。 6、信度:人们通常把测量结果的可靠性称之为信度。 7、效度:指的是测量的有效性,即一个测验对它所要测量的特质准确测量的程度。 8、内容效度:是指项目对欲测的内容或行为范围取样的适当程度。

幼儿智力测验量表

幼儿智力测验量表 关于用来对幼儿进行智力检测的量表有许多,这里要介绍的是《幼儿智力测验量表》。本量表是我国著名儿童心理学家林崇德等人根据《比标一西蒙智力测验表》和《斯坦福一比标量表》,并结合我国儿童的实际情况编制的。具体内容如下: [操作说明及问卷项目] 年龄组测验内容测验方法成绩 3岁指出身体各部位先问:“你的鼻子在哪儿?指给我看看。 ”如问了3遍孩子仍不懂或不回答,就指着孩子的耳朵 问:“这是你鼻子吗?”如回答:“不是”,则再问他: “那么你的鼻子在哪儿呢?”其他部位(如眼、嘴、耳、 头发等)试法相同。指对3个通过 说出自己的姓名问:“你叫什么名字?”如果不肯回答,则可假设一个人 的名字问:“你是不是叫×××?”如回答“不是”,再问: “那么你叫什么名字?”说对通过。 说出自己的年龄问:“你几岁了?”如果不回答,再问:“你今年几岁了?”说对通过。 比较线的长短在纸上画两条长短不一的线段。问:“你看这两条线 哪一条长?你认为长的那条指给我看。”如果答对: 则把纸片上下倒置,重复问。如仍答对,可将纸片 再倒置过来问一遍。3次全部答对通过。 重述四位数字例如6475、8219、4639等。先对孩子说:“你先听 我说一个数字,我说完了,你照我说的说给我听。 ”以后每个数字要读成如6__4—

7—5样,其他数字 读法相同,中间相隔一秒。说对一个数字通过。 说出常见物名依次问剪刀、书、铅笔、杯子、手表等物品的名称: “这是什么?”每一物品只问一遍。答对3件通过。 年龄组测验内容测验方法成绩 4 岁辨别视觉形式在纸上画上10种几何图形(正方形、梯形、球形、菱形、 正八边形、椭圆形、长方形、任意五边形、等腰三角形、 半圆形),然后在另一张纸上画一相同的三角形,问: “这个图和那张纸上的哪个图是一样的?”其他几种画法相同。说对9个通过。 摹画方形令孩子依样摹画边长为2~3厘米的方形,连画3次。 画成有4条边、4只角的,算对,对2个通过。 说明常见物品的用途问:“椅子做什么用?”桌子、床、铅笔、杯子、 锅子等问法相同。说对4样通过。 用手指指着数4个物体拿4个相同的物体(如4个钱币、4粒豆等)令孩子数对通过,不用 用手指指着数,问共有多少。手指指着数而直接回答算。 重述10个字组成的句子先说一句由10个字组成的句子,如“明天跟 爸爸一起去公园”“马路上汽车电车非常多” “幼儿园老师教我们唱歌”等,然后令孩子重述,共重述3句。说对1句通过。 按要求做事要求孩子依次连续做三件事,如给孩子一支铅笔,

《心理测量学》复习提纲整理

一、测量与心理测量 ?重要概念 1.测量:测量是根据法则给予事物分派数字(Stevens S S,实验心理学手册,1951)亦 即依据一定的法则使用量对事物的特征进行定量描述的过程。 2.测量的三要素 事物的属性(测什么?)、法则、规则(如何测?即测量原理)、数字(测量结果) 3.心理测量 (1)一般的定义:对心理特点(或心理学概念)的测量;(依据一定的心理学和教育学理论,使用测验对人的心理特质和教育成就进行定量描述的过程) (2)课本:根据一定的心理学理论,使用测验对人的心理特质进行定量描述的过程; (3)心理测量学的定义:布朗的定义:是指对一个行为样本进行测量的系统程序; 安娜斯塔西的定义:实质是对行为样本的客观可标准化的测量; (4)一种动作、过程;或是实施一组项目。 心理测量就是根据一定的法则用数字对人的行为加以确定。即根据一定的心理学理论,使用一定的操作程序,给人的行为确定出一种数量化的价值。 4.心理测验:进行心理测量的工具,其形式一般为一组题目与相应的评分标准。 工具,包括问卷、测验、面试、评价中心等;或是一组项目 心理测验就是通过观察人的少数有代表性的行为,对贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段,是心理测量的一种工具和手段,是根据一定法则对人的行为用数字加以确定的方法。 5.心理评估:更全面的测量,包括使用观察、访谈的方法获得有关信息。 6.行为样本:心理测量的理论取向,即认为心理测量是对有代表性的部分行为进行测量。 课本定义:从大量行为中抽取与欲测量的心理特质直接相关的一组行为进行测量,并依据对这一组行为的测量结果推断其心理特质。这一组被抽取出来的、作为直接的测量对象的行为就是行为样本。 内在要求:①在测量和界定特定属性的行为时,心理测验并非要测量所有可能出现的行为;②一个测验的质量主要是由样本的代表性所决定。 7.标准化,即统一化,统一规格,一般指产品设计的各个方面 测量标准化,主要指测验使用时的统一化,包括4个方面,可以考试为例;而测验(测量工具,主要是问卷)本身由于比较简单,因而无所谓标准化 8.个别测验:同一主试在同一时间内只能测量一个被试的测验p14 9.团体测验:同一被试在同一时间能够测量许多被试的测验p14 ?思考题: 1...试述心理测量的特点?P8 (1)首先,心理测量依据的法则在相当一定程度上是一种理论,很难达到如同物理测量依据的法则那样普遍被研究者共同接受的科学水平; (2)其次,心理测量的对象是人的心理特质和教育成就; (3)再次,心理测量的量尺是由有关领域的专家经过长期的编制、试用、修订、完善而逐渐形成的标准化测验,它的编制是一项高度专门化的系统工作,要达到科学所 要求的水平绝非易事; (4)最后,心理测量的目标虽然是人的心理特质和教育成就进行定量分析,但这种定量分析的精确度远不及物理测量的精确度。 2...试述心理测量的路线(取向)? 心理测量的路线(取向):行为样本,即认为心理测量是对有代表性的部分行为进行测量 3...试述心理测量在科学研究中的重要性? ①实际生活中:社会生活的各个方面需要测量,我们处于一个数字化的 ②科学研究上:一个概念若不能加以测量,就不是科学的概念; 测量用于研究:一个概念:现状研究;两个或两个以上概念:相关研究与实验研究

比奈-西蒙智力测量量表(附答案)

智力测验 完成时间:45分钟内 1.五个答案中哪一个是最好的类比? 工工人人人工人人工对于221112112相当于工工人人工人人工对于 A. 221221122 B. 22112122 C. 22112112 D. 112212211 E. 212211212 2.找出与众不同的一个: A. 铝 B. 锡 C. 钢 D. 铁 E. 铜 3.五个答案中哪一个是最好的类比? A B C D E 4.找出与众不同的一个: A B C D E 5.全班学生排成一行,从左数和从右数小明都是第15名,问全班共有学生多少人? A. 15人 B. 25人 C. 29人 D. 30人 E. 31人 6.一个立方体的六面,分别写着A、 B、 C、 D、E、F六个字母,根据以下四张图,推测B的对面是什么字母

A C D E F 7.找出与“确信”意义相同或意义最相近的词: A. 正确 B. 明确 C. 信心 D. 肯定 E. 真实 8.五个答案中哪一个是最好的类比? 脚对于手相当于腿对于 A. 肘 B. 膝 C. 脚趾 D. 手指 E. 臂 9.五个答案中哪一个是最好的类比: A B C D E 10.如果所有的甲都是乙,没有一个乙是丙,那么,“一定没有一个丙是甲”。这句话是A. 对的 B. 错的 C. 既不对也不错 11.找出下列数字中特殊的一个: 1 3 5 7 11 13 15 17 12.找出与众不同的一个: A B C D E 13.小明比小强大,小红比小明小。下列陈述中哪一句最正确? A. 小红比小强大

B. 小红比小强小 C. 小红与小强一样大 D. 无法确定小红与小强谁大 14.找出与众不同的一个: A B C D E 15.五个答案中哪一个是最好的类比? “预杉”对于“须杼”相当于8326对于 A. 2368 B. 6283 C. 2683 D. 6328 E. 3628 16.小明有12枚硬币,共3角6分钱。其中有5枚硬币是一样的,那么这五枚一定是: A. 1分的 B. 2分的 C. 5分的 17.找出与众不同的一个 A. 公里 B. 英时 C. 亩 D. 丈 E. 米 18.经过破译敌人密码,已经知道了“香蕉苹果大鸭梨”的意思是“星期三秘密进攻”,“苹果甘蔗水蜜桃”的意思是“执行秘密计划”,“广柑香蕉西红柿”的意思是“星期三的胜利属于我们”,那么,“大鸭梨”的意思是: A. 秘密 B. 星期三 C. 进攻 D. 执行 E. 计划 19.五个答案中哪个是最好的类比? 爱对于恨相当于英勇对于 A. 士气 B. 安全 C. 怯懦 D. 愤怒 E. 恐怖 20.一本书的价格降低了50%。现在,如果按原价出售,提高了百分之几? A. 25% B. 50% C. 75% D. 100% E. 200% 21.五个答案中哪一个是最好的类比?

心理测量学知识点

心理测量学知识点 1、测量包括三个元素即事务、数字和规则。 2、数字具有区分性、序列性、等距性和可加性特征。 3、任何测量都应具备两个要素即参照点和单位。参照点有两种,分为绝对零点和相对零点。好的单位必须具备两个条件一为确定的意义,二为有相同的价值。 4、测量的本质是根据某一法则在一个定有单位和参照点的连续体上把事物的属性表现出来,这个连续体即为量表。根据量表的精确程度,斯蒂文斯将测量从低级到高级分成四种水平,即命名量表、顺序量表、等距量表和等比量表。 命名量表是测量水平最低的一种量表形势,只用数字来代表食物和把事物归类,可分为代号和类别两种。在命名量表中,数字仅用来标记和分类,既不能比大小也不能加减乘除。 顺序量表,如学生的考试名次,工资级别等。顺序量表既无相等单位,又无绝对零点,数字仅代表等级。 等距量表,有大小关系,且具有相等的单位,数值可做加、减运算,但没有绝对零点,无法进行乘、除运算。如温度。 等比量表,是最高水平的量表,有相等单位,有绝对零点,数值可进行加减乘除运算。 5、心理测量,即是依据心理学理论使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿人的全部行为的心理特点做出推论和数量化分析的一种科学手段。个人在测验中所获得的原始份数,不具有任何意义,只有将它与其他人的分数和常模作比较才有意义。 6、心理测量的性质:间接性、相对性、客观性。 心理测量的标准化包括A、测量用的项目或作业等经过的标准化。B、评分计分的原则和手续经过了标准化。C,分数的转换和解释经过了标准化。 7、心理测验按照功能分为智力测验、特殊能力测验、人格测验。 按测验材料的性质分类,分为文字测验、操作测验(非文字测验 按照测验材料的严谨程度分客观测验、投射测验。 8、按测验的方式分类:个别测验、团体测验 9、按测验的要求分类:最高行为测验、典型行为测验。 10、错误的测验观:A、测验万能论B\测验无用论、C 心理测验即为智力测验 11、正确的测验观:A、心理测验是重要的心理学研究方法之一,是决策的辅助工具。 B、心理测验作为研究方法和测量工具尚不完善。 12、目前在我国心理门诊中运用较多的有三类心理测验即为智力测验、人格测验和心理评定量表。 13、我国始于汉代、兴于隋唐的科举取士制度是世界上最早的心理测量的实践。 14、首先倡导科学心理测验的学生是英国生物学家和心理学院高尔顿,他设计了测量差异的方法,可视为心理测验的开端。他的学生皮尔逊创造了积差相关法,是判定心理测验的效度和信度成为了可能。 美国心理学家卡特尔,在《心理》杂志上发表心理测验和测量一文,是心理测验第一次出现在理学文献中。 比内和她的学生在《心理学年报》上发表了一篇文章“诊断儿童智力的新方法“是世界上第一个心理测验。 19世纪八十年代是高尔顿的十年,90年代是卡特尔的十年,20世纪则是比内的智力测

相关文档
最新文档