经典测评理论的发展、技术及运用
人事测评理论应用与实1

人事测评理论应用与实践学院: 经济管理学院专业: 人力资源管理班级: 080501学号: 0805011012010年11月20号一、中外人事测评发展1中国古代人才测评的方法1纸笔测验墨文,简单笔试,依据经典文献出题,考背诵记忆。
策试,又称时务策,考解决问题。
试帖诗。
起源于唐代。
接题赋诗,考想象力、创造力和知识广度。
八股文。
唐进士试三场:第一场试杂文(诗、赋各一篇),第二场试帖经,第三场试时务策。
每场定去留,也就是说每场皆有淘汰,与今日的体育竞技相似,故第一场"杂文"试显得格外重要。
黄滔《下第》诗:“昨夜孤灯下,阑干泣数行。
辞家从早岁,落第在初场。
”说明黄滔第一场即被淘汰。
“帖经”考背诵记忆,淘汰不大,到“策文”一场,基本上己无淘汰,无非是确定名次罢了。
2用自然观察法判断人才《吕氏春秋》。
对内六戚四隐(个性品德):父母兄弟妻子;交友、故旧、邑里、门生。
对外:八观(复杂情景);六验。
顺逆、普通特殊场合,以贫富、贵贱、喜怒评价品德、才学、志向、意志。
3旁敲侧击法判断人才:情景模拟。
4实践法5听其言,观其行,察其所能。
任前试用、任上监督、任后评论2我国现代人事测评发展1引进阶段。
从20世纪80年代初到90年代,国外部分心理测验被引进到国内,同时根据东方人的文化背景与生活、思维习惯,国内学者修订了一部分比较经典的心理测验。
2发展阶段。
专家学者开始将心理测验与其他测试方式进行有机结合,人事测评取得了一定的实际效果,促使人事测评技术得以发展。
3应用阶段。
到20世纪90年代后期,评价中心的概念在人力资源领域得到认可并逐渐普及,并被广泛运用于测评、发展生涯指导等领域。
3西方心理测验的发展1人物高尔顿:1883年首先提出“测验”术语:身高、体重、视力等特征。
冯特:1879年,建立第一所心理学实验室,发现个体行为差异。
卡特尔:首创“心理测验”这个术语,编制第一套心理测验,测量个体感觉能力与动作过程。
2025年1月江苏自考《14112人员素质测评理论与方法》考前押题密训复习资料

2025年1月《人员素质测评理论与方法》考前资料课程代码【14112】人员素质测评理论与方法第一章人员素质测评概述考点1素质的概念(选择、名词解释)人在先天生理基础上通过后天环境影响和教育后所获得的、内在的、相对稳定的、长期发挥作用的身心特征。
考点2素质的构成(选择、填空、简答、论述)★★(一)自然素质:又称生理或身体素质,是先天的,如身高、体重和骨骼特点等,其他素质均建立在此素质的基础之上。
(二)心理素质:包括智力素质(观察力、记忆能力、逻辑思维能力、想象力与注意力)与非智力素质。
(三)社会素质:在适应与改造社会的过程中形成的,即政治素质、思想素质、道德素质、业务素质、审美素质。
考点3素质的特点(选择、填空、简答)★(一)素质的差异性与共同性;(二)素质的稳定性与可塑性;(三)素质的内在性与表出性。
考点4人员素质测评所依赖的基本前提(选择、填空、简答)★(一)工作的差异。
(二)个体差异。
(三)人力资源管理的要求:人与工作的匹配。
考点5人员素质测评的概念(名词解释)是指测评主体在较短的时间内,采用科学的方法,收集被测评者在其岗位职责相关活动领域所表征的信息,进而依据测评目标体系之标准做出数量化的推理或价值判断的过程。
考点6人员素质测评的特点(选择、填空、简答)1.测评对象的抽样性;2.测评内容的复杂性;3.测评方式的间接性;4.测评结果的相对性。
考点7人员素质测评的基本原则(选择、填空、简答、论述)★1.客观与主观测评结合;2.静态与动态测评结合;3.分析与综合测评结合;4.描述与预测结合;5.指导与开发结合。
考点8人员素质测评的主要类型(选择、填空、简答、论述)★★★(一)选拔型(差异型)测评:强调的是测评差异性,根据企业现状和岗位需求以选拔优秀员工为目的的素质测评。
通常招聘或晋升中所使用的测评都是选拔型测评,这类测评的目的在于区分出优秀和普通人才。
主要特点:(1)强调测评的区分功能,即要把不同素质、不同水平的人区别开来。
人员素质测评理论与方法

人员素质测评理论与方法第一章(结合素质测评实践说明保证素质测评可靠性和有效性的原则)(一)素质和素质测评1.素质的含义:广义,一个人在活动前所具有的稳定的身体的、精神的及社会的基本特质狭义,人的神经系统和感觉器官上的先天的特点。
2.素质测评:根据一定的目的,采用定性和定量相结合的方法,对各类人员的德、能、勤、绩、体等素质进行的测量与评定。
3.素质的特性:基础性、系统性、稳定性、可塑性、差异性、难测性4.素质的构成:道德素质、文化素质、身体素质、心理素质1.素质测评的原则:客观与主观测评相结合、精确与模糊测评相结合、静态与动态测评相结合、分项与综合测评相结合(二)素质测评的功能1.素质测评的鉴定功能:表现为促进个体对自我素质的认知水平,形成统一认可的规范,给人力资源管理带来积极效应。
2.诊断功能:3.预测功能:被测评者在实际工作岗位和业绩上所能达到的程度的预测,提供客观准确的有关个体当前发展水平的信息。
4.激励功能:激发人们进取向上的愿望和动机,使人们自愿努力工作和学习,从而提高个体的素质和工作能力。
5.导向功能:(三)素质测评的意义1.素质测评对人力资源的科学配置:①是人力资源科学配置的基础②是人力资源有效开发的重要依据③是人力资源优化管理的起点④是人力资源合理使用的工具(四)素质测评的基本类型1.选拔性测评:根据职位需要以选拔优秀人员为目的的素质测评,是人力资源管理活动中经常进行的一种测评。
特点:①区分性②确定性③客观性④选择性⑤直观性2.诊断性测评:以了解员工素质现状或素质开发中的问题为目的的素质测评。
特点:①系统性强②结果保密③测评过程寻根究底④测评内容多变3.配置性测评:以人力资源的合理配置为目的的素质测评。
特点:①针对性②客观性③严格性④准备性4.鉴定性测评:以鉴定与验证测评对象是否具备某种素质或具备程度大小为目的的素质测评。
特点:①证明性②概括性③可靠性5.开发性测评:以开发员工素质为人力资源开发提供科学性与可行性依据为目的的测评。
诺姆四达标准之星人才测评产品技术思路

主要解决的问题
1. 什么是人才素质测评 2. 当前人才素质测评的主要的技术和方法有哪些 3. 传统选才方法存在的问题和应对之道 4. 人才素质测评解决什么问题
人才素质测评 :
现代人才测评建立是在心理学、管理学、测量学、考试学、系 统学、行为科学与计算机科学相结合的一种科学的选才方法,它 能对人的知识水平、能力结构、个性特征、职业倾向、发展潜能 等素质进行综合测评,以帮助用人单位了解人才,同时加强人才 对自身的了解,为科学用人和人尽其才提供可靠和有效的依据。 评价中心技术:BEI、LGD、公文筐„„ 标准化心理测评:能力测评、个性测评„„
报告解读4-测评结果
答题基本情况:完成题目数 量和答题时间
一级指标数据图
二级指标数据图
综合评价: 自动提取全部优势资质和待发展资质, 让您迅速、全面把握应聘者的素质情况。
报告解读5-详细解释
低分评价语
详细解释: 细致了解被测者 每项资质的详细 情况
高分评价语
报告解读6-关于报告
如何选择星级评价相同的人?
效度
测量的效度是指测量结果的有效性程度,也就是已经测量的内容与想要测量内 容的相符合程度。
我们做一个人格测验,就会说:看看做出来的结果跟我自己的到底像不像,这其实就 是一种参照效度。
信度、效度要同时具备
一台磅秤,长期使用,弹簧早已疲劳,一个100斤的人站上去,显示的却是110斤,一天称10次,显示的都 是110斤,“信度”足够好,但测得却一点都不准
应对之道
我们需要一种能快速、批量地收集数据的方法; 我们需要一种能最大程度地反映被评价者真实情况的方法; 我们需要一种能了解被评价者深层次信息的方法; 我们需要一种能公平、公正地进行评价的方法; 我们需要一种不随时间、地点变化,能保证评价的一致性的方法;
盖洛普测试原理

盖洛普测试原理
盖洛普测试是一种基于正向心理学的个人评估工具,旨在帮助人们发现和发挥自己的天赋和优势。
其原理主要包括以下几个方面:
1. 优势理论:盖洛普测试认为,每个人都有自己独特的天赋和优势,这些优势是与生俱来的,而不是通过后天学习和经验积累形成的。
通过测试,可以帮助个人发现和发挥自己的优势,从而实现更好的个人和职业发展。
2. 心理学原理:盖洛普测试基于心理学的理论和方法,通过大量的实证研究和数据分析,构建了一个包含34种优势主题的模型。
这些主题代表了人类普遍存在的天赋和特质,测试结果具有一定的可靠性和效度。
3. 自我评测方法:盖洛普测试采用自我评测的方式进行,通过一系列的问题和情境,让受试者评估自己在不同方面的优势和不足。
受试者根据自己的实际情况和感受进行回答,从而得出自己的优势主题和相应的解析。
4. 结果反馈机制:盖洛普测试的结果会以量化的形式呈现,同时会提供详细的解析和指导,帮助受试者更好地了解自己的优势和不足之处,并为其提供相应的建议和反馈,以促进个人和职业的发展。
总之,盖洛普测试的原理主要基于优势理论、心理学原理、自我评测方法和结果反馈机制等方面,通过科学的方法和手段,帮助个人发现和发挥自己的优势,实现更好的发展。
人员测评理论和方法的运用

测评设计人员根据能力要素理论将待测的人员素质 分为心理素质 身体素质、文化素质和工作技能。 心理素质、 分为心理素质、身体素质、文化素质和工作技能。 能力要素体系涵盖了个体能力表现的总和, 能力要素体系涵盖了个体能力表现的总和,然而企 业在实施人员测评时不可能对每一个要素都进行测 真珍公司根据实际情况, 量。真珍公司根据实际情况,筛选出绩效相关要素 并据以设计测评指标,大致分两步进行:首先,通 并据以设计测评指标,大致分两步进行:首先, 过对公司员工的学历、工作年限、 过对公司员工的学历、工作年限、工作性质等项目 的总体调查, 的总体调查,发现参与测评的员工以事务性工作为 较少参与体力劳动,因而剔除了身体素质要素; 主,较少参与体力劳动,因而剔除了身体素质要素; 接着便与真珍公司各部门员工代表进行访谈 便与真珍公司各部门员工代表进行访谈, 接着便与真珍公司各部门员工代表进行访谈,并依 据访谈结果确定绩效相关要素,最后,设计的测评 据访谈结果确定绩效相关要素,最后, 指标体系如表3----20所示。 20所示 指标体系如表3----20所示。
我国人员测评的发展阶段: 我国人员测评的发展阶段:
1)复苏阶段(1980-1988)此阶段的特点是从恢复心理测验开 复苏阶段(1980-1988) 首先消化、吸收国外先进的测验技术和做法。( 。(在智力测 始,首先消化、吸收国外先进的测验技术和做法。(在智力测 验方面,1982吴天敏修订出版 中国比奈测验” 林传达室鼎、 吴天敏修订出版“ 验方面,1982吴天敏修订出版“中国比奈测验”。林传达室鼎、 张厚粲修订了韦氏獐智力量表和瑞文标准推理测验。 张厚粲修订了韦氏獐智力量表和瑞文标准推理测验。人格测验 方面,宋维真等修订了明尼苏达多相人格问卷,陈仲康、 方面,宋维真等修订了明尼苏达多相人格问卷,陈仲康、龚耀 先等分别修订了艾森克人格问卷。) 先等分别修订了艾森克人格问卷。) 2)初步应用阶段(1989-1992)此阶段的一个显著标志是国 初步应用阶段(1989-1992) 家公务员录用考试制度开始建立。1989年 中组部、 家公务员录用考试制度开始建立。1989年,中组部、人 事部联合下发了《 事部联合下发了《关于国家行政机关补充工作人员实行考试 办法的通知》 1992年底 全国29个省、 年底, 29个省 办法的通知》,至1992年底,全国29个省、自治区直 辖 国务院3 市,国务院3个部门都不同程度地采用了人才测评方法补充人 并取得了良好效果。 员,并取得了良好效果。 3)繁荣发展阶段(1993-至今)各地普遍建立了人才市场, 繁荣发展阶段(1993-至今)各地普遍建立了人才市场, 各类用人机构有了相对灵活的用人自主权, 各类用人机构有了相对灵活的用人自主权,个人也有了更多 的择业机会。 的择业机会。
0144《教育测量与评价》2012年6月期末考试指导
0144《教育测量与评价》2012年6月期末考试指导一、考试说明(一)考试说明满分为100分,考试时间为90分钟,考试形式为闭卷。
(二)可能包含的题型及各题型相应的答题技巧1. 填空题答题技巧:答题时需要在空白处填写准确的课程知识点。
2.选择题答题技巧:答题时在括号内填写选择的字母。
3. 判断题答题技巧:只有对、错之分,判断错误不能得分。
一般题目错误处较为明显,遇到不易判断的题目时,注意从细节处去判断题干正误。
4. 简答题答题技巧:答出讲义与课件中的重要知识点要点即可。
5. 论述题答题技巧:答题时注意结合相关的知识点,首先找到题目对于的知识点,再阐述自己的对其的认识,然后围绕此观点展开论述,一般来说,最好分几个方面谈对某一问题的认识和看法,需要比较详细的展开论述。
二、复习重点内容第一章教育测量与评价的学科发展1. 测量的要素测量的量具、测量的单位和测量的参照点,是测量的三个基本要素或三个基本条件。
2. 教育测量和教育评价的定义教育测量:就是针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。
教育评价:按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。
3. 教育测量的特点由于教育测量主要是测量学生的内在心理特性,因此,它具有与物理测量不同的特点。
主要有:间接性和推断性;测量对象的模糊性和测量误差的不可避免性;量表具有多样性,结果具有相对抽象性。
4.教育评价的特点教育评价的特点包含如下几个共同的要点:第一,强调以教育目标为标准的价值判断过程。
第二,强调用多种方法(测量和非测量)系统收集资料与信息。
第三,教育评价的内容既可以是教育计划,也可以是课程;既可以是学生的学习结果,也可以是某种教育现象、教学活动、教育目的或教育程序。
第四,强调为学生发展和教育决策服务。
人才测评理论与方法ppt
霍兰德职业倾向测试
人们在择业时主要受三个因素的影响: 兴趣(你想做什么——兴趣倾向) 能力(你能做什么——个人经历) 人格(你适合做什么——人格倾向)。
第六章 人格测评
1、人格 从广义上看,人格是指个体认知、情感、 意志等心理活动中表现出来的个性特征的 总和。 从测评学角度看,人格是指个体的非智能 性心理活动特性和稳定的行为方式特征。
人才测评理论与方法
第一章 人事测评概论
一、概念 素质:指个体完成一定活动与任务所具备的
基本条件和基本特点。包括生理素质和心理 素质。 测评:测评即测量和评价。根据规则为测量 对象所具有的一个特性指派一个可资比较的 数字,而评价就是在这些数字度量的客观基 础上加以深入的主观分析。
人事测评
(CPI)
控制点问卷
自陈 评价个体内控及外控特征
米龙临床多项人格问卷 自陈 临床精神病诊断
莱氏品质评定量表
评定 评定他人内外向特征
猜人测验 形容词检核表
评定 评定
教育情境中品质评定 评价他人人格特征
主题统觉测验(TAT) 投射
完成句子测验
投射
临床精神病的人格评估 评价人格特征及适应状态
画树、画人测验 投射 屋-树-人测验 情境压力测验 情境测验
一致性(信度)与准确性(效度)的关系
不准,不一致 不准,一致 准,一致
传统人才测评方法的不足
传统人才测评方法多样,但普遍存在以下失误 (1)晕轮误差:晕轮效应也叫光环作用。 (2)近因误差:一般来说,人们对近期内发
生的事情印象比较深刻,而对远期发生的事 情印象比较淡薄。 (3)暗示误差 暗示是一种特殊的心理现象。 主试者说的就是好的标准; (4)偏见误差 主试者对被试者持有偏见, 而此偏见影响了测评的结果。
人员测评理论与方法第4章-心理测验及其应用
3/3/2020
42
能力性向测验的应用
技能技巧测验:对应聘人技能技巧的实际水平的测验,属于成就测 验。多用于雇用、委派、调动、提升、训练等人力资源管理工作。测 验的方式大多是作业实例测验:SRA听写技巧测验、西沙尔•宾纳特速 记熟练测验,业务打字测验、明尼苏达工程类推测验、普度电工测验、 DAT语言使用测验等。
投射技术定义:
广义:是指那些把真正的测评目的加以隐蔽的一切间接测评技术。 狭义:是指把一些无意义的、模糊的、不确定的图形、句子、故事、 动画片、录音、哑剧等呈现在被测评者面前,不给任何提示、
说明或要求,然后问被测评者看到、听到或想到了什么。
3/3/2020
54
投射技术的理论根据
• 被测评者在模糊不清的刺激面前的反应行为
心理测验是对一组行为样本的测量。
心理测验是对模拟行为的测量。
心理测验是一种标准化的测验。
心理测验是一种力求客观化的测量。
3/3/2020
27
心理 测验 的种 类
3/3/2020
心理测验的种类
认知 测验 (认知 行为)
成就测验:主要测评人的知识与技能,是对认知 活动结果的测评。斯坦福成就测验
智力测验:主要测评认知活动中较为稳定的行为特征, 是对认知过程或认知活动的整体测评。 斯坦福-比奈智力测验
3/3/2020
48
卡特尔16因素个性问卷
• 以下为问卷中的部分题目:
• 3、我有足够的能力应付各种困难: • A.是的;B.不一定;C.不是的。 • 4、即使是关在铁笼里的猛兽,我见了也会感到惴惴不安: • A.是的;B.不一定;C.不是的。 • 5、我总是不敢大胆批评别人的言行: • A.是的;B.有时如此;C.不是的。 • 6、我的思想似乎: • A.比较先进;B.一般;C.比较保守。
人员素质测评理论与方法全篇
人员素质测评理论与方法第一章素质测评概述第一节素质和素质测评狭义:素质是先天遗传条件和后天的社会实践而获得的心理倾向的总称。
(名词解释)多选素质的特性?A基础性B.系统性C.稳定性D.可塑性E差异性F难测性多选本书将人的素质划分为(ABCD)A.道德素质B.文化素质C.身体素质D.心理素质名词解释素质测评:是根据一定的目的,采取一系列的定量和定性相结合的方法,对各类人员的德、能、勤、绩、体等素质进行的测量与评定。
简答简述素质测评的含义?测评主体针对特定的人力资源管理目的,如招聘、选拔、安置、考核、培训、晋升等,采用科学的测量方法,收集被测评者在主要活动领域中的表征信息,对人员的素质进行多方面系统评价,进而为人力资源开发与管理提供可靠地参考依据。
多选素质测评的原则:A.客观测评与主观测评相结合B.精确测评与模糊测评相结合C.静态测评与动态测评相结合D.分项测评与综合测评相结合第二节素质测评的功能和意义多选素质测评的功能:A.鉴定功能B.诊断功能C.预测功能D.激励功能E.导向功能简答素质测评的意义:1.人员素质测评是人力资源科学配置的基础..2.。
有效开发的重要依据....3.。
优化管理的起点..4.。
合理使用的工具..学习人员素质测评的意义:1.学习人员素质测评是自我了解、自我设计与自我开发的需要2.学习人员素质测评是掌握测评理论和方法,进行人力资源开发与管理的需要3.学习人员素质测评是管理科学化和管理创新的需要学习人员素质测评是提高管理水平、管理艺术、管理效能的需要第三节素质测评的基本类型多选分类方法:1.按照测评结果的表达方式..........................划分为分数测评、评语测评、等级测评、符号测评2.按照测评的目的和用途.....划分为选拔性测评、诊断性测评、配置型测评、鉴定性测评和开发..........................性测评...3.按照测评所用方法...........................划分为标准的纸币测评、投射测评、行为模拟和观察类测评名词解释选拔性测评:是根据职位需要以选拔优秀人员为目的的素质测评,是人力资源管理活动中经常进行的一种测评。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
教育测评的含义和特点
• 测评(Measurement):通常是指人们对客 观事物进行某种数量化的测定。天平、 秤、尺子、温度计。 • 教育测评(Educational Measurement): 对学生的学习能力、学业成绩、兴趣爱 好、思想品德以及教育措施上许多问题 的数量化测定。主要用于对学生精神特 性的测定。
经典测评理论的发展、技 术及运用
西北师范大学教育科学学院 吕国光 Email:lugg@
吕国光生活小档案
•山 •茶 •书
主要内容
• 测评的含义及教育测评的历史发展 • 经典测评理论实施的条件 • 经典测评理论的实施技术及在教育 评价中的运用
测评的含义 及教育测评的历史发展
稳定性系数
• 稳定性系数( coefficient of stability ): 用同一量表对相同被试在不同时间测验 两次的观测分数的相关系数。
稳定性系数的意义
• 任何事物都在运动变化着,但也具有一定的稳 定性,所以才能对事物进行测量和研究。教育 测量也是假定所测量的特性处于相对稳定的状 态,如果用同一种量表对相同的被试测量两次, 其结果应相同或近似。换言之,测量结果应具 有稳定性。例如,在一次测验中得高分的学生, 在另一次测验中也有得高分的倾向,被试在两 次测验中的相对地位也非常接近。这种稳定性 也就表明测验结果是可靠的或信度高的。
P=R/N [以 (0,1)为记分方式] P=X/K[以 (0,K)为记分方式] Q=1-P
整个测验的难度等于全部被试测验总分的平均 数对于测验满分值之比.
难度对测验的影响
• 测验的难度影响测验分数的分布形态 • 测验难度影响测验分数的离散程度 (Ebel的实验) • 测验难度影响测验的鉴别能力
测验的适宜难度
分半法
• 将测验按题目的编号分为两半:一半是 奇数题,一半是偶数题。先计算每个人 的奇数题和偶数题总分,然后求奇数题 和偶数题总分的相关系数。最后用 Spearman-Brown公式校正。求整个测验 的信度系数。 • 问题:为什么要进行校正呢?
Cronbach α系数
• 使用最广泛的信度系数 • 计算公式:
• 考验方法:求测验分数与其他测验成绩之相 关。其他测验成绩如在同时测量则为同时效 度;如在往后测量则为预测效度
结构效度(construct validity)的 意义
• 测验能够测量到理论上的结构或特质的 程度。 (“结构”是用来解释人类行为的理论构 想或心理特质,它是观察不到的,但心 理学假设它是存在的,以便能解释人类 的行为,ex: 动机、性向、焦虑等。 构念有其理论基础,因此依据理论可以 预测人类的行为)
经典测评理论实施的条件
• • • • 信度 效度 难度 区分度
一、信度(reliability)的意义
– 概念:可靠性或可靠的程度 – 信度指观测值和真值相差的程度 – 信度指统计量与参数之间的接近程度 – 信度是指一种测验对相同被试再次测验时引 起同样反映的程度
信度指观测值和真值相差的程度 – X=T+E
效度的意义
• 测验分数的正确性,意即“有多正确的 程度” • 效度的种类
– 内容效度(content validity) – 效标关联效度(criterion-related validity) – 建构效度(construct validity)
• 传统上强调效度的概念有三种,而且是 有所区别的
• α=n/(n-1)*(1-∑ σi ²/ σx ²)
其中,n为题目数, ∑ σi ²为每题被试观测分数的 方差之和, σx ²为所有被试观测总分的方差。
影响信度的因素
• 测验的长度
– 测验愈长,内容愈具代表性,信度愈高
• 变量的方差
– 方差愈大,信度愈高
rxx
= 1 -σ e ² /σx ²
信 度
客观标准化测验阶段
• 1864年英国教师George Fisher收集许多学生成绩 样本,分别优劣,汇集成《量表集》(Scale Book),作为度量学生各科成绩的标准。 • 1895年美国学者Rice主张用统一的测验考察、比 较各校学生的成绩,并编制了算术、语言等测验。 • 1905年法国学者Binet和Simon制订的第一个智力 量表。
使用稳定性系数时要注意的问题
• 两次测验的时间间隔要适宜; • 重测法适用于速度测验而不适用于难度 测验。 • 要注意提高被试的积极性。
等值性系数
• 等值性系数(coefficient of equivalence) 是以两个等值(题型、题数、难度、区 分度等)但具体内容不同的量表,在最 短时距内,对相同被试先后试测两次所 获得的两组对应分数的相关系数。等值 性系数可采用复份法(equivalence forms reliability)
That’s
all…
Thank you!
题目数和信度的关系
• 测验的难度
– 太难或太简单均会降低信度
• 测验的客观性
– 愈客观,信度愈高
100
75
分 數
50
Hale Waihona Puke 2501 2 3 难度太小 难度太大 难度适当 平均数(M):85 21 60 标准差() :3.9 4.2 12.4 信度(KR21):0.43 0.46 0.90 分数之分散度和难度与信度之间的关系
σx ² =σt ²+σe ²
于是,信度(用r 表示)可定义为真 值方差( σ )与观测值方差( σ ) 的比率。即:
xx
t
²
x
²
rxx =σt ² /σx ²
此公式表明:真值的方差在观测值 方差中所占的比重越大,则信度就 越高。
计算信度的公式
rxx =σt ² /σx ²
σx ² = σt ² + σe ²
• 简单介绍SPSS统计软件 • SPSS统计软件在使用经典测评理论实践 中的运用.
有关教育测评的资源
• ERIC Clearinghouse on Assessment and Evaluation at • Mental Measure Yearbook at /buros/ • ETS Test Collection at /testcoll/index.html
• 下面的网站都提供有关统计与测评方面的课程
•
• •
/~chance / /
一本介绍统计学的基础知识和各种常用的 统计方法的电子教材:
•
/textbook/stathome.htm l
– X 表示观测值 ,T 表示真值 ,E 表示误差分数 .在 团体测验中 , T 可以理解为许多人 ( 理论上应 是无限多人)在相同条件下进行同类测量所获 得的大量观测值的平均数.各人的真值与观测 值之差仍称测量误差. – E=X-T
由于测量误差是随机产生的,与真值 无关 . 在理论上正的误差分数和负 的误差分数相抵消 , 平均误差为 0. 根据这一假设 , 观测值的方差应等 于真值的方差加上测量误差的方差. 即:
效标关联效度(criterion-related validity)
• 意义:测验分数与外在效标间的关联程度, 效标是指测验所要衡量或预测的某些特质。 又称为统计效度(statistical validity)或 实证效度(empirical validity) • 类型
• 同时效度(concurrent validity) 预测效度(predictive validity)
提高测验信度的方法
• 延长测验长度——新增加的题目与原有测验题目应有 相同的统计性质,同时,不影响被试回答问题的方法。 • 难度要适当。经验表明,难度在.40-.70之间是合适的, 也有人认为.25-075都有利于提高测验信度。 • 测验的内容应尽量同质; • 测量时间要充分; • 测量的程序应统一; • 评分要客观。 • 加大应试者之间的差异
• .50 • .20-.80
区分度
• 区分度(Discrimination)是指测验对 被试实际水平的区分程度.
区分度的计算方法
客观题 (1)D=Ph-Pl • 其中, D为区分度符号,Ph为高分 组通过试题的人数比例,Pl为低分 组通过试题的人数比例。(27%)
经典测评理论的实施技术及 在教育评价中的运用
经典测评理论的成熟和深入发展
• 1940年由美国学者Tyler主持的“八年研究” 结束,标志经典测评理论(Classical Test Theory CTT)的成熟。 • 1963年Cronbach发表了《概化理论:信度理论 的丰富和发展》标志着概化理论 (Generalizability Theory GT)的诞生。 • 1952年美国学者Lord创立了项目反应理论 (Item Response Theory,IRT)
內容效度(content validity)
• 意义:测验在逻辑上能测出所要测量的 变量或特质的程度;测验内容的代表性 或取样的适切性;又称为逻辑效度 (logical validity)或专家效度(expert validity) • 考验方法:由专家以逻辑判断的方式来 决定,测验内容是否具有代表性以代表 潜在的总体试题
结构效度的考查方法
• 评分标准及规则能够合理反映构念所指 称的特质之结构 • 方法:因素分析(factor analysis)将看 似复杂的因素或特质,归纳成几个共同 的因素,用以解析评分项目的结构并与 理论中的构念结构相互参照
难度
• 难度(Difficulty)的意义 难度指测验的难易程度。在教育测量中一般用通 过率作为指标。若用公式表示,即:
(1)
(2) σt ² = σx ² -σe ² (3) rxx =σt ² /σx ²= 1- σe ²/ σx ²(4)
信度系数的计算
常用的信度系数有: •稳定性系数(coefficient of stability) •等值性系数(coefficient of equivalence) •内 部 一 致 性 系 数 ( coefficient of internal constancy)