第九章测量与量表：非比较量表技术

合集下载

测量与量表

SEARS IS: Powerful --:--:--:--:-X-:--:--: Weak Unreliable --:--:--:--:--:-X-:--: Reliable Modern --:--:--:--:--:--:-X-: Old-fashioned
负面的形容词有时出现在左边，有时出现在右边，这可防止某些有极端倾向的调查对象不读标示就全部在左端或右端做上标记。
语义差异 Stapel量表
带两极标志的 7分制量表
品牌、产品和公司形象
单极10分制量表，从－5 到＋5，没有中立点。
对态度和形象的测量
精选ppt
使用方便易构建
对数据是否定距有争议
难以应用
23
23
分项评分量表的设计
1) 量表中类别的数目 2) 平衡还是非平衡量表 3) 类别数目是奇数还是偶数 4) 强制还是非强制选择 5) 类别描述情况 6) 量表的外观形式
Strongly agree
1. 巴黎春天销售高品质的商品. 1
2X 3
4
5
2. 巴黎春天店内服务很差.
1
2X 3
4
5
3. 我喜欢在巴黎春天购物
1
2
3X 4
5
分析可以逐项（轮廓分析）进行，也可以通过对项目加和计算总评分分析。在加总时，要注意对负面陈述的评分倒置过来计算。
精选ppt
17
17
收集2、大构量建与测步量骤的概念相关的陈述语句；
等比量表(ratio scale)。
精选ppt
5
5
1、量表的类型
量表类型
尺度特性
基本实证操作
范例
类别量表只能描述(description)

市场调研之市场调查的测量与量表

构造李克量表的步骤
收集和编写大量围绕研究问题的陈述或说法随机抽取样本一个样本进行试调查根据试调查的数据进行量表的信度和效度分析。
在分析中需要对负说法的的得分作逆向处理根据信度和效度分析，去除影响信度和效度的陈
述和说法，从而得到较高信度和效度的李克量表
李克量表例子：测量观众对名人引导时尚的看法
测量的效度
测量的效度是测量的有效性，即测量工具能否准确、真实、客观地度量事物属性的程度，主要表现在测量项目和欲测量的测量属性相一致的程度、概念的操作化定义反映概念的本质定义的程度等。
内容效度：表面效度，从表面上来观察和判断所测量的是否就是应该测量的项目。首先要清楚了解被测概念的定义，其次要判断所测量的变量是否与之紧密相关
语意差别量表是定距量表，把要测量的名字和概念先分解出若干个描述角度，然后用一系列的7级或9级量表从这些角度进行描述，量表的两端代表两极化的态度
步骤：1确定描述、判断或评价研究对象的角度，然后在每个角度上找出一对反义词。要尽量全面有意义。
2将各对形容词分别置于一系列有7个或9个刻度的标尺的两端，将正反形容词之间的差距分成7等分，中间的一级表示中立态度
态度量表的类型
1李克量表：也叫累加量表，是市场调查最常用的量表，常用于测量观念、态度或意见。它的形式是给出一组问题，请被调查者做出“非常同意”、“同意”、“说不准”、“不同意”、 “非常不同意”五种回答，然后给各种回答分别记为1、2、3、4、5或5、4、3、2、1。这样每个被调查者对各道题目的回答分数的加总就得出一个总分，这一个总分就说明了被调查者的态度强弱
2舍史东量表
主要用于测量被访者对特定事物的态度
收集和编写大量与所测事物有关的陈述或说法，其表述应有正向的、中间的和负面的

第九章量表编制

2.选择题：结构上包括两部分：题干和选
项

请你选择一种喜欢的颜色？绿色茶色紫色蓝色红色橘色白色黄色智力测验（主要是测量推理能力）编制中使用的选择题（1）猫头鹰是鸟正如白鲨是—— a 动物 b 鱼类 c 鸟类 d 爬行动物（2）平地与土丘的关系就如同峡谷与——的关系。 a 沟壑 b 山谷 c 丛林 d 河流 e 高山

优点：适用范围广，既可以适用于文字和数字的材料，也可以适用于图形的材料；评分简单、省时、客观；相比于判断题更少受猜测因素的影响。缺点：编拟迷惑答案比较困难；无法测量出被试的言语表达能力和概括、组织能力，这与简答题、论述题相比是不足的；尽管选择题减少了机遇的影响，但猜测的影响仍然不能完全排除。

（三）初步组成测题测验编制经验丰富者在编制测题时，往往会考虑以下几个测题的来源：直接选自国内外优秀的相关的测验；修改前人的测验中的有关的测题；自己编写

1.编写测验项目时应注意以下几点（1）测验项目的取样应当具有代表性
（2）测验项目的取材范围要同编题计划所列项目范围一致。（3）测验项目的难度应该有一定的分布范围（4）编写测验项目的用语要力求精练简短，浅显明了。（5）初编题目的数量要多于最终所需要的数量，以便筛选和编制复本
3 2 1 3 2 1 1 13
2 1 0 2 2 0 1 8
1 0 1 1 0 0 0 3
20 10 12 25 13 12 8 100

编制计划有三个用途：
1.在测验的编制阶段，可以知道每个项目应该编多少题目，编哪些种类的题目 2.题目编好后，可以用来核对，测题是否全面，是否真正代表了所要测量的领域，核对重要的方面有没有遗漏 3.根据表中百分比确定每类项目的分数 back

心理测量学第九章目标参照测验.PPT

（二）测验项目的难度分析
相对于标准的高低 • 一般采用通过率（和常模参照测验相同） • 不是很重要，目标参照测验分析难度只是作为项目区分度
分析的基础。
（三）测验项目的区分度分析
1.难度差值（1）掌握组—未掌握组鉴别指数（2）教学敏感度（个人获得）指数 2.相关系数
（1）掌握组—未掌握组鉴别指数
一、行为标准制定 • 目标参照测验结果的解释是参照分数分界点进行的。 • 就目标参照测验本身而言，分数分界点并非必需。 • 从理论上说，并不存在可以清晰辨别的掌握者和非掌
握者。 • 在目标参照测验的实际应用中，分数分界点的确定却
是无法逃避的问题。
二、分数分界点的确定
（一）专家判定法在测验的内容范围明确界定的基础上，由专家来判断
（二）专家判定法
2.Angoff方法由专家直接判断处于临界水平的被试在某测验的每一
题目正确作答的可能性（Pi），设每题的满分为Fi，则该测验的分数分界点（λ）为：
λ=∑Fi Pi
（二）专家判定法
3.Bookmark法 • 将测验按照由易到难的顺序讨论每道题目，判断“基本掌
握该领域知识的考生”能否做对所讨论的题目，在考生不能通过的题目上做出标记，以此作为设置划界分数的依据。
处于临界水平的被试在每个题目上正确作答的可能性，进一步以此为标准确定分数分界点。
临界水平的被试：那些刚由未掌握水平转入掌握水平的被试，这些被试实际上是由专家想象出来的。
（一）专家判定法
1.Nedelsky方法主要针对多重选择题组成的测验而言，由专家来判
断处于临界水平的被试在每一题上有能力排除的错误选项，从而计算其正确回答的可能性，再求每一题上正确回答的可能性之和，作为测验分数分界点。

教育统计与测量评价新编教程-第09章

第一节测验题目类型与测量功能
二、课业考评存在的问题
在推进素质教育的过程中，近几年来，校内考试制度与方法有许多重要的改进，但就学校教育整体来看，课业考评仍存在一些较严重的问题，主要表现在如下几个方面：
第一，课业考评指导思想与学校教育理念、目标不相适应，在考试设计及考试结果的使用过程中过分强调区分和选拔功能。
教育统计与测量评价新编教程
第九章
学生课业发展的测量与评价
内容导读
本章探讨的重要内容有：学生课业考评的意义与作用；国外课业考评改革的主要经验与趋势；学校课业考评改革的目标；学生课业发展的主要内容及参照点类型；评价学生课业发展进步的主要方法。学习本章后要求做到：深刻认识学生课业考评的意义与作用；了解基础教育课程改革对学生课业考评的要求；把握学校课业考评改革的目标；掌握评价学生课业发展进步的主要方法及其新进展。本章的难点是档案袋评价技术原理和动态评价技术原理的理解和应用。
第一节课业考评改革的基本认识与目标
一、课业考评的主要作用
课业考评对促进学生发展起着重要的作用，尤其是以现代教育理念和教育评价理论为指导而建立起来的课业考评制度与方法，更是如此。 ➢ 首先，合理的课业考评制度为学生发展提供了较明确的目标和努力的方向。 ➢ 其次，合理的课业考评制度将有助于评价学生的发展进步，从而对教与学双方活动起着重要的控制、调节和促进等作用。 ➢ 再次，课业考评为学生心理发展和学习进步创造了必要的背景和空间，诱发学生的学习动机和自主发展的动力。 ➢ 最后，课业考评在中小学生个体社会化进程中起着控制、调节、促进和加速的作用。
（一）课业考评改革要实现考试观向发展性评价观的转变（二）课业考评内容要从认知领域转变到涵盖学习结果的更广泛的教育目标领域上来（三）课业考评要努力实现从表征性分数机制到实质性内容机制的转变，贯彻定量与定性相结合、过程与结果相结合、静态与动态相结合、教学与评价相结合的原则

第九章心理测验技能分必得

第九章心理测验技能第一节：人格测验第一单元.明尼苏达多相人格测验(MMPI)★★★MMPI基本信息测验功能:人格编制方法:经验效标法(选取大量题目进行测验，选取可以与控制组明确区分开的题目作为问卷题目)题目数量:566个自我报告形式的题目，其中16个题目为重复题。

如果只为精神病临床诊断使用，可做前399题。

适用范围:年满16岁、具有小学毕业以上的文化水平施测形式:卡片式、手册式(个别、团体)。

中国:T>60:美国:T>70T分在40~60分是正常范围;在30分以下或70分以上则是显著异常;在30~40分和60~70分之间是轻度异常MMPI的四个效度量表:Q量表:D名称:用?表示，疑问量表2构成:由未反应项目和矛盾反应项目构成3功能:高分者逃避现实566版,原始分超过30,测验无效;前399,原始分超过22,测验无效L量表:D名称:说谎量表2构成:15题，由过分尽善尽美的项目构成3功能:高分者想让别人把自己看得比实际情况更好原始分超过10分,测验不可信。

F量表D名称:诈病量表2构成:由荒唐古怪(稀有认同)的项目构成B功能--高分解释:A.(当测验有效)分数越高，反应精神病的严重程度越高B.(当测验无效,即临床量表表现为一组无关症状)反应受测者可能诈病c.(当测验无效)还可能反应受测者答题不认真,理解错误(因智力低下).K量表:D名称:校正量表@构成:由反应自我控制和家庭问题及人际关系的项目构成3功能:A.反应受测者态度，是隐瞒的或防卫的B.计算某些临床量表原始分的K矫正分--K矫正分=X+nkMMPI十个临床量表的形成：量表1/2/3/4/6/7/8/9:根据当时流行的精神疾病分类确定了这八个临床量表再根据正常人和病人对同一题目的差别反应形成量表内容量表5(男子气-女子气):根据男女受测者对同一题目的差别反应形成量表内容量表0(社会内向):根据大学生内向和外向对同一题目的差别反应形成量表内容Hs疑病:功能:反映受测者对身体功能的不正常的关心参考诊断:疑病症，躯体化障碍，神经衰弱D抑郁:功能:与忧郁、淡漠、悲观、思想与行动缓慢有关参考诊断:抑郁性神经症或抑郁症Hy癌症:功能:转换反应来应对压力的倾向一一依赖、天真、外露、幼稚及自我陶醉参考诊断:症(转换性痘症)Pd社会病态:功能:反应受测者性格的偏离一一蔑视社会习俗，常有攻击复仇观念参考诊断:人格异常，包括反社会人格和被动攻击人格Mf男子气-女子气:功能:反映性别色彩，男性高分女性化，女性高分男性化，参考诊断:极端高分，考虑同性恋倾向或同性恋行为Pa偏执:功能:高分者多疑、孤独、烦恼及过分敏感参考诊断:极高分者，精神分裂症偏执型或偏执性精神病(妄想性障碍)Pt精神衰弱:功能:高分者紧张、焦虑、反复思考、强迫思维、恐怖以及内疚Sc精神分裂症:功能:高分者表现异乎寻常的或分裂的生活方式，以及不恰当的情感反应参考诊断:精神分裂症Ma轻躁狂:功能:高分者联想过多过快、活动过多、观念飘忽而情绪高昂参考诊断:躁狂症或双相障碍的躁狂症Si社会内向:功能:高分者内向，胆小退缩不善交际、低分者外向，富于表情爱交际MMPI的评价优点:1、临床诊断的符合率较高2、首次将效度量表纳入人格测验，提高了测验的诊断价值3、不但可以提供医疗诊断,，也可以用于正常人的个性评定缺点:1、题目太多，做题时间太长2、受文化背景影响MMPI的注意事项第一，进行测验之前，要让受测者知道测验的重要性以及对他的好处，取得合作。

广告心理学第九章广告效果测评理论及方法讲义

第九章广告效果测评理论及方法本章提要：广告效果测评的理论不同广告时机的效果测评广告作品评价系统广告心理效果观测量与心理量表第一节广告效果测评的理论一、广告效果及其测评广告对受众的作用过程是一个信息加工的过程。

图：广告作用过程分成：到达（ｒｅａｃｈ）认知（ｃｏｇｎｉｔｉｏｎ）态度（ａｔｔｉｔｕｄｅ）行动（ａｃｔｉｏｎ）反馈（ｆｅｅｄｂａｃｋ）几个阶段。

所谓广告效果，就是在上述过程中，对其目标受众所产生的影响，包括：(1)广告心理效果：指广告呈现后使受众产生的各种心理效应包括感知觉、记忆、思维、情绪情感及态度、动机、行为等，是广告效果最核心的部分。

(2)广告的经济效果：最直接的是指广告销售效果，即基于广告活动而导致的企业产品销售及利润的变化。

包括由此引发的相关市场中经济活动的变化。

(3)广告的社会效果：指广告对整个社会的文化、伦理道德、价值取向等方面的影响。

既可以是在传播期间所造成的即时性反应，如即时的促销效果，也可以是延时效果，即指广告对受众观念的影响。

广告效果有的直接表现出来；有的则以间接的方式，广告效果具有以下特征：(1)复合性：广告效果是广告心理效果、经济效果、社会效果的统一。

(2)累积性：是一个连续、动态的过程，具有一定的时间和空间延续性。

购买、使用、评价、反馈，是一个心理积淀的过程。

所谓广告效果测评，就是用科学测评方法将广告效果量化。

价值体现在：(1)检验决策：广告目标是否正确，媒体运用是否恰当，广告发布时间、频率是否合适，广告费用投入是否恰到好处等。

(2)改进设计制作：确定广告主题的鲜明性诉求的准确性创意的新颖性等等。

(3)鼓舞信心：客观地评价广告活动的效益，更好地安排广告预算，大胆投资，广告效果测评中的三项原则：有效性、可靠性和相关性（目的性）。

二、有效广告的ＡＩＤＡ学说ＡＩＤＡ是取英文：Ａｔｔｅｎｔｉｏｎ（注意）Ｉｎｔｅｒｅｓｔ（兴趣）Ｄｅｓｉｒｅ（欲望）Ａｃｔｉｏｎ（行动）的首字母而得名的。

Ch09 测量和量表：非比较量表(Ray)

-非常柔和
非常刺手刺手略微刺手既不刺手也不柔和略微柔和
柔和
5.
-3 -2 -1 0 1 2 3
非常刺手
既不刺手也不柔和
非常柔和
5、多项量表
开发理论产生最初的项目库：理论、二手数据和定性研究在定性判断的基础上选择一套简化的项目从一个大的预测试样本处收集数据进行统计分析开发提炼后的量表从一个不同的样本处收集更多的数据评价量表的信度、效度和可推广性准备最终的量表
（2）平衡量表和非平衡量表

平衡量表（Balanced Scale）：赞成的类别和不赞成的类别数目是相等的；反之，则成为非平衡量表。一般来讲，为了获得可观数据，量表应该是平衡的。但是，如果答案的分配有可能发生倾斜，或者偏向正面，或偏向负面，那么一个倾斜方向上有较多类别的非平衡量表或许是合适的。
（4）强制式还是非强制式的评分量表

强制式评分量表（Forced Rating Scale）强制要求调查对象表达一种意见，因为没有提供“没有意见”的选项。在这种情况下，没有意见的调查对象可能会在量表的中间位置坐上标记。
在预料调查对象没有意见的情况下，数据的准确性可以通过一个非强制性量表得到改善，其中包括“没有意见”的类别。
②复本信度

复本信度（Alternative-forms Reliability）：构建两个等价的量表形式。同一个调查对象在两个不同的时间被进行测试，通常间隔2-4周。对执行重复的量表形式得来的分支进行相关分析以评价信度。
它的问题是：第一，构建一个量表的等价表格耗费时间且成本昂贵；第二，构建一个量表的两个等价表格很困难。
非比较量表由连续评分量表和分项评分量表组成。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2011/2/17
Chapter Outline 学习内容
非比较分项评分决策量表类别的数目平衡量表与非平衡量表类别的奇偶数

强制性评分量表与非强制性评分量
语言描述的性质和程度物理形式或结构
多项量表
4
ZHAODongyang Panzhihua University
Chapter Objectives 学习目标
1. 2. 描述非比较量表技术，区分连续链表技术和分项评分量表，并解释Likert量表、语义差别量表和斯坦普尔量表讨论在构造分项评分量表时所涉及的有关量表类别数目、平衡量表与非平衡量表、奇偶数类别、强制与非强制性选择、语言描述程度及量表的物理形式等决策问题讨论评价量表时所用的标准，并解释如何评估信度、效度和可推论性讨论在国际背景下执行非比较量表时所要考虑的问题理解在构造非比较量表时所涉及的伦理道德问题讨论因特网和计算执行连续评分量表和分项评分量表时的应用
2011/2/17
Chapter Outline 学习内容
量表的评价测量的准确性

信度
效度信度和效度的关系推论性
Reliable? Valid? Generalizable?
量表技术选择

数学推导的量表 8.9 SPSS窗口
小结
5
ZHAODongyang Panzhihua University
1.
Sears sells high-quality merchandise. 西尔斯销售高质量的商品
1
2X
4
5
2. Sears has poor in-store service. 西尔斯店内服务很差
3. I like to shop at Sears. 我喜欢在西尔斯购物
1
1
2X
2
3
3X
4
4
5
5
Version 3 形式3
Very bad Neither good nor bad Very good
Probably the worst - - - - - - -I - - - - - - - - - - - - - - - - - - - - --- - - - - --- Probably the best 0 10 20 30 40 50 60 70 80 90 100

语义差异量表是一个7级评分量表，两端由极端的词组组成。
西尔斯是：强有力的--:--:--:--:-X-:--:--: 虚弱的不可信的--:--:--:--:--:-X-:--: 可信的时髦的 --:--:--:--:--:--:-X-: 老式的

The negative adjective or phrase sometimes appears at the left side of the scale and sometimes at the right. This controls the tendency of some respondents, particularly those with very positive or very negative attitudes, to mark the right- or lefthand sides without reading the labels. Individual items on a semantic differential scale may be scored on either a -3 to +3 or a 1 to 7 scale.
ZHAODongyang Panzhihua University
2011/2/17
8
Itemized Rating Scales 分项评分量表
The respondents are provided with a scale that has a number or brief description associated with each category. The categories are ordered in terms of scale position, and the respondents are required to select the specified category that best describes the object being rated. The commonly used itemized rating scales are the Likert, semantic differential, and Stapel scales. 提供给调查对象的分项评分量表上面每个类别都有一个数字或与每一个类别相关的简要描述。类别按照量表的位置来排序，调查对象需要选出最能描述被评物体的特定类别。通常使用的分项评分量表为Likert量表、语义差异量表和斯坦普尔量表。
When arriving at a total score, the categories assigned to the negative statements by the respondents should be scored by reversing the scale.
需要对那些消极陈述的原始得分进行倒置转换
How would you rate Sears as a department store? 就百货商店而言，你将如何斯尔斯评分？
Version 1 形式1 Probably the worst - - - - - - -I - - - - - - - - - - - - - - - - - - - - - - Probably the best 可能最差 - - - - - - -I - - - - - - - - - - - - - - - - - - - - - - 可能最好 Version 2 形式2 Probably the worst - - - - - - -I - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Probably the best 0 10 20 30 40 50 60 70 80 90 100
ZHAODongyang Panzhihua University
2011/2/17
10
百货商店项目：Likert 量表
Strongly Disagree 强烈反对 Disagre e 反对 Neither Agree nor disagree 及不同意也不反对 3 agree 同意 Strongly agree 强烈赞成
2011/2/17
Noncomparative Scaling Techniques 非比较量表技术
• • • 使用非比较量表的调查对象采用任何他们认为合适的评分标准，不对被评价的物体与另一物体或一些指定的标准进行比较。调查对象一次只评估一个对象，因此非比较量表经常被单胞量表。非比较量表由连续评分量表和分项评分量表组成
7
ZHAODongyang Panzhihua University
2011/2/17
Perception Analyzer 感知分析仪
A relatively new research tool, the perception analyzer, provides continuous measurement of “gut reaction.” A group of up to 400 respondents is presented with TV or radio spots or advertising copy. The measuring device consists of a dial that contains a 100-point range. Each participant is given a dial and instructed to continuously record his or her reaction to the material being tested. As the respondents turn the dials, the information is fed to a computer, which tabulates second-by-second response profiles. As the results are recorded by the computer, they are superimposed on a video screen, enabling the researcher to view the respondents' scores immediately. The responses are also stored in a permanent data file for use in further analysis. The response scores can be broken down by categories, such as age, income, sex, or product usage.
Likert 量表有几个优点：
• 它易于执行。 • 调查对象很容易理解如何使用量表，因而它适合邮件访谈、电话访谈或人员访谈。主要缺点：
• 比其他分项评分量表花费时间长。
11
ZHAODongyang Panzhihua University
2011/2/17
Semantic Differential Scale 语义差异量表
ZHAODongyang Panzhihua University
2011/2/17
9
Likert Scale 利克特量表