评分者内部一致性的研究和应用

合集下载

Medcalc一致性分析

Medcalc一致性分析

一致性分析同类相关系数(Intraclass correlation coefficient,ICC)用于评估连续型定量数据,作为诊断实验可重复性评价的指标介于0-1之间,一般来说,如果小于0.4,可重复性差;大于0.75,可重复性较好。

ICC是测量或分级的可靠性的度量。

可以是两个或更多的评分者对一些研究对象进行评分。

有两种研究模型(1)每个对象由不同的随机选择的评分者进行评分(absolute agreement);(2)每个对象由相同的评分者进行评分。

有两种类型可以选择:absolute agreement 和consistency 两种。

当评价者之间的系统差异是相关的,选择absolute agreement,用于定量测量(如测量不同研究者是否给予受试者相同的分数)当评价者之间的系统差异无关紧要时,选择consistency,只可评价相关性,无定量评价作用。

例如:配对评价(2,4)、(4,6)和(6,8),consistency为1.0,但absolute agreement为0.6667。

结果上会报告两个具有各自95%置信区间的系数:single measures和average measures single measures一个典型的单个评分者评分的可靠性指数。

average measures不同评分者平均信度的一个指标。

这个数值总是高于single measures这种一般用途比较广泛,用的也比较多。

一致性相关系数(Concordance correlation coefficient,CCC)用于连续型定量资料估计两种判读方法或仪器的一致性评估了通过原点的45°直线上配对数据的下降程度。

ρc包含测量精度ρ和准确性Cb:ρc = ρCbρ是皮尔森相关系数,衡量每个观察对象偏离最佳拟合直线多远,是一种精度测量值皮尔逊相关系数的约束条件:两个变量间有线性关系;变量是连续变量;变量均符合正态分布,且二元分布也符合正态分布;两变量独立。

信度的判别标准

信度的判别标准

信度的判别标准
在心理学、社会学、经济学和其他社会科学领域中,信度是衡量研究方法和研究结果可靠性的重要指标。

信度主要关注测量的一致性、准确性和稳定性。

以下是信度的判别标准的主要方面:
1. 内部一致性
内部一致性是指测量工具内部项目之间的相关性和一致性。

例如,对于一个包含10个问题的问卷,内部一致性高的一个标志是,这些问题的得分之间应该呈现出较高的相关性。

2. 外部一致性
外部一致性是指测量结果在不同时间、不同样本或不同地点之间的稳定性。

例如,对同一群体使用相同的问卷在不同的时间点进行测量,如果结果具有高度稳定性,则说明外部一致性高。

重测信度、分半信度和复本信度等方法可以用来评估外部一致性。

3. 跨文化一致性
跨文化一致性是指在不同文化背景下,测量结果的一致性和可比性。

在跨国公司或者跨文化研究中,需要确保测量工具具有跨文化一致性,以便对不同文化背景下的结果进行比较和分析。

可以采用文化公平性测试和翻译后效度检验等方法来评估跨文化一致性。

4. 评分者间一致性
评分者间一致性是指不同的评分者对相同的样本进行评分时的一致性和准确性。

在主观评分中,如作文评分、面试评分等,需要确保评分标准的一致性和可重复性。

可以采用内容效度检验和独立样本
t检验等方法来评估评分者间一致性。

总之,在社会科学研究中,信度是一个重要的评估指标,可以衡量研究结果的可靠性、准确性和稳定性。

通过对内部一致性、外部一致性、跨文化一致性和评分者间一致性的评估,可以得出一个测量工具的信度水平,并判断其是否适合用于相关的研究目的。

提高信度和效度的方法

提高信度和效度的方法

提高信度和效度的方法一、引言信度和效度是科学研究中非常重要的概念,它们是评估研究结果可靠性和有效性的指标。

信度是指测量工具在不同时间、不同场景下是否能够稳定地得到相似的结果;效度是指测量工具是否能够准确地衡量所要测量的概念或现象。

本文将介绍一些提高信度和效度的方法。

二、提高信度的方法1. 测试重测法:在同一组被试者中进行两次测试,通过比较两次测试结果的一致性来评估信度。

如果两次测试结果高度一致,则说明测量工具具有较高的信度。

2. 内部一致性法:通过考察测量工具中各项指标之间的相关性来评估信度。

如果各项指标之间相关性较高,则说明测量工具具有较高的信度。

3. 平行测试法:使用两个类似的测量工具同时对同一组被试者进行测试,通过比较两个工具的测量结果的一致性来评估信度。

如果两个工具的测量结果高度一致,则说明测量工具具有较高的信度。

4. 全部一致性法:通过比较不同评分者对同一组被试者进行评分的一致性来评估信度。

如果不同评分者的评分结果高度一致,则说明测量工具具有较高的信度。

三、提高效度的方法1. 内容效度法:通过专家评估测量工具中各项指标是否涵盖了所要测量的概念或现象的内容来评估效度。

如果测量工具中各项指标能够全面地反映所要测量的内容,则说明测量工具具有较高的效度。

2. 构造效度法:通过比较测量工具中各项指标与其他相关测量工具的指标之间的相关性来评估效度。

如果测量工具中各项指标与其他相关测量工具的指标之间存在较高的相关性,则说明测量工具具有较高的效度。

3. 预测效度法:通过比较测量工具的测量结果与所要预测的结果之间的相关性来评估效度。

如果测量工具的测量结果与所要预测的结果之间存在较高的相关性,则说明测量工具具有较高的效度。

4. 鉴别效度法:通过比较测量工具在不同群体或不同情境下的测量结果来评估效度。

如果测量工具在不同群体或不同情境下的测量结果存在差异,则说明测量工具具有较高的效度。

四、总结提高信度和效度是科学研究中至关重要的任务,只有具有高信度和高效度的测量工具才能够得到可靠和有效的研究结果。

报告中结果的可靠性和一致性的评估和解释

报告中结果的可靠性和一致性的评估和解释

报告中结果的可靠性和一致性的评估和解释一、简介报告中的结果对于决策者和研究人员来说至关重要,因此评估和解释这些结果的可靠性和一致性是必不可少的。

本文将从六个方面展开讨论,分别是数据收集方法、样本选择、实验设计、数据分析、结果解释和外部验证。

二、数据收集方法数据收集方法的可靠性直接影响着报告结果的可靠性。

在选择具体的方法时,应考虑其可重复性和数据采集的准确性。

例如,如果使用问卷调查作为数据收集方法,需要确保问卷设计清晰,问题不会引导受访者的回答,以及样本的代表性。

三、样本选择样本选择是评估结果一致性的关键因素之一。

一个具有代表性的样本可以更好地反映总体情况。

如果样本选择偏差过大,报告结果可能会失真。

因此,应采用随机抽样等方法来确保样本的代表性。

四、实验设计在某些研究中,实验设计对于结果的可靠性和一致性起着至关重要的作用。

良好的实验设计可以排除外部干扰因素,并确保实验的可重复性。

因此,在进行实验前,应制定详细的实验方案,并确保实验过程的严谨性。

五、数据分析数据分析是评估结果可靠性的重要一环。

不当的数据分析方法可能导致结果的失真。

因此,在数据分析过程中,应选择合适的统计方法,并遵循科学的数据分析过程,如数据清洗、数据变换和异常值处理等。

六、结果解释结果解释是报告中结果可靠性和一致性评估的最后一步。

在解释结果时,应注意结果的置信度、显著性和实际意义。

此外,应避免过度解释结果或进行主观判断,而应以客观的角度展示结果。

七、外部验证对于重要的报告结果,进行外部验证是评估其可靠性和一致性的重要手段。

外部验证可以通过多次独立实验的结果是否一致来验证报告结果的可靠性。

如果多个独立实验结果一致,那么可以认为结果具有较高的可靠性和一致性。

八、结论在评估和解释报告结果的可靠性和一致性时,应综合考虑数据收集方法、样本选择、实验设计、数据分析、结果解释和外部验证等多个因素。

通过合理的方法和严谨的过程来评估和解释报告中的结果,可以提高其可靠性和一致性,从而更好地为决策者和研究人员提供准确可靠的信息基础。

统计方法_评分者一致性检验_自学笔记_2016-03-28

统计方法_评分者一致性检验_自学笔记_2016-03-28

评分者一致性检验注:大部分以Stata技术手册中kappa和icc命令文档为基础进行讲述,部分命令为第三方命令,需下载安装。

评分者一致性又称为评分者信度,与量表的信度检验相关,可参考量表的信度估计自学笔记。

1.分类数据nominal data当评分结果为类别时,可采用kappa命令。

(1)两个评分者2 raters例1 a,b2个评分者进行评分,评分结果为好坏两种,结果如下: a 好25 坏25,b 好30 坏20,现考察2个评分者的一致性或信度//数据录入命令clearset obs 4input a b freq1 1 201 0 50 1 100 0 15capture end//数据分析命令kap a b [freq=freq](2)多于两个评分者More than 2 raters2种评价结局多余2种评价结局,但每个被评价的对象拥有相同数量的评价者kappa rating1 rating2 rating3kappa rater1 rater2 rater3 rater4 rater5多余2种评价结局,每个被评价的对象不一定有相同数量的评价者kappa rating1 rating2 rating3kappa rater1 rater2 rater3 rater4 rater5备注1:在有缺失值的情况下,无法进行统计推断,也无法给出CI,可以换用kappa2或kapci命令进行估计,前者采用jackknife方式估计,后者则采用bootstrap 方式估计;如果所有评分者都同时没有给出某一种或几种评分结果时,应设定absolute参数,这样才能使得程序正确识别评分结果种类,否则会丢失这些评分结果。

2.等级或连续变量数据order/interval/ratio data(1)若是2个评分者,评分为连续变量且分布正态,计算pearson系数例2 甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分数列入下表,问这两位教师评分的一致性如何?表1试卷得分甲评分乙评分1 94 932 90 923 86 924 86 705 72 826 70 767 68 658 66 769 64 6810 61 60 //数据录入命令clearset obs 10input judge1 judge294 9390 9286 9286 7072 8270 7668 6566 7664 6861 60capture end//数据分析命令corr judge1 judge2 //pearson系数备注:通常情况下,两个评分者的评分结果的量纲是一致的,所以使用pearson 系数即可,如果量纲不一致,仅用pearson系数会存在缺陷,不能反应实际情况,需要采用icc进行估计。

cronbach'α 系数

cronbach'α 系数

cronbach'α 系数**Cronbach"α 系数简介**Cronbach"α 系数,又称Cronbach"s α 系数,是一种广泛应用于心理学、教育学、社会学等领域的统计分析方法。

它是一种测量评分者或测试工具内部一致性的指标,可以用来评估测试题目的质量以及评分标准的可靠性。

**Cronbach"α 系数的计算方法**Cronbach"α 系数的计算公式为:α= ∑(ρij * √(1 - ρij)) / (n - 1)其中,ρij 表示第i个测试项与第j个测试项之间的皮尔逊相关系数,n 表示测试项的数量。

**Cronbach"α 系数在数据分析中的应用**在实际数据分析中,Cronbach"α 系数可以帮助我们:1.评估测试工具的质量:如果Cronbach"α 系数接近1,说明测试工具具有较高的一致性;如果系数接近0,说明测试工具的一致性较低。

2.检测潜在的共同方法偏差:当Cronbach"α 系数普遍较高时,可能存在共同方法偏差,这可以帮助研究者识别并纠正这种偏差。

**提高Cronbach"α 系数的方法**1.增加测试项:增加测试项可以提高测试工具的覆盖面,从而提高Cronbach"α 系数。

2.删除冗余项:删除与其它测试项高度相关的冗余项,可以减少内部一致性的损失。

3.使用多元化评分标准:使用多种类型的题目和评分标准,可以提高测试工具的多样性,从而提高Cronbach"α 系数。

**总结**Cronbach"α 系数是一种评估测试工具内部一致性和可靠性的重要指标。

通过计算Cronbach"α 系数,我们可以了解测试工具的质量,并发现潜在的共同方法偏差。

同时,通过提高Cronbach"α 系数,我们可以优化测试工具,使其更加可靠和有效。

心理学博士论文中的研究结果的可靠性与效度

心理学博士论文中的研究结果的可靠性与效度

心理学博士论文中的研究结果的可靠性与效度心理学领域的研究对于理解和解释人类心理过程起着重要的作用。

然而,在阅读心理学博士论文时,我们应该怎样评估研究结果的可靠性和效度呢?本文将探讨心理学博士论文中的研究结果的可靠性与效度,并提供一些评估可靠性和效度的方法。

一、可靠性的评估可靠性是指研究结果的稳定性和一致性。

在心理学研究中,可靠性通常被划分为内部一致性、测试-重新测试可靠性和评分者间一致性等几个方面。

首先,内部一致性是评估测量工具或试题各项指标之间的一致性。

通常使用Cronbach's α系数来评估内部一致性,该系数的范围从0到1,值越高表示内部一致性越高。

研究者在论文中应该报告测量工具各项指标的Cronbach's α系数,并解释结果的可靠性。

其次,测试-重新测试可靠性是评估同一测量工具在不同时间点或不同情境下的一致性。

研究者可以将同一测量工具在两个不同时间点进行测试,并使用相关系数(如皮尔逊相关系数)来评估测试-重新测试可靠性。

最后,评分者间一致性是评估不同评分者对研究结果的一致性程度。

在某些研究中,多个评分者可能会对同一样本进行评分。

为了评估评分者间的一致性,研究者可以使用Kappa系数等统计指标。

二、效度的评估效度是指研究结果是否能够真实反映出所要研究的概念或现象。

在心理学研究中,通常可以看到内在效度、外在效度和构效效度等几个方面的评估。

首先,内在效度是评估研究中各项变量之间的因果关系。

研究者可以通过实验设计、回归分析等方法来评估内在效度,确保所观察到的效果能够归因于变量之间的关联性。

其次,外在效度是评估研究结果是否能够推广到其他样本或情境中。

具有良好外在效度的研究结果应该能够反映出真实世界的情况。

研究者可以使用不同的样本、地点或情境进行验证,并报告外在效度的结果。

最后,构效效度是评估测量工具或试题是否能够准确地测量所要研究的概念或现象。

研究者在论文中应该报告测量工具的因子结构、因子载荷等指标,并解释其构效效度。

教学评价一致性的有效性评估

教学评价一致性的有效性评估

教学评价一致性的有效性评估方法评价一致性的有效性评估可以通过以下方法进行:1. 统计方法:使用统计分析来衡量评价一致性水平。

可以计算不同评价者之间的一致性指标,如皮尔逊相关系数、克隆系数或相对一致性指标。

这些统计指标可以帮助评估不同评价者之间的评价结果的一致性程度。

2. 调查问卷:设计一个调查问卷,让评价者评价同一教学过程或成果。

通过分析问卷结果可以了解评价者之间的一致性情况。

问卷可以包括评分题或是开放式问题,以便评价者可以自由表达意见。

3. 观察记录:将评价者观察同一教学过程或成果,并记录他们的评价结果。

通过对观察记录的比较和分析,可以评估评价者之间的一致性程度。

重要性评价一致性的有效性评估对教育领域具有重要意义,其重要性包括以下几个方面:1. 可靠性:评价一致性的有效性评估可以帮助确定评价体系的可靠性。

如果不同评价者对同一教学过程或成果的评估结果一致,那么评价体系的可靠性将更高。

2. 准确性:评价一致性的有效性评估可以帮助确定评价体系的准确性。

如果不同评价者对同一教学过程或成果的评估结果一致,那么评价体系的准确性将更高。

3. 改进教学:评价一致性的有效性评估可以帮助教师或教育机构改进教学。

通过了解评价者之间的一致性情况,可以找出评价体系存在的问题,并针对性地进行改进。

4. 公平性:评价一致性的有效性评估可以帮助确保评价结果的公平性。

如果不同评价者对同一教学过程或成果的评估结果一致,那么评价结果将更加公平客观。

结论评价一致性的有效性评估是教育领域中的重要议题。

通过采用合适的方法进行评估,可以确保评价体系的可靠性、准确性和公平性。

教育机构和教师应重视评价一致性的有效性评估,并根据评估结果进行适当的改进和调整,以提高教育质量和评价效果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

评分者内部一致性的研究和应用徐晓锋Ξ1 刘 勇2(1中央司法警官学院,保定,071000)(2华南师范大学心理应用研究中心,广州,510631)摘 要 在行为科学的研究和实践中,研究者常常需要将个体层次的评价,整合到群体层次的评价,对于这种自下而上整合模式的一致性问题,国内一些学者常常错误地使用评分者内部信度作为评分者内部一致性的指标。

评分者内部一致性和评分者内部信度不仅在理论基础上存在差异,而且在实践中也存在前者很高(或很低),而后者却很低(或很高)的不一致情况。

文章阐述了学术界对评分一致性这一问题的提出、争论和取得一致观点的发展脉络,以期学者们对这一问题能够有深入的思索,避免在今后的研究中出现类似的错误。

关键词:评分者内部一致性 评分者内部一致性信度 区别1 问题的提出 在行为科学的理论和实践中,许多情况下都需要一组成员对某个特定对象进行评定,如面试、无领导小组讨论中考官依据BARS (Behaviorally Anchored Rating Scale )对候选人胜任情况的评定;某个学术期刊编辑委员会对一个所投稿件录用可能性的评定等等。

当K 个评判者都对某一对象进行评定,而这一对象可能是一个单一的变量,或所测量的同一结构的一系列的J 个条目,这种情况下采用一种科学的、能够衡量评判者一致性的指标对测量结果的评价是非常重要的。

在国内心理学的研究和实践中,一些学者使用评分者内部信度来代替评分者内部一致性,甚至还存在将二者完全等同的情况,例如存在“对评分者一致性即评价中心的信度作出研究”[1]、或“评分者信度(评分者一致性)”[2]的错误说法,这种不加区别的使用,常常使结果的解释存在许多值得商榷的地方,同时也混淆了对评分一致性的认识。

在心理学的历史上,关于评分一致性和评分者信度的认识问题有很长时间的讨论,本文通过介绍学术界对评分一致性这一问题的认识、争论和发展的情况,试图澄清对评分者内部一致性和评分者信度概念认识的误区,以期在今后的研究中减少误用的情况。

2 评分一致性研究的历史发展 在行为科学的研究中,研究一组评定者评分的汇聚性问题,在心理测量中有很长的研究历史。

一些研究者使用百分比或比例的一致性作为指标,但把评定选项视为顺序变量还是等距变量,离散变量还是连续变量,会导致不同评定者分数能否进行数学加减运算的区别;另外,它也不能解释偶然存在的一致性(chance agreement )情况。

还有一些研究者使用肯德尔和谐系数作为对一致性研究的指标,这种方法只有在将评定选项视为顺序变量时才能应用,而且计算方法较为粗略。

为了克服以往计算指标的缺陷,寻找更加科学的计算方法,James 等(1984)在《Journal of Applied Psychology 》上发表的文章中提出了r wg 的概念[3],认为组内一致性(within —group agreement )评定的是来自个体共同变异(interchangement )程度,并对其理论基础进行了阐述,深化了对上述问题的认识。

但对的认识问题学术界也经历了长达十余年的讨论过程。

James 等(1984)认为是一个组内评分者信度(within -group interrater reliability )的指数,从而将评分者信度(interrater reliability )和评分者内部一致性(interrater agreement )问题相混淆。

K ozlowski 和Hattrup (1992)澄清了对上述问题的一些错误认识[4],他们认为James 等(1984)提出的概念一直是按照一致性指数加以推导和定义的,实际上计算的是评分者内部一致性问题,而却用评分者信度的名称来代表r wg ,这导致了在研究文献中对信度和评分一致性认识的混淆。

James 、Demaree 和Wolf (1993)在重新讨论问题的时候,认为K ozlowski 和Hattrup (1992)提出的观点,即关于是评分一致性的测量指标,而非评分者信度指标的观点是正确的,同时也改正了自己过去认为是测量评分者信度(interrater reliability )计算方法的错误认识[5]。

此后,学者们逐渐接纳将看作是计算评分者一致性(interrater agreement )指标的观点[6-8]。

目前在组织行为文献中,最常使用的组内评分者一致性的指标是r wg 或r wg (j ),分别用于评价一个单一条目(single items )和多条目变量(multiple —item scales )的一致性。

3 评分一致性研究的理论基础 Finn (1970)[9]以及James (1982)[10]认为总体变异划分为真变异和随机测量误差变异,这种观点的理论基础是经典的心理测量模型。

后来,James 等(1984,1993)修正了他们在1982年的看法,提出了与经典心理测量模型不同的观点,从而对一致性研究产生了较大的影响。

他们认为,从数学角度而言,评定者内部一致性是一系列判断的系统变异与总体变异的比例。

总体变异由两部分组成,第一部分是由随机测量误差产生的变异,如心境的波动和动机的偶然变化、暂时性的注意分散、不可控的条件(如噪音)、疾病、疲劳、情绪紧张或偶然变化等非系统性因素构成;第二部分是系统变异,由真变异和反映一组评定者的共同反应偏差的系统误差变异Ξ通讯作者:徐晓锋:男。

E 2mail :xuxiaofeng5087@心理科学 Psychological Science 2007,30(5):1175-11781175组成。

共同反应偏差导致了评定者一致性中系统变异的增大,如评定者都存在社会称许性反应倾向,那么评分者间的高一致性很可能反映了偏见,而非评定者真正意义上准确判断的一致性。

这表明对评分者内部一致性的估计,不仅应当包括在一系列判断中系统变异在总体变异中所占比例的评价,而且应当包括对系统变异中的反应偏见部分的影响进行控制。

3.1 评分者一致性和评分者信度的区别信度(reliability)和一致性(agreement)不仅基于完全不同的理论基础,而且在概念和数学计算上也存在区别。

第一,理论基础不同,在经典测量理论中,“总变异=真变异(内含反应偏差变异)+随机测量误差变异”,信度以经典测量理论为基础,是一组测量分数的真变异数(内含系统变异,如反应偏见)与总变异数的比率;而James等(1984)等提出的方法并不遵循传统的经典测量理论,他们认为“总变异=系统变异(真变异+评定者共同反应偏见的系统偏差变异)+随机测量误差变异”,一致性等于一组测量分数的系统变异数(由真变异数和评分者的共同反应偏见构成)与总变异数的比率。

第二,信度和一致性定义中同用真变异数这一名称,但含义不同。

按照经典测量理论,真变异数由有效变异和与测量目标无关而稳定的系统误差变异组成,而在James等提出的理论中,真变异数和评定者共同反应偏见的系统偏差变异都被视为是系统变异的组成部分。

第三,评定指标不同,在存在不同组的情况下,信度依赖于不同组间的变异,是不同组间评定者之间变异的指标,ICC(intraclass correlation coefficients)是计算评分者信度的最常见的指数[11];而一致性不考虑不同组间的变异,仅考虑每一独立组内部评定者之间的共同变异部分(interchangeability),它表明组内评定者对同一对象作出评定的实际一致性程度,是计算评分者一致性的指数。

第四,评分者信度和评分者内部一致性的变动方向并不总是保持一致。

例如,Tinsley和Weiss(1975)[12]研究发现,当评定者之间没有任何一致性时,也可能产生较高的评分者信度;而在评定者之间一致性很高时,也能出现评分者信度很低的情况。

例如,评定者A在五点量表上选择的是1、2、3,评定者B在量表上选择的是3、4、5,那么评定者A选择的3相当于评定者B选择的5。

这种情况下,由于反应成比例的增加,虽然一致性很低,但是信度却很高。

因此,选择使用评分者信度还是评分者内部一致性,要根据研究目的来确定,对信度和一致性认识的混淆,使许多研究结果的解释会陷入困惑。

3.2 James等(1984)对评分一致性的研究James等(1984)假设认为,对于一个离散选项的反应量表存在观察变异和期望变异(其中E代表期望的含义,U代表假设评判结果为均匀的矩形分布,如评判者在五点量表的五个点上选择率分别为20%),因此对于IRA(interrater agreement)的估计可以由下面的公式推导出来:对于一个条目x j的观察分数,定义为x jk(K等于判断1, 2…,K),可以得到公式:x jk=μj+( x j-μj)+e jk其中μj,是条目的总体均数(真分数), x j是样本平均数,并且e jk是测量的随机误差。

由于x jk某种程度上是μj的实际反映,因此非误差或真变异,等于t2EV-S2xj。

对于一个IRA的估计,可以由在方程中加入变异估计来完成:真变异/(真变异+误差变异),或(t2EV-S2xj)/[(t2EV-S2xj)+S2xj]=(t2EV-S2xj)/t2EV3.3 James等(1993)对评分一致性的进一步研究假设S2x是对评定对象x的观察变异,例如x代表多位编辑对一篇文章发表可能性的判断。

在判断者意见完全一致时,S2x=0。

然而,由于可能产生测量的误差,这使得评判者之间可能存在缺乏一致性的情况,并使得S2x>0,由于仅仅来源于误差的变异,它被称之为误差变异(error variance)。

为了发展出对于评判者之间一致性的估计的统计方法,首先需要找出比较S2X的标准(benchmark),因为S2X>0,反应了与完全一致的偏离,即没有达到完全的一致。

James等选用了一个标准,来反映的期望值,在评判者由于完全的随机测量误差的条件下,这个期望的变异被称之为t2E,他们按照1984年曾经采用的一个离散的、均匀分布的状况来决定t2E (以前采用的是t2EV)的方程。

然而,r wg统计并不只是建立在矩形分布,即使用t2EV条件基础上。

因此,James等用一般的t2EV的术语来表示评判结果的随机反应,而不考虑分布的形式如何。

t2EV的重要意义在于它是将反应完全归因到随机测量误差的理论标准。

James等研究的评定一致性问题类似于随机反应理论中和标准的比较。

这种一致性的评价与总变异中的“误差变异的降低”(reduction in error variance)有关,而误差变异的降低指的是观察误差变异(S2X)在t2EV中变异的减少程度,可以通过t2E和S2X的差异来估计,即t2E—S2X。

相关文档
最新文档