项目难度与项目极大区分度之问的关系

项目难度与项目极大区分度之间的关系

席仲恩

（作者简介：席仲恩，副教授，上海外国语大学博士生，绍兴文理学院语言测试与评价

研究所所长，上海，200083）

摘要：本文在项目就是待测量特质的量具、受考在项目上的作业成绩为正态分布这两个简单假定的条件下，通过简单的数学推导，确定出了经典测试理论模型中的项目难度(用易度指数表示)和极大区分度(用高低分组通过率或得分率差表示)之间的两个函数关系式，望这两个关系式能为题库建设和试卷开发提供一个既明确又简单可行的参考数学模型。

关键词：心理测验；教育测量；项目分析；项目难度；项目极大区分度

一、引言

项目分析(item analysis)是题库建设(item banking)的至关重要的一个环节，是开发高质量试卷的基础性工作。试卷由一道一道的项目组成，如果没有合格的项目，就不可能有合格的试卷；没有高质量的项目，就无法构出高质量的试卷。对于一个项目，既可以做定性分析，也可以做定量分析。本文关心的仅是项目的定量分析。

对于项目进行定量分析时，在经典理论框架中，通常求出项目的两个指标：难度指标和区分度指标。难度指标传统上用项目的易度指数(facility index)——项目的平均答对率(对于选择型题)或平均得分率表示①。区分度指标尽管有多种表示方法，本文选取了用高低分组难度差刻划的区分度，一方面这种区分度直观，其含义又和项目反应理论框架下的区分度一致(请参见席仲恩，2001)，而且经过爱贝尔(Ebel)的研究提出了具体的项目评价指标(参见Ebel & Frisbie，1986：P234)，此外它计算又十分简便，便于应用。

在我国现行的心理与教育测量著作(例如：戴忠恒，1987；王孝玲，1989；谢小庆，l988；余嘉元，1987；于信凤；1987)和语言测试论著(例如：高兰生、陈辉岳，l996；桂诗春，1986；李筱菊，1997；刘润清、韩宝成，2000；舒运祥，1999；徐强，l992；杨钟琳l992)、国外的同类著作(例如：Anastasi，1976；Salvia & Ysseldyke，1996；Alderson， Clapham & Walt，1995；Bachman，1990；Bachman and Palmer，1996；Baker，1989；Harris，1969；Heaton，1988：Lado，1961；Madsen，1983；Spotsky，1995)中，都未见专门详细定量论述项目极大区分度和项目难度之间的关系的。使题库建设和试卷开发者无所适从，给工作带来一些不便。导致像中国全国硕士研究生英语入学考试这类重大筛选性考试中难度、区分度失调，或者只顾难度而忽略区分度等问题，使试卷中的项目区分度普遍不高，甚至出现负值这种奇特现象，严重威胁了考试的信度和效度，使考试的功效打了折扣。本文在项目就是待测量特质的量具、受考在项目上的作业成绩为正态分布这两个简单假定下，通过简单的数学推导，确定出了经典测试理论模型中的项目难度和极大区分度之间的函数关系，望能为题库建设和试卷开发提

供一个既明确又简单可行的参考模型。

二、关系式的推导

本文关心的是数学模型的建立，并不关心实施中的问题。但是，这并不意味着我们认为实施中的问题就不重要，相反，我们认为实施中的问题一样重要。我们这样做，是由我们的研究目标决定的。我们的目标是建立一个理想状况下的数学模型，为实践提供一个工作参考和努力方向，使实践者明确项目和试卷开发的潜力和限度，更好地发挥和挖掘考试的功效。为此，我们假定已经获得了有关项目的可靠的实际测量数据，而且这些数据的采集程序可靠、准确、合法。

设DI 为项目区分度，U 为高分组(一般指总分最高的27％或30％受考)的答对率或平均得分率，L 为低分组(一般指总分最低的27％或30％受考)的答对率或平均得分率，则高低分组难度差区分度可定义为：

DI=U-L （1）

设FI 为表示难度的易度指数，M 为中间组的答对率或平均得分，U MAX 为高分组的极大答对率或极大平均得分率，L MIN 为低分组的最小答对率或最小平均得分率，假定受考在给定项目上的作业成绩为正态分布，则显而易见，项目的易度指数可定义为：

2MIN

MAX L U L U M FI +=+=

= （2）同时，我们又设DI MAX 为项目的极大区分度，则极大区分度显然可以定义为：

DI MAX =U MAX - L MIN （3）

再由(2)中析出

MIN

MAX L U FI +=

（4）

联立解由(3)、(4)组成的方程组得：

DI MAX =2U MAX – 2FI （5） DI MAX =2FI - 2L MIN （6）

表达式(5)、(6)就是我们要求的项目极大区分度和用易度指数表示的项目难度之间的关系式。两个式子沿不同的方向(一个从上而下，一个从下而上)刻划了易度与极大区分度之间的函数关系。在项目的易度指数值大于或者等于诸极大区分度中最大的那个极大区分度(以下称做“最大极大区分度”)所对应的易度指数值时，可根据公式(5)计算出对应于不同易度指数值的极大区分度；在项目的易度指数值小于或者等于最大极大区分度所对应的易度指数值时，可根据公式(6)计算出对应于不同易度指数值的极大区分度(见表l 和表2)。显而易见，最大极大区分度既可以根据公式(5)求得，也可以根据公式(6)求得。

由于在项目易度指数达到最大极大区分度所对应的易度指数时，U MAX =1，以及L MIN =1／A(A 为备选项的个数)，则(5)、(6)简化为

DI MAX =2－2FI (7)

DI MAX =2FI－2／A (8)

(7)、(8)两式就是我们要建立的项目难度与项目极大区分度之间的函数关系。

三、关系式的应用

关于公式(7)、(8)的应用可分有猜测因素存在和无猜测因素存在两种情况。两者的区别主要在A的取值上。如果没有猜测因素存在，就相当于A=∞；如果有猜测因素存在，备选项个数是几，A就取几。显而易见，有猜测因素存在时，低分组的最小答对率就是假定这组受考对该项目一无所知，仅凭随机猜测就能答对该项目的概率，有关扣除这个因子的理据，由于与本文关系不大，恕不赘述(感兴趣的读者，请参看席仲恩，2000b)。以下，我们先计算有猜测因素存在时的极大区分度，然后再计算没有猜测因素存在时的极大区分度。

(一)有猜测因素存在时易度与极大区分度的关系

我们计算A=2(即二选一)，A=3(即三选一)，A=4(即四选一)，和A=5(即五选一)时，项目易度与对应的项目极大区分度。因为，这几种选型是最常见的多选型项目。我们给出1～0.20②之间不同易度指数值，为了方便起见，变化幅度基本取0.05，到了最大极大区分度对应的易度指数时，我们给出它的确切值。求出的相应极大区分度见表1。

表1 考虑猜测因素时难度与极大区分度之间的关系

(二)不考虑猜测因素时易度与极大区分度的关系

从理论上讲，只要是固定选项个数选择型项目，无论是多选一，还是多选多，测量结果都不可能不存在猜测成分，项目的区分度也不可能不受到影响。换句话说，只有在项目是非

选择型项目或者不定项选择型项目的条件下，在对项目进行分析时才可以不考虑猜测因素。我们之所以计算出不考虑猜测因素时难度与其对应的极大区分度并列于表2，主要是为了和考虑猜测因素时难度与其对应的极大区分度加以比较，从而揭示选择型项目选项数目与区分度的关系。不考虑猜测因素，并不意味着我们就不承认或者忽视猜测因素，而是我们假定猜测因素①为零。这是理论上的抽象和假定，在理论建设中是非常必要的，不可缺少的。

在不考虑猜测因素时，关于给定易度对应的极大区分度的计算方法与考虑猜测因素时的情况基本相同，惟一区别是，我们假定A=∞计算结果见表2。

(三)有无猜测因素存在时的对比分析

对比表1和表2，我们不难看出，由于猜测因素的介入，即使在项目难度不变的情况下，项目的极大区分度在一定的范围内③打了折扣，限制了项目区分度的挖掘潜力。而且我们还可以看出，猜测因素对于区分度的影响发生在极大区分度达到相应的最大极大区分度之后(沿易度指数值由大而小或自上而下)，而在极大区分度还没有达到最大极大区分度之前，极大区分度并不受猜测因素的影响。对于以选拔或者筛选为目的的测试来说，区分度是试卷的

决定性质量指标，因此，构卷时(如果采用的是选择型题)就应该视具体情况适当降低项目的难度(即提高项目的易度)。我们通常说，当项目的易度指数值为0.50时项目的区分度极大，如果我们该文的研究结果可信，这一说法就不可一概而论。首先我们应该明确，心理测量学中的区分度有多种含义：有时相当于“区分力”(power of discrimination)；有时相当于“灵敏度”(sensitivity)；有时相当于别的，不好一概而论。

以上论断中的“区分度”是方差大小意义上的区分度，所谓的“当项目的易度指数值为0.50时项目的区分度极大”也是根据方差的定义确定的(参见谢小庆，1988:88-90；余嘉元，1987:167-169)，这里的“区分度”就其本质而言应该是“区分力”。区分力大，仅仅只能保证测量的经济性，并不能保证测量结果区分的可靠性强、准确性高。而且，用区分力刻划的区分度，无论有无猜测成分，其值不变，即区分力与可靠度及准确度分家。不证自明，可靠性不强、准确性不高而仅仅是经济的测量是无用的测量，甚至是不公平或者有害的测量。这也是我们本文放弃采用“区分力”意义上的区分度，而采用“灵敏度”意义上的区分度的原因。灵敏度意义上的区分度和测量的可靠性以及准确性是一致的。也就是说，对于灵敏度意义上的区分度，只要区分度大，可靠性和准确性就不可能不高。

我们认为，就同样大小方差的测量结果(即同等区分力)，由于猜测因素的介入，测量的误差必然会加大(有关测量误差方差的刻划和猜测误差的刻划问题，请参见席仲恩，2000a)。如表1所示，对于易度指数值为0.60的一个项目，其测量结果的区分力是不变的，但对于不同大小的猜测成分，实际可能引起的极大区分度是很不相同的。对于A=2时，实际可能引起的极大区分度是0.20；对于A=3时，实际可能引起的极大区分度是0.533；对于A=4时，实际可能引起的极大区分度是0.70；对于A=5时，实际可能引起的极大区分度是0.80。而如果不考虑猜测因素，则可能做出在以上四种不同情况下，区分度都为0.80(见表2)的决策，这显然是欠科学的。

四、模型的验证

为了验证我们的模型，我们统计分析了1996年～2000年我国硕士研究生英语入学考试的试卷，发现我们模型的预测准确度相当高。五套考卷共350道四选一型客观考题，只有60道在预测范围之外。而且这60道题目大部分都是稍微超出范围，因为我们假定受考的水平是理想的正态分布，而且测量误差不存在，但实际上这种理想情况是没有的，所以这种小小的偏差是允许的。其他几道偏离较大的题目，我们怀疑是统计上的失误或者是原始数据印刷上的错误。例如，1997年的第25道题，其易度指数值为0.32，而区分度却为0.86。

此外，我们还用周越美(Zhou Yuemei，2003)的数据验证了模型，同样发现模型的与测性很好。在大学英语六级考试的70道题目中，仅有10道稍微超出范围。可见，这个模型的效度是很高的，其实用性也是显见的。

五、结束语

以上我们定量刻划了项目难度与极大区分度之间的函数关系，根据我们建立的数学模

型，列出了两个表格以供参考，我们还讨论了考虑猜测因素和不考虑猜测因素时同一难度项目的真正区分度在不同程度猜测因素介入时的差异。需要指出的是，我们提供的，仅仅是我们工作的方向和理想状况下所可能达到的极限。在实际工作中，我们认为应该最少注意两个方面的问题：一个是开发的效率问题，另一个是分清两类不同性质的区分度。

实际工作过程是很复杂的。由于各种原因，不可能每个项目的区分度都能开发到极限。我们应该认为，每个项目的区分度是不可能开发到极限的。一个项目的区分度潜力如果能被挖掘到80％，就已经算很好了。因此，开发试卷时不可不考虑效率问题。假定我们认为我们的项目的区分度不可低于0.40④，那么选择项目时(假定A=4)，就应该选择易度指数不低于0.50、又不高于0.75，极大区分度不低于0.50的项目，因为我们还要考虑区分度的挖掘效率。

关于两类不同性质的区分度，我们指的是建立题库时给每个项目标定的区分度和构卷时所选项目对于特定受考群的区分度。前者我们不妨叫它项目的固有区分度，后者叫它项目的特有区分度。我们认为：项目的固有区分度是合格项目的根本标志，是独立于项目相对难度(即相对于特定受考团体的项目难度)的；项目的特有区分度是合适项目的根本标志，是依赖于项目的相对难度的；合格是合适的前提。为了开发出合格的项目入库，建立题库时(主要指为选拔性考试而建立的题库)，用于实验项目的受考群的水平跨度应该尽量大一些，项目的区分度标准也要定得高一些，而且要基本一样。因为只有这样，用同一题库构出的不同试卷，其测量结果才便于等值⑤(例如根据项目反应理论的单参数模型等值才有效)。只有在合格题库的前提下，根据特定受考构卷时只考虑相对于待考受考的项目难度就可以了，而且，只要难度合适，特定区分度也决不会低。此外，特定区分度和区分力、可靠性以及准确性也变得统一和同一。

最后我们要说明的是，这个模型刻划的是一种最大的可能性关系，并不是必然性关系。换句话说，一个项目的易度一定后，其对于特定团体的区分度最大可能是这么大，但是并不能保证就会这么大，而且很可能非常小。为了便于实践者参考，我们已经制作了项目易度与项目极大区分度之间关系的详细数表，需要者可向我们索取。

①难度也可以直接用难度指数表示。常用的难度指数有q互补难度，ETS难度，瑞查(Rasch)难度和

席仲恩H难度。

②由于猜测因素的存在，我们假定项目的易度指标不小于猜测概率。

③这个范围是选项个数的函数，选项个数越多(即猜测成分越小)，区分度的范围也越大。反之亦然。

④顺便举的例子。在实践中，最低区分度的确定取决于具体考试的重要性。

⑤根据朱正才(1997)和杨惠中、Weir(1998)，我国大学英语四、六级考试根据项目反应理论单参数

模型等值，但在我们不能保证项目区分度基本一样的情况下是不能用单参数模型等值的，况且标

准参照考试也没有必要在不同次考试之间等值。标准参照性考试的关键是每次考试的试卷是代表

标准(例如教学大纲)的样本。

参考文献:

[1] Alderson，J.Charles， Clapham， Caroline，＆Wall，Dianne. 1995. Language Test

Construction and Evaluation. Cambridge：Cambridge University Press.

[2] Anastasi， Anne. 1982. Psychological Testing(5th edition). New York：Macmillan

Publishing Co. Inc.

[3] Bachman， Lyle F. 1990. Fundamental Considerations in Language Testing. Oxford：

Oxford University Press.

[4] Bachman， Lyle F.，& Palmer， Adrian S. 1996. Language Testing in Practice. Oxford：

Oxford University Press.

[5] Baker，David. 1989. Language Testing-A Critical Survey and Practical Guide.

London：Edward Arnold.

[6] Harris，David，P. 1969. Testing English as a Second Language. New York／St Louis

／San Francisco：McGraw-Hill Book Company.

[7] Heaton，J.B. 1988. Writing English Language Tests(2nd edition).Longman Group UK

Limited.

[8] Lado，Robert. 1961. Language Testing. London， Longmans. Green And Co Ltd.

[9] Madsen，Harold S. 1983. Techniques in Testing. Oxford：Oxford University Press.

[10]Salvia，John ＆ Ysseldyke， James E. 1995. Assessment (6th edition). Boston ／Illinois／Princeton：Houghton，Mifflin Company.

[11] Spolsky， Bernard. 1995. Measured Words. Oxford： Oxford University Press.

[12] Zhou，Yuemei(周越美). 2003. The Comparability Study of Two EFL Tests (CET-6

and TEM-4) in China. Unpublished Ph. D Dissertation, Shanghai International Studies University

[13]戴忠恒.心理与教育测量[M].上海：华东师范大学出版社，l987。

[14]高兰生,陈辉岳.英语测试论[M].南宁：广西教育出版社，l996。

[15]桂诗春.标准化测试一理论、原则与方法[M].广州：广东高等教育出版社，l986。

[16]教育部考试中心.全国硕士研究生入学英语考试分析(非英语专业)[M].北京：高等教育

出版社，2001。

[17]李筱菊.语言测试科学与艺术[M].长沙：湖南教育出版社，l997。

[18]刘润清、韩宝成.语言测试和它的方法[M].北京：外语教学与研究出版社，2000。

[19]舒运祥.外语测试的理论与方法[M].上海／西安／北京／广州：世界图书出版公

司,l999。

[20]王孝玲.教育测量学[M].上海：华东师范大学出版社，l989。

[21]席仲恩.测试中的误差与测量结果的解释.中国第八届当代语言研讨会，广州，2000a。

[22]席仲恩.扣分公式及其应用[A].见：大连外国语学院学报编辑部(编).外语研究与教学

(下册)[C].北京：航空工业出版社，2000b：P218～226。

[23]席仲恩.项目特征函数的导出及其特征研究[J].绍兴文理学院学报(自然科学版)，

2001,(1)。

[24]谢小庆.心理测量学讲义[M].武汉：华中师范大学出版社，1988。

[25]徐强.英语测试的理论与命题实践[M].合肥：安徽教育出版社，l992。

[26]杨惠中、Weir，C.大学英语四、六级考试效度研究[M].上海：上海外语教育出版社，l998。

[27]杨钟琳.英语测试的原则与方法[M].杭州：杭州大学出版社，l992。

[28]余嘉元.教育和心理测量[M].南京：江苏教育出版社，l987。

[29]于信风.考试学引论[M].沈阳：辽宁人民出版社，1987。

[30]朱正才.大学英语四级考试(CET4)通过标准的制定[A].见：张厚粲(主编).心理与教育测

量.杭州：浙江教育出版社，l997：P278～284。

项目的区分度分析

第三章第二节项目的区分度分析第二节项目的区分度分析一、项目区分度的意义项目区分度（Item Discrimination），又称项目的鉴别力，指项目得分对被试心理特质水平的区分能力或称鉴别能力。区分度高的项目能将不同水平的被试区分开来，区分度低的项目不能将不同水平的被试区分开来，不同水平的被试的得分差不多。二、项目区分度的计算（一）项目鉴别指数法这是项目区分度分析的一种简便方法，比较测验总分高分组和低分组在某一项目上的通过率的差异，作为项目鉴别指数。计算公式为： D= P H-P L（公式3－5）其中，D为鉴别指数，P H为高分组在该项目上的通过率，P L为低分组在该项目上的通过率。D值越大，项目的区分度越大，反正也然。例6，某高中物理测验，被试共18人，高分组和低分组各取总人数的27％，则两组各为5人，第五题高分组5人全部答对，低分组只有1人答对，计算该题的鉴别指数。（1－0.2＝0.8）（二）相关分析法我们一般以总分（或效标分数）来衡量被试能力或成就的高低，被试总分高，在某个项目上的得分也高，说明该项目于总分具有一致性，从这个项目上就可以鉴别出被试水平的高低，那么这个项目的鉴别力就高；反之也然。也就是说，项

目与总分的相关高，项目的鉴别力就高。所以，我们可以用项目的得分与总分的相关来衡量项目的区分度或称鉴别力。 1．点二列相关(Point biserial correlation) 适用资料：两列变量中，有一列为等距或等比的数据而且其总体分布为正态，另一列变量只是名义上的变量，按事物的性质划分为两类，如性别分为男、女，选择答案的是、否；有时一个变量是双峰分布也可以划分为二分名义变量。如，文盲与非文盲。就识字量来说可能是一个双峰分布。计算点二列相关的公式是： r pb = [(Xp-Xq)/S t ]* (pq)1/2（公式3－6） r pb ：点二列相关系数；Xp:答对该题的被试在总分上（或效标分数上）的平均得分；Xq答错该题的被试在总分上（或效标分数上）的平均得分；S t 全体被试的总分（或效标分数的标准差）；p为答对该题的人数百分比；q答错该题的人数百分比，q=1-p。点二列相关系数的显著性检验：对Xp与Xq进行差异的t检验，如果差异显著，表明相关系数显著；如果差异不显著，表明相关系数不显著。是两独立样本的t检验，可以用电脑完成。如果样本容量较大（n>50），也可以用下面的近似方法： /r pb />2/(n1/2)时，认为在.05水平上显著； /r pb />3/(n1/2)时，认为在.01水平上显著。例6，下表是某学校的15名学生在一次数学测验中的总分和第一题的得分情况，请计算第一题的区分度。

试卷分析信度效度难度和区分度

附件6、难度、区分度、信度和效度的一般说明一、难度难度是指试题的难易程度，它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。一般认为，试题的难度指数在0.3－0.7之间比较合适，整份试卷的平均难度最好在0.5左右，高于0.7和低于0.3的试题不能太多。 1、难度的两种定义（1）P=1－x/w 其中：x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。 2、难度的计算（1）主观性试题的难度 A、基本公式法：P=1－x/w B、极端分组法P=1－(XH+XL)/2W 其中：XH为高分组的平均得分（前27%），XL为低分组的平均得分（后27%）。

（2）客观性试题的难度 A、基本公式法：P=1－R/N 其中：R为答对人数，N为全体人数。 B 极端分组法：P=1－（PH+PL）/2 其中：PH=RH/n叫高分组通过率，RH为高分组答对人数，n 为总人数的前27%。PL=RL/n 叫低分组通过率，RL为低分组答对人数。二、区分度区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分。而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关。通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。 1、区分度指标的评价 -1.00≤D≤+1.00，区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于0.3，试题便可以被接受。 2、区分度的计算方法（1）基本公式法：D＝（H－L）/N 其中：D代表区分度指数，H代表高分组答对题的人数，L代表低分组答对题的人数，N代表一个组的人数即高分组与低分组人数之

SPSS与测验信度、效度、及项目分析

SPSS在测验信度、效度、及项目分析中的应用李鹏云南师范大学教育科学与管理学院在SPSS中，专门用来进行测验信度分析的模块为Scale下的Reliability Analysis；使用Data Reduction之下的Factor模块，可以利用因素分析的方法来进行测验的建构效度检验；至于项目分析则没有专门的模块可以之间进行计算分析，但是却可以利用Summarize下的Frequencies、Correlate下的Bivariate 和Compare Mean下的Independent-Samples T Test来计算几个常用的项目分析指标。一、信度分析 Reliability Analysis模块主要功能是检验测验的信度，主要用来检验分半信度、库李及a系数以及Hoyt信度系数值。至于重测信度和复本信度，只需将样本在二次（份）测验的分数的数据合并到同一数据文件之后，利用Correlate 之下的Bivariate求其相关系数，即为重测或复本信度；而评分者信度则就是使用的Spearman等级相关及Kendall和谐系数。表1 Reliability Analysis模块的Model选项的参数及对应中文术语关键字功能 Alpha Cronbach a系数 Split-half 分半信度，n是第二分量表的题数 Guttman Guttman最低下限真实信度法 Parallel 各题目变异数同质时的最大概率（maximum-likelihood）信度Strict parallel 各题目平均数与变异数均同质时的最大概率信度表2 Reliability Analysis模块的Statistics部分选项的参数及对应中文术语关键字功能 F test Hoyt信度系数 Friedman Chi Friedman等级变异数分析及Kendall和谐系数 Cochran Chi Cochran’s Q检验，适用于答案为二分（如是非题）的量表

浅说试题的难度、区分度、信度和效度

浅说试题的难度、区分度、信度和效度北屯初中2011-3-16 一.试题的难度（一）什么是难度难度是指试题的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。（二）难度的计算 1.单个选择题目的难度计算单个选择题的难度通常以通过率表示，即以答对或通过该题目的人数占考生人数的百分比表示。计算公式为：P=R/N. 其中P代表题目的通过率，R为答对或通过该题目的人数，N为全体考生人数。 P值越大，题目难度越小，答对人数越多。 2.单个非选择题目的难度计算此类题目考试结果不是只有答对或答错两种，而是具有从满分到零分之间多种结果。计算公式为：P= X/W. 其中P为难度，X为考生在某一题目上的平均得分，W为该题目的满分。 3.整个试题的难度计算（常用）计算公式为：P= X/W. 其中P为难度，X为样本平均得分，W为试卷总分。如满分150分的试题，考生平均得分108分，则难度为108/150=0.72 如考生人数太多时，可先将考生总分从高到低排列，然后将总分最高的27%考生定为高分组，总分最低的27%考生定为低分组，分别计算两组考生的难度值，然后求它们的平均值即可。（三）试题难度的一般要求就高考来说，难度以适中为宜，单个试题的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试题定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试题定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2，一般说来，容易题、难度系数为0.95-0.75，中档题为0.74-0.6，难题为0.59-0.20。二.试题的区分度（一）什么是区分度区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。（二）区分度的计算 1.单个选择题目区分度的计算将全体考生总分从高到低排列，将总分最高的27%考生定为高分组，总分最低的27%考生定为低分组，分别计算两组考生在某道题目上的通过率，两个通过率之差就是这道题的区分度（又叫鉴别指数）。计算公式为：D=PH-PL. PH和PL分别为高分组和低分组的通过率。

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度一.试卷的难度（一）什么是难度难度是指试卷的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。客观题难度计算公式：P（难度指数）＝试卷答对人数/考生人数；主观题难度计算公式：P＝试卷平均得分/试卷满分。试卷难度计算公式：P＝为平均分，K 为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。（二）难度的计算（1）客观性试卷难度P（这时也称通过率）计算公式： P=k/N（k为答对该题的人数，N为参加测验的总人数）（2）主观性试卷难度P计算公式： P=X/M（X为试卷平均得分；M为试卷满分）（3）适用于主、客观试卷的计算公式： P=（P H +P L ）/2（P H 、P L 分别为试卷针对高分组和低分组考生的难度值）步骤为:①将考生的总分由高至低排列；②从最高分开始向下取全部试卷的27%作为高分组；③从最低分开始向上取全部试卷的27%作为低分组；④计算。（三）试卷难度的一般要求就高考来说，难度以适中为宜，单个试卷的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2。二.试卷的区分度（一）什么是区分度区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的

项目难度与项目极大区分度之问的关系

项目难度与项目极大区分度之间的关系席仲恩（作者简介：席仲恩，副教授，上海外国语大学博士生，绍兴文理学院语言测试与评价研究所所长，上海，200083）摘要：本文在项目就是待测量特质的量具、受考在项目上的作业成绩为正态分布这两个简单假定的条件下，通过简单的数学推导，确定出了经典测试理论模型中的项目难度(用易度指数表示)和极大区分度(用高低分组通过率或得分率差表示)之间的两个函数关系式，望这两个关系式能为题库建设和试卷开发提供一个既明确又简单可行的参考数学模型。关键词：心理测验；教育测量；项目分析；项目难度；项目极大区分度一、引言项目分析(item analysis)是题库建设(item banking)的至关重要的一个环节，是开发高质量试卷的基础性工作。试卷由一道一道的项目组成，如果没有合格的项目，就不可能有合格的试卷；没有高质量的项目，就无法构出高质量的试卷。对于一个项目，既可以做定性分析，也可以做定量分析。本文关心的仅是项目的定量分析。对于项目进行定量分析时，在经典理论框架中，通常求出项目的两个指标：难度指标和区分度指标。难度指标传统上用项目的易度指数(facility index)——项目的平均答对率(对于选择型题)或平均得分率表示①。区分度指标尽管有多种表示方法，本文选取了用高低分组难度差刻划的区分度，一方面这种区分度直观，其含义又和项目反应理论框架下的区分度一致(请参见席仲恩，2001)，而且经过爱贝尔(Ebel)的研究提出了具体的项目评价指标(参见Ebel & Frisbie，1986：P234)，此外它计算又十分简便，便于应用。在我国现行的心理与教育测量著作(例如：戴忠恒，1987；王孝玲，1989；谢小庆，l988；余嘉元，1987；于信凤；1987)和语言测试论著(例如：高兰生、陈辉岳，l996；桂诗春，1986；李筱菊，1997；刘润清、韩宝成，2000；舒运祥，1999；徐强，l992；杨钟琳l992)、国外的同类著作(例如：Anastasi，1976；Salvia & Ysseldyke，1996；Alderson， Clapham & Walt，1995；Bachman，1990；Bachman and Palmer，1996；Baker，1989；Harris，1969；Heaton，1988：Lado，1961；Madsen，1983；Spotsky，1995)中，都未见专门详细定量论述项目极大区分度和项目难度之间的关系的。使题库建设和试卷开发者无所适从，给工作带来一些不便。导致像中国全国硕士研究生英语入学考试这类重大筛选性考试中难度、区分度失调，或者只顾难度而忽略区分度等问题，使试卷中的项目区分度普遍不高，甚至出现负值这种奇特现象，严重威胁了考试的信度和效度，使考试的功效打了折扣。本文在项目就是待测量特质的量具、受考在项目上的作业成绩为正态分布这两个简单假定下，通过简单的数学推导，确定出了经典测试理论模型中的项目难度和极大区分度之间的函数关系，望能为题库建设和试卷开发提

期末试卷分析报告含信度、效度、难度、区分度)

期末考试质量分析报告新疆师范大学附属中学小学部2017-2018学年第二学期小学数学学科五年级质量分析报告姓名：项彪学号：164895 一、期末考试基本情况（总体评述） 2018年五年级下册数学期末试卷属乌市教研室统一命题，全市统一监考、阅卷。本次检测分成五个部分：判断题；选择题；填空题；计算题；解决问题。从试卷检测内容看总体情况良好，学生检测成绩属正常水平。本次考试，各班的差别不大，相对来说比较理想。从试卷上反映出来的情况看，有好的地方，当然也存在着许多问题。总体上来说，学生的基础概念掌握情况不够扎实，失分率相对较高，个别学生读题不够仔细。小部分学生的口算有小错误，这也反应了孩子的口算是不能忽视的。对于一些稍微灵活和比较灵活的知识点，学生失分则相对较多，比如应用题题的“第三题有一张长方形的纸，长70厘米，宽50厘米。如果要剪成同样大小的正方形而没有剩余，剪出的正方形的边长最大是多少”，缺乏全面思考的能力，不能够灵活处理，给自己的解答造成了一定的困扰。解决问题这部分内容，大部分学生的失分较少，失分点也都集中在计算和规范答题的问题上。二、数据统计表一：（按低中高不同分数段划分；低段：0—59、 60 —74、75—84、85—94、95—100；中段：0—59、60—69、70—79、80—89、90—100；高段：0—59、60—65、66—75、76—84、85—100）

表二：（注：1分以内包括1分，2分以内包括2分，以此类推，统计人数。三、答卷情况具体分析（优点与存在问题） 1、判断、选择、填空题这部分的题目主要是一些基本的知识和计算，学生的完成情况还是比较理想的。主要出错的试题是“两根绳子一样长，第一根用去41，第二根用去41 米，余下的相比（哪根长）”，孩子们见的较少，导致有的孩子理解有误，大部分题目学生的完成情况还是比较好的，但极个别孩子稍稍粗心就容易出错。填空题第4小题“盐占盐水以及水占盐水的分水比率问题”这道题失分率比较高。判断题中出错的试题是 “找次品以及因数和倍数的概念。”这道题属于基础概念知识，考验学生的空间想象能力和全面思考问题的能力，说明出错的这些孩子的基础知识掌握的还不够扎实，不能够灵活运用所学知识。 2、计算题

如何计算一份试卷的难度与区分度(整理精校版)

如何计算一份试卷的难度与区分度教学相长 0309 20:43 ：：如何计算一份试卷的难度与区分度发表于：0503 14:23 | ：阅读：(1) 评论：(0) 如何计算一份试卷的难度与区分度如何计算试卷的难度和试卷的区分度。1、难度的计算（1）难度是指正确答案的比例或百分比。这个统计量称为试题的难度或容易度。难度一般用字母P表示，P越大表示试题越简单，P越小表示试题越难。试题要有梯度，因此各试题的难度应有不同，这是命制试题时要加以特别考虑的。（2）计算公式:P=平均分/满分值例如：第一题平均分为8.5分，此题的满分值为10分，则第一题的难度P=8.5÷10=0.85例：第1小题选择题满分是4分，全班50名学生中有20名学生答对，则第1小题的难度为，P=正确答案的比例或百分比=20÷50=0.4或平均分=4×20÷50=1.6P=平均分÷满分值 =1.6÷4=0.4 （3）关于难度的几个问题难度水平的确定是为了筛选题目。平时测验难度要利于学生的学习，但一定的难度能增加区分度，这对全面了解、掌握学生学习情况有十分重要的作用。难度水平的确定要考虑及格率，防止损伤学困生的自尊心。难度水平的确定要考虑对分数分布的影响，一般以偏正态分布为前提，有时偏正态分布更能激发学生的学习积极性.2、区分度的计算区分度是指试题对被试者情况的分辨能力的大小。一般在 1～+1之间，值越大区分度越好。试题的区分度在0.4以上表明此题的区分度很好，0.3 ～ 0.39表明此题的区分度较好，0.2 ～ 0.29表明此题的区分度不太好需修改，0.19以下表明此题的区分度不好应淘汰。计算区分度的方法很多，特别需要注意的是对同一个试题的考试成绩采用不同的方法所得到的区分度的值是不同的。我们可以使用下面的两种方法计算区分度：（1）先将分数排序，P1=27﹪高分组的难度，P2= 27﹪低分组的难度区分度D =P1－ P2或区分度 D = （27﹪高分组的平均分－ 27﹪低分组的平均分）÷满分值（2）利用积差系数r 计算区分度D当两个变量都是正态连续变量，而且两者之间呈线性关系，表示这两个变量之间的相关成为积差相关。积差相关的使用条件a、两个变量都是由测量获得的连续性数据。如百分制分数。b、两个变量的总体都呈正态分布，或接近正态分布，至少是单峰对称的分布。c、必须是成对的数据，而且每对数据之间是相互独立的。d 、两个变量之间呈线性关

关于“难度”与“区分度”的一点解释

关于“难度”与“区分度”的一点解释前一阶段，在参加继续教育培训课程——《有效学业评价——思想品德命题问题诊断与分析》的交流时，几位老师谈到了衡量试卷质量的四个系数标准：难度、区分度、信度和效度。这几个系数大多数同行应该在大学阶段都学习过，但因为使用频次过低，我真的说不清楚了，特别是对“难度”和“区分度”，我想很多同行可能与我有相同的感受。在交流的当时，我感觉我们的思维多少都有点混乱。那时那刻，我深深地感悟到：看了不一定会了，会了不一定得了，得了不一定永久了！这几天，特意查了查关于“难度”和“区分度”的资料，在此与同行们共享。一、难度 1.“难度系数”反映试题的难易程度，“难度系数”也可以理解成“容易度系数”。 2.难度一般用字母P表示，P越大表示试题越简单，P越小表示试题越难。试题要有梯度，因此各试题的难度应有不同，这是命制试题时要加以特别考虑的。一般认为，试题的难度指数在0.3－0.7之间比较合适，整份试卷的平均难度指数最好掌握在0.5左右，高于0.7和低于0.3的试题不能太多。 3.难度系数计算公式为：P=平均分÷满分值例：第1小题选择题满分是4分，全班50名学生中有20名学生答对，则第1小题的难度计算：平均分=4×20÷50=1.6，P=平均分÷满分值=1.6÷4=0.4 4.注意：（1）难度水平的确定是为了筛选题目。平时测验难度要利于学生的学习，但一定的难度能增加区分度，这对全面了解、掌握学生学习情况有十分重要的作用。（2）难度水平的确定要考虑及格率，防止损伤学困生的自尊心。（3）难度水平的确定要考虑对分数分布的影响，一般以偏正态分布为前提，有时偏正态分布更能激发学生的学习积极性。二、区分度 1.区分度是指试题对被试者情况的分辨能力的大小，主要用于评价以选拔为目的的选题。 2.试卷区分度反映试题区分不同水平受试者的程度，即考出学生的不同水平，把优秀、一般、差三个层次的学生真正分别开。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对

完整word版,SPSS信效度难度区分度分析举例

SPSS信度分析一、分半信度例1：李老师对班上9位同学的随堂测验，Y表示答对，N表示答错，测验结果如表1所示，请计算其信度。表1 随堂测验成绩表2 相关性解：（1）首先根据题意，将资料输入SPSS，建立数据文件；（2）选择"转换"|"重新编码为相同变量"命令，打开"重新编码到相同的变量中"对话框；（3）单击"旧值和新值"按钮，打开"重新编码成相同变量：旧值和新值"对话框。将"N"定义为"0"，将"Y"定义为"1"，单击"继续"按钮，完成转换。在SPSS文件中将 "字符串" 属性改为"数值"。（4）计算奇数题与偶数题的和：选择"转换"|"计算变量"命令，打开"计算变量"对话框。将奇数题变量相加移入数字表达式列表框内求和，偶数题的计算方法亦同样。（5）执行双变量相关：选择"分析"|"相关"|"双变量"命令，打开"双变量相关"对话框。将变量"奇数"和"偶数"移入右侧"变量"列表框中，在"相关系数"选项组中勾选Pearson复选框，在"显著性检验"选项中选中"双侧检验"单选按钮，并勾选"标记显著性相关"复选框，单击"确定"按钮。（6）结果中输出对该测验奇、偶数题目进行的Pearson积差相关分析表，如表2所示。Pearson 相关系数为0.109，双侧检验的显著性概率（Sig）为0.78，远大于0.05，说明该测验奇、偶题目的相关非常低且不显著，同时也说明了该测验的信度非常低。

分半信度也可直接使用"可靠性分析"命令来完成，简要步骤如下。（1）建立数据文件。（2）将资料转为数字（同上）。（3）选择模型：选择"分析"|"度量"|"可靠性分析"命令，弹出"可靠性分析"对话框。将左边列表框中的题目依所需次序前后分半选入右边的"项目"列表框中，在左下角的"模型"下拉列表框中选取"半分"选项。（4）选择统计量，单击"统计量"按钮，打开"统计量"对话框并完成相应的设置。最后单击"确定"按钮，输出统计结果。二、同质性信度（1）点击分析-度量-可靠性分析。（2）将要检验的问卷或者维度放入变量框中。（3）点击确定，生成结果。信度指标就是Cronbach's Alpha。

2.3难度和区分度

第三节难度和区分度一个测验的信度和效度在很大程度上取决于该测验的题目参数(难度和区分度)，编制和筛选具有适当参数的题目是改善测验信度和效度的前提。在通常情况下只要讨论常模参照测验中题目的难度和区分度。一、难度受测团体中被试者在答案范围内回答题目的程度称为难度。一般用难度指数p表示题目的难度。 1．题目难度的计算当题目的评分为多值时，受测者的得分可能是x(x＝1，2，…，n，n为该题满分数)。所谓难度指数(有时也称得分率)，就是该题平由此可见，平均分越高，p值越大，题目的难度越小；平均分越低，p值越小，题目的难度越大。当题目为二值评分(即0、1评分)时，上式可变形为其中，N是答题人数，R是答对人数。这种难度指数也称为通过率，一般用于是非题或多项选择题。由通过率可知，答对人数越多，p值越大，题目的难度越小；答对人数越少，p值越小，题目的难度越大。形式为多选一的选择题有多个可能的答案供受测者选择。选择正确答案的人数可能会受猜测机遇的影响，可供选择的答案越少，这种机遇的影响就越大。对此，可以用公式对难度指数p进行校正。其中，C 是校正后的难度指数，p是校正前的难度指数，k是每个 p 题目可供选择的答案数。 2．题目难度的等距量表在进行测量时，用来表示一些对象和事件的某些特征的指标称作量表。根据不同的单位和参照点，从低级到高级，从模糊到精确，可以用不同的量表表示。用平均得分比率或答对人数比率表示难度，仅说明事物含有某种属性的多少，它是无相等单位，不具有等距性和可加性的顺序量表。这种量表只能表示事物间的大小、次序关系，不能反映两个比率间的数量差异。我们可以把这种量表转换成不仅有大小关系，而且有相等单位和规定参照点的等距量表，使其能表示题目之间难度差异的大小。美国教育测验服务处(ETS)采用的难度指数为 Δ＝13＋4Z，其中，Δ是正态化的等距难度指数，13是平均数，4是标准差，Z是标准正态曲线下的面积(即p值)所对应的值。转换后的难度指数介于1～25之间，不会出现负值。题目的难度指数以多少为宜，以及它与方差、测验信度、效度、成绩分布的关系，都是值得进一步研究的问题。 3．难度指数与方差的关系当题目以0、1评分时，难度指数p是N个受测者中答对人数的平均数。即 ∑x＝Np。

完整word版,SPSS信效度难度区分度分析举例

SPSS 信度分析一、分半信度例 1：李老师对班上 9 位同学的随堂测验， Y 表示答对， N 表示答错，测验结果如表 1 所示，请计算其信度。表 1 随堂测验成绩解：（1）首先根据题意，将资料输入 SPSS ，建立数据文件；（2）选择"转换"|" 重新编码为相同变量 "命令，打开 "重新编码到相同的变量中" 对话框；（3）单击"旧值和新值 "按钮，打开 "重新编码成相同变量：旧值和新值 "对话框。将 "N"定义为"0" ，将"Y"定义为"1" ，单击"继续"按钮，完成转换。在 SPSS 文件中将 " 字符串" 属性改为 "数值"。（4）计算奇数题与偶数题的和：选择 "转换"|" 计算变量"命令，打开 "计算变量"对话框。将奇数题变量相加移入数字表达式列表框内求和，偶数题的计算方法亦同样。（5）执行双变量相关：选择 "分析"|" 相关"|" 双变量"命令，打开 "双变量相关"对话框。将变量 "奇数"和"偶数"移入右侧"变量"列表框中，在 "相关系数" 选项组中勾选 Pearson 复选框，在 "显著性检验 "选项中选中 "双侧检验"单选按钮，并勾选 " 标记显著性相关 "复选框，单击 " 确定"按钮。（6）结果中输出对该测验奇、偶数题目进行的 Pearson 积差相关分析表，如表 2 所示。 Pearson 相关系数为 0.109 ，双侧检验的显著性概率（ Sig ）为 0.78 ，远大于 0.05 ，说明该测验奇、偶题目的相关非常低且不显著，同时也说明了该测验的信度非常低。表 2 相关性

分半信度也可直接使用"可靠性分析"命令来完成，简要步骤如下。（1）建立数据文件。（2）将资料转为数字（同上）。（3）选择模型：选择"分析"|" 度量"|" 可靠性分析"命令，弹出"可靠性分析"对话框。将左边列表框中的题目依所需次序前后分半选入右边的" 项目" 列表框中，在左下角的"模型" 下拉列表框中选取"半分"选项。（4）选择统计量，单击"统计量"按钮，打开"统计量"对话框并完成相应的设置。最后单击"确定"按钮，输出统计结果。二、同质性信度 1）点击分析- 度量- 可靠性分析。 2）将要检验的问卷或者维度放入变量框中 3）点击确定，生成结果。信度指标就是Cronbach's Alpha

难度、区分度、信度、效度

试卷分析的四个度：难度、区分度、信度、效度一、难度难度是指试题的难易程度，它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。一般认为，试题的难度指数在0.3－0.7之间比较合适，整份试卷的平均难度最好在0.5左右，高于0.7和低于0.3的试题不能太多。 1、难度的两种定义：（1）P=1—x/w x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。 2、难度的计算：（1）主观性试题的难度 A 基本公式法：P=1—x/w B 极端分组法P=1—(XH+XL)∕2W XH：高分组的平均得分（前27%），X L：低分组的平均得分（后27%）。（2）客观性试题的难度 A 基本公式法：P=1—R/N R 为答对人数，N 为全体人数。 B 极端分组法：P=1—（PH+PL）∕2 PH=RH/n 叫高分组通过率，RH：高分组答对人数，n：总人数的前27%。PL =RL/n 叫低分组通过率，RL：低分组答对人数。

二、区分度区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分，而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关，通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。区分度指标的评价：-1.00≤D≤+1.00，区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于0.3，试题便可以被接受。 2、区分度的计算方法：基本公式法：D＝（H－L）÷N（D代表区分度指数，H代表高分组答对题的人数，L代表低分组答对题的人数，N代表一个组的人数即高分组与低分组人数之和）。极端分组法：（1）主观性试题：D=SH—SL∕n(WH-WL)

项目分析笔记

项目分析项目分析:是指一组分析被试对测验项目的反应的统计方法，而广义的项目分析则还包括内容效度分析和项目编写的分析。一．难度P （一）二分法计分项目 1.通过率=答对的人数/总人数（P=R/N） 2.极端分组法分为总分最高的27%的高分组（N H ），总分最低的27%的低分组（N L ），每组通过人数分别为R H 和R L ，通过率分别为P H 和P L ，则P=(P H +P L )/2或P=1/2(R H /N H +R L() / N L )。（二）非二分法计分项目 1.通过率=平均分/满分难度的等距变换将通过率P值转化为Z值，在正态分布图中，从右向左划出阴影，难度值所对应的分界线在x轴上的点即为Z值。△=13+4*Z。难度对测验的影响 1.分布形态 2.离散程度：太难或太易，全距都缩小。二、项目的区分度区分度：指测验项目对被试心理特征的区分能力，通常用D表示。 ?区分度的实质：项目得分与总分的一致性程度。 ?区分度取值范围：［-1，1］，D为0无区分作用，D值为正，表示积极区分，越大区分效果越好，D<0表示消极区分。（一）计算区分度的方法：（1）鉴别指数法：比较测验总分高和总分低的两组被试在项目通过率上的差别； D= P H -P L

区分度的相对性： 1 不同的计算方法，所得区分值不同； 2 样本容量的大小影响相关法区分度值的大小； 3 分组标准影响鉴别指数D ，分组越极端，D 越大； 4 被试样本的同质性程度影响区分度值的大小

项目分析实例：例1：郑日昌,邓丽芳,张忠华，郭召良《中国大学生心理健康量表》的编制心理与行为研究[J]2005，3(2)：102～108 4．1 量表项目的初步分析与筛选 4．1．1 区分度分析法先用皮尔逊积差相关计算各项目与其分量表总分的相关，将相关系数低于0．4的删除；另外根据“决断值”(critical ratio；简称CR值)来计算区分度，即进行高分组(总分最高的27％)和低分组(总分最低的27％)被试的每题得分平均数差异的显著性检验，如果CR未达显著水平者予以删除。(结果见表1) 4．1．2因素分析和SCL一90等测查心理症状的量表一样。由于心理症状的多样性和各症状间共性．本量表从理论意义上来讲并不适宜从整体结构上做探索性因素分析，一些研究者对SCL一90做探索性因素分析所得出的结构也同样很凌乱。这里仅对各个分量表分别做验证性因素分析。删除因素负荷小于0．4的项目和与其他题目相关太高的项目。(结果见表1) 4．1-3频数分布图分析根据选择各题的人数分别作频数分布图．大多数图呈负偏态分布．因为该量表主要为症状筛选量表，所以符合理论构想。表l中项目区分度分析的结果表明．初测量表中各项目与所在分量表总分的相关在0．317～0．755间，大部分项目与所在分量表总分的相关都在0．5 以上．说明量表中大多数项目有较好的区分度；另外。各项目在其分维度上的因素负荷在0．182～0．727间，大部分项目在其分维度上的因素负荷高于0．4。最后根据项目分析结果和收集上来的反馈意见，删除CR值未达显著水平、与其分量表相关系数小于0．5、因素负荷小于0．4、与其他题目相关太高、以及一些据被试反馈不易于理解和作答的项目，共筛选出96个项目，再加上4道测谎项目，正式量表共100个项目。

细说试题的难度、区分度、信度和效度以及对高考复习的启示

细说试题的难度、区分度、信度和效度以及对高考复习的启示一.试题的难度（一）什么是难度难度是指试题的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。客观题难度计算公式：P（难度指数）＝试题答对人数/考生人数；主观题难度计算公式：P＝试题平均得分/试题满分。试卷难度计算公式：P＝为平均分，K为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。当然，在实际的评价过程中，测验的难度水平多高才合适，也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验，为了真实、准确地了解学生的知识掌握情况，测验难度大一点也是正常的。（二）难度的计算（1）客观性试题难度P（这时也称通过率）计算公式： P=k/N（k为答对该题的人数，N为参加测验的总人数）（2）主观性试题难度P计算公式： P=X/M（X为试题平均得分；M为试题满分）（3）适用于主、客观试题的计算公式： P=（P H+P L）/2（P H、P L分别为试题针对高分组和低分组考生的难度值）在大群体标准化中，此法较为方便。具体步骤为:①将考生的总分由高至低排列；②从最高分开始向下取全部试卷的27%作为高分组；③从最低分开始向上取全部试卷的27%作为低分组；④按上面的公式计算。例1：一次生物测试中，在100名学生中，高低分组各有27人，其中高分组答对第一题有20人，低分组答对第一题的有5分，这道题的难度为： P H=20/27=0.74 P L=5/27=0.19 P=(0.74+0.19)/2=0.47 整个试卷的难度等于所有试题难度之平均值（包括主、客观试题）。（三）试题难度的一般要求就高考来说，难度以适中为宜，单个试题的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试题定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试题定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2，一般说来，容易题、难度系数为0.95-0.75，中档题为0.74-0.6，难题为0.59-0.20。二.试题的区分度（一）什么是区分度区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。

信度、效度、难度、区分度及其在试卷分析中的使用

?资料：信度、效度、难度、区分度及其在试卷分析中的使用【转自】聊城大学考务中心信度、效度、难度、区分度及其在试卷分析中的使用信度信度是指考试的可靠性，即考试结果的可信程度。信度高的试题很少受到外部因素的影响，对任何学生的多次测定都会产生比较稳定的、前后一致的结果。提高试卷信度的因素大致可包括以下几种情况：（1）使用ABC卷随机抽取试题。（2）教师考前没有划定考试范围。（3）试题效度高，质量可靠。（4）考试保密措施可靠。（5）严格执行考试纪律。（6）阅卷标准严格、规范、统一。（7）集体阅卷且实行流水作业，复核认真。

效度效度指考试的准确性，反映的是考试内容与教学大纲或考试大纲的吻合程度。效度高的试卷，能够较准确地测试出学生掌握和运用所学知识的真实度。根据教学大纲或考试大纲进行命题，且各单元试题分数分配与学时数分配基本保持一致，成正比关系，这是保证考试效度的基础。其它影响效度的因素有：是否在命题的同时制订了试题参考答案与评分标准；是否集体阅卷且实行流水作业；复核是否认真；分数是否真实等。难度难度反映试题的难易程度，即考生在一个试题或一份试卷中的失分程度。如满分100分的试题，考生平均得分76分，平均失分24分，则难度系数为。其计算公式为： L=1—X/W 其中，L为难度系数，X为分析组平均得分，W为试卷总分（一般为100分）

区分度区分度反映试题区分不同水平受试者的程度，即考出学生的不同水平，把优秀、一般、差三个层次的学生真正分别开。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。如果把成绩从高往低排序，前50%的考生为高分组，后50%为低分组，其计算公式为： D=2（X H—X L）/W 其中，D为区分度，X H为高分组平均分，X L为低分组平均分，W 为试卷总分（一般为100分）。附：试卷评估等级指标

项目分析的计算(难度、区分度及其优缺点)

项目分析难度与区分度的计算一、难度难度：指项目的难易程度。难度的计算：（一）二分法计分项目的难度计算（只有答对或答错两种情况） 1、通过率用题目的通过率估计难度。被试正确回答或通过题目的人数与总数之比。 N R p =（R 为通过人数，N 为总数）主要用于客观题的难度计算。优点：比较简单，适用于小规模测试。缺点：难度的指标是根据样本水平来确定参照点的，具有相对性。所反映的是项目的相对难度，而不是绝对难度。此P 值易受到项目的编制技术以及受测者的经验的影响。不够可靠。不适用于人数较多的大规模测试中。 2、两端分组法当被试人数较多时，可将被试依照测验总分从高到低排列，分成三组，当测验总分分布符合正态分布时，高分组和低分组各占27%；分布较平坦时，应高于27%。一般介于27%~33%之间。 )(2率分别为高、低分组通过、L H P P P P P L H += 优缺点：易受到高低分组的标准的影响。（二）非二分法计分项目的难度 1、用被试得分平均数估计对于简答题、论述题等题型，每个项目不只有答对和答错两种可能，是从0分至满分之间。此类题常用以下计算公式： )(max max 为该项目的满分的平均得分；为所有被试在该项目上X X X X P = 优缺点：按此公式计算难度时, 可用随机抽样方法, 以使样本具有代表性, 也利于统计分析。

当测验不是二值计分时，且受测者人数很多时，难度等于总分上高分组与低分组平均分之和与2倍满分之比。 max 2x x x p l h +=（max ,,x x x l h 分别代表该项目上高分组，低分组的平均分；满分。） 2、用难度的校对公式计算在多项选择题中，由于有猜测的成分，被试的得分可能被夸大，不能反映测验的难度，吉尔福德提出了一个难度矫正公式： )(1 1为选项的数目为实际得到的通过率，为矫正后的通过率，K P CP K KP CP --= 优点：当猜测成分占的比重较大时，不能真实反映实际情况时，适合用这个公式。二、区分度 1、区分度的定义：指测验项目对被试心理品质水平差异的区分程度，又称鉴别力。也指一道题能多大程度上把不同水平的人区分开来。区分度越高，越能把不同水平的受测者区分开来，该道题目被采用的价值也就越大。 2、区分度的指标项目区分度的取值区间为[1,-1]，数值越高，说明试题设计得越好,一般认为，区分度的数值达到了0.30，便可以接受；低于0.30的项目，则区分能力差。（一）项目鉴别指数法 1、鉴别指数的计算（适用于二分法计分的测验项目）当效标分数是连续变量时，可以从分布的两端各取27%的被试，分别计算每道题目的通过率，二者之间的差别就是鉴别力指数（D ）。D 越高，项目的鉴别力越大，题目的质量越好.一般来说，某项目的D 值在0.4以上，表示该项目优良；D 值在0.30~0.40之间，表示项目良好，但如能修改会更好；D 值在0.20~0.29之间，表示项目尚可,仍需修改；D 值在0.19及以下的项目则是必须淘汰的项目。 )(过率分别代表高低分组的通、L H L H P P P P D -= 优点：运算过程相对较为简单，计算方便，容易理解，但是结果不精确。缺点：(1)计算口径不一致, 缺乏可比性;

难度、信度、区分度

难度概念难度即测试题目的难易程度．一般在能力方面的测试中，它作为衡量测试题目质量的主要指标之一．它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适，这取决于测试的目的、项目的形式和测试的性质。两种定义（1）P=1—x/w x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。难度的计算（1）主观性试题的难度 A 基本公式法：P=1—x/w B 极端分组法P=1—(XH+XL)∕2W XH：高分组的平均得分（前27%），XL：低分组的平均得分（后27%）。（2）客观性试题的难度

A 基本公式法：P=1—R/N R 为答对人数，N 为全体人数。 B 极端分组法：P=1—（PH+PL）∕2 PH=RH/n 叫高分组通过率，RH：高分组答对人数，n：总人数的前27%。PL=RL/n 叫低分组通过率，RL：低分组答对人数。区分度区分度是高考试题分析的一个指标，反映了试题对考生素质的区分情况。其数值在-1～1之间，数值越高，说明试题设计的越好。参数含义反应一个题目的鉴别能力，由其可得到三方面的信息：题目能否有效的测量或预测所要了解的某些特性或正态；题目能否与其他题目一致的分辩被试；以及被试在该题的得分和测验总分数间的一致性如何。区分度取值介于（-1，+1）。输入高分组（即得分最高的27%）被试在该题上的通过率（P H），低分组（即得分最低的27%）被试在该题上的通过率（PD）操作 D＝PH－P L PH：等于“假设被试群体是高分组时算出来的难度值”