“课程考试质量分析软件”常用指标的通俗解释.

合集下载

考试分析各数据含义说明

考试分析各数据含义说明

考试分析各数据含义说明学校|班级报告(校长、级部主任、班主任查看)1. 标准差班级标准差反映班级学生成绩的离散程度。

学校标准差反映学校学生成绩的离散程度。

标准差越大说明考试分数越离散,两极分化越大。

标准差越小说明考试分数越集中,两极分化越小。

2. 众数所有考生成绩中出现次数最多的成绩。

3. 中位数所有学生成绩排序后,居于中间位置的学生成绩,即有一半学生成绩低于这个分值,有一半学生成绩高于这个分值。

4. 超均率超均率表示个人或集体超过或低于平均水平的程度。

超均率为正说明个人或集体水平高于平均水平,超均率为负说明个人或集体水平低于平均水平。

通过超均率的比较我们可以得出一个人、一个班、一个年级、一个学校在一段时间内的成绩变化情况。

学校超均率=(学校平均分-联考平均分)/联考平均分班级超均率=(班级平均分-学校平均分)/学校平均分5. 上线生、临界生上线生、临界生为根据教育局或学校制定的标准系统自动统计班级中达到相应标准的学生。

一般按排名或者分数设定,例如:全区1000-1100名为临界生,或XX科目80-85分为临界生。

科目报告(区教研员、学校教研组长、备课组长看)1. 难度、区分度、信度难度就指测验的难易程度。

难度=平均分/满分。

若难度>0.9,试卷过易;若0.6<难度≤0.9,试卷偏易;若0.5<难度≤0.6,难度适中;若0.3<难度≤0.5,试卷偏难;若难度<0.3,试卷过难。

区分度反映了试题对考生素质的区分情况.取值范围为【-1,1】,数值越高,说明试题设计的越好。

若区分度≥0.4,非常优秀;若0.3≤区分度<0.4,区分度良好;若区分度<0.3,区分度差。

信度指采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,即试卷的可靠性,信度与题目类型、题目数量、参考学生数量都有关系。

信度共分为四个等级:优秀、良好、尚可、不可信,优秀表示试卷非常可靠,良好表示试卷较可靠,尚可表示试卷有一定可靠性,不可信表示试卷不可靠。

考试成绩试卷质量分析相关指标及计算方法讲解

考试成绩试卷质量分析相关指标及计算方法讲解

考试成绩试卷质量分析相关指标及计算方法讲解本方法适用于大小型考试,如:联考、期中期末考试、月考、周测等情况,但要注意,某些指标使用的前提是年级全部参考,只给班级使用时会出现问题,文中会详细说明。

考试结束后,对考试成绩进行试卷质量分析不仅是对过去一段时间教学成果的审查、对教学质量的反思,也是对当下学生成绩的负责,更是对未来教学重点的把握、对培优补差的良好定位。

一、指标的分类在这里我们简单通俗的讲,指标分为两类,即:单次指标和阶段指标,顾名思义单次指标指的是通过当次考试就能得出的结论,阶段指标需要至少通过两次考试才能得出相关结论,考试次数越多,结论越准确。

二、指标概览本文讨论的主要分析方法及指标有:➢三率一分:优秀率、良好率、及格率、不及格率、最高分、最低分、平均分➢小题分:学生小题分、班级小题均分、年级小题均分、选项对比➢成绩排名:学生班级排名、学生年级排名、学生联考排名、班级整体排名➢折算分数:加权分、Z分数、标准分➢分布情况:优良学生分布、分数段分布、名次段分布➢教师绩效:成绩稳定性、学生上线情况、双上线、目标完成率、正取率➢培优补差:临界生圈定、波动生圈定、学生偏科情况➢备课指导:知识点掌握、题型掌握、小题掌握➢试卷质量:难度、区分度、标准差、信度、效度、峰度、偏度三、三率一分狭义上的三率一分指的是:优秀率、良好率、及格率以及平均分。

由于很多指标可以与上述指标放在一起进行对比,故目前广义上的三率一分可以对比的内容非常丰富。

对比的口径包括:➢对比科目:对比单个班级不同科目的相关指标以便找出该班级的薄弱环节➢对比班级:对比单个科目不同班级的相关指标以便找出该科目的薄弱环节计算方法如下:➢优秀率 = 优秀人数 / 实考人数(优秀得分率≥85%)➢良好率 = 良好人数 / 实考人数(85%>良好得分率≥75%)➢及格率 = 及格人数 / 实考人数(75%>及格得分率≥60%)➢不及格率 = 不及格人数 / 实考人数(不及格得分率<60%)➢平均分 = 实考所有学生得分 / 实考所有学生卷面满分➢最高分、最低分:最简单的方法是找出最高和最低的分数。

考试成绩试卷质量分析相关指标及计算方法讲解

考试成绩试卷质量分析相关指标及计算方法讲解

考试成绩试卷质量分析相关指标及计算方法讲解本方法适用于大小型考试,如:联考、期中期末考试、月考、周测等情况,但要注意,某些指标使用的前提是年级全部参考,只给班级使用时会出现问题,文中会详细说明。

考试结束后,对考试成绩进行试卷质量分析不仅是对过去一段时间教学成果的审查、对教学质量的反思,也是对当下学生成绩的负责,更是对未来教学重点的把握、对培优补差的良好定位。

一、指标的分类在这里我们简单通俗的讲,指标分为两类,即:单次指标和阶段指标,顾名思义单次指标指的是通过当次考试就能得出的结论,阶段指标需要至少通过两次考试才能得出相关结论,考试次数越多,结论越准确。

二、指标概览本文讨论的主要分析方法及指标有:➢三率一分:优秀率、良好率、及格率、不及格率、最高分、最低分、平均分➢小题分:学生小题分、班级小题均分、年级小题均分、选项对比➢成绩排名:学生班级排名、学生年级排名、学生联考排名、班级整体排名➢折算分数:加权分、Z分数、标准分➢分布情况:优良学生分布、分数段分布、名次段分布➢教师绩效:成绩稳定性、学生上线情况、双上线、目标完成率、正取率➢培优补差:临界生圈定、波动生圈定、学生偏科情况➢备课指导:知识点掌握、题型掌握、小题掌握➢试卷质量:难度、区分度、标准差、信度、效度、峰度、偏度三、三率一分狭义上的三率一分指的是:优秀率、良好率、及格率以及平均分。

由于很多指标可以与上述指标放在一起进行对比,故目前广义上的三率一分可以对比的内容非常丰富。

对比的口径包括:➢对比科目:对比单个班级不同科目的相关指标以便找出该班级的薄弱环节➢对比班级:对比单个科目不同班级的相关指标以便找出该科目的薄弱环节计算方法如下:➢优秀率 = 优秀人数 / 实考人数(优秀得分率≥85%)➢良好率 = 良好人数 / 实考人数(85%>良好得分率≥75%)➢及格率 = 及格人数 / 实考人数(75%>及格得分率≥60%)➢不及格率 = 不及格人数 / 实考人数(不及格得分率<60%)➢平均分 = 实考所有学生得分 / 实考所有学生卷面满分➢最高分、最低分:最简单的方法是找出最高和最低的分数。

软件测试的质量度量与指标

软件测试的质量度量与指标

软件测试的质量度量与指标在软件开发和应用过程中,软件测试是一个至关重要的环节,它可以发现和减少软件中的缺陷和错误,提高软件的质量和可靠性。

然而,要评估软件测试的有效性和质量,就需要使用一些度量指标来衡量。

本文将讨论软件测试的质量度量与指标。

1. 缺陷密度缺陷密度是衡量软件测试质量的一个重要指标,它表示在一定代码行数或功能点数中存在的缺陷数量。

缺陷密度越低,说明软件质量越高。

通过度量每个阶段或每个版本中的缺陷密度,可以了解软件质量的变化趋势,并及时采取措施进行修复。

2. 测试覆盖率测试覆盖率是衡量软件测试覆盖面的指标,它表示对软件功能和代码逻辑的测试是否全面。

常见的测试覆盖率包括语句覆盖率、分支覆盖率和路径覆盖率等。

测试覆盖率越高,说明测试用例覆盖了更多的功能和代码路径,提高了对软件缺陷的发现能力。

3. 故障转化率故障转化率是指测试中发现的缺陷在软件发布后被用户报告的比例。

这个指标反映了测试工作中发现的缺陷是否能够有效地防止在用户环境中发生。

如果故障转化率较低,说明测试工作有效,质量控制较好。

4. 回归测试效率回归测试是在软件进行修改或升级后重新执行旧的测试用例,以确认旧功能是否正常工作和新功能是否引入了新的问题。

回归测试效率是指在一定的时间内执行的回归测试用例数量,用于评估测试团队的效率和测试环境的稳定性。

回归测试效率越高,说明测试团队能够更快地发现和修复问题。

5. 可靠性可靠性是指软件在一定时间内正常运行的能力,是衡量软件质量的重要指标之一。

通过统计软件的平均无故障时间间隔(MTTF)和平均故障时间(MTBF),可以评估软件的可靠性。

较高的可靠性意味着软件的质量较好,用户可以放心地使用。

6. 效率效率是指软件在完成特定任务时所需的时间和资源消耗。

通过度量软件测试的效率,可以评估测试团队的效能和测试工具的性能。

效率高的测试过程可以节省时间和成本,提高软件开发和发布的效率。

7. 用户满意度用户满意度是衡量软件测试质量的关键指标之一。

常见考试分析指标

常见考试分析指标

常见考试分析指标1.难度难度值在0至1之间。

P>0.8试题容易;P<0.2时,试题太难。

一般认为,试题的难度在0.3-0.7之间比较合适,整套试卷平均难度控制在0.4~0.6之间,高于0.7和低于0.3的试题不能太多。

难度的计算公式有几种,通常所用得是计算公式1。

计算公式1: x x p =这里,是该题所有考生得分的平均分,是该题的总分(即分值)。

x x 客观题的难度(也可称为正答率)也可用下列公式计算: n k p =这里,为答对该题的人数,是测验的考生总数。

k n 值越大,试题越容易;值越小,试题越难。

p p 2.区分度 试题区分度是指测验试题鉴别考生实际能力水平高低的量度。

区分度的计算公式有很几种,我们常用的有积差相关法。

计算公式为:∑∑∑===----=n i in i i n i i i y y x x y y x x r 12121)()())((这里,是测验的考生总数,是考生在该题上的得分,是该题所有考生得分的平均分;n i x i x 是考生该测验的总得分,是该测验所有考生总得分的平均分。

i y i y 值越大,试题的区分度越大;值越小,试题的区分度越小。

r r 当试题太难或太易时,区分度都为0,只有当难度P=0.50时,区分度才达到最大值0.40以上 试题区分度非常好0.30—0.39 试题区分度良好,如能修改则更好0.20—0.29 试题区分度尚可,但需修改0.19以下 试题区分度差,必须修改难度和区分度之间没有什么直接联系,可能难度值大,区分度值小,也可能难度值大,区分度值大。

例如:①,88.0=p 35.0=r 本题属于容易题,对中、低分考生起到良好的区分作用。

② ,84.0=p 51.0=r 本题属于容易题,区分作用良好,尤其对30分至90分考生的区分明显。

③ ,38.0=p 30.0=r 本题属于难题,对高分段考生有良好的区分作用。

④ ,58.0=p 42.0=r 本题属于中等难度题,对考生起到全程区分作用。

软件质量度量指标及说明

软件质量度量指标及说明

软件质量度量指标及说明在软件开发过程中,了解和掌握软件质量度量指标是至关重要的,它们能够帮助我们评估软件的质量和可靠性。

下面将介绍一些常用的软件质量度量指标及其说明。

1. 可靠性:可靠性是指软件在规定条件下,按照规定的要求正常运行的能力。

常用的可靠性度量指标包括故障密度、平均失效间隔时间(MTTF)和平均修复时间(MTTR)等。

故障密度是指在特定时间内发生的故障数量与代码行数的比例,反映了软件中存在的错误密度。

2. 可用性:可用性是指软件按照规定的要求可供用户使用的程度。

常用的可用性度量指标包括平均时间到故障(MTTF)和平均修复时间(MTTR)。

MTTF是指在平均情况下,软件在无故障状态下运行的时间,越大表示可用性越高。

3. 可维护性:可维护性是指软件在修改、测试、故障排除和改进方面的容易程度。

常用的可维护性度量指标包括平均修复时间(MTTR)、修复效率和变更稳定性等。

MTTR是指修复故障所需的平均时间。

4. 可测试性:可测试性是指软件在测试过程中的容易程度。

常用的可测试性度量指标包括测试用例覆盖率和测试可行性。

测试用例覆盖率是指被测试的代码行数与被测试的总代码行数之比,反映了测试的覆盖程度。

5. 可移植性:可移植性是指软件在不同平台或环境下的适应性。

常用的可移植性度量指标包括代码冗余度和平台无关性。

代码冗余度是指在软件中存在的重复代码的比例。

以上是常用的软件质量度量指标及其说明,通过对这些指标的评估和分析,可以帮助开发团队提升软件的质量和可靠性。

在软件开发过程中,建议根据具体项目的需求和情况选择合适的度量指标,并结合实际情况进行评估和改进。

软件测试中常见的质量度量指标

软件测试中常见的质量度量指标

软件测试中常见的质量度量指标在软件开发过程中,质量度量指标是评估软件质量的重要依据。

通过对软件进行测试和评估,可以确定软件是否满足预期要求,并为软件开发过程中的改进提供指导。

下面将介绍软件测试中常见的质量度量指标。

1. 缺陷密度(defect density):缺陷密度是指在特定的软件模块或代码行数中发现的缺陷数量。

它可以用来评估软件的稳定性和质量水平。

较低的缺陷密度表示软件较稳定,代码质量较好。

2. 测试覆盖率(test coverage):测试覆盖率是指在软件测试中所覆盖到的代码或功能的比例。

它可以衡量测试用例对软件的覆盖程度。

较高的测试覆盖率意味着测试用例对软件的覆盖较全面,有助于发现潜在的缺陷和问题。

3. 缺陷修复速度(defect fix rate):缺陷修复速度是指从发现缺陷到修复缺陷的时间间隔。

较快的缺陷修复速度可以减少缺陷对软件的影响,并提高软件的可靠性和稳定性。

4. 平均故障间隔时间(mean time between failures,MTBF):MTBF是指连续运行的软件系统在发生故障前的平均时间间隔。

较长的MTBF表示软件系统较稳定,故障出现的频率较低。

5. 回归测试覆盖率(regression test coverage):回归测试覆盖率是指回归测试用例对软件的覆盖程度。

回归测试用例是为了验证软件在添加新功能或修复缺陷后是否仍然保持原有的稳定性和功能完整性。

较高的回归测试覆盖率可以减少软件在改动后出现新的缺陷的风险。

6. 可靠性指标(reliability metrics):可靠性指标用于评估软件系统在特定环境和使用条件下的可靠性和稳定性。

常见的可靠性指标包括故障率(failure rate)、可靠性增长指数(reliability growth index)等。

这些指标可以帮助开发人员和测试人员评估软件的可靠性,并为进一步改进和优化提供依据。

7. 压力测试指标(stress testing metrics):压力测试指标用于评估软件在高负载和压力下的性能和稳定性。

常用质量指标解释

常用质量指标解释

常用质量指标解释每天会接触很多质量指标,天天挂在嘴上的指标应知其然,并知其所以然!1.废品率定义:该百分比由废品材料费用除以总生产成本,或由废品总数量除以产品总生产数量得到。

目的:用作结果度量,来确定过程是否按照规范化进行零件生产和装配。

公式:废品率%=(废品材料金额/总生产成本)×100%或(废品总数量/产品总生产数量)×100%。

术语:废品材料金额:是废品所使用材料的价值。

总生产成本:是劳动力,材料和工厂负担(水、电等)的总和。

2.返工率定义:花费在返工活动中时间的比例,由返工工时除以生产劳动工时,或返工(返修)品的总数量除以总的生产数量得到。

目的:用作结果度量,来强调那些在第一次质量中需要改进的操作工位。

公式:返工率%=(返工工时/总生产劳动工时)×100%或(返工(返修)品的总数量/总的生产数量)×100%。

术语:返工工时:是指再次加工、分拣、修复那些将成为废品的工件所花费的时间。

这些时间可以是用在在制品、成品和外购部件或材料上。

返工时间:包括诸如修复、重新包装、再分拣,附加的检查活动和遏制等。

包括内部的或外部的活动,应包括直接时间加上加班时间中的直接时间部分。

生产劳动工时:直接生产劳动工人工作时间总和(包括直接时间加上加班时间中的直接时间部分)。

应用/信息:直接劳动工人的偶尔检查不应认为是返工。

任何再进入生产过程的产品应被认为返工。

生产线的总劳动内容的一部分应认为是返工。

该部分将根据返工的产品情况确定。

譬如,在最终检查时,喷漆生产线有10%的产品不合格,而该喷漆生产线共有20名操作员,返工的产品(10%)需要再次喷漆,喷漆生产线总工作时间的10%被认为是用来返工。

10%×20人×8小时=16 返工小时。

3.产品入库检验合格率定义:产品入库检验合格数量除以入库检验总数量所得。

目的:用作过程度量,用来衡量整个生产过程的质量水平。

公式:产品入库检验合格率%=(产品入库检验合格数量/入库检验总数量)×100%。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“课程考试质量分析软件”常用指标的通俗解释(海南师范大学)陈继元“课程考试质量分析软件”是按照教育测量学的原理,为科学分析各门课程的考试质量而专门编制的软件。

该软件以其使用方便,分析全面、准确,在近年我校及其他院校的使用中,受到了用户的普遍好评。

在该软件的推广使用过程中,学校教务管理和教学督导部门经检查发现:有些教师由于对该软件所给出的“期末成绩分析指标”含义的理解存在一定的困难,而且又没有经过专门的培训,导致个人的分析结论不够科学,在一定程度上影响了课程考试质量分析的效果。

为了更好地发挥该软件的作用,便于教师们理解指标的含义,以下本人将偿试采用通俗易懂的方式,对考试质量分析中常用的指标作一个通俗解释。

1、平均分这是一个最常用的指标,它给出了班级成绩分布的“中心位置”,可以看成是成绩分布的“中心点”。

其计算公式为:n xxnii∑==1(ix是第i个学生的分数,n是学生人数)在实践中,人们认为一组数据的“平均数”可以反映这组数椐综合情况, 或者说它是一个有代表性的数。

如果一个班学生考试的“平均分”较高(即“中心点”靠右),就表明该班的考试成绩较好,反之亦然。

如果一个班考试的平均分是60分(或60分以下),则表明该班约有半数(或半数以上)的学生不及格。

2、 标准差它是一个用于描述考试成绩“分散程度”的指标。

标准差大,则表示该班考试成绩的分布较为“分散”,学生考试成绩的差异性较大,与“中心点”的平均偏离较大;标准差小,则表示该班考试成绩的分布较为“集中”,学生考试成绩的差异性较小,与“中心点”的平均偏离较小。

其计算公式为:标准差 nx x n i i ∑=-=12)(σ 标准差小=成绩分布范围较集中标准差大=成绩分布范围较大显然,标准差不是越小越好,也不是越大越好。

标准差太小,表明成绩的的分布过于集中,相互之间的差距拉不开,不能很好地反映学生学习的实际情况,因而,也表明命题质量不高;标准差太大,表明成绩的分布过于分散,相互之间差距太大,同样不能很好地反映学生学习的实际情况,也表明命题质量不高。

在百分制下,该指标的正常取值一般在8——15之间。

3、 偏度偏度是一个用于识别与反映成绩分布曲线形状的指标,确切地说,偏度是一个识别成绩分布曲线“非对称性程度”的指标。

在一定条件下还兼有识别成绩分布曲线是否接近正态分布曲线的作用。

同时,也在一定程度上起到识别命题难度的作用。

其计算公式为:偏度 33σμλ= ( 其中n x x i n i 313)(-=∑=μ ,σ是标准差 ) 成绩分布曲线直观上可以看成是一座山峰的轮廓曲线(假设只有单峰)。

如果山峰的位置大约落在0.4——0.6这一比例尺之间(如图),通常人们就认为该座山基本上是“居中”的。

如果山峰不是在这一比例范围内,则按肉眼识别你会得出山势偏左或偏右的结论。

在只有单峰的条件下:如果偏度等于0,则成绩分布曲线恰好对称,山峰位置居中,不偏不倚,这时成绩分布曲线接近于正态分布曲线;如果偏度不等于0,则曲线不对称,这时我们称曲线出现“偏态”。

“偏态”是相对于“正态”而言的。

如果偏度小于0(即偏度取负值),称为“负偏态”,这时山峰偏右,;如果偏度大于0(即偏度取正值),称为“正偏态”,这时山峰偏左。

偏度越小,山峰0 1 0 1偏度小于零 偏度大于零 0.6 0.4 0.4 0.6越偏右;偏度越大,山峰越偏左。

一般情况下,偏度可在-0.5与0.5之间取值。

当其小于5.0-时,山峰是明显偏右了;当其大于5.0时,山峰是明显偏左了。

当偏度取负值时,山峰偏右,表明多数学生的成绩较高;反之,当偏度取正值时,山峰偏左,表明多数学生的成绩较低。

当山峰明显偏右或明显偏左时,表明多数学生的成绩明显偏高或明显偏低,这时也表明命题的难度偏低或偏高。

也就是说,在某种程度上可以利用偏度的大小来识别命题的难易程度。

4、 峰度它是一个用于反映成绩分布曲线在形状上是陡峭还是平缓的指标,是识别“山峰高矮”的指标。

同时还在一定程度上兼有识别曲线是否为正态分布的作用。

其计算公式为:峰度 44σμη= ( 其中n x x i n i 414)(-=∑=μ ,σ是标准差 )按上述公式计算,当峰度值等于3时,对应的成绩分布曲线正好是正态分布曲线。

与正态分布曲线相比较,当峰度值大于3时,成绩分布曲线较为尖峭,“山峰高瘦”;当峰度值小于3时,成绩分布曲线较为平缓,“山峰矮胖”(如图)。

峰度大于3峰度小于3由图可知,峰度的大小在一定程度上也反映了成绩分布的分散程度。

峰度值大,表明成绩分布在此处比较集中;反之,峰度值小,表明成绩分布比较分散。

5、 区分度该指标用于识别在一个总体中“左、中、右”三个群体的区分和差别的程度(其意义有些类似于经济学中反映收入差距的基尼系数)。

按照本分析软件所采用的计算方法,在考察一个小题(或大题、或整份试卷)的区分度时,首先将该试题的所有得分由低到高排列。

这时,所谓“左”,是指得分较低的占总人数27%的弱势群体(即低分组),假设该群体的平均得分为A ;所谓“右”,是指得分较高占总人数27%的强势群体(即高分组),假设该群体的平均得分为B ;夹在两者之间的群体是“中”,其平均得分显然介于A 、B 两数之间。

我们就用A 与B 之间的距离来描述该总体的区分与差别程度。

为了便于在不同试题之间进行比较,通常把数A 和B 经过标准化处理后,标记在[0,1]区间相应的位置上(如图)。

显然,A 与B 之间的距离是一个介于0与1之间的正数,称它为该总体的“区分度”。

一般地,如果区分度大于0.4,则认为区分的程度很好,表明该试题(小题、大题或整份试卷)的命题质量很高;如果区分度介于0.3至0.4之间,则认为区分的程度较好,命题的质量较高,但还可以改进;如果区分度小于0.2,通常表明试卷的命题质量存在某些问题,其区分与鉴别的功能较差。

由于考核的目的性不同,对区分度应有不同的要求。

选拨性考试宜提高区分度;水平合格性考试,对试题的区分度要求宜小些。

另外,命题的区分度与难度之间存在一定的联系。

一般来说,区分度较高的试题其难度也较大。

因此,利用区分度在一定程度上可以识别命题的难度。

区分度0A B 16、考试信度信度是一个衡量考试结果的可靠性或可靠程度的指标,所谓可靠性或可靠程度可以理解为:是指学生的考试结果能否真实地、可靠地反映他们的学习情况,是否“真实可信”,或是“虚假不可信”的。

或者说,该指标用于判断学生期末成绩与平时成绩的相关性,用于判断学生期末成绩与平时成绩排名的“一致性”和“稳定性”,也即高者恒高、低者恒低,变化不大。

信度是衡量考试质量优劣的一个重要的技术指标。

它的取值在0 与1之间。

当班级人数在30人以上时,一般地,信度在0.7以上,就可以认为信度很高;信度在0.5至0.7之间,可以认为信度较高;信度在0.4以下,则信度比较低;信度在0.3以下,则该考试就不太可信了。

7、考试效度效度是一个衡量考试结果的有效性或准确性的指标,所谓有效性或准确性是相对于该考试的目的来说的。

或者说,效度是一个用来衡量考试的结果是否达到该考试的目的、在多大程度上达到该考试目的的指标。

举一个比较极端的例子,比如,为了选拔运动员去参加比赛,用高等数学试题去考他们,显然,这样考试的结果是无效的、不准确的。

对学校的课程考试来说,效度与区分度是有密切联系的。

可以认为,效度是建立在小题与大题区分度基础上的一个综合性指标。

具体来说,由小题的区分度加权平均后可以得出大题的效度(也可作为大题的“区分度”),再由大题的区分度进行加权平均就可以得出整个考试的效度。

效度对保证考试的质量来说,是一个十分重要的指标。

它的取值在0与1之间。

效度值越大,有效程度就越大。

考虑到目前试卷的录分一般只要求录入总分,因此质量分析表中的考试效度可用区分度来近似代替。

如果能录入各小题的得分(可使用附加软件来实现),则考试效度将自动生成,采用这一指标来衡量整个试卷质量会更精确、科学些。

效度与信度之间有什么关系呢?效度是考试结果准确性的量度,信度是考试结果一致性或稳定性的量度。

因此,效度与信度的关系,也就是准确性与一致性的关系。

下面举一个例子来加以说明。

例如打靶:如果弹着点很分散,那么,一致性与准确性都不好;如果弹着点比较集中,但却远离靶心,那么,一致性好但准确性差;如果弹着点都集中在靶心附近,那么,一致性与准确性都好。

通过这个例子说明,如果一致性不好,就谈不上准确性,一致性是准确性的必要条件和前提;但一致性并非准确性的充分性条件,一致性好准确性不一定好。

这就是说,虽然效度这个指标很重要,但要达到较高的效度,首先必须有较高的信度。

再根据上述效度与区分度的关系,我们可以说,在以上所介绍的各个指标当中,衡量考试质量优劣最重要的指标,首先应该是区分度和信度。

8、 难度系数 在小题分析表中,我们还给出了难度系数这个指标,该指标主要用于分析某个题目的难易程度。

其计算方法是先确定该小题的平均得分,不妨设为A 。

把A 点经标准化处理后标记在[0,1]区间相应的位置上。

这时的0代表得零分,1则代表得满分。

我们把A 点与1的距离称为该试题的“难度系数”。

很明显,如果难度系数较大,即A 点离1点较远(离0点较近),则表示该试题较难;反之,难度系数较小,即A 点离1点较近(离0点较远),则表示该试题较容易。

一般地说,难度系数大于0.5,则表明题目较难;小于0.3则表明题目较容易。

A19、关于正态分布曲线及其检验“正态分布”亦称“常态分布”,是描述随机现象的一种最为常见的分布。

正态分布曲线是函数222()()xxαϕσ--=的图象。

其中有两个参数α及σ,在这里,α就是平均分,σ就是标准差。

正态分布曲线的形状有如下显著的特点:中间高两边低,呈钟形;曲线两边对称;曲线在两边分别有两个拐点。

具体地说,曲线最高点的横坐标是xα=(也即成绩分布的“中心点”),曲线相对于直线xα=对称;曲线分别在xασ=±处有两个拐点;当x→±∞时,曲线以x轴为其渐进线。

当σ小时,曲线陡峭;当σ大时,曲线平缓(如图)。

正态分布曲线图0XαY多数情况下,在一个班级里,成绩好的和差的总是占少数(成绩特别好和特别差的就更少),而且好的和差的人数差不多,中等成绩的总是占大多数,这是很正常的,这也正是正态分布曲线的主要特点。

这就不难理解为什么“正态分布”又称为“常态分布”的道理。

因此,在正常情况下(也即考试的区分度、信度等指标的取值都在正常范围内),成绩分布曲线应该接近正态分布曲线,或者说基本符合正态分布;反过来说,如果成绩分布曲线偏离正态分布曲线较多,那么,该考试的区分度、信度等指标就会超出正常的取值范围。

换句话说,在正常情况下,区分度、信度等指标的高低与成绩分布曲线接近正态分布曲线的程度应该是基本一致、互相印证的。

相关文档
最新文档