HSK作文客观化评分的研究

H SK 作文客观化评分的研究

田清源1

赵刚2 (1北京语言大学汉语水平考试中心;2北京语言大学汉语速成学院,北京100083)

[摘要]作文是语言能力测试中一项重要的主观考试,是HSK 高等考试的一个组成部分。

主观考试可以弥补标准化试题的不足,但又存在评分依赖于评分员主观印象的问题,从而导致评

分员自身的不稳定性和评分员之间的差异,它们统称为评分员效应。本文分析了评分员效应的来

源,提出了使用专家系统利用计算机辅助评分以消除评分员效应的方案,通过模拟实验,验证了该

方案的有效性。

[关键词]主观考试;作文;评分员效应;专家系统;汉语水平考试

[中图分类号]H 195.1[文献标识码]A [文章编号]1003-7365(2008)05-0103-05

零、引言

在语言能力测试中,作文是最为常用的主观考试形式之一。主观考试也被称为综合能力测试,它是与客观考试相对应的。因为客观考试客观性强,不受阅卷员主观因素和阅卷环境的影响,易于批量阅卷等诸多优点,所以现代考试中大量采用。然而,客观考试直接考查的是被试者的思维结果而不是思维过程,却很难直接考查他们对知识的综合应用能力。因此,人们又重新开始重视主观考试,许多知名的考试已经开始采用或者部分采用主观考试,如H SK 高级考试,其中的作文考试就属于主观考试。由于主观考试的不同评分员之间存在着主观差异(如知识水平、综合能力、爱好、兴趣等),即使是同一个评分员在不同的时间也具有主观不稳定性。这些差异性和不稳定性导致评分存在着误差,西方学术界称之为评分员效应(rater effects 2004),评分员之间的差异称为评分员之间效应(intra rater effects),评分员自身的不稳定性称为评分员自身效应(inter rater effects)。如果不能有效地控制这些差异和不稳定性,评分结果的误差将有可能淹没分数的有效含意。因此,如何为主观考试的评分工作确定一个客观的评分标准和程序,最大限度地消除评分员效应,是主观考试所面临的一个挑战。在一些专业考试中,已经有参考客观试卷得分调整作文分数的尝试(杨惠中1998),然而,如何分析和控制评分员效应的来源,以实现评分员效应的消除还不多见。

一、评分员效应的分析

传统的作文评分中,评分员效应产生于两个过程之中:一是评分员对于答卷各个分项的判断;二是评分员对于各个分项的综合。下面举例来说明这两个过程。

假设某个作文考试的考查目标可以分解为内容、篇幅、语法、篇章四个分项,如果这些分项 103 [作者简介]田清源(1968-),男,硕士,从事计算应用研发工作;赵刚(1967-),男,硕士,从事对外汉语教学与研

究工作。

是经过提炼的,维度单一,易于掌握,评分标准也针对分项进行了规定,那么,评分员对于每个分项就能比较自如地把握,分项的评判上能够表现出一定的稳定性和准确性。如果情况相反,那么分项就不能区别于综合性的项目,这些分项的判断过程实际上蕴涵了综合计算过程(如下面将要分析到的),它不具有稳定性。

如果评分员不是采用书面记录各个分项评分,然后使用统一公式计算综合分数的方法进行综合评分,而是凭借头脑中对各个分项的记忆印象进行综合判断,直接给出综合分数,那么,各种干扰(包括答卷本身的干扰)会转移评分员所注重的分项,使得综合的结果不具有稳定性。我们可以用一个例子来说明这个问题:假设一个评分员对于答卷A和答卷B进行综合评分,这两份答卷的各个分项以及答卷的整体都具有相同的水平,各个分项的等级分别是内容!优秀?,篇幅!及格?,语法!良好?,篇章!及格?,评分员能够正确地评判这些分项,但是,在综合答卷A时,他的注意力更加集中于内容和语法,对于答卷A就直接给出介于!优秀?和!良好?之间的综合分数;而在综合答卷B时,他却更加注重语法和篇章了,他对于答卷B的综合评分就降到了!良好?和!及格?之间。这样,综合过程的不稳定性导致他对于相同水平的答卷虽然做出了相同的分项判断,却没有给出相同的综合分数。

上述分析表明,评分员效应分别来自分项评判和综合计算两个过程,那么,进行评分员效应控制,相应地就必须从分项合理提炼以及综合过程标准化两个方面入手。

二、专家模型的构造

为了有效控制评分员效应的两个来源,构造出利用计算机辅助评分的专家系统,它由两个部分组成:作文分项标准和分项综合计算程序。

2.1作文分项标准

使用专家研讨和统计分析相结合的方法,提炼维度单一、易于把握的作文分项,对于各个分项,明确设定各个评分等级的标准。在分项数量的控制和分项自身复杂程度的控制上,基于统计分析进行折中,将合理控制分项数量,使得评分员既能够准确地把握每一个分项,又不因为分项数量繁多而影响工作效率。依据H SK高等考试作文评分的经验,本文的模拟实验使用4个分项:内容、篇幅、语法和篇章。

2.2分项综合计算程序

分析评分专家的综合过程,将它提炼为从分项分数获得综合分数的综合计算专家逻辑,使用计算机程序固化这个计算逻辑,就可以确保分项分数相同的答卷获得相同的综合分数,以消除综合过程的随意性和不稳定性。

分数综合的计算过程,常见的专家逻辑有两类:第一类是按照有无分项优先等级来划分的,分为无优先级和有优先级;第二类是按照是否对分项加权计算来划分的,分为简单算术平均和加权算术平均。两类标准组合为四种专家综合计算逻辑,如表1。

表1 专家综合逻辑的划分

类型简单算术平均加权算术平均

无优先级无优先级简单算术平均无优先级加权算术平均

有优先级有优先级简单算术平均有优先级加权算术平均104

2.2.1无优先级简单算术平均这是四种逻辑之中最简单的一个。将综合分数标记为Z,将分项分数标记为f i ,i 取值为1到n,n 为分项个数。该模型的综合分数计算如下:

Z=(

n i =1f i )/n

假设:评分员1对于答卷A 的分项判定为内容90分,篇幅60分,语法80分,篇章60分,综合分数就是(90+60+80+60)/4=72.5。

2.2.2无优先级加权算术平均该逻辑比前一个逻辑复杂和精密。它对于各个分项引入了权重,假设不同分项的权重为w i ,该模型的综合分数计算如下:

对于前面的假设的分项评分,假如评分标准中注重内容而不苛求篇章,给定4个权重分别为1.2,1.0,1.0,0.8,那么综合分数为(90#1.2+60+80+60#0.8)/4=74。

2.2.3有优先级简单算术平均该逻辑引入优先级,但不引入权重。到底什么是优先级呢?假设对于作文考试做了如下规定:内容必须切题,否则有默写考前所押题目的嫌疑,作文质量再高也不能及格,那么,内容分项就具有最高优先级,其它分项的分数如果超出内容分项的分数,超出的部分将不予以考虑。

除了最低优先级,其它较高的优先级别中,每个级别只能有一个分项。该模型的综合分数(有优先级简单算术平均模型的算法流程)计算流程请见下图。

仍以前面举过的例子来说,如果各个分项得分是

内容90分,篇幅60分,语法80分,篇章60分,假设内

容的优先级最高,篇幅的优先级次之,语法和篇章最

低,计算过程如下:语法和篇章平均为(80+60)/2=

70,大于篇幅60分的限定,两个分项分数替换为60,

优先级提高到与篇幅相同;再次计算替换之后最低优

先级分项的平均值:(60+60+60)/3=60,它小于上

一个优先级的分项,保持数值不变,提高优先级;现在

只有一个优先级别了,平均值(90+60+60+60)/4

=67.5,这就是最终的综合分数。

2.2.4有优先级加权算术平均该模型在引入优

先级的同时也引入权重。其算法与有优先级的简单算

术平均模型基本一致,只把每个优先级上的平均值计

算公式由简单算术平均公式替换为加权算术平均公式

即可。在这种模型中,优先级与权重相互嵌套,优先级和权重的设计有一定难度。

三、专家模型的应用

3.1综合计算逻辑的适用性

在教学培训实践中,教师对于学生作业的评分,适宜采用无优先级的模型。其原因是学生作业一般旨在练习,作文各个分项一般均衡发挥,极少有应试型的畸形情况发生(比如分项之间严重失衡)。对于获取等级证书的考试,一般要采用有优先级的模型,其主要目的是防止应 105

试型的分项之间严重失衡的答卷获取不应获取的高分。

3.2评分实践

在具体的评分实践之中,专家模型的开发和应用步骤如下:(1)确立考查目标;(2)提炼考查分项;(3)提取综合分数计算专家逻辑;(4)程序开发,利用计算机程序固化综合分数计算专家逻辑;(5)评分员培训、阅卷,分项分数直接录入计算机网络,或者后期处理时录入分项评分;

(6)计算机统一计算,得出综合分数。

四、作文客观化评分模拟实验

4.1实验设计和实验原理

我们邀请两位有多年对外汉语教学经验的教师对于随机选取的30份作文试卷进行4次评分。作文隐去考生信息,每次评分都与前一次相隔一周左右的时间,评分时打乱作文的顺序。隐去考生信息,是对考生隐私的尊重,同时也与间隔时间和打乱顺序一起消除评分员两次评分之间的提示作用,使得评分员的每一次评分都相当于对一批新作文的评分。

前两次评分模拟普通的主观评分做法,直接给出综合评分。后两次评分模拟使用专家系统进行计算机辅助评分,给出内容、篇幅、语法、篇章四个分项分数,采用加权算术平均的方法计算综合分数,依据相关经验,本文实验选取四个分项的权重分别为0.3,1.8,1.5和0.4。因为每次评分的对象都是同一批试卷,从理论上讲,如果没有评分员效应,两次评分的结果就会完全一致,反映在统计数据上,两次评分之间的相关系数就会高达1。两次评分之间的相关系数越高,说明两次评分结果的一致性越高,相应地评分员效应也就越小。

4.2实验数据分析

分别计算两位评分员自身的评分相关性。第1次和第2次评分之间的相关系数是两次主观评分的相关系数,第3次和第4次评分之间的相关系数是两次专家系统辅助评分之间的相关系数。数据如下表2和表3。

表2 评分员1自身的相关性(Spea rman相关系数)

第1次第2次第3次第4次第1次1.860.893.899

第2次.8601.907.970

第3次.893.9071.976

第4次.899.970.9761

表3 评分员2自身的相关性(Spea rman相关系数)

第1次第2次第3次第4次第1次1.906.731.899

第2次.9061.806.921

第3次.731.8061.931

第4次.899.921.9311

从上面两个表格的数据可得知,因为两个评分员是有经验的专家,他们各自的主观评分都具有很高的相关性,相关系数分别为0.860和0.906。通过采用专家系统的辅助,他们评分的相关系数都比主观评分有了进一步提高,分别达到0.976和0.931。这充分表明了利用专家系统实现计算机辅助客观化评分,在消除评分员自身效应上起到了一定的作用。

106

再对两个评分员之间的相关性进行比较,计算两个评分员之间的相关系数,结果见下表4,其中R1.2表示评分员1的第2次评分,R1.4表示评分员1的第4次评分,依此类推。

表4 评分员之间相关性(Spea rman相关系数)

R1.2R2.2R1.4R2.4 R1.21.890.970.828

R2.2.8901.938.921

R1.4.970.9381.932

R2.4.828.921.9321

与评分员自身相关性的分析相似,在两个评分员之间,主观化评分的相关性已经很高,相关系数为0.890,利用专家系统辅助评分的相关系数得到进一步提高,达到了0.932。这说明了利用专家系统实现计算机辅助客观化评分在消除评分员之间效应上的作用。

五、结论

本文研究了如何利用计算机将专家系统应用于作文的评分工作之中。通过专家系统的建立和计算机辅助工作,可以在一定程度上消除作文评分中的评分员效应,作文评分的客观性得到了提高。本文提出的专家系统模型同样可以推广到其它主观考试的评分工作之中,比如口语测试、专项操作技能测试等。

本文的模拟实验旨在说明使用专家系统进行作文客观化评分的可行性,实验使用的模型还欠精准。在实际应用中,对于分项的提炼和综合计算逻辑的确定还需进行反复的研究和验证,它们是专家系统优劣的关键。一旦专家系统建立并付诸应用,系统应该保持一定的稳定性,以保证考试成绩的可比性。

参考文献:

[1]杨惠中, C.Weir.大学英语四、六级考试效度研究[M].上海:上海外语教育出版社,1998.

[2]Wo lfe, E.W.Identifying rater effects using lat ent tr ait mo dels[J].Psy chology Scien ce,2004,(1).

Research on the Standardized Scoring of Composition Test

T IA N Q in yu n&ZH AO G n

(Beijing Languag e and Culture Univer sity,Beijing100083)

Abstract:T he composition is an important subjectiv e measurem ent in the test o f lang uag e pro ficiency,it is one section in H SK Adv anced Lev el Test.T his kind of m easurement over comes the shor tcoming o f the standard test,but its scor ing depends on the raters impr ession, and brings inter rater instabilities and intra rater differences.T his paper analy zes the re sources of the r ater effects,and a reso lution using the applicatio n of ex pert system to reduce rater effects is proposed and v erified by the simulative ex periments.

Key words:subjectiv e test;composition;rater effect;expert sy stem;H SK

107