《新视野大学英语》作文自动评分系统的效度研究

合集下载

融入写作自动评价系统的大学英语写作教学实证研究

融入写作自动评价系统的大学英语写作教学实证研究内容摘要：本文旨在以句酷批改网为例，探讨融入写作自动评价系统的大学英语写作教学新模式的效果。

开展实证研究得出结论：该评价系统的引入增强了学生的英语写作兴趣和信息，降低了他们写作时的焦虑感，使学生的大学英语写作水平有显著提高。

关健词：写作自动评价系统句酷批改网大学英语写作教学1.引言英语写作作为一项重要的语言技能是检验学生英语综合运用能力的有效手段。

同时，它又被公认为最难培养的语言技能之一。

它是一个循环式的心理认知过程、思维创造过程和社会交互过程（Krashen & Terrel，1983），写作能力需要在不断修改、评价、反馈的循环过程中逐步提高。

然而，在实际教学中，大班化教学很难让教师在写作上给每位学生及时有针对性的反馈。

作文批阅的费时费力也使教师不得不减少写作任务布置次数。

这些导致大学生英语写作动机欠缺，写作训练不足，水平提高缓慢。

《大学英语课程教学要求》明确提出：在大学英语教学中充分利用现代信息技术提高教学效果，特别要以网络为支撑，使英语的教和学不受时间和地点限制，朝着个性化学习方向发展。

随着网络信息技术的迅猛发展，探讨将在线写作自动评价系统融入大学英语写作教学，通过整合传统教学模式与现代网络技术优势激发学生的写作热情，使学生获得多维度反馈，从而提高写作水平是写作教学改革里重要的研究课题。

2.文献综述写作自动评价系统始于美国上世纪60年代，其在国外发展经历了三个阶段。

第一阶段开发的PEG（Project Essay Grade）主要适用于大规模考试的评分，对作文的内容关注不足。

第二阶段研发的IEA（Intelligent Essay Assessor）和E-rater分析更加复杂，包含更多词法、句法及篇章结构元素。

第三阶段开发的My Access！、Criterion，Writing Roadmap等系统提供作文总分及分项分，并给出个性化反馈，但它们主要针对英语本族语学习者。

英语作文自动评分及其效度、信度与可操作性探讨

英语作文自动评分及其效度、信度与可操作性探讨
谢贤春
【期刊名称】《江西师范大学学报（哲学社会科学版）》
【年(卷),期】2010(043)002
【摘要】评述国内外作文自动评分系统,并依据英语作文测试中的信度、效度和实践可操作性对其进行分析.探讨国内英语作文自动评阅系统的发展,在肯定其优点的同时,指出和分析其中的问题和不足,并提出相应之对策,以期为我国英语作文自动评阅系统研发提供借鉴和启迪.
【总页数】5页(P136-140)
【作者】谢贤春
【作者单位】茂名学院,外国语学院,广东,茂名,525000
【正文语种】中文
【中图分类】H319.3
【相关文献】
1.句酷批改网英语作文评分的信度和效度研究 [J], 何旭良
2.英语专业课堂研究中问卷调查表的效度、信度及可操作性 [J], 李延林
3.初中毕业英语学业考试的效度、信度和可操作性研究 [J], 温爱英
4.脑卒中4种评定量表的效度、信度及可操作性检验 [J], 胡万保;罗祖明;商慧芳
5.英语作文自动评分系统的信度和效度研究——基于不同类型写作任务文本量化特征分析 [J], 张国强;何芳
因版权原因，仅展示原文概要，查看原文内容请购买。

作文自动评分系统应用研究综述_兼谈对大学英语写作教学的启示_李银玲

CAS 系统，首次将其应用于自学考试外语测验主观题。实验结果表明，主观题总分的自动评分与人工评分无显著差异，两者高度相关，自动评分结果在统计学意义上具有可靠性，但部分具体试题的自动评分与人工评分相关系数较低。［2］吴丹、张青妹采用 “冰果英语智能作文评阅系统” 对某高校 355 名学生的 1775 份作文进行实验研究，
（二）自动评分系统辅助课堂写作教学研究 Vantage learning 通过引用四个案例，说明了学生使用 My Access 后，在美国的州或全国统考中写作成绩有明显提高，学生的语言技能水平也有提高，而且 My Access 也赢得了学生的广泛认可。Vantage learning 同时也指出，实验对象没有随机抽取，这也是以后研究需要克服的问题。［15］
38
2013 年第 4 期
作文自动评分系统应用研究综述———兼谈对大学英语写作教学的启示
达到了相当高的一致性。据美国教育测试服务中种适用于小规模语言测试和自我测试的通用评分
心报道，E-rater 与人工评分的一致性达到 88% －模型，具有较高的测试效度。［4］但是，也有学者
94% 。但也有权威人士认为，电子判分系统的准通过个案试验，认为该系统评分与人工打分相差
确性还有待进一步证实。针对 AES （ Automated 甚远，结果准确性大打折扣，因此该系统实际意
Essay Scoring）的研究，多数研究旨在阐述机器义有待考证。［5］另外，也有研究者对比了 “冰果
评分如何与人工评分一致。许多研究证实了很大英语智能作文评阅系统” 和 “ 《新视野大学英
在于产品推销，因而其结果往往难以使人信服。个重要指标，写作受到了大学英语教学的高度重

作文自动评价系统在大学英语写作教学中的实证研究———以句酷批改网为例

第４０卷第１期教学研究Ｖｏｌ４０Ｎｏ１２０１７年１月ＲｅｓｅａｒｃｈｉｎＴｅａｃｈｉｎｇＪａｎ．２０１７作文自动评价系统在大学英语写作教学中的实证研究以句酷批改网为例李㊀霞㊀钟兰凤（江苏大学外国语学院，江苏镇江２１２０１３）㊀［收稿日期］㊀２０１６⁃０５⁃２２㊀㊀㊀［基金项目］㊀国家社科基金项目（１４ＢＹＹ０７４）；江苏省社科应用研究精品工程外语类课题（１６ｊｓｙｗ⁃３３）㊀［作者简介］㊀李霞（１９８２⁃），女，湖北荆州人㊂讲师，硕士，主要研究方向为二语习得㊁应用语言学㊂㊀㊀［摘㊀要］㊀作文批改与反馈是英语写作教学的重要一环对提升学生的大学英语写作水平的作用不可低估，以教育部高等学校大学外语教学指导委员会‘大学英语教学指南“（征求意见稿）中有关教学模式改革的相关精神为指导，以基于语料库和云计算的句酷批改网为例，通过实证研究探讨自动评价系统在大学英语写作教学中的有效性㊂研究发现㊂批改网反馈及时能提高写作反馈成效，减轻教师作文评阅压力，激发学生自主写作热情，提升其写作水平，这是改进现有英语写作教学模式的有效手段㊂但研究也显示该系统存在一些不足，还需要不断更新与完善，在此基础上为作文自动评价系统的改善提出了一些建议㊂㊀㊀［关键词］㊀自动评价系统；大学英语写作；批改网；反馈；语料库㊀㊀［中图分类号］㊀Ｇ６４２．４㊀㊀［文献标识码］㊀Ａ㊀㊀［文章编号］㊀１００５⁃４６３４（２０１７）０１⁃００５７⁃０５０㊀引言㊀㊀近年来我国高校不断扩招，学生人数众多，师资紧张，作为基础课的大学英语普遍采用大班化教学模式，根据国家教育指导委员会２００８年的调查，常规本科生与教师的比例为１４８ʒ１［１］㊂大学英语教师面对庞大学生群体，对学生作文评阅存在任务重㊁效率低㊁反馈不及时㊁主观性强等诸多问题㊂张雪梅认为由于反馈质量及针对性不强等问题，我国二语写作普遍存在着费时㊁低效的现象［２］㊂教育部高等学校大学外语教学指导委员会在‘大学英语教学指南“（征求意见稿）（以下简称‘指南“）为大学英语写作教学模式改革指明了方向㊂‘指南“［３］指出大学英语应大力推进最新信息技术与课程教学的融合，继续发挥现代教育技术，特别是信息技术在外语教学中的重要作用㊂大学英语教师要与时俱进在具体的课堂教学设计与实施过程中，融入并合理使用信息技术元素㊂作文自动批改系统（ａｕｔｏｍａｔｅｄｅｓｓａｙｓｃｏｒｉｎｇ，ＡＥＳ）通过人工智能㊁网络技术及语料库技术对作文进行自动评价，其发展为基于计算机和网络技术的教学模式改革提供了新的视角㊂在国外，这种系统已在托福㊁ＧＭＡＴ㊁ＴＷＥ等重大考试的写作评估中广泛使用㊂国内学者也陆续重视此系统的研究，并自主研发出了一些写作智能反馈平台㊂如句酷批改网㊁冰果英语智能作文评阅系统等㊂由于计算机自动评价系统在我国投入使用的时间不长，对这些平台的使用效果，国内目前还缺乏系统性研究㊂本研究拟尝试在‘指南“指导下，利用计算机和网络技术，以笔者执教的学生为实验对象，对作文自动批改系统在大学英语写作教学模式改革中的效果及影响进行深入探析㊂１㊀文献综述１．１㊀国外自动评价系统所谓作文自动评价系统（ＡＥＳ），就是利用计算机和网络技术对作文进行评估与评价㊂国外的作文自动评价系统比国内起步早㊂美国杜克大学于１９６６年开发出第一套作文自动评价系统ＰＥＧ（ｐｒｏｊｅｃｔｅｓｓａｙｇｒａｄｅｒ）㊂此后，人们采用统计㊁自然语言处理及人工智能等方面的最新成果，使该项技术得到了长足发展㊂目前在国外投入使用且比较成熟稳定的自动评价系统除ＰＥＧ外，还有ＩＥＡ（ｉｎｔｅｌｌｉｇｅｎｔｅｓｓａｙａｓｓｅｓｓｏｒ）㊁Ｅ⁃ｒａｔｅｒ（ｅｌｅｃｔｒｏｎｉｃｅｓｓａｙｒａｔｅｒ）㊁ＩｎｔｅｌｌｉＭｅｔｒｉｃＴＭ㊁ＨｏｌｔＯｎｌｉｎｅＥｓｓａｙＳｃｏｒｉｎｇ. All Rights Reserved.５８㊀教学研究２０１６等㊂ＰＥＧ比较注重语言形式，ＩＥＡ则注重作文内容，而Ｅ⁃ｒａｔｅｒ既重形式又重内容［４］㊂ＩｎｔｅｌｌｉＭｅｔｒｉｃＴＭ㊁ＨｏｌｔＯｎｌｉｎｅＥｓｓａｙＳｃｏｒｉｎｇ更为先进，能从写作的各个角度，如遣词造句㊁内容体裁㊁语体语法㊁组织结构以及写作格式等分析学生的错误㊂然而以上评价系统均为英语为母语的学生而设计，对于我国二语习得者，国外现有的研究成果不一定适用，因此将开发符合中国国情的作文自动批改系统提上日程㊂１．２㊀国内自动评价系统国内关于计算机自动评价系统的研究起步较晚，但也取得了一定的成绩㊂如梁茂成教授团队研发的大规模考试英语作文自动评价系统于２００５年申请了国家专利，得到了许多知名学者的肯定㊂有些企业也开发了此类软件，如句酷批改网及冰果英语智能作文评阅系统㊂冰果侧重作文整体评价，不指出文章的细节错误，只给出最后得分和评语㊂目前，国内多所高校正推广使用基于语料库和云计算的句酷批改网（ｔｈｅｐｉｇａｉｓｙｓｔｅｍ），它是一种以ＳＡＡＳ（软件即服务）的方式为教师和英语学习者提供英语作文网上智能批改的系统，具有反馈及时㊁按句点评㊁抄袭检测㊁提供进度报告等优点㊂１．３㊀反馈理论Ｕｒ［５］认为反馈在教学环境里通常指为了改进㊁提高学生的学习效果而对其某一学习任务完成情况发回的信息㊂在写作领域，反馈是读者向作者提供修改作文的信息㊂有效的写作反馈能帮助学生发现自己写作中的盲点及不足，促使其对作品进行反省和改进，最终提高写作水平㊂国内外学者从不同角度对反馈进行了大量调查研究㊂根据反馈的来源，反馈可分为教师反馈㊁同伴反馈以及计算机反馈㊂有些学者对教师反馈进行了深入探索，相关研究发现教师反馈对学生英语写作水平的提高起着重要的促进作用［６⁃７］㊂同伴反馈与英语写作有着正相关的关系，能够校正学生写作动机，培养批判性思维及分析技能，转变写作态度，提高读者意识，形成学习社群［８⁃９］㊂然而，也有研究者对同伴反馈提出了质疑，认为由于自身水平的限制，学生对作文表层语法等方面的修改较多，而对深层篇章结构等方面关注较少，因而很少能提供高质量的反馈［１０］㊂随着科学技术的发展及计算机的普及，教育技术迅猛发展，计算机在语言教学中的作用日益增大㊂研究者顺应此趋势，提出了网络反馈方法㊂从网络资源利用㊁网络背景下的师生互动和写作软件开发应用等方面探讨了网络反馈对写作能力培养的重要作用［１１⁃１３］㊂然而，目前国内对作文自动评价系统在大学英语写作教学中的实证研究还不多，且缺乏系统性㊂２㊀研究设计２．１㊀研究问题本研究关注以句酷批改网（以下简称批改网）为代表的作文自动评价系统对提高大学生英语写作水平的有效性㊂具体探讨以下问题㊂１）与传统教师人工反馈模式相比，批改网提供的反馈是否能更有效地促进学生英语写作能力的提高？２）批改网是否能更好地培养学生写作兴趣和自主写作意识？３）学生对批改网应用于大学英语写作教学的态度和评价如何？２．２㊀研究对象参与本次实证研究的对象是江苏省某重点院校非英语专业大一学生，共计１１８人，由两个不同的平行班组成㊂随机抽取一个班为实验班（６０人），教师通过批改网来辅助写作教学；另外一个为对照班（５８人），教师使用传统书面反馈模式指导学生英语写作㊂本研究对这两个班进行持续两学期的比较性研究㊂为避免影响实验的效度，学生并不知晓其正在参加教学方法实验㊂２．３㊀研究方法及工具本研究采用定量与定性研究相结合的方法㊂定量研究包括采用ＳＰＳＳ２２．０对两个班学生实验前后英语写作成绩以及问卷调查的封闭式问题进行统计，使用独立样本ｔ检验分析检测两班是否存在显著性差异㊂利用Ｗｏｒｄｓｍｉｔｈ６．０软件统计实验班与对照班后测作文语料；定性研究主要以教师平日观察记录以及问卷调查中开放式问题回答分析展开，以便进一步检验实验结果㊂本研究所应用的在线写作批改平台为比较成熟稳定的句酷批改网，其评价与人工评价基本一致率达到９１．５５％［１４］㊂批改网使用流程见图１㊂. All Rights Reserved.第６期李㊀霞钟兰凤作文自动评价系统在大学英语写作教学中的实证研究５９㊀图１㊀批改网使用流程图２．４㊀研究过程本研究分为以下３个阶段㊂１）实验前㊂选取笔者所带的两个班作为实验班和对照班㊂在开学初对实验班学生进行了批改网使用培训，以避免学生因不会使用该系统而影响其写作质量㊂２）实验中㊂本实验为期２个学期，共３０周㊂实验班和对照班由同一教师任课，课程设置㊁使用教材及教学进度一致㊂每完成一个课程单元则布置一篇与课文主题相关的作文㊂实验班学生利用批改网写作，根据系统反馈自行修改作文，修改次数不受限制㊂对照班则采取传统的人工评阅方式进行批改，教师鼓励学生根据反馈进行自我修改㊂３）实验后㊂收集并对比实验班和对照班的写作后测成绩，并将其与前测成绩进行对比分析，统计实验班与对照班后测作文语料信息，同时对学生进行问卷调查㊂３㊀结果与讨论通过两学期的教学实验，笔者利用ＳＰＳＳ２２．０对实验班与对照班的前测和后测写作成绩开展独立样本ｔ检验，使用Ｗｏｒｄｓｍｉｔｈ６．０软件统计实验班与对照班后测作文语料信息，结合问卷调查结果进行分析讨论㊂３．１㊀实验前作文成绩分析实验前，本研究对两班作文成绩进行了独立样本ｔ检验，结果如表１所示㊂表１㊀实验班与对照班作文前测作文成绩独立样本ｔ检验（百分制）组别人数（Ｎ）均值（Ｍ）标准差（ＳＤ）组间差异（ｔ值）显著性（ｐ值，双尾检验）实验班６０７３．８１７７．０６８７－１．４５５０．１４８对照班５８７５．９１４８．５４５６㊀㊀从表１可以看出，对照班的平均成绩比实验班高出２．０９７分，但两组写作成绩没有显著性差异（ｔ＝－１．４５５，ｐ＝０．１４８＞０．０５）㊂表明两个班学生作文水平相当，比较适合作为实验研究对象㊂３．２㊀实验后作文成绩分析实验后，本研究对两班作文后测成绩进行了独立样本ｔ检验，结果如表２所示㊂表２㊀实验班与对照班作文后测成绩独立样本ｔ检验（百分制）组别人数（Ｎ）均值（Ｍ）标准差（ＳＤ）组间差异（ｔ值）显著性（ｐ值，双尾检验）实验班６０８２．２３３４．３７６８４．１０７０．０００对照班５８７８．１５５６．２７３２㊀㊀表２表明，通过使用批改网进行写作辅助教学，实验班的平均成绩比对照班高出４．０７８分，且在统计学上这种优势显著（Ｐ＝０．０００＜０．０５）㊂与前测数据相比，两班成绩均有一定提升，但实验班学生作文成绩提高幅度明显高于对照班（提高幅度分别为８．４１６和２．２４１）㊂这说明在经过两学期批改网的使用后，实验班的学生成绩反超了对照班㊂３．３㊀实验后作文语料分析作文质量不能仅考察写作成绩，还应从诸如作文字数㊁词汇丰富度㊁句子长度等方面进行综合考察㊂表３是利用Ｗｏｒｄｓｍｉｔｈ６．０软件得出的实验班与对照班后测作文语料统计信息㊂表３㊀实验班与对照班后测作文语料统计简表ｔｅｘｔｆｉｌｅｆｉｌｅｓｉｚｅｔｏｋｅｎｓｔｙｐｅｓｓｔａｎｄａｒｄｉｚｅｄＴＴＲｍｅａｎｗｏｒｄｌｅｎｇｔｈｍｅａｎｓｅｎｔｅｎｃｅｓｌｅｎｇｔｈ（ｉｎｗｏｒｄｓ）实验班１３６５４１２０６３１５２４３５．１７４．９８１６．５４对照班１０８４５９５６１１１９２３３．５４４．４２１５．２８注：ＴＴＲ＝ｔｙｐｅ／ｔｏｋｅｎｒａｔｉｏ，ＳＴＴＲｂａｓｉｓ＝１０００㊀㊀从表３可以看出，实验班作文语料的库容量㊁形符㊁类符㊁标准化类符形符比㊁平均词长㊁平均句长等指标均比对照班作文语料大㊂实验班的库容量为１３６５４，而对照班为１０８４５，王初明等［１５］认为作文的长度可以作为写作质量的一个指标㊂全国大学英语四六级考试作文在字数上的不同要求也. All Rights Reserved.６０㊀教学研究２０１６反映了作文长度是评价写作能力的标准之一㊂标准化类符形符比可以用来反映词汇的丰富程度，比值越大，用词变化量越大㊂实验班的标准化类符形符比（３５．１７）大于对照班的数值（３３．５４），因此，实验班的学生用词变化更大㊂平均词长和平均句长能部分反映词汇及句子的复杂度㊂从表３的数据来看，对照班学生所写作文单词和句子较实验班来说都相对简单㊂综上可见，实验班通过使用批改网，其在作文分数㊁作文长度㊁词汇使用㊁句子长度等方面均比对照班占优势㊂３．４㊀学生调查问卷及结果分析为进一步检验实验数据结果，了解学生对自动批改系统的态度和看法，笔者在实验结束后对实验组的６０名学生进行了问卷调查㊂６０份回收问卷全部有效㊂问卷主要围绕以下两点展开：（１）实验班学生使用批改网后，学生的写作能力㊁写作兴趣及自主写作意识是否有变化？（２）实验班学生对批改网的评价如何？第一，多数学生对于使用批改网进行在线写作持积极肯定态度，认为自动批改调动了他们的自主学习积极性，激发了写作信心和兴趣㊂仅有５％左右的学生反对使用该系统㊂８３．３％的学生写作愿望加强㊂７０％的学生认为在批改网的帮助下语言错误数量减少㊂７５％的学生认为作文内容及词汇比以前更丰富㊂８１．７％的学生认为总体写作水平有了一定提高，这一点与本研究的实验结果一致㊂第二，大部分被试学生认为批改网有如下优点㊂（１）评阅迅速及时，给出客观翔实的评价报告，比教师批阅效率高㊂在线提交作文之后，系统会立即作出评价，给出分数，自动识别诸如拼写㊁词汇㊁搭配㊁语法等常见错误，给出修改建议并提供相关扩展训练㊁搭配推荐㊁参考例句等，学生能随时根据评价对作文进行多次修改，提高分数；（２）提供大量详实可靠的写作语料，帮助学生提高自主学习能力㊂６０％的学生会利用批改网中的语料库检索功能进行例句㊁语块㊁搭配㊁语段㊁知识点㊁同题材作文等检索㊂学生在真实的语言使用实例中自我发现㊁自我思考㊁探索语言规律，在语料驱动的学习模式（ｄａｔａ⁃ｄｒｉｖｅｎｌｅａｒｎｉｎｇ）下，提高自主学习能力；（３）档案系统高效方便㊂批改网为学生提供个人学习档案及学习日志，其提交的作文成绩轨迹及评价报告均保留在电子档案里㊂这对学生了解自身学习过程，掌握学习情况，进行反思非常有帮助；（４）师生交流更顺畅㊂教师可在我的网站上传各种写作资料供学生学习㊂学生也可将自己遇到的问题发到批改网上的ＢＢＳ交流平台，与教师或其他学生一起探讨㊂６２％的学生喜欢这种师生㊁生生间的交流㊂第三，学生也指出了批改网在实际使用中存在的一些问题㊂（１）评语过于机械化且不够具体㊂这个结果和一些研究者的发现一致［１６⁃１７］㊂句酷网注重对学生作文的拼写㊁词汇及句法等方面的评价，对于写作的篇章结构㊁思想内容㊁逻辑㊁衔接与连贯性㊁批评性思维能力等方面反馈的意见较少，这也反映出计算机评价的一大缺陷，即在技术层面上没能像人一样去欣赏一篇文章［１８］；（２）批改网能指出一些语法结构错误以及学生常犯的中式英语，但未给出确切修改意见，学生有时无法自己更正，需要教师给出具体反馈；（３）准确性有待提高㊂有些学生认为批改网不能准确评价作文的体裁，如学生将作文体裁写错，但仍可能得到较高分数㊂有些按句点评并未读完整个句子，武断地评价句子错误㊂因此对于批改网给出的作文分数不可盲目推崇，需客观看待㊂４㊀结束语作文自动评价系统是信息时代下英语教学与计算机技术相结合的产物㊂它的兴起极大地提高了作文批改效率，减轻了教师工作量，为学生提供了丰富的学习资源培养其自主学习能力，符合以学生为中心的教学理念㊂同时它可收集大量教学数据，详细记录学生个人学习档案，为英语教学㊁管理与研究提供了充足的资源㊂作为一种新型的在线英语作文评阅系统，批改网有利于促进外语教学朝着信息化㊁个性化和自主化方向发展，为大学英语写作教学改革提供了一个全新的视角，一定程度上代表了英语教学未来多模态的发展趋势，有着广阔的发展前景㊂但系统本身也存在一定的缺陷，如评语过于泛化㊁不能从批叛性思维等深层角度培养学生的写作能力等㊂把教育技术引入传统课堂并不是一个简单的工具运用问题，而是牵扯到教与学方方面面的系统性变革［１６］㊂因此，在大学英语写作教学中应构建多元反馈机制，将自动评价反馈与教师反馈㊁同伴反馈相结合，以弥补单一反馈模式的不足㊂同时，批改网应. All Rights Reserved.第６期李㊀霞钟兰凤作文自动评价系统在大学英语写作教学中的实证研究６１㊀大量搜集广大师生使用者的反馈意见，及时更新语料库，并与语言学家㊁教育学家共同协作，充分利用人工智能技术，进一步提高批改网的信度㊁效度㊁智能性和可操作性，使其在大学英语写作教学中发挥更长远的功效㊂本文以批改网为例，探讨了作文自动批改系统在大学英语写作教学中的应用及效果，由于条件的限制，本研究尚存在一些局限性㊂第一，实验工具只选用了目前被一些高校广泛使用的句酷批改网，得出的结论并不一定适用于其他作文自动评价系统；第二，调查的范围较小㊂笔者只选取自己所带的两个班级来进行实验，学生样本数量小且研究周期比较短㊂因此实验结果的普遍性有待进一步做大规模的实证性研究㊂英语写作是促进学生英语综合应用能力发展的有效途径，有利于培养学习者创新和批判性思维㊁跨文化交流等素养，充分体现了英语的工具性及人文性，是大学英语教学的重难点㊂笔者希望相关研究能成为打破英语写作教学瓶颈的一个新的突破口，更好地推动我国大学英语教学改革㊂参考文献１王海啸．大学英语教师与教学情况调查分析Ｊ．外语界２００９４６⁃１３．２张雪梅．大学英语写作教学现状之调查Ｊ．外语界２００６５２８⁃３２．３中华人民共和国教育部高等学校大学英语外语教学指导委员会．大学英语教学指南征求意见稿ＥＢ／ＯＬ．２０１５⁃０５⁃０６２０１６⁃０５⁃２２．ｈｔｔｐ／／ｗｙｘ．ｚｚｉａ．ｅｄｕ．ｃｎ／ｓ／１１／ｔ／３３３／ｃ７／ｃ３／ｉｎ⁃ｆｏ５１１３９．ｈｔｍ．４梁茂成文秋芳．国外作文自动评分系统评述及启示Ｊ．外语电化教学２００７５１８⁃２４．５ＵｒＰＡ．ＣｏｕｒｓｅｉｎｌａｎｇｕａｇｅｔｅａｃｈｉｎｇｐｒａｃｔｉｃｅａｎｄｔｈｅｏｒｙＭ．Ｃａｍ⁃ｂｒｉｄｇｅＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ１９９６２４２⁃２９４．６ＣｈａｎｄｌｅｒＪ．Ｔｈｅｅｆｆｉｃａｃｙｏｆｖａｒｉｏｕｓｋｉｎｄｓｏｆｅｒｒｏｒｆｅｅｄｂａｃｋｆｏｒｉｍ⁃ｐｒｏｖｅｍｅｎｔｉｎｔｈｅａｃｃｕｒａｃｙａｎｄｆｌｕｅｎｃｙｏｆＬ２ｓｔｕｄｅｎｔｗｒｉｔｉｎｇＪ．ＪｏｕｒｎａｌｏｆＳｅｃｏｎｄＬａｎｇｕａｇｅＷｒｉｔｉｎｇ２００３１２３２６７⁃２９６．７刘浩．交互性英语课堂教师反馈研究以个性化英语学习课程为个案Ｄ．天津南开大学２０１５．８ＰａｕｌｕｓＴ．ＴｈｅｅｆｆｅｃｔｏｆｐｅｅｒａｎｄｔｅａｃｈｅｒｆｅｅｄｂａｃｋｏｎｓｔｕｄｅｎｔｗｒｉｔｉｎｇＪ．ＪｏｕｒｎａｌｏｆＳｅｃｏｎｄＬａｎｇｕａｇｅＷｒｉｔｉｎｇ１９９９８３２６５⁃２８９．９蔡基刚．中国大学生英语写作在线同伴反馈和教师反馈对比研究Ｊ．外语界２０１１２６５⁃７２．１０ＬｅｋｉＩ．Ｃｏａｃｈｉｎｇｆｒｏｍｔｈｅｍａｒｇｉｎｓｉｓｓｕｅｓｉｎｗｒｉｔｔｅｎｒｅｓｐｏｎｓｅ／／ＫｒｏｌｌＢ．Ｓｅｃｏｎｄｌａｎｇｕａｇｅｗｒｉｔｉｎｇｒｅｓｅａｒｃｈｉｎｓｉｇｈｔｓｆｏｒｔｈｅｃｌａｓｓ⁃ｒｏｏｍＣ．ＣａｍｂｒｉｄｇｅＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ１９９０５７⁃６８．１１ＷａｒｓｃｈａｕｅｒＭ．ＮｅｔｗｏｒｋｉｎｇｉｎｔｏａｃａｄｅｍｉｃｄｉｓｃｏｕｒｓｅＪ．ＪｏｕｒｎａｌｏｆＥｎｇｌｉｓｈｆｏｒＡｃａｄｅｍｉｃＰｕｒｐｏｓｅｓ２００２１４５⁃５８．１２蒋学清蔡静唐锦兰．探析自动作文评价系统对大学生英语写作能力发展的影响Ｊ．山东外语教学２０１１６３６⁃４３．１３王颖李振阳．国外二语写作中电子反馈模式的研究评述Ｊ．外语电化教学２０１２１４６１１⁃１６．１４张跃．设计产品一定要遵循两个凡是ＥＢ／ＯＬ．２０１１⁃０７⁃３１２０１６⁃０５⁃２２．ｈｔｔｐ／／ｗｗｗ．ｃｓｄｎ．ｎｅｔ／ａｒｔｉｃｌｅ／２０１１⁃０７⁃３１／３０２４３１．ｈｔｍｌ．１５王初明牛瑞英郑小湘．以写促学项英语写作教学改革的试验Ｊ．外语教学与研究２０００３２０７⁃２１２．１６唐锦兰吴一安．在线英语写作自动评价系统应用研究述评Ｊ．外语教学与研究２０１１２２７３⁃２８２．１７石晓玲．在线写作自动评估系统在大学英语写作教学中的应用研究Ｊ．现代教育技术２０１２１０６７⁃７１．１８ＰａｇｅＥＢ．ＰｒｏｊｅｃｔｅｓｓａｙｇｒａｄｅＰＥＧ／／ＳｈｅｒｍｉｓＭＤＢｕｒｓｔｅｉｎＪＣ．Ａｕｔｏｍａｔｅｄｅｓｓａｙｓｃｏｒｉｎｇａｃｒｏｓｓ－ｄｉｓｃｉｐｌｉｎａｒｙｐｅｒｓｐｅｃｔｉｖｅＣ．Ｍａｈｗａｈ．ＮＪＬａｗｒｅｎｃｅＥｒｈａｕｍＡｓｓｏｃｉａｔｅｓ２００３４３⁃５４．ＥｍｐｉｒｉｃａｌｓｔｕｄｙｏｎａｕｔｏｍａｔｅｄｅｓｓａｙｓｃｏｒｉｎｇＡＥＳｉｎｃｏｌｌｅｇｅＥｎｇｌｉｓｈｗｒｉｔｉｎｇｔｅａｃｈｉｎｇＢａｓｅｄｏｎｔｈｅｐｉｇａｉｓｙｓｔｅｍＬｉＸｉａＺｈｏｎｇＬａｎ⁃ｆｅｎｇＳｃｈｏｏｌｏｆＦｏｒｅｉｇｎｌａｎｇｕａｇｅＪｉａｎｇｓｕＵｎｉｖｅｒｓｉｔｙＺｈｅｎｊｉａｎｇＪｉａｎｇｓｕ２１２０１３Ｃｈｉｎａ㊀㊀ＡｂｓｔｒａｃｔＦｅｅｄｂａｃｋｐｌａｙｓａｃｒｕｃｉａｌｒｏｌｅｉｎＥｎｇｌｉｓｈｗｒｉｔｉｎｇｔｅａｃｈｉｎｇ．Ｉｔｓｉｍｐｏｒｔａｎｃｅｔｏｈｅｌｐｉｍｐｒｏｖｅｓｔｕｄｅｎｔｓᶄｗｒｉｔｉｎｇｓｋｉｌｌｓｃａｎｎｏｔｂｅｕｎｄｅｒｅｓｔｉｍａｔｅｄ．ＴｈｉｓｓｔｕｄｙｗｉｔｈｔｈｅｇｕｉｄａｎｃｅｏｆＣｏｌｌｅｇｅＥｎｇｌｉｓｈＴｅａｃｈｉｎｇｇｕｉｄｅｄｒａｆｔｖｅｒｓｉｏｎｆｏｒｍｕｌａｔｅｄｂｙＥＬＴＡｄｖｉｓｏｒｙＢｏａｒｄｕｎｄｅｒｔｈｅＭｉｎｉｓｔｒｙＥｄｕｃａｔｉｏｎａｔｔｅｍｐｔｓｔｏｔａｋｅｐｉｇａｉＳｙｓｔｅｍａｓａｎｅｘａｍｐｌｅｔｏｅｘｐｌｏｒｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆａｐｐｌｙｉｎｇＡＥＳｔｏＥＦＬｗｒｉｔｉｎｇｔｅａｃｈｉｎｇ．ＴｈｅｒｅｓｕｌｔｉｎｄｉｃａｔｅｓｔｈａｔＡＥＳｎｏｔｏｎｌｙｈｅｌｐｓｔｏｒｅｌｉｅｖｅｔｈｅｈｅａｖｙｂｕｒｄｅｎｏｆｃｏｌｌｅｇｅＥｎｇｌｉｓｈｔｅａｃｈ⁃ｅｒｓｂｕｔａｌｓｏｈａｓａｐｏｓｉｔｉｖｅｅｆｆｅｃｔｏｎｅｎｈａｎｃｉｎｇｓｔｕｄｅｎｔｓᶄｗｒｉｔｉｎｇｃｏｍｐｅｔｅｎｃｅａｎｄｓｔｉｍｕｌａｔｅｓｓｔｕｄｅｎｔｓᶄａｕｔｏｎｏｍｏｕｓｗｒｉｔｉｎｇｅｎｔｈｕ⁃ｓｉａｓｍ．ＩｔｉｓａｎｅｆｆｅｃｔｉｖｅｍｅｔｈｏｄｆｏｒｉｍｐｒｏｖｉｎｇｔｈｅｔｅａｃｈｉｎｇｍｏｄｅｏｆＥｎｇｌｉｓｈｗｒｉｔｉｎｇ．ＳｏｍｅｄｅｆｉｃｉｅｎｃｉｅｓｏｆｓｕｃｈＡＥＳｓｙｓｔｅｍｈｏｗｅｖｅｒａｒｅａｌｓｏｒｅｖｅａｌｅｄｉｎｔｈｅｓｔｕｄｙａｎｄｔｈｕｓｓｏｍｅｓｕｇｇｅｓｔｉｏｎｓｗｅｒｅｐｕｔｆｏｒｗａｒｄ．ＫｅｙｗｏｒｄｓＡＥＳＥＦＬｗｒｉｔｉｎｇｔｈｅｐｉｇａｉｓｙｓｔｅｍｆｅｅｄｂａｃｋｃｏｒｐｕｓ. All Rights Reserved.。

大学英语写作教学中应用自动作文评分系统的实证研究

能力上了，英语写作教学和写作能力提高几乎成了被遗忘的角落。实际上，语写作能力是英语学习中非常重英要的内容之一。通过写作，英语知识不断得到巩固并内在化，为英语技能的全面发展铺路。 … 在实际的大学英语写作教学中，由于大多数教师作文批改负担过重，改周期长，生写作训练量少，批学直接导致了学生写作水平的提高缓慢。在这方面，实用的、面向大学英语写作教学的自动作文评分方法不失为一个良
加全国大学英语四级作文阅卷工作，悉评分标准和要熟求，经验丰富，而且为非受试学生的任课老师，分主观评
自动作文评分（ｕｏａｄＥｓｙｓｏｎ，写为Ａｔｔｓｃｒｇ简ｍｅａｉ
ＡＳＥ）系统的研究起始于国外，９９年才进入实际应用１９阶段。２国内关于计算机自动评分系统的研究虽然起步＿较晚，近年来还是取得了一定的成绩，比如冰果英语智能作文评阅系统。而且从２００９年起，越来越多的学校开始使用该系统。计算机自动作文评分用于我国英语作文批改的时间非常短，尽管得到了很多专家的肯定，但在实际
第ｌ２卷第１０期２１０２年１０月
鸡西大学学报
ＪＵＲＮＡＦＪＸＩＵＮＩＲＳＯＬ０ＩＶＥ ⅡＹ
Ｖ０．２Ｎｏ１１１．Ｏ０ｃ．０１ｔ２２
文章编号：６２—６５（０２１１７７８２１）０—００３１２—
大学英语写作教学中应用自动作文评分系统的实证研究

英语作文电脑智能自动评分系统的使用和启示

英语作文电脑智能自动评分系统的使用和启示英语作文电脑智能自动评分系统的使用和启示内容简介：英语作文电脑智能自动评分系统的使用和启示在英语作文教学中，对学生作文进行批改一直被师生共识为提高写作能力的有效手段。

但是，考虑到时间、精力、作文收发等方面，又不得不承认效率不高。

在大规模语言考试中，作文又是必不可少的题论文格式论文范文毕业论文英语作文电脑智能自动评分系统的使用和启示在英语作文教学中，对学生作文进行批改一直被师生共识为提高写作能力的有效手段。

但是，考虑到时间、精力、作文收发等方面，又不得不承认效率不高。

在大规模语言考试中，作文又是必不可少的题型，阅卷工作量和阅卷的信度等问题一直以来都不能让我们如意。

针对这一难题，电脑智能自动评分系统提供了可以信赖、值得期盼的解决方案。

在PEG、IEA、E-rater、冰果、MY Aess、IntelliMetri等几种智能评分系统中，选取IntelliMetri系统进行研究，对其评价标准进行理论分析，对其所评分的作文进行跟踪评析，发现其通过对学生作文按照若干评分标准问题进行回应和打分的方法能够快速、有效地解决了作文评分的效率问题，可靠性和准确性不亚于人工评分的水平，完全可以作为人工评分的补充手段。

由此看来，智能评分系统的发展值得期盼。

一、IntelliMetri系统概述IntelliMetri系统发布于1998年1月，是第一个提供给教育机构的智能作文评分软件，相比传统的人工评阅具有许多优点，如：准确度大于个人评分，尤其大于单人人工评分；提供即时反馈等等。

发布以后，系统得到了广泛的应用。

IntelliMetri系统作为一个智能评分系统，充分模拟了人工评分的过程。

系统开发时经过了大量的测试培训，即不断通过人工纠正其自动认定的给分点，直至契合。

值得提出的是，系统不是将所有的给分点简单地相加，而是通过分析给分点之间的聚合关系，模拟人工从整体上看待作文并给出判断，这一点上跟人工评分的过程是一致的。

英语作文自动评分及其效度、信度与可操作性探讨

有很高的信度；３对学生而言，（）评分过程更公平、更高效；对教师而言，ＥＡＳ是一款节省时间，降低劳动强度和提高工作效率的好帮手；４批阅过程还具有即时性、（）快捷性和经济性的优点。因此，ＥＡＳ目前受到广大学者和师生的关注。本文对国内外常见的ＡＳ加以述评，Ｅ并从其在英语作文测试中的信度、效度和操作性三个角度对ＡＳ进行探讨。Ｅ
ＸＩａＥＸｉｎ— ｃｕｈｎ
（ｃｏｌｆｏｅｎＬｎｕｇｓＭａｍｎｎｖｒｔ，ｏｉｇＧａｇｏｇ５５０ＣｉａＳｈｏｏｒｉａｇａｅ，ｏｉｇＵｉｓｙＭａｍｎ，ｕｎｄｎ２００，ｈｎ）Ｆｇｅｉ
ＡｂｔａｔＲｖｗｎＥｏｂｏｄａｄｉＣｉａｔｉｐｐｒｔｄｅｅｃｏｄｎｌｂｌｙｓｒｃ：ｅｉｉｇＡＳｔｌａｒａｎｈｎ，ｓａｅｕｉｔｍａｃｒｉｇｏｒｉｉｔ，ｅｏｓｎｈｓｓｈｔｅａｉ
Ｋｅｒｓ：ｕｏｔｄｅｓｙｓｏｉＥｎｌｓｉｉｒｌａｉｔｖｌｉｙ；ｐｅａｉｉｙｗｏｄａｔｍａｅｓａｃｒｎｇ；ｇｉｈｗｒｔｎｇ；ｅｉｂｌｙ；ａｉｔｏｒｂｌｙａｄＥｓｙＳｏｎ）被定义为“ ＡＳＡｔｔｓｃｒｇｍｅａｉ给作文评价和评分的计算机技术” 。… ”其代表性的技术
ｖｌｉｙａｄｏｅａｉｔ．Ｄｉｅｅｔｆｏｐｅｉｕｅｅｒｈ，ｈｉａｅｎｒｄｕｅｎｘｌｒｓｔｅｒ－ａｉｔｎｐｒｂｌｙｄｉｆｒｎｒｍｒｖｏｓｒｓａｃｔｓｐｐｒｉｔｏｃｓａｄｅｐｏｅｈｅｆｃｎｅｅｏｍｅｔｏｅｔｄｖｌｐｎｆＡＥＳｉｉａｎＣｈｎ．Ｗｈｌｆｒｎｈｉｅｅｓｔｅｐｐｒｐｉｔｕｈｅｃｅ — ｉｅａｆｍｉｇｔｅｒｂｎｆｔ，ｈａｅｏｎｓｏｔｔｅｄｆｉｎｉｉ

写作自动评价系统在大学英语教学中的应用研究

1、实时反馈：写作自动评价系统能够实时对学生的英语作文进行评估，并提供即时的反馈。这种实时的反馈模式有助于学生及时纠正写作中的错误，提高语言运用的准确性。
2、个性化教学：系统通过对每位学生的学习数据进行分析，能够为不同的学生提供个性化的学习建议。教师可根据这些数据调整教学策略，实现个性化教学。
3、促进学习：写作自动评价系统不仅可以帮助学生提高英语写作能力，还可以通过及时的反馈和建议，激发学生的学习兴趣和动力，促进他们的自主学习。
四、优势与挑战
写作自动评价系统在大学英语教学中的应用具有以下优势：
1、提高工作效率：写作自动评价系统可以快速准确地对学生的英语作文进行评分和反馈，减轻了教师的工作负担，提高了工作效率。
1、技术局限性：目前的写作自动评价系统在技术上还存在一定的局限性，例如无法完全准确地识别学生的语法错误和拼写错误等。
2、成本效益：写作自动评价系统的应用需要一定的资金投入，包括设备购置、技术维护、数据资源等，这可能会给一些高校带来经济压力。
3、教师接受度：一些教师可能对写作自动评价系统的应用持怀疑态度，认为它无法完全替代人工评价，也可能对学生的学习产生负面影响。
参考内容
随着科技的飞速发展，教育领域也在经历着一场深远的变革。作为这场变革的重要一环，写作自动评价系统（Automatic Writing Evaluation，简称 AWE）在英语教学中的应用日益广泛。该系统利用先进的自然语言处理（NLP）和机器学习（ML）技术，对学生的英语写作进行自动评估和反馈，极大地提升了教学效率，同时也为个性化教学提供了可能。
在数据收集和分析方法方面，研究者们运用统计分析、文本分析、深度学习等方法对系统生成的反馈、评价和学生作文进行了细致的分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《新视野大学英语》作文自动评分系统的效度研究摘要：本实验检验了《新视野大学英语》作文自动评分系统的评分效度。

实验数据表明：系统自动评分与人工评分之间的相关性较显著；系统评分中高分档的评分准确率较低，其他档的评分准确率较高；内容板块较语言板块、篇章结构板块对作文总体评分的影响显著。

系统自动评分与适量的人工参与相结合，系统整体评分与细化的文本特征项相结合有助于提高系统的评分效度。

关键词：《新视野大学英语》；作文自动评分系统；效度一研究问题（一）研究背景ＡＥＳ（ＡｕｔｏｍａｔｅｄＥｓｓａｙＳｃｏｒｉｎｇ）研究自上世纪６０年代以来，在国外取得了较大的进展，很多理论模型得以应用。

从最初的作文自动评分系统ＰＥＧ（ＰｒｏｊｅｃｔＥｓｓａｙＧｒａｄｅｒ）到１９９７年研发的ＩＥＡ（ＩｎｔｅｌｌｉｇｅｎｔＥｓｓａｙＡｓｓｅｓｓｏｒ），到１９９９年开始用于ＧＭＡＴ考试作文评分和２００５年开始用于托福考试作文评分的Ｅ－Ｒａｔｅｒ（ＥｌｅｃｔｒｏｎｉｃＥｓｓａｙＲａｔｅｒ），再到能够评阅多种语言文本的ＩｎｔｅｌｌｉＭｅｔｒｉｃ和ＢＥＴＳＹ，作文自动评分系统始终在不断地更新和进步，力求更符合语言测试的要求。

从以上几种国外主流的作文自动评分系统来看，它们采用的样本都是美国学生的英语作文，能较准确地测试美国学生的英语写作水平，但对于非本族语学生，尤其是低水平英语学习者，“自动作文评分与人工评分会出现统计上的显著性差异”。

因为以英语为母语的作文中，绝大多数句子都不存在严重的语法错误，而低水平英语学习者的作文中，有可能充斥着各种句法错误。

此外，以上几种国外主流的作文自动评分系统都适用于大规模语言测试，针对任何一次测试，各系统都必须预先接受“训练集”的反复训练，此“训练集”通常“需要２００甚至３００篇以上已评分的作文作为训练语料”。

由于“训练集”对样本作文的需求大，因此这些作文自动评分系统不适用于小规模语言测试，尤其不适用于自我测试。

而使用效度较高的作文自动评分系统进行自我测试，根据系统提供的实时评分和反馈修改作文，是有效提高学习者英语写作水平的重要途径之一。

同时，它能为大学英语低年级学习者提供基于网络的写作环境，在提高学习者英语写作水平的同时提高他们对大学英语４、６级网考的适应度，并能在一定程度上缓解因大学英语教师的严重短缺而引起的写作教学严重不足的现状。

这就为ＡＥＳ系统在不断更新、完善大规模语言测试功能的同时提出了另一个应用目标，即提供即时的写作反馈以指导写作。

在这一研究领域，国内的外语教学与研究出版社做出了有益的尝试。

２００２年，它开发了《新视野大学英语》配套网络课程，为英语学习者提供了资源丰富的在线学习平台。

“Ｗｒｉｔｅｏｎ”作文自动评分系统是新视野在线学习平台内的作文测评工具，它采用大学英语４、６级写作评分标准，将分值范围设定为１－１５分，能够对任何题目的英语作文进行自动评分、计算单词总数并给出评语。

２００８年，美国著名的教育测评与研究机构ＣＴＢ／ＭｃＧｒａｗ－Ｈｉｌｌ开发了ＷｒｉｔｉｎｇＲｏａｄｍａｐ这一在线英语写作自动评分系统。

它能从６个维度（思想内容、组织架构、文体、词汇选择、语言流畅程度和语言基本功）对作文进行分析、评分并给出评语。

该系统的主要特色是它作为一种形成性评价工具，能够自动生成地区、学校和班级报告，便于教师和教学管理者及时了解写作教学效果，也便于他们利用此分析报告进行教学科研分析。

２００９年，浙江大学外语学院与杭州增慧网络科技有限公司联合开发了“冰果英语智能作文评阅系统”。

该系统利用最新的服务器处理芯片的大规模数据寻址及计算能力，结合文本语境处理、词法分析、句法分析、语义分析以及篇章分析等分析模块，能够对英语作文做出即时评分，还能从词汇、语法、文风、内容等方面给出反馈意见。

该系统的主要特色为教师可以在机器评阅的基础上加以人工批改或进行班级点评。

从上述几种适用于小规模语言测试和自我测试的作文自动评分系统来看，它们有着各自不同的特点，因而拥有各自的适用人群。

《新视野大学英语》作文自动评分系统是专门为大学生开发的，它适合高等院校的大学英语学习者使用。

ＷｒｉｔｉｎｇＲｏａｄｍａｐ和“冰果英语智能作文评阅系统”的适用人群较广，包括中小学生、大学生和其他英语学习者。

此外，上述作文自动评分系统在使用的准入方面存在差异。

《新视野大学英语》作文自动评分系统属于《新视野大学英语》教材的配套网络课程，教材的使用者通过电子邮件获取账号和密码后即可免费使用该系统。

ＷｒｉｔｉｎｇＲｏａｄｍａｐ可以免费在线试用，长期使用则需付费购买。

“冰果英语智能作文评阅系统”需要校方或使用者购买使用，且必须在局域网中运行。

比较而言，《新视野大学英语》作文自动评分系统作为一种简单、便捷、经济的学习评估工具，更适合高等院校的大学英语学习者使用。

（二）研究问题效度是语言测试关注的首要问题。

《新视野大学英语》作文自动评分系统作为小规模语言测试和自我测试的适用模型，能否较准确地反映学习者的英语写作水平，关系到其能否取代传统的人工评阅，以实现计算机的工作效率最大化；同时也关系到它能否利用即时评分和反馈指导写作，成为学习者有效提高英语写作水平的学习辅助工具。

影响作文自动评分系统效度的因素很多，如其工作原理和各分析模块的主要参数等等，限于篇幅，本文不作详述。

检验作文自动评分系统效度的维度也有很多，如系统的自动评分是否与人工评分较为近似，它们之间的相关性是否显著，系统的效标关联效度如何，等等。

本文主要从以下几个维度检验《新视野大学英语》作文自动评分系统（以下简称系统）的效度：（１）系统自动评分与人工评分的相关性是否显著？（２）系统自动评分中各分数档的精确率和误判率各是多少？（３）系统所给评语的效标关联效度如何？（４）系统所给评语中各版块是否对作文总体评分具有预测力？问题（１）（２）侧重检验系统所给分值的效度。

问题（３）（４）侧重检验系统所给评语的效度。

二实验设计（一）作文语料的提取与处理从本校的大学英语第４册期末考试试卷库中随机抽取作文语料２００份（其中文科试卷７０份，理科、工科试卷各６５份），编号并记录原始评分（分值范围为１－１５分）。

挑选有多年大学英语写作教学经验的教师４人，按照大学英语４级考试作文评分标准对上述２００份作文进行重新评阅（分值范围为１－１５分）。

为消除原始评分对评阅人的心理暗示，我们隐去了２００份作文语料的原始评分。

重新评阅后的分值与原始评分相同的，作为该作文的最后得分。

重新评阅后的分值与原始评分不同的，由其他３位教师复评，取４次评分的平均值（此平均值为小数点后一位四舍五入得到的整数）作为该作文的最后得分。

按编号记录人工阅卷的最终评分。

由于部分单词拼写错误将严重影响系统对文章的理解，从而影响作文的总体评分，因此我们将作文语料输入自动评分系统后，利用系统配备的拼写检查工具对这些错误进行了人工改正，之后才提交给系统进行自动评分。

按编号记录系统给出的评分和评语。

（二）数据统计与分析１．系统自动评分与人工评分的相关系数表１显示了系统自动评分和人工评分的分数分布情况。

由此表可知，人工评分较系统自动评分更集中在分数的中段（７、８、９分）；系统自动评分的离散程度较人工评分的离散程度高；系统自动评分与人工评分的低段分一致，高段分明显多于人工评分。

使用Ｐｅａｒｓｏｎ工具对系统自动评分与人工评分进行内部相关性检验，得到系统自动评分与人工评分之间的相关系数为０．６２，表明系统自动评分与人工评分之间的相关性较显著，２种评分系统中的分数分布情况对二者的相关性具有一定的解释力。

２．系统自动评分中各分数档的精确率和误判率将作文总分１５分分为５个等距的等级（即２分、５分、８分、１１分、１４分）。

按分数档统计系统自动评分的精确率和误判率。

其计算公式如下：各分数档的精确率＝本为Ｘ档作文且被评为Ｘ档作文的数量÷所有被评为Ｘ档作文的数量×１００％各分数档的误判率＝本为Ｘ档作文却未被评为Ｘ档作文的数量÷所有被评为Ｘ档作文的数量×１００％各分数档的评分精确率越高，说明作文被评为该分数档的可信度越高，系统自动评分的效度也越高。

各分数档的误判率越低，说明系统自动评分的误差越小，评分的效度越高。

表２列出了系统自动评分中各分数档的精确率和误判率。

由表２可知，２分档的准确率最高，５分档、８分档、１１分档的准确率较高，１４分档的准确率最低。

作者对２分档和１４分档的作文语料分别进行了核查，发现系统自动评分为２分档的人工评分也均为２分档，而系统评分为１４分档的有可能与人工评分相差一个乃至多个分数档。

１４分档误判的文章一般篇幅较长，而语句并非与文章主题紧密相关，系统因为文章篇幅的关系容易受到“欺骗”，这也印证了其他研究者已指出的自动评分系统的不足之处，如有学生“先写几个段落，然后简单地重复”以“骗取高分”。

３．系统所给评语的效标关联效度采用已经比较成熟的大学英语４级考试作文评分标准为效标，对系统所给的作文评语与４级考试作文评分标准进行相关性分析，得到它们的皮尔森相关系数，根据相关是否显著判断效度高低。

大学英语４级考试作文评分标准将总分１５分划分为５个等级，每一个等级从内容、语言和篇章结构３个方面都有具体的要求和描述。

对这些具体的要求和描述（即评分细则）用表３的形式分别列出，并统计了系统所给评语与大学英语４级考试作文评分细则的相关系数。

由表３可知，系统所给评语在内容方面与大学英语４级考试作文评分细则相关较显著，在语言方面与大学英语４级考试作文评分细则相关较弱，在篇章结构方面与大学英语４级考试作文评分细则相关最不显著。

因此从系统所给评语的效标关联效度来看，系统在自动评分过程中，较为关注文章的内容和语言，篇章结构不作为主要的评分依据。

４．系统所给评语中各版块对作文总体评分的预测力将２００份作文语料的评语分３个板块（即内容、语言、篇章结构）与作文总体评分进行了比对分析，结果显示：系统评分为高段分（１３－１５分）的２８篇作文语料中，有２４篇作文评语含有“文章切题（ｔｏｔｈｅｐｏｉｎｔ）”，有１９篇作文评语含有“文字连贯（ｃｏｈｅｒｅｎｔ）”，有１２篇作文评语含有“用词准确（ａｃｃｕｒａｔｅｗｏｒｄｉｎｇ）”，有７篇作文评语含有“结构合理（ｗｅｌｌ－ｏｒｇａｎｉｚｅｄ）”。

系统评分为低段分（１－３分）的作文语料共有２４篇，它们的评语基本一致，大多为“不符合四级写作要求（ｎｏｔｍｅｅｔＣＥＴｒｅｑｕｉｒｅｍｅｎｔｓｏｎｗｒｉｔｉｎｇ）”或“字数不足（ｌｅｓｓｔｈａｎ１００ｗｏｒｄｓ）”。

从统计结果来看，系统评分为高段分的作文较低段分的作文评语更具体、更清晰地体现了各版块对作文总体评分的权重。

“文章切题”和“文字连贯”均为衡量文章内容的标准，它们在高段分作文评语中出现的频率分别为８５．７％和６７．９％，因此，内容板块对作文总体评分的影响力最大。