基于语篇的中介语语料库回指偏误标注研究
基于语料库的中美英语新闻语篇立场标记语研究开题报告

基于语料库的中美英语新闻语篇立场标记语研究开题报告一、研究背景随着社交媒体和网络技术的不断发展,新闻信息的传播速度越来越快。
中美英语新闻的异质性和差异性逐渐凸显,其语言特点和立场表达方式也日益复杂。
在这种背景下,如何有效地理解和分析中美英语新闻中的语篇立场,成为了一个重要的问题。
语篇立场标记(stance markers)是用于表达说话者或作者的态度、情感、观点、偏见或政治取向的语言现象。
在新闻领域,语篇立场标记的研究具有实际应用和理论价值。
了解新闻语篇中的立场标记,可以帮助我们更准确地理解新闻事件的内涵,更好地进行新闻媒体的选择和评价。
二、研究目的和意义本研究旨在探讨中美英语新闻语篇中的立场标记,并对其进行分类和分析。
通过语料库的收集和语料分析的方法,选取中美英语新闻样本,结合文本分析和计量分析的方法,探究新闻语篇中的立场标记在中美英语语境中的异同和差异,以及其在新闻报道中的功能和意义。
本研究的意义如下:1. 为实现更好的新闻报道和媒体评价提供理论和方法支持。
2. 为加深中美英语语言和文化之间的交流和合作提供参考。
3. 为学术研究提供范例和启示,有助于深入理解语言学和跨文化交际领域的相关问题。
三、研究内容和方法本研究的主要内容和方法如下:1. 收集中美英语新闻语料,并对其进行预处理和整理。
2. 对新闻语料中的立场标记进行识别和分类。
3. 分析和比较不同语境中的立场标记使用情况和类型分布。
4. 探讨立场标记在新闻报道中的功能和表达意义。
5. 采用文本分析和计量分析的方法,对语料数据进行统计和图表展示。
四、研究预期结果1. 本研究将对中美英语语境中的立场标记进行全面的探究和分类,揭示出立场标记在不同语境下的功能和表达意义。
2. 通过对语料数据的分析和挖掘,本研究将为新闻媒体的选择和评价提供更为准确和全面的依据。
3. 本研究可以为学术研究提供范例和启示,为深入理解语言学和跨文化交际领域的相关问题提供参考。
基于语料库的新课标后中学英语教师课堂反馈语研究——中外课堂实例对比

2021年41期总第585期ENGLISH ON CAMPUS【摘要】《义务教育英语课程标准(2011年版)》强调学习外语的过程是一个积极主动的学习过程,运用多种学习策略发展语言、思维、交流合作等能力,关注学生情感和个性差异以人为本。
《普通高中英语课程标准(2017年版2020年修订)》也提出要着力发展核心素养,使学生具有理想信念、社会责任感、科学文化素养、终身学习能力、自主发展能力和沟通合作能力的培养目标。
本文借助华南师范大学外国语言文化学院英语教育教学语料库(CEEC)平台,通过分类、统计、对比和分析中外各10节英语课堂实例中的教师课堂反馈用语,发现国内教师与国外对比存在很多亮点与不足,希望能在此基础上对国内的EFL英语教师如何在课堂上实施反馈提供借鉴。
【关键词】教师课堂反馈;课程标准;国内外对比【作者简介】吴浚彦,广东技术师范学院。
一、引言Nunan认为,教师话语在课堂组织和习得过程中至关重要。
教师课堂反馈作为教师话语的一个组成部分,近年来受到了热烈的讨论。
西方对教师课堂反馈有很多研究,国内这方面的研究却很少。
此外,随着《义务教育英语课程标准(2011年版)》和《普通高中英语课程标准(2017年版2020年修订)》的发布,学生的情感、学习策略、自主发展能力和沟通合作能力在课堂上得到了强调,其中教师的反馈非常重要。
为了研究我国新课标实施后教师课堂反馈的特点,本文对国内外的15类英语课堂教师反馈用语进行了比较研究,初步探讨了新课标实施后我国教师反馈用语的特点,旨在研究国内外教师反馈用语的异同,国内教师反馈用语体现的教学策略,激发学生的兴趣,促进学习,尤其是学习策略和自主能力发展的有效性。
二、文献综述反馈是听者对信息的接收和理解所提供的信息的通用术语。
教师反馈一般可分为积极反馈和消极反馈,两者均有多种形式。
1.积极反馈。
积极反馈是指教师在学生做出反应后给予表扬,如“good”或“right”。
由于本文研究语言反馈而非语言信号,如点头或微笑不在讨论范围内。
对外汉语偏误汇总

对外汉语偏误汇总对外汉语偏误分析的综述随着汉语的国际地位的提升和学习人数的增多,汉语作为第二语言的学习,学习者在习得过程中,出现偏误现象,影响着教学和语用效果,本文主要从近几十年的对外汉语教学中的语音语调、汉字、语法(词法、句法)三个方面对偏误现象研究和分析进行梳理,做一下总结。
英国应用语言学家科德(S.P.Coeder)在1967年首先提出失误(mistake)和偏误(error)两种类型。
者对目的语的掌握情况和实际的语言能力,因此在研究中具有重要的意义。
偏误分析(Error Analysis)EA) 和第二语言习得(Second Language Acquisition)SLA) 研究是以1967 年Corder 论文TheSignificanee of Learner.s Errors 的发表为标志的。
1972 年,Selinker 提出/中介语理论,为深入研究/偏误和习得奠定了理论基础。
在中国,1984 年鲁健骥的5中介语理论与外国人学习汉语的语音偏误分析6的发表,标志着对外汉语教学界研究这一领域的开始。
一、语音语调的偏误分析(一) 双音节词偏误分析夏晴《韩国留学生学习普通话时二字组及其在语流中的声调偏误分析》(2006)在其论文中则侧重在语流中探讨韩国留学生的两字调偏误。
最后得出结论:韩国留学生在汉语声调的学习中,四声的习得情况最好,一声和二声其次,三声情况最为严重。
侯晓虹、李彦春《初级汉语水平韩国留学生汉语双音节词声调的发音规律研究》(2006)以巧名初级汉语水平的韩国留学生为对象,调查了他们在16种双音节词语组合模式的发音过程中声调的偏误问题。
并根据不同声调组合的不同难度情况,提出了相应的声调发音训练的对策。
董倩倩《日本留学生轻声声调习得偏误初探》(2012)指出:“轻声双音节词前字被误读成阴平的偏误所占比例最大。
并从音调和音高两方面分析了原因。
(二)调域调型偏误分析罗音《俄罗斯人学习汉语语音偏误分析》(2007)从静态声调和动态声调分析俄罗斯留学生汉语声调习得,指出俄罗斯留学生学习汉语语音时产生的偏误大部分是由于母语负迁移导致的。
语料库标注说明

语料库标注说明“HSK动态作⽂语料库”语料标注及代码说明“HSK动态作⽂语料库”从字、词、句、篇、标点符号等⾓度,对所收⼊的作⽂语料中存在的外国⼈使⽤汉语的中介语偏误进⾏全⾯标注。
1 、字处理(包括标点符号)[C]:错字标记,⽤于标⽰考⽣写的不成字的字。
⽤[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,⽤于标⽰把甲字写成⼄字的情况。
别字包括同⾳的、不同⾳⽽只是形似的、既不同⾳也不形似但成字的等等。
把别字移⾄[B]中B的后⾯,并在[B]前填写正确的字。
例如:提[B题]⾼、考虑[B虎]。
[L]:漏字标记,⽤于标⽰作⽂中应有⽽没有的字。
⽤[L]表⽰漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表⽰“悔”在原⽂中是漏掉的字。
农[L]药,表⽰“农”在原⽂中是漏掉的字。
[D]:多字标记,⽤于标⽰作⽂中不应出现⽽出现的字。
把多余的字移⾄[D]中D的后⾯。
例如:我的[D的],表⽰括号中的“的”是多余的字(原⽂中写了两个“的”)。
[F]:繁体字标记,⽤于标⽰繁体字。
把繁体字移⾄[F]中F的后⾯,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标⽰的是使⽤正确的繁体字,如果该繁体字同时⼜是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,⽤于标⽰异体字。
把异体字移⾄[Y]中Y的后⾯,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼⾳字标记,⽤于标⽰以汉语拼⾳代替汉字的情况。
把拼⾳字移⾄[P]中P的后⾯,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:⽆法识别的字的标记,⽤于标⽰⽆法识别的字。
每个不可识别的字⽤⼀个[#]表⽰。
例如:更[#][#]保存⾃⼰的⽣命,……[BC]:错误标点标记,⽤于标⽰使⽤错误的标点符号。
偏误分析周小兵

偏误分析周小兵第三讲偏误分析传统的偏误分析(error analysis)是跟对比分析联系在一起的,可服务于教学。
如,通过偏误分析来排列教学顺序,弥补教材的不足等。
做法是收集常见错误并进行分类,但没有心理学理论的指导。
随着学习研究的深入,人们发现偏误不仅跟母语干扰有关,还跟目的语规则泛化相连。
它还成为中介语研究、习得顺序研究中重要的组成部分。
一、偏误分析的程序以下以语法偏误研究为例,讨论偏误分析具体步骤。
,一,语料收集与选择偏误应是学习者的真实语料(书面/口头)。
偏误收集,可分为开放式和聚焦式两类。
1(开放式语料收集指没有具体目标的偏误收集。
研究者可随时随地收集各类偏误。
来源可以是各类作业,谈话,翻译文本,翻译影视节目等。
收集过程中要进行筛选工作,挑选出最有价值的偏误点。
2(聚焦式语料收集指确定偏误点之后的语料收集。
语料收集可分为两大类4小类。
(1)横向(cross-sectional)与纵向(longitude-sectional) 横向指研究者收集学习者某一特定阶段出现的偏误。
纵向指研究者收集学习者较长时间出现的偏误。
横向、纵向两种方法各有千秋。
横向方法虽然是短时间的,但可以收集较多学习者的偏误。
纵向方法虽然是长时间的,但只能收集较少学习者的偏误。
(2)自然与非自然自然法指通过谈话或作文来收集偏误。
非自然法指通过语法练习和测试来收集偏误。
前者(尤其是自由谈话)收集的语料比较自然、真实;学习者更关注表达内容,偏误频率比较高。
后者收集的语料不够自然、真实;学习者更关注表达形式,偏误频率没有那么高。
但研究者最想要的某一类或某几类偏误,在自然法收集的语料中比例不高;而在专门设计的语法练习、测试中却比较多。
非自然语料的收集有许多做法。
陈珺、周小兵(2005)为考察留学生使用度量差比句和“不比”句的情况,设计了以下两类试题:A类:请用每一题中的词组成一个完整的句子:1,分钟他我比三快B类:请用括号中的词完成下面的句子:2,甲:你要是没钱用~就先拿去用吧。
暨南大学中介语语料库X间偏误汇总

“之间”偏误汇总【6】:我的国家是欧州和亚州{[之间]}的? {【中下】【土耳其】} (混用,在…之间)【8】:土耳其在ou州和亚州{[之间]}的一个乔,如果不算底中海的话还是算在三州之间的很重要的地方所以土耳其的风竟美丽极了。
{【本三】【土耳其】} (混用,是…中间)【9】:土耳其是欧州和亚州{[之间]}。
{【本三】【土耳其】} (混用,在…之间)【13】:可是{[之间]}还发生过一些事情,两位姐姐嫁了,母亲肯定很高兴,遗憾我不在! {【华教本二A】【马达加斯加】} (中间)【38】:还有大学四年{[之间]},差不多获得了免学费。
{【中上】【日本】} (期间)【39】:那三年{[之间]},我的意识一直向着练习打排球,有的课上课时也不上了。
{【中级】【日本】} (期间)【40】:我寒假{[之间]}在日本一直打工了。
{【中级】【日本】} (期间)【41】:你们都知道,寒假{[之间]}有圣dan节和元旦。
{【中级】【日本】}(中间)【46】:我女友打算黄金周{[之间]}来到广州呆一个星期。
{【中下】【日本】}(期间)【62】:朋友{[之间]}有一位是中国人,我和她比较亲切。
{【中上】【柬埔寨】}(中间)【73】:我们也可以说,对她来说幸福就是饮食和家庭而不是男女感情{[之间]}。
{【华教本二B】【越南】} (错序)【94】:一年{[之间]}我学到不少知识,此外我还了解自己处理问题。
{【华教本二B】【老挝】} (中间/期间)【95】:我希望在四年{[之间]}我汉语水平更高,更进步。
{【华教本二B】【老挝】}(中间/期间)【105】:我不喜欢不公平,因为我们都是一样的人,为什么要无道理而分明是哪种人,和受到不同的对待,不管那是什么理由,什么关系{[之间]},我都难以接受。
{【华教本一B】【老挝】}(冗余)【121】:而且在学习{[之间]},学到了不少的新知识,让我很开心的学习,甚至给我将来的打算有所现实。
中介语假说与偏误分析-包包-2016

关系
• 偏误分析的理论基础是中介语理论, 偏误分析语言学习理论是从中介语假说的 基础上发展而来的。偏误分析是第二语言 习得中不可缺少的研究领域,它的研究成 果对我们认识中介语、理解语言习得的过 程起着重要作用,同时对语言教学实践也 有深远意义
偏 误 的 来 源 (一)
• 关于偏误分析已有大量的研究,偏误的来源是多方面的,这 里主要述说几个重要的来源:
1.语际迁移(interlingual transfer)即本族语知识向
第二语言迁移。如果继而学习其他语言,那么第一、第二语 言也会有不同程度的迁移。例如:一老师教的三年级美国学 生(已学过450学时的中文)在学习《早春二月》时,因母 语干扰而出现下列病句: (1)*萧先生是一位陌生的青年,又文嫂不要他看她和房间。 (2)*萧建秋和李先生是同学们和朋友们。 (3)*明天我要请她 一次。 (4)*萧建秋爱陶岚,但他要结婚文嫂。 (5)*文嫂的两个孩子是什么姓? (6)*文嫂的态度对萧建秋好不好? (7)*萧建秋从陶慕侃知道了李先生的不幸。 (8)*我们美国人开玩笑这样的人。
偏 误 的 来 源(四)
• (3)求助于权威
• 第二语言学习者遇到困难就求助于操母语的人,或查 词典。经常说how do you say——”。学英语的中国学 生常在表达一个比较成熟的观点时,因为不会用句法, 词汇量不够而梗咽。如:Allooduce me to introduce myself and tell you some of the···”翻字典,接着说: “some of the headlights of my past.”
hsk动态作文语料库偏误标注方法研究

hsk动态作文语料库偏误标注方法研究汉语言文学研究中的偏误标注方法有一百多种,对汉语来说,对应关系是主要标注形式,它对单字的标注起着至关重要的作用。
对一些特殊偏误进行细化也能够帮助我们更好地去理解和掌握。
本论文以“ hsk动态作文语料库”为例进行偏误分析,以增加偏误分析的真实性。
首先介绍偏误标注的原则,然后对偏误标注的方法、原则和过程进行阐述,最后提出对未来发展的建议。
在选择“ hsk动态作文语料库”时,因为该语料库包含中英文各类话题和体裁,数量大且覆盖面广,语料信息全面。
作为对汉语的研究具有一定代表性。
本文对一篇“ hsk动态作文语料库”中的中文部分进行了偏误标注,并将它们分为8个大类,详细分析了它们之间的联系和区别。
从标注的效果看,每一类都包含5条偏误,由此可见,对其他的类也进行分析很有必要。
在选词方面,这篇作文包括了对现代汉语中使用频率较高的大部分词语的标注,这对于今后汉语中词汇量的扩充和语言文字规范的实施有积极的促进作用。
1.选词原则(1)词汇要真实可靠。
在标注时,我们所收集到的都是各种规范书籍中出现的、真实存在的词汇,这样既保证了汉语的规范,又减少了对语料的依赖。
(2)词语所反映的意义要准确,这是偏误标注的根本。
(3)词语的搭配关系要合理。
这种合理不仅仅是对某一语句或者整个语段的合理,而是指整个语段内的合理。
(4)在使用新词汇时要考虑到其接受度,如果新词汇在理解上比较困难,那么它在使用上就会受到限制。
2.切词原则( 1)切词要符合汉语习惯。
切词主要是指对词语在各种语境下使用时的差异进行分析。
( 2)在对不同语境下的词语进行切词时,要结合相应的语境,尤其是对成语进行切词时,要考虑到成语在不同语境下的用法差异,这样才能保证切词正确。
(3)切词还需要考虑到词语之间的搭配关系。
只有把词语和短语的搭配情况弄清楚了,才能保证词语选择得恰当。
(4)在对词语的切词时,要考虑到词语的级别。
如果词语属于常用词汇,那么就要选择常用的词语;如果词语属于比较罕见的词汇,那么就要选择一些比较难理解的词语。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
标记的确立
在标记确立的过程中,我们参考了目前已有的、比较权威的语料库标记规范,以便提
供一个相对一致的平台,便于今后进行对比研究。 考虑到篇章偏误涉及的范围比较广泛,指称只是其中的一个方面,所以,我们借鉴 以往语料库的标注经验,将标记分为基本标记和专用标记。基本标记主要提供词类标记、 偏误类型、句法位置这些篇章标注中最基础,且最常用的标记,这些标记一般比较稳定, 作为篇章标记的基本组成元素而存在,在各种不同的篇章偏误标记中都将或多或少地被 使用;专用标记则是针对篇章偏误研究的具体情况而确立的,相对比较灵活多变,如回 指偏误的标记,针对性强。 2.1 基本标记 这一层的标记内容在具体的标注中是广泛使用的, 无论从什么角度对篇章进行分析, 都可能涉及到这些基本的信息,而且基本标记作为一个相对稳定的标记元素,与其他标 记之间有很强的结合能力,可以根据具体的研究需要对这些标记进行有效地组合。由于 篇幅所限,我们在此不列出全部的基本标记,只是列出一些与回指相关的标记。 2.1.1 词类标记 我们首先借鉴现有的标记规则,以《现代汉语语法信息词典》作为基本参照,对词 类进行标记,由于我们主要关注的是名词性成分,一般来说指称主要是名词性成分,以 及相关的代词、数量词。因此,我们主要选取了以下的标记。 名词[N]取自英语 NOUN 的第一个字母;数词[M]取自英语 NUMERALS 的第三个 字母;量词[Q]取自英语 QUANTITY 的第一个字母;代词[R]取自英语 PRONOUN 的第 ② 二个字母。 2.1.2 偏误类型 我们的偏误标记是基于客观语料而进行的,因此把偏误分为多余、缺失、错用和语 序错误这四类③,之所以采用这种分类术语,是因为我们的标注是以客观语料为基础的, 这四类偏误都是针对语料中出现的偏误情况而确立的,是从客观的角度对偏误进行的区 分。这种分类更具客观性,具体标记如下: 多余[&];缺失[+];错用[#];语序错误[%] 以上的偏误标记与语料库原始文本中字词偏误的标记一致,有利于记忆和提取。 2.1.3 句法位置 一般名词性指称多出现在主语、宾语和定语中,我们根据偏误的具体情况,把一些 偏误出现的句法位置进行了细分化,使所标记的内容更加精确。如在最初标注时把诸如 “希望、知道、明白”等后面小句的主语统一都归入“主语”之列,标为“ZY” ,但随 着研究的深入,我们觉得两者有必要区分一下,因此,就改用“zY”来标记小句宾语中 的主语;又如介词宾语,因为与一般宾语的位置不同,常常出现在动词之前,而形式上 的不同必伴有语义上的差异,因此我们增加了“PY” ,标记介词宾语。具体如下: 主语[ZY];[zY];宾语[BY];定语[DY];分别取自“主语、宾语、定语”的拼音首 字母;介词宾语 [PY]中的“P”取自英语 PREPOSITION 的第一个字母。 2.2 专用标记 专用标记是针对我们具体的研究需要而设立的,这些标记可以随时添加,但不是随 意的, 一方面尽可能地沿用基本标记中已提供的符号,另一方面要避免与已有的标记重合
3
标记的组合与标记规则的确立
3.1 指称偏误标记组合方式 标记组合原则:遵循从词或词语组合到句法位置再到篇章关系这样一个从小到大、 从具体到抽象的顺序进行标记。 组合方式分为两大类: (1)名词回指标记:这是回指偏误中数量最多,情况最复杂的一类,因此,需要比较细 致地标出相关内容,并进行有效区分,主要分为以下三个组成部分: 指称形式+偏误标记组合句法位置回指方式+语义内容 (2)情形回指和总括性回指的标记:比名词回指标记简单,不标句法位置。 指称和偏误标记组合指称方式[异形回指]+情形回指/总括性回指 3.2 标记规则 我们在反复调整之后,采用了“整体描写,凸现偏误”的标记方法。如果我们只是 关注具体的偏误,这样可以比较准确地标出偏误,也能减少很多的标注工作量,但由于 标记的范围比较小,就是名词偏误、数词偏误、量词偏误等,这些语法上的偏误,无法
0
引言
在对外汉语教学我们常常发现“学生在表达时, 常常是一些简单句式的相加, 而不 是富有逻辑关系的语段。有些学生虽然具有组词造句的能力, 但缺乏话语能力和篇章能 力,极大地影响学生交际能力的提高。”(孙瑞珍,1995)而“汉语是语段取向的语言” (曹逢甫,1998),因此我们有必要从大于句子的篇章层面对偏误进行分析。本文在对 三十万字中介语语料库中的偏误进行分析的过程中发现,回指偏误是其中出现频率比较 高的一种偏误, 虽然一些回指形式如人称代词、指代词等,在孤立的句中静态地考察的动 态变化,同一句话,从孤立的句子看可能是一种偏误,结合上下文语境,可能偏误就不 同了,有时甚至会发现原本在单句中无法发现的偏误。这也正是语篇偏误标注的难处所 在。如下例: (1)走出教一楼,右边有一条宽的道路,这条路正好贯通校园的中间,还从东门到 西门连接,这路的两边上有很多老的树,很美。 (路) 从句子层面看, “这”和“路”之间缺失了量词“条” ,当我们从语篇的角度来分析
Gao Wei Communication University of China 100024
Abstract: This paper first establishes the analytic framework for anaphoric errors’ annotation. It then divides the annotation into the basic and specialized types. Based on this, the author puts forward the combining forms of the anaphoric errors and some practical annotation rules. Key words: anaphora; errors; annotation
基于语篇的中介语语料库回指偏误标注研究
高玮
中国传媒大学 对外汉语教育学院 100024 marygao22@
①
摘要: 本文从篇章角度对中介语语料库中回指偏误进行了分类, 并在此基础上确立了基本标记和专用标记, 提出了标记组合方式和标记的规则等具体实现方法。 关键词:回指;偏误;标记
A Corpus-based Analysis of Anaphoric Errors’ Tagging in Discourse
时,发现如果没有“这” ,这段话会更加连贯,因此对偏误的认定就由“量词的缺失”变 成了“代词的多余” 。 在实际的语料中我们还发现,指称作为篇章衔接的纽带,是相互影响的,有时单看 一个句子没有问题,是完全可以接受的,但联系上下文就发现其可接受度大不相同了。 请看下例: (2)那时我真不知道怎么感谢她。因为在北京这本辞典很难找,而且……(这种) 如果只看这个句子, “这本词典”完全没问题,而问题在于从篇章整体来看,上文说 的是作者自己的《越汉辞典》丢了,朋友费了很多周折才帮“我”买到,作者是要强调 这种辞典的稀缺性,所以“很难找到” ,这里用“这种”更恰当。本文将从篇章角度探讨 中介语语料库中回指偏误的标注问题。
反映与这些偏误直接相关的各种篇章因素,难以提供统计学意义上有价值的数据,如有 些复杂组合可能只是中心语的偏误,我们如果只标出名词,就无法提供整个指称的信息。 而另一方面,如果把偏误所在的整体指称形式都标出来,又会使偏误不明显,因此,为 了凸现对偏误的标记,我们在对偏误所在的整个指称形式进行标记的基础上,还通过句 法位置、语义内容等对具体的偏误进行限定,这样就可以避免顾此而失彼的情况发生。 具体限定如下: 3.2.1 区分整体偏误和部分偏误 以下都是领属性组合的偏误,而且都标的是多余偏误,但具体情况不同,有的是整 个指称的多余,如“我妈” ,有的是定语的多余,如“我的” 。我们通过句法位置标记就 可以把偏误情况凸现出来了。这样就能有效地区分是整体偏误还是部分偏误。 (3)我来中国以后,我妈妈常常给我打电话,[LZ&-ZY-TXH][&我妈]说: “……” (4)我非常生气,对[LZ&-DY-YXH][&我的]妹妹说:…… 3.2.2 以偏误为导向确定最佳标记 有时同一个偏误,可能有多种不同的标法,我们以真实反映偏误情况为目标,来确 定我们的标记。如下面的偏误,可以标为“介词宾语” ,也可标为“定语” ,标定语就能 比较明显地知道这是定语多余的偏误,因此我们就标为“定语” 。 (5)妈妈每天都和[LZ&-DY-YXH][&我的]妹妹锻炼身体,每天都吃药。很难受。 3.2.3 偏误标记细分化 对于该用名词却用了代词,或者该用代词用了名词的错用偏误,为了与其他错用进 行区分,我们把这类替代错误以[/]标记,这样能提供一些所需的数据。一般情况下,多 为该用代词或零形式而用了名词的偏误,但是偶尔也有相反的情况如例(7) 。 (6) 孔子是怎么样的人呢?[NC/-ZY-TXH]孔子不高也不矮。 (7) 我家三口人。妈妈、弟弟和我。我的爸爸呢?我小学三年级的时候,他去世了。所 以,我特别爱[RH/-BY-YXH]她。 此外,句法位置的细分化,指称形式的细分化等也都是根据实际语料而确定的。 3.2.4 细分化与简化相结合 由于与指称相关的内容很多,可标注的信息也多,如果我们全都标出来,将是一个 庞大且复杂的标记体系,而过分简单就不能全面、真实地描述语篇偏误的复杂状况。因 此,我们综合考虑了各种因素,对标记的内容进行了多次整合,选取最有说服力的语篇 偏误信息进行标注,在细分的同时进行相应地简化,如前面句法位置部分和标记组合中 的细分与简化相结合的做法,使标记具有科学性和合理性,力求为研究提供真实有效的 数据支持。 3.2.5 规范性与开放性结合 我们在建立标注集的过程中,参考了目前已有的语料标注规范, 同时结合我们研究的 具体需要,尽力使基本标记和专用标记能有效地整合,以避免标记的过于庞杂、难以掌 握和辨识,使标记准确规范且容易明白和掌握。同时,我们的标记集还具有开放性特征, 特别是专用标记,可以根据标记过程中出现的新情况,随时添加,两种标记的划分既是 为了规范标注体系,也是为了方便标记的这种动态调整。
或冲突。 2.2.1 指称形式 首先,有必要将“词”和“词语组合”进行区分: 词语[C]取自“词”的第一个拼音字母;词语组合[Z]取自“组”的第一个拼音字母。 然后,将这些标记与所属的词类相结合,形成各种指称表达式的标记: 名词[NC];人称代词[RH];指示代词[RC];其他代词组合[RZ];代量名组合[RQZ]; 数量名组合[MQZ];领属性组合[LZ]。 2.2.2 回指方式标记 回指方式分为: (1)同指回指分为:同形回指[TX]分别取自“同形”的第一个拼音字母; 异形回指[YX]分别取自 “异形” 的第一个拼音字母。 (2)联想回指[LX]分别取自“联想”的第一个拼音字母。 2.2.3 回指范围的区分和语义内容的标记 指称形式虽然是以词或词语组合的方式呈现的,但是指称的范围有时并非只限于简 单的名词性成分的回指,因此我们有必要对回指范围进行不同层次的区分,并对其中使 用率最高的名词性回指进行语义上的区分。 我们按照回指的范围,主要分为三个层次: (1)词语或词语组合回指,按照语义内容可分为以下四种: 人称[H]取自“HUMAN”的第一个字母;时间[T]取自“TIME”的第一个字母;地 点[S]取自“SPACE ”的第一个字母;事物[M]取自“MATTER”的第一个字母,除以上各 类之外的名词。 (2)情形回指[Q]取自“情”的第一个拼音字母,多为前面描述的情形或状况,回指的 可能是动宾结构、小句或句子组合。 (3)总括性回指[Z]取自“总”的第一个拼音字母,总括上文所叙述的内容,可能是多 句组合,也可能是成段的内容,或是前面所有的叙述。