BCC语料库使用指南

合集下载

BCC语料库使用指南

BCC语料库使用指南

1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。

用[C]代表错字,在[C]前填写正确的字。

例如:地球[C](“球”是错字)、这[C]。

[B]:别字标记,用于标示把甲字写成乙字的情况。

别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。

把别字移至[B]中B的后面,并在[B]前填写正确的字。

例如:提[B题]高、考虑[B虎]。

[L]:漏字标记,用于标示作文中应有而没有的字。

用[L]表示漏掉的字,并在[L]前填写所漏掉的字。

例如:后悔[L],表示“悔”在原文中是漏掉的字。

农[L]药,表示“农”在原文中是漏掉的字。

[D]:多字标记,用于标示作文中不应出现而出现的字。

把多余的字移至[D]中D的后面。

例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。

[F]:繁体字标记,用于标示繁体字。

把繁体字移至[F]中F的后面,并在[F]前填写简体字。

例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。

注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。

2)繁体字写错了,标为:后[F後[C]]。

[Y]:异体字标记,用于标示异体字。

把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。

[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。

把拼音字移至[P]中P的后面,并在[P]前填写简体字。

例如:缘[Pyúan]分、保护[Phù]。

[#]:无法识别的字的标记,用于标示无法识别的字。

每个不可识别的字用一个[#]表示。

例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。

把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。

例如:勤奋、[BC,]刻苦的精神。

[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。

可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。

2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。

文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。

这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。

4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。

词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。

5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。


以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。

6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。

可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。

同时,也可以通过删除低质量的
文本对来优化平行语料库。

总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。

这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。

杨百翰大学BNC语料库使用说明-中文版

杨百翰大学BNC语料库使用说明-中文版
31
32
33
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在context方
框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。当然
也可以比较在某个子语料库中出现的频率比较。
• 需要工具: • 1. 文本编辑器 • 2. MS-word
42
• 以上方法同样可以用于检索代表当代美国 的语料库 ,以及以不同年代的TIME做成的 历史语料库
43
谢谢!
杨百翰大学BNC语料库使用说明-中 文版
杨百翰大学BNC语料库简介
• 1. 简介 • 1.1 通过这个网址,可以搜索到100 million
词的British National Corpus (1970s1993). (当然现在Corpus of Contemporary American English(19902009)能在线免费提供 400+ million 词,在 线网址为:)
(图2.1.2-2),检索表达式为:white [n*]
10
图2.1.2-1
•规则:输入名词的话用正则表 达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
11
图2.1.2-2
White+名词的短语
12
• 2.1.3 输入通配符(wildcards),如分别输入 un*ly和r?n*,结果如图2.1.3-1和.2.1.3-2
1.2 BYU-BNC界面简介
5
• 2. 主要搜索功能 • 2.1 搜索words、phrases、lemmas、

常见语料库使用入门

常见语料库使用入门

8
公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC):/ 03.美国当代英语语料库(COCA):/ 04.美国近当代英语语料库(COHA):/coha/ 05.英国国家语料库(BNC):/bnc/ 06.柯林斯英语语料库(BOE):/wordbanks/ 07.英国英语语料库(SEU):http: ///english-usage/ 08.澳大利亚英语语料库(ACE):http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC):http: ///
词性标记 句法标记 词义标记 篇章指代标记 韵律标记 ……
材料/工具准备阶段
若只是要词频数据, 则生语料库足够, word/wps或txt记事本 都可以建立word/wps 的“查找替换”工具 即可, txt记事本的“编辑-查 找”工具也行。
生语料库 加 工 标 注
熟语料库
“宏”
39
个人语料库创建
生 语 语 料 库
熟 语 语 料 库
3
语料库及其分类
第二节 公共语料库检索
4
公共语料库检索
统计频率
基 于 检 索
查找例句
参 数 设 置
带着 问题
收集 证据
验证分析
5
公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:/retrieval/index.html 05.树图数据库:.tw/ 06.语料库语言学在线: 07.北京大学CCL语料库:/Yuliao_Contents.Asp

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程1.数据收集:首先需要收集双语文本数据。

可以通过多种渠道获得,包括网络爬虫、公开数据库、专业机构的数据集等。

收集到的数据应涵盖各个领域的文本,以便在不同领域的实际应用中使用。

2.预处理:收集到的数据通常需要进行预处理,以确保数据的质量和一致性。

预处理的步骤包括:-分割句子:根据标点符号或换行符将文本分割成句子。

-标准化:将数据转换为统一的格式,如转换为小写、标准化日期和数字格式等。

-分词:将句子划分成单词或短语的序列,通常使用现有的分词工具。

3.对齐:对齐是将双语文本进行匹配的过程,以确定源语言和目标语言之间的对应关系。

常见的对齐方法包括基于规则的对齐和基于统计的对齐。

在基于规则的对齐中,研究人员根据语言对之间的特征和规则手动对齐句子。

而基于统计的对齐则利用计算机算法自动匹配句子。

4.清洗:对齐后,需要对语料进行清洗,以去除低质量的对齐数据和噪声。

常见的清洗方法包括:-去除标点符号和特殊字符。

-去除长度不一致的句对。

-去除重复数据和重复句子。

-去除机器翻译和错误对齐的数据。

5.评估:评估是对制作的平行语料进行质量检查的步骤。

评估通常包括两个方面:- 句子级评估:比较源语言和目标语言之间的对齐质量,判断对齐是否准确。

可以使用BLEU(Bilingual Evaluation Understudy)等自动评估指标来评估翻译质量。

-文本级评估:评估语料库的覆盖度、平衡性和多样性等。

可以通过检查词汇表的覆盖范围、领域和主题的分布来评估。

6.存储和管理:制作好的双语平行语料库需要进行存储和管理。

可以使用数据库、文件系统或特定的双语平行语料库管理工具来存储和管理平行语料库。

此外,还可以使用标记文件格式(如XML或JSON)对语料进行标注,以便更好地进行检索和利用。

总结起来,制作双语平行语料库的流程包括数据收集、预处理、对齐、清洗和评估等多个步骤。

每个步骤都需要仔细进行,以确保制作出高质量的双语平行语料库,以支持各种自然语言处理任务的研究和应用。

大数据背景下BCC语料库的研制_荀恩东

大数据背景下BCC语料库的研制_荀恩东

95
大数据背景下 BCC 语料库的研制
共时语料和历时语料兼备 BCC 对报刊语料和文学作品标注了时间信息,其中文学作品的时间信息体现 在 BCC 的“自定义”功能应用上,用户可以选定某时间的文学作品进行限定检 索;BCC“历时检索”主要是报刊语料,语料来自 1945 年至 2015 年的《人民日 报》 。历时检索是以图形可视化方式呈现的。 BCC 语料库使用了语料采集、加工和语言分析处理等多种工具,例如对现代 汉语进行分词和词性标注。为了完成语料采集、加工、标注等工作,开发了 BCC 语料库采集和加工平台,主要包括: 网上语料采集工具 BCC 语料库中的语料主要源自互联网的页面文本,利用采集工具自动下载网 页,把网页数据保存到本地。 语料加工整理工具 将网络作为语料库,是将以自然语言形式存在的整个网络电子文本当作一个 庞大的语料库,可以通过征调主流搜索引擎的应用程序调用接口,获取搜索引擎 。BCC 语料加工 的返回结果,再对其进行相应的语料库统计分析(熊文新 2015) 整理的方式主要为:从网页中提取原数据信息,包括名称、出处等;网页数据清 洗,从网页数据中剔除非内容数据,提取有效文本内容;对数据进行自动断句处 理,为后续语言分析做准备;异常重复句子甄别和处理,剔除网页数据清洗阶段 不能甄别的重复句子。 语言自动分析工具 原始语料完成断句后,在语言分析阶段对句子进行分词和词性标注处理。中 文词性标注采用北京大学计算语言研究所提出的词性标注体系(俞士汶等 2000, 2002) ,英文词性体系采用美国宾州大学词性体系。目前,BCC 可以对现代汉语、 英语、法语的语料进行自动分词和词性标注处理。 语料库标注平台 该平台的目标是通过人工标注来构建专门语料库。 2.2 BCC 检索引擎 语料库建设是围绕内容进行的,用户通过检索使用语料库数据,而使用的检 索功能是通过检索引擎实现的,因此检索引擎的性能直接影响语料库系统的使用 体验。使用体验体现在多个方面,包括对数据规模的支持程度、语料类型的支持 程度、响应检索的时空开销、检索式的支持功能、对服务器软硬件的适应性等。 BCC 检索引擎具有以下特点:

语料库常用统计方法

语料库常用统计方法

语料库常用统计方法在当今信息爆炸的时代,语料库作为一种大规模的语言数据集,对于语言学研究、自然语言处理、翻译研究等领域都具有重要意义。

而要从海量的语料中提取有价值的信息,就需要运用各种统计方法。

接下来,让我们一起深入了解一些语料库常用的统计方法。

一、词频统计词频统计是语料库分析中最基础也最常见的方法之一。

简单来说,就是计算某个词在语料库中出现的次数。

通过词频统计,我们可以了解到哪些词在特定的语料中使用最为频繁,哪些词相对较少出现。

例如,在一个关于科技新闻的语料库中,“人工智能”“大数据”等词可能会有较高的词频,而在一个文学作品的语料库中,“情感”“风景”等词可能更常见。

词频统计不仅能帮助我们快速把握语料的主题和重点,还能为词汇的重要性排序提供依据。

为了进行词频统计,首先需要对语料进行预处理,包括分词、去除标点符号和停用词(如“的”“了”“啊”等常见但对语义影响不大的词)。

然后,通过编程语言(如 Python)中的相关库(如 collections 库)或者专门的语料库分析工具(如 AntConc),可以轻松实现词频的计算和排序。

二、词汇多样性统计词汇多样性是衡量语言丰富程度的一个重要指标。

常见的词汇多样性统计方法包括类符/形符比(TypeToken Ratio,简称 TTR)和标准化类符/形符比(Standardized TypeToken Ratio)。

类符指的是语料库中不同的单词,形符则是单词出现的总次数。

TTR 就是类符数量除以形符数量。

例如,一个包含100 个单词的文本,其中不同的单词有 50 个,那么 TTR 就是 05。

然而,TTR 会受到文本长度的影响,文本越长,TTR 往往越低。

为了克服这一问题,标准化类符/形符比通过对文本进行分段计算 TTR,然后取平均值来得到更稳定和可靠的结果。

词汇多样性统计对于比较不同作者、不同文体、不同语言的文本特点具有重要意义。

一般来说,文学作品的词汇多样性往往高于科技文献,而高水平的作者通常能够在作品中展现出更高的词汇多样性。

[转载]语料库工具箱用户指南(ACWT)

[转载]语料库工具箱用户指南(ACWT)

[转载]语料库⼯具箱⽤户指南(ACWT)原⽂地址:语料库⼯具箱⽤户指南(ACWT)作者:gjxyxkgy主页:/alc/chinese/ACWT/ACWT.htm软件下载:/alc/chinese/ACWT/ACWT.zip1.什么是“语料库⼯具箱”ACWT?语料库⼯具箱(ACWT)是指嵌⼊到⽂字处理软件NoteTab中的⼀组模块(clips),Perl代码及其他⼀些中英⽂⽂本处理⼯具。

这些⼯具可以帮助处理⼀些通常需要昂贵复杂的商业软件才能实现的“⼜脏⼜累”的语料库和话语分析、处理⼯作。

⽬前“⼯具箱”中主要包括以下组件:Text Utilities⽂本处理Merge Files档合并HTML<-->Text Conversion HTML-TXT格式相互转换Tagged Text-->Plain Text Conversion去除标注⽂本中的标记File comparison/sizes/counts⽂本⽐较/檔⼤⼩/字数统计/分割/和并Chinese Character Spacing/Word Segmentation/POS Tagging汉字分字/分词/词性标注Search&Analysis检索统计Basic Chinese Concordance简单汉语检索Basic English Concordance简单英语检索Word List/Frequency词表/词频表Mutual Info/T-Score/Z-Score/Log-likelihood互现信息/T值/Z值/Log-likelihoodNormed Freq/Ratio/Lexical Density常态化频率/型次⽐/词汇密度Interactive Text Tagging互动加码L2 Errors–The CLEC Tags⼆语学习者错误代码—CLEC赋码集Discourse Structure–Samples话语结构标注—样例Semantics&Pragmatics–Samples语义语⽤标注—样例Sociolinguistics–Samples社会语⾔学标注—样例Syntax–Samples句法标注—样例Discourse Transcription⼝语转写The Du Bois System-DuBois最新⼝语转写体系-2005-08Header Info头⽂件信息Voice Quality⾳质Turn Taking话轮转换Conversation Structure会话结构Metalinguistic元语⾔特征2.安装要运⾏这些组件需要安装4.5及以上版本的NoteTab⼯具,Perl(译码)程序,以及下⾯提及的相关⼯具。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。

用[C]代表错字,在[C]前填写正确的字。

例如:地球[C](“球”是错字)、这[C]。

[B]:别字标记,用于标示把甲字写成乙字的情况。

别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。

把别字移至[B]中B的后面,并在[B]前填写正确的字。

例如:提[B题]高、考虑[B虎]。

[L]:漏字标记,用于标示作文中应有而没有的字。

用[L]表示漏掉的字,并在[L]前填写所漏掉的字。

例如:后悔[L],表示“悔”在原文中是漏掉的字。

农[L]药,表示“农”在原文中是漏掉的字。

[D]:多字标记,用于标示作文中不应出现而出现的字。

把多余的字移至[D]中D的后面。

例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。

[F]:繁体字标记,用于标示繁体字。

把繁体字移至[F]中F的后面,并在[F]前填写简体字。

例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。

注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。

2)繁体字写错了,标为:后[F後[C]]。

[Y]:异体字标记,用于标示异体字。

把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。

[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。

把拼音字移至[P]中P的后面,并在[P]前填写简体字。

例如:缘[Pyúan]分、保护[Phù]。

[#]:无法识别的字的标记,用于标示无法识别的字。

每个不可识别的字用一个[#]表示。

例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。

把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。

例如:勤奋、[BC,]刻苦的精神。

[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。

把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。

例如:周围的环境很安静[BQ,]生活也非常平凡。

[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。

把多余的标点移至[BD]中BD的后面。

例如:我家周围的[BD,]美丽风景。

2、词处理:(包括成语){CC}:错词标记,用于标示错误的词和成语。

包括4种情况:1)把词的构成成分写错顺序的。

把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。

例如:首先{CC先首}、众所周知{CC众所知周}。

2)该用甲词而用乙词的。

这种情况类似别字,但属于用词层面上的错误。

标示方法同上。

例如:虽然现在还没有实现{CC实践},……它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。

3)生造词。

指考生自造的、或某些外语中可能有而汉语中不存在的词。

例如:农作物{CC农产物/农物}、农产品{CC农作品}……但长期来看造成环境污染,破坏自然生态{CC目态},……绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC潜留量}。

4)词语搭配错误。

包括词性、音节等方面的搭配错误。

例如:最好的办法是两个都保持{CC走去}平衡。

我也回{CC1回去}沈阳。

吃这种东西会{CC1可以}得{CC1得到}病{CC1疾病}。

{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。

标在有错误的离合词的后边,表示前边的离合词用法有误。

例如:……我快要毕业{CLH}大学{CQ了}。

虽然这么[L]多年都没见面{CLH}过,…………我对哈尔滨{CJ-zy很}感兴趣。

有观光{CLH}哈尔滨的宿愿。

{W}:外文词标记,用于标示以外文词代替汉语词的情况。

把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。

在W和外文词之间填写汉语词的字数。

例如:非洲{W2Africa}、爵士乐{W3jazz}。

……教我工作的方法{W2ABC}。

{CQ}:缺词标记,用于标示作文中应有而没有的词。

在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。

例如:这就{CQ要}由有关部门和政策管理制度来控制。

……有的农民{CQ在}不使用化肥和农药的情[B精]况下[BD,]养农作物,……{CD}:多词标记,用于标示作文中不应有而有的词。

把多余的词移至{CD}中CD的后面。

例如:……然后肯德基的收入有所增加{CD了}。

中国政府应该采取良好的措施来管理农业{CD方面},……但我觉得{CD按照}上面所写的方法是现在很多人或国家用的方法。

句子错误类型代码:{CJba} :把字句错误{CJbei} :被字句错误{CJbi} :比字句错误{CJl} :连字句错误{CJy} :有字句错误{CJs} :是字句错误{CJsd} :“是……的”句错误{CJcx} :存现句错误{CJjy} :兼语句错误{CJld} :连动句错误{CJshb} :双宾语句错误{CJxw} :形容词谓语句错误{CJ-} :句子成分残缺错误标记,用于标示由于成分残缺造成的病句。

在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语。

标在成分残缺之处。

例如:为了增加{CC满足}粮食,{CJ-zhuy人们}使用了化肥和农药,这样产量就会大大提高。

这样的活动{CJ-sy开展}以来,肯德基的垃[B拉]圾[C]总量大大降低。

……那两种{CC个}东西就容易伤害人类的{CJ-dy健康}系统。

从具体{CJ-zxy情况}来看,……{CJ+} :句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。

后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面。

标在成分多余之处。

例如:这是我们{CJ+dy做人}的责任。

而且研究{CJ+buy下去}产量能提高的办法。

而且{CJ+zy正在}还死去好多人。

句子成分采用层次分析法的观点,共8种:{CJ-/+zhuy} :主语残缺或多余{CJ-/+wy} :谓语残缺或多余{CJ-/+sy} :述语残缺或多余{CJ-/+by} :宾语残缺或多余{CJ-/+buy} :补语残缺或多余{CJ-/+dy} :定语残缺或多余{CJ-/+zy} :状语残缺或多余{CJ-/+zxy} :中心语残缺或多余{CJX} :语序错误标记,用于标示由于语序错误造成的病句。

标在语序错误的词语的后边。

如果是相邻的两个成分语序错误,按照自然顺序,把{CJX}标在前一个成分的后边。

例如:大多数{CJX}这些人生活{CC2活}在很不好的地方,……可是这两个问题同时{CJX}要解决非常不容易,……现在每个人很重视健康,受欢迎{CJX}绿色食品。

{CJZR} :句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。

标在句子末尾,标点之前。

例如:这个问题不可能一两年解决的问题{CJZR}。

现在,全世界流行是绿色食品{CJZR}。

每次吃对身体有害于健康的东西{CJZR}。

因为,人们的必生存之一中最重要的是饮食{CJZR},……{CJcd} :重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。

标在出现重叠错误的词语之后。

例如:而对生产者来说,尽量不用化肥和农药,在出货之前,进[C]行洗洗{CJcd}。

还有我们{CQ应}对绿色食品研究研究{CJcd}。

{CJgd} :固定格式错误标记,用于标示固定格式搭配上的错误。

例如:“一……就……”缺少“一”或者“就”。

现代社会应当认“保护自己,尊重其他人”为口号{CJgd}!{WWJ} :未完句标记,用于标示没写完的半截子的句子。

标在未完成句的末尾处。

例如:只是全球{WWJ}最后国家政府不考虑经济问题、积{WWJ}不知道什么时候会普及起来,但是我认为这还是不是个{WWJ}{CJ?} :句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的的病句。

标在存疑病句之后、该句标点之前。

例如:地球上,有的地方还在“饥饿”来艰苦{CJ?}。

还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人{CJ?}。

把化肥可以取代{CC代取}用草、剩饭做的自然肥料{CJ?},把农药也可以取代{CC代取}喜欢吃害虫的动物{CJ?}。

4、篇章处理:(包括复句){CP} :篇章错误标记,用于标示篇章错误。

大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。

即:{CP……,……。

……,……。

P}所谓篇章错误,主要指句子和句子之间在衔接方面的错误。

最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。

而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。

例如:{CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。

P}(前后句意义上无关){CP吸烟对孩子们{CJ-sy有}不好的影响,这一观念他会不会知道呢?所以我早就不理他了。

P}(用了表示因果关系的连词,但句子之间并不存在因果关系){CP目前,随着人们生活水平{CQ的}提高,{CJ-zhuy人们}{CD就}对饮食品很重视。

就{CJX}{CQ用}未经污染的农产品加工的食品叫做“绿色食品”。

P}(前后句之间缺少过渡句){CP我以前看报纸的时候,有一篇关于农药的文章。

他说,一般的食品,比如说,米,蔬菜、水果等{CD的}东西,好好儿洗一下就行了,不用担[B但]心。

P}(“他”指称不明,使两句之间失去联系)。

相关文档
最新文档