公文语料库建设浅谈

公文语料库建设浅谈
公文语料库建设浅谈

公文语料库建设浅谈

语料库顾名思义就是存储语言材料的仓库,通常是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。我们平常所见的公文例文,或者网站上的公文,或者某些部门、单位、学者积累的公文材料,虽与语料库有一定的相似之处,但这些材料积累,往往只是局部的、较为随意的、难成体系的公文收集。我们要建立的公文语料库,是从词语到段落篇章、不同文种、不同层次,甚至不同国家的都有的,材料丰富全面、构造清晰、分类详细、用途多样的公文材料库。公文语料库建设是公文领域十分重要的、有创新性的新生事物,对公文语料库建设的探究既有理论意义又有实践价值。

一、建设公文语料库的意义

科学的研究往往需要以数据和大量的事实材料为基础,公文语料库的建设将为公文研究解决这一问题并提供科学的理论和方法,为建构公文新理论提供依据。

从具体的工作实践上说,建设公文语料库将有助于从词频的角度来比较词汇的运用、反映公文的内容及公文语言的变化;有助于从词汇、句式、篇章等角度为公文写作提供更科学、全面的指导;有助于为公文的各种比较研究提供材料和方法;有助于公文语体与修辞的研究;有助于促进公文写作的创新、提高工作效率;有助于公文的分类管理研究。以语料库为基础建立的公文词典,可以作为公文写作处理、学习研究的工具书。以公文语料库为基础,结合其他先进的科技成果,还可以开发出优质的软件和系统,为实际工作中公文写作与处理提供良好的工具和平台。

二、公文语料库的创建

创建公文语料库,首先要搜集原始材料录入计算机。然后是进行语料处理,即利用软件进行自动分词、词语标注等,并可以根据需要建立一些子语料库。如果有进一步需要,还可以利用上面取得的信息进行第三步操作,通过随机抽样、检索、统计、分析对比、演绎推理、归纳总结等方法进行具体的研究。

下面以党的十五大、十六大和十七大报告为原始材料建立一个小型的语料库,展示一下语料库的构成和具体操作方法。

党的十五大、十六大、十七大报告,涉及领域之广,应用频率之高是其他公文难以比拟的。这里利用分词软件对三个报告内容逐个进行自动分词,然后利用数据库软件进行比较和处理,得出每一个报告的用词数量、词频等,形成一个数据集,进而有选择地进行比较,得出一些结论。

结论一,篇幅相当,适合对比。三个报告的词汇总量分别为:14185、14156、13621,用词数量分别为:2573、2427、2502,依此可看出三个报告的篇幅基本相当,非常具有可比性。

结论二,相同用词,体现联系。通过语料库,很容易得到三个报告相同用词的量,如每两个报告之间相同的词汇量介于1576至1709之间,而三个报告相同的词汇为1376个。通过某些词语在不同大会报告的重复利用率高,还能体现出不同大会报告在内容上的联系;而十五

大报告与十七大报告中相同的词汇较少,也可以看出大会内容的不断变化与发展。

结论三,特有词汇,显现不同。三次大会报告中特有词语的数量依次为673、394、595,这可以看出:每次大会报告所用词汇都有相当数量的变化;大会时间相隔较远,不同词汇就更多一些。

结论四,不同词频,便于研究。我们只从语料库中选择一部分典型的词语为例来对比其词频。某些重要词语在三次报告中出现的频率有着极大的不同,如在三次大会报告中,“邓小平理论”出现的频率依次为42、13、9,“与时俱进”为0、9、7,“小康”为0、23、23,“科学发展观”为0、0、21,“和谐”为0、6、34,“以人为本”为0、0、34。

根据这些用词的异同,结合报告本身,可以做许多研究。如可以非常客观地从数据入手来研究各次大会的内容、主题、政策等的相同和不同,比较容易就能够看出各次大会的不同之处及创新之举。同时,用数据说话,不仅一目了然、快捷高效,而且更具说服力。

三、公文语料库建设的重点

当前,从公文理论与实践的需要出发,公文语料库的建设方向应该是:利用现代设备,面向实际需要,方便公文写作,有利公文处理,提高办文效率,改善工作质量。重点应放在以下几个方面:

一是整理公文材料,建立公文生语料库。

生语料库就是没有经过加工和切分、没有信息标注的原始材料构成的语料库。这是建设公文语料库的基础工作。

建设公文语料库需要选择具有规范性、完整性、代表性、比例合理的材料,因此搜集起来有一定的困难,需要花费大量的人力和时间,同时,因为公文材料具有政治性、地域性等特点,有些公文虽然不是密级文件,但也没有公开发布,还需要相关部门和领导的理解与支持。

公文可采用先搜集后整理,边搜集边整理的方式。在整理中可以分门别类,建立子语料库,如按照上行文、下行文、平行文的分类,或按照规范性、通用性、法规规章性公文、执法性公文的分类,或按照不同文种,来进行语料的收集和归类。这种分类的语料库,可以为需要者提供检索服务,还可以为不同文种公文的比较等提供可靠而全面的材料。

二是全方位多层次地处理材料,生成公文熟语料库。

熟语料库就是经过一定处理,进行了切分和标注的语料库。这种处理主要依靠先进的软件来完成,可以建成以词汇、句子、句式、篇章为成分的大型公文熟语料库。熟语料库对公文的研究意义更为直接,如可以为党政公文的比较、中外公文的比较、古今公文的比较研究提供数据和材料,可以为公文的不断改革创新提供重要依据,还可以为公文语料词典的编纂以及公文处理软件的设计提供语料支撑。

由于公文语料库的理论与技术尚处于起步阶段,目前还不是十分成熟,比如有些软件的分词

会出现一些偏差,需要人工校对进行辅助,处理句式篇章的能力还有待于进一步提高,等等,这些都需要在实践中不断加以改进、完善和提高。

三是利用公文语料库,编纂公文语料词典。

公文语料词典是依靠公文语料库建立的,它在公文研究中的作用将不可忽视。目前所见的公文词典不仅是语言研究的成果之一,更成为语言研究或者公文写作不可或缺的工具。公文语料词典主要包括两类。

第一类是公文常用词词频词典,也就是根据所建的语料库统计,掌握公文词汇使用的频率以及所占的比例。这类词频词典可以通过注明词语在不同文种、不同类型的公文中的频率,而便于比较和操作;可以为从事公文写作与处理的文秘人员提供有益而有用的工具;可以为公文研究者提供查询服务。公文词频词典的编纂难度不大,主要依靠公文语料库的科学性和完整性。

第二类是普通的公文词典,这是更常用的公文工具书。目前,公文的某些术语、规范,以及一些问题概念不是十分清晰,国家的相关文件解释也不够,因此标准不统一,规定自相矛盾的东西很多,这不利于公文的写作和处理,更不利于提高党政机关的办事效率和质量。公文理论与实践都迫切需要建立有专业术语解释、规范格式、重要注意事项的公文辞书,这些方面,许多专家学者已经做了大量的工作,取得了令人钦佩的成果,但这些成果多数是论著或参考资料的形式,而不具备词典作为工具书的特性。

编纂公文词典需要成立相关的编写研究组,以公文语料库为基础,参照国家相关规定,经过讨论研究论证,对公文相关术语的概念定义等形成统一的、权威的看法或结论。公文词典不但可以为公文学习者、研究者、工作者提供有效、可靠的工具书,某些内容还可以成为国家公务员考试命题的重要参考资料和依据,因此意义重大。

国家级精品课程《高级英语》课程建设方案

国家级精品课程《高级英语》课程建设方案 一、建设目标:用五年时间,把高级英语建设成为一门充分践行“学生本位”、“素质本位”思想,人文色彩浓郁,时代内涵丰富,教学方法创新,教学手段先进,教学环境信息化特色突出,课程评价体系完善,自我革新能力强的高年级“核心”课程。 二、建设步骤:本课程建设将在多项“分目标”同时并举的基础上,采取分层次、有优先、有重点、逐年推进的建设方略。具体规划如下: 1.人文及时代内涵建设 (1)本课程组刚刚编写、出版的《新编高级英语教程》取材广泛,选材新颖,时代性强,人文内涵丰富,这为本课程实现未来5年的“人文及时代内涵”建设目标打下了坚实的基础。 (2)适时引入、编写一批教辅、学辅材料,进一步扩充本课程人文内涵,保持其时代性。 (3)在课堂教学中,充分挖掘现有教材的人文内涵,探索有利于培养学生人文素养和科学创新精神的授课形式。 (4)将对学生人文、科学精神的培养作为设计、开展实践课教学的基本要求之一。 2.教学环境信息化建设 (1)“高英”课堂教学网建设:A. 完善并适时更新现有的电子资料库——CAI课件,背景知识、作者简介、语言知识点、文本赏析、注释、相关话题导引、习题、试题等教辅、学辅材料;B. 逐步实现课程全部模块授课录像并上网;C. 在现有朗文、韦氏、金山词霸等在线词典的基础上,再投放几部高质量的网络词典;D. 建设网上学习资料下载平台。

(2)校园网、局域网建设与利用:A. 进一步拓展校园网的“资源”功能;B. 开展网上资源利用研讨活动;C. 进一步发掘Internet网上学习资源,提供具体链接地址。 (3)在线语料库建设:A. 探索能充分利用现有BNC、BROWN,LOB,LDC等在线语料库的教学新形式;B.适时购进1-2个切合“高英”(及其它课程)教学、科研需要的国、内外语料库(尤其是英、汉平行语料库);C.力争自主建设1-2个切合本课程及其它多门课程教学、科研需要的校本语料库。 3.教学过程建设 (1)课堂教学建设:A. 教学理念与方法:开展对学生期望的理想教学形式的调查分析,进一步探索能充分实践启发、体验式、发现式、研究式、合作式等现代教学理念的有效授课形式,拓展其内涵。B. 教学资源:探索能有效利用现有多功能教学资源形式的途径和方法;开辟新的资源形式;加强网络教学资源的动态性、再创性、多样性、结构合理性研究。C. 教学手段:探索能增强课堂感染力、提高教学效果的各种传统及信息化教学手段。D. 加强信息化学习方式(如适应性学习、WebQuest 学习,探险性学习)及其影响因素的研究。E.加强课堂教学评估指标研究。 (2)在线辅助教学建设:A. 创建网上学习社区,构筑学生自主学习平台。B. 创设BBS电子布告板系统,增加师生互动。C. 建立师生个人电子档案,探索在线教学规律。D.加强网上教学实践技术培训。 (3)实践课建设:A. 融高年级学生毕业论文写作与实践课教学于一体;B.通过实践课培养学生的体验式、探究式学习能力以及人文素养和科学创新精神;C.通过实践课为学生提供就业、创业的体验和能力训练;D.探索一切行之有效的实践课形式,培养学生获取知识的能力、创新能力,交流能力、协作能力、适应工作的能力、知人处事的能力以及灵活应变的能力。 4.革新能力建设

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

当前公文处理工作中存在的主要问题和对策

当前公文处理工作中存在的主要问题和对策 公文处理是按照规范要求和规定程序进行文书处理的一系列相互关联、衔接有序的工作,也是各级行政机关工作的重要组成部分。公文处理工作直接关系到机关工作的办事效率,关系到机关的对外形象。当前公文处理工作在各位领导的正确领导下,文秘人员思想端正,团结奋进,刻苦学习,公文处理基本符合国务院公文处理的有关规定,较好地发挥了以文辅政的作用,总体水平不断提高,深受各界好评。但是,在公文处理中仍然存在一些不容忽视的问题,给公文处理工作造成影响。 一、存在问题 (一)收文办理程序不熟。近来,办公室存在收到部门传真或呈报公文后,收文者不明处臵程序,到处寻找受文对象,影响公文办结时限和机关形象。 (二)收文审核把关不严。部分文秘人员只顾接收呈报公文,不审核公文内容、行文方式和是否确需政府办公室受理,致使公文入口把关不严,影响办理质量。 (三)草拟公文内容不精。部分草拟公文存在情况不够清楚,观点不够鲜明,结构不够严谨,条理不够清楚,表述拐弯抹角,字词搭配不当,标点运用不妥等问题,对公文整体质量带来影响。 (四)校对公文不够细心。部分文秘人员对已初审和复审

的文稿只粗略阅读或不再校对,忽略发文校对关,致使发文日期、版面格式等细节出现错误。 (五)处理公文时限不清。受文办理都有时限要求,部分公文超出办文时限,影响办事效率。 (六)处理公文态度不正。个别同志害怕接受办文任务,甚至出现“装聋”现象,团队意识、主动意识不强,影响个人进步。 二、原因分析 (一)业务学习不够。一是对有关工作规则、办事程序、文件审核等学习不够,办文轻重缓急不分,头绪混乱,甚至连领导分工和对口联系人员都分不清楚,公文处理效率受到影响。二是对党和国家大政方针、基本科学文化知识等学习不够,致使综合素质、业务水平存在差距。 (二)工作责任心不强。个别人员没有树立起“公文处理无小事”的观念,没有树立起高标准、严要求、及时准确地办理每一份公文的意识,以至于在公文处理中不认真、不细心,甚至害怕处理公文。 三、对策 (一)端正公文处理态度。 良好的工作态度是工作成功与否迈出的第一步,公文处理细节繁多,没有端正的态度,就会出现顾此失彼。态度是否端正要在公文处理过程中检验,并非是口头敷衍而行动迟缓,也

【CN110110336A】一种面向藏汉机器翻译的藏语句法语料库的构建方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910368324.3 (22)申请日 2019.05.05 (71)申请人 西北民族大学 地址 730030 甘肃省兰州市城关区西北新 村1号 (72)发明人 万福成  (74)专利代理机构 西安研创天下知识产权代理 事务所(普通合伙) 61239 代理人 杨凤娟 (51)Int.Cl. G06F 17/28(2006.01) G06F 17/27(2006.01) (54)发明名称 一种面向藏汉机器翻译的藏语句法语料库 的构建方法 (57)摘要 本发明公开了一种面向藏汉机器翻译的藏 语句法语料库的构建方法,包括以下步骤:A、将 具有句对齐结构的平行语料库中的藏语句子进 行词性标记;B、利用词对齐工具将藏语句子中的 词汇进行词对齐,形成藏语词、汉语词对齐匹配 形式;C、利用树库制作工具,将具有词性标记和 词对齐信息的藏语词逐个进行短语标记;D、运用 自增模式,扩展藏语句法语料库。本发明能够解 决藏语句法语料库稀缺的问题,从而提高翻译质 量。权利要求书1页 说明书3页CN 110110336 A 2019.08.09 C N 110110336 A

权 利 要 求 书1/1页CN 110110336 A 1.一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,包括以下步骤: A、将具有句对齐结构的平行语料库中的藏语句子进行词性标记; B、利用词对齐工具将藏语句子中的词汇进行词对齐,形成藏语词、汉语词对齐匹配形式; C、利用树库制作工具,将具有词性标记和词对齐信息的藏语词逐个进行短语标记,并逐层进行合并直至形成一个完整的句法树; D、运用自增模式,扩展藏语句法语料库。 2.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤B中将藏语句子中的词汇进行词对齐的方法包括以下步骤: a、运用词对齐工具训练双语句对齐平行语料库; b、以词对齐中间结果作为藏语汉语词匹配形式,并形成具有类似括号匹配的形式; c、将词对齐的结果以及词性标注的结构统一处理成具有括号匹配形式的内容,提供下一步处理作为输入。 3.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤C中逐层进行合并直至形成一个完整的句法树的方法包括以下步骤: a、将具有括号匹配形式的带有词性标记和词对齐信息的各个单元输入到树库制作工具中; b、以词性为基础,逐个将以词为单元的内容合并,并以短语标记结尾; c、逐个合并短语结构标记为新的短语结构标记,最终合并成一个句子,并标注以句子标记结尾。 4.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤D中运用自增模式扩展藏语句法语料库的方法包括以下步骤: a、将人工制作的藏语句法语料库作为训练语料库,运用BerkerleyParser句法分析器作为句法分析工具; b、解码测试语料库,得到待人工校对的藏语句法树; c、人工校对藏语句法树的结果,将校对后的结果加入到训练语料库中,继续步骤a,以这种模式扩展藏语短语句法树库。 2

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

浅谈公文审核把关工作

浅谈公文审核把关工作 作者:韦华英 来源:《办公室业务》 2014年第4期 文/韦华英 公文代表着一个机关的形象,公文的质量决定着它发出去之后的效果。在一个发文过程中,审核工作贯穿始终。尤其在办公室的公文审核把关方面,审核就像是签发前的“助攻”,它既 有各方面的综合,又有技术上的深度,同时又涉及不同专业的知识。这些都突出表明了审核工 作的重要性。党政机关有关公文的处理条例内容很多,其中一个亮点是:文稿在领导签发之前 要经发文机关的办公室审核,这一条有很大的实际效果。 一、审核把关中的发文环节 这个环节也叫“入口关”或“出口关”,对于交上来的文件要考虑好用何种文种发出,这 是审核工作首先要做的。其次是文件主题的审查。主体是一个文件的核心,也是发文者所要表 达的目标;从文件的角度说是文件要表达或说明的观点,从社会方面说是文件对某种现象或生 活的描述与评论。实际情况中,首先要审核主题,主题中的有关工作职责是谁的,主管和负责 的人是谁,又是由谁发出去的。例如,某部门提交的关于下放管理权限的文件,向省委办公厅 提出发文申请。文件中有603条审批方面的权限是要下放的,这是政府有关部门的行政事务。 在审核中被认为应该由省政府或其办公厅下文,所以就把这份文件给呈报单位退回去了。其次 是查看文件的来源,如2011年3月省政府办公厅申请印发《加强计划生育的有关工作意见》的通知,向省委和省政府的两个办公厅提出他们联合发文的申请。审核过程中被认为,这些法规 的实施是“一府两院”的工作范围,况且与计划生育有关的条例中也有规定:各级政府要加强 对这项工作的指导作用,负责该条例的落实情况。所以说这个文件要由省政府下文,一般情况 下不是由党政联合下文的,所以就把文件退回到了省政府办公厅。 文件的根据通常有3个,上级那里有、过去的惯例、形势变化的需要。有的问题在上级那 里有相关的文件,落实前要了解清楚本地的实际情况然后再进行,对发文的依据还要进行研究。例如省纪委转过来惩治与预防腐败的工作报告,向省委办公厅申请下文,并请求用省委的名义 上报给中央纪委。审核人员在审核时发现申请下文的根据是中央纪委办公厅的通知,通知中的 内容是这个情况要经过省委主要领导审核,并不是说由省委办公厅以文件的方式报送。中央也 有文件规定:没有经过党中央的批准,国家各政府部门不能向地方的政府部门下发指示性文件,也不能要求地方的有关政府部门向上报文。所以这个文件不能用省委名义给中央纪委进行报文,要请省委的主要领导进行审定,然后再通过省纪委向中央纪委报送。有些文件过去有实例,但 可能是因为其他原因,审核时不必拘泥那些惯例。例如,对印发《2012年民生工程有关方案的 通知》,以前的惯例是向省委、省政府提出申请请求联合发文。因为这项民生工程的涉及范围 比较广,好几个党委部门的职责都包含在内,这样的内容不再是民生工程本身的工作。2012年后,民生问题被定成老百姓的实际问题,把民生工程的重点设定在义务教育、就业保障等其它 方面。审核人员认为该方案是政府各部门的工作范围,尤其是发改部门负责监督,通过和省政 府办公厅的讨论研究,把该文件退回到省政府由他们进行下文。 二、做好公文审核工作需要提高几个认识 公文的审核对公文起着非常重要的作用。一个机关有自己的思想、工作和管理水平、作风,可想而知,如果公文中有错字、词义表达错误时,会对机关产生较坏的影响,这样的公文没有 什么权威和严肃性可言,还会对落实工作和有关要求造成困难。对处理公文的有关规定没有掌 握完整,拟稿时不了解整体情况,都会出现各种问题,如考虑不周、可操作性较小、站位低等。

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国 的发展趋势 一、语料库语言学的兴起与发展 语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。 在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。1996年广州外国语学院开始建立中国学生交际英语语料库。此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。

二、语料库语言学发展趋势 语料库语言学研究的发展总是以语料库的建设为基础的。没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。 (一)英语学习者语料库。其中包括书面语和口语。有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士 写作语料库MWC,12万词次。 (二)平行语料库。有北京外国语大学建设的汉英平行语料库PCCE;南京大学建设的南大———国关平行语料库;外语 教学与研究出版社建设的英汉文学作品语料库,冯友兰《中国哲学史》汉英对照语料库,李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库;北京大学计算语言学研究所建设的双语语料库,5万多对;香港城市理工大学建设的对比语料库LIVAC;台湾建设的平衡语料库Sinica Corpus和树图语料库Sinica Treebank;国家语言文字工作委员会应用研究所建设的计算机专业的双语语料库,柏拉图(Plato)哲学名著《理想国》的双语语料库;中国科学院软件研究所建设的英汉双语语料库,15万对;中国科学院自动化研究所建设的英汉双语语料库,包含LDC香港新闻硬汉双语对齐语料36 294段以及香港法律英汉双语对齐

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索 语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。 关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象,通过对大量语言事实进行分析,寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据,且基于语料库而得到的数据避免了偶然性,从而提升了分析结果的可信度。 因此,语料库语言学为语言研究和教学提供了一种全新的模式。 随着计算机信息技术的日新月异,语料库为语言研究提供了空前广泛的语言资料。目前,国际上影响较大的语料库有英国COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabas e)、BNC英语国家语料库(TheBritishNationalCorpus)、CIC 语料库CambridgeInternationalCorpus、ICE语料库

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

浅谈公文管理工作规范化

浅谈公文管理工作规范化 公文管理工作是一个单位不可或缺的工作内容。所谓公文,是指党政机关、企事业单位、社会团体等组织在行政管理活动或处理公务活动中形成的,按照严格、法定的生效程序和规范的格式制定的,具有一定法定效力,起到一定信息传递、记录作用,并具有一定归档价值的载体文件。公文管理则是公文从形成、运转、办理、存贮到归档或销毁的一个完整周期中,以特定的方法和原则对公文进行创制、加工、保管,使其逐步趋于完善并获得功效的行为或过程。规范公文管理,对进一步加强单位管理职能,提高办事效率,强化职工职业素养都具有重要意义。对下面我就新形势下如何做好公文的制发与管理工作谈几点意见。 一、充分认识新形势下公文管理工作的重要性 随着信息多元化时代的到来,公文的作用已不仅仅局限于上传下达和交流沟通上,新的政治经济形势赋予了传统公文新的内涵和意义。特别是对于中心这样一个承载了农业国际贸易与合作交流行政职能的事业单位来说,除了普通公文外,目的明确、针对性较强的事务性公文与中心主要工作有着更为紧密的结合,例如在WTO谈判、自贸区谈判、农业贸易政策理论研究及相关体系建设、组织开展各类展会及论坛研讨活动、农业信息监测预警以及专业人员培训等工作方面,不仅要对其参与的公务活动及时进行阶段性总结,更要

在目标完成后促进成果的转化,所形成的报告、纪要等文书突破了狭隘的信息传递职能,通过信息汇集、现状分析和未来预测,不仅在本系统工作体系建设中起到典型引路、推动全盘的作用,更为国家农业贸易政策的制定提供了决策依据和理论支持。因此严格按照公文管理规则制定和管理公文,使之不断规范化、制度化,对充分发挥公文的现实效用,维护本单位正常工作秩序,有效推动经济政治改革和发展有着不可低估的作用。 二、切实掌握基础知识,培养正确观念意识 (一)公文分类有要求,内涵作用各不同 不同类型的公文,作用各有侧重,为了合理使用各类公文并使其效果达到最大化,我们应当充分认识和正确把握公文的主要分类和作用。 首先,依据不同的标准,公文通常有以下几种分类角度: 1.按照公文形成和使用的领域可以划分为普遍适用的通用公文和特殊使用的专用公文。 2.按照公文的来源可以划分为对外文件、收来文件及内部文件。 3.按照公文的行文关系和行文方向可以分文上行文、平行文和下行文。 4.按照公文的秘密程度和阅读范围可以划分为绝密文件、机密文件、秘密文件、内部文件、限国内公开的文件和对外公开文件。 5.按公文处理时限要求,可以划分为特急件、急件及平

语料库建设及使用专题研修班

语料库建设及使用专题研修班 时间:2014年11月8-9日 地点:上海海事大学2C305(计算机实验室) 主讲人:北京外国语大学中国外语教育中心梁茂成李文中许家金 一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的 Chomsky语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的,但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。 2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照 一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。 3.文本:文本可以保存生(raw)语料,即未经任何标注的语料,称为生文本(raw text)。文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本(annotated text)。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。 4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例 王树振 (天津师范大学外国语学院,天津, 300387) 【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》(1922),自发表以 来便引起文学评论界的极大关注。在作品中,通过对一个日常生活片段的叙述,作者 揭示了女性生存困境的主题。而基于语料库的文学研究,则是通过利用语料库检索软 件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上,笔者拟运用语 料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等 语料库检索软件,笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析, 最后不仅能够分析得出海明威用词简单、句子简短的写作风格,还能利用关键词检索 和自动生成的语境,来了解小说的主要内容和人物形象的塑造,这为解读小说的主题 提供了新的研究方法和途径。 【关键词】语料库检索;写作风格;主题 近年来, 国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件对文本进行分析, 如Sinclair(1991)、Biber(2000)、张厚振(2004)、肖普勤(2005)等。他们的研究大胆创新,为后来的文学研究者带来很大的启示。正如Sinclair(1991: 36)所论述的那样,“(语料库检索)最激动人心的方面不是对描述进行直观的分类,而是为找到新的方法、新的证据以及新的描述提供可能。在这里,计算机技术的客观性和表面的正当性变成了一种优势,而不是没有放弃直觉前提下的一种责任。当然,我们要尽力找到符合证据的解释,而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇,故事情节主要围绕一只雨中的猫展开,叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析,以展示语料库检索软件在文学分析方面的强大功能。 一、基于词表的文本总体特征分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计,自动生成词表(图1)。它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。

最新-浅谈公文处理中转发类文件标题的拟制 精品

浅谈公文处理中转发类文件标题的拟制 一、转发类公文的定义和用途1、定义转发类公文是指用于上级机关、不相隶属机关或下级有自主行文权的机关之间的一种行文方式。 这种方式大多用于转发类通知。 2、转发类公文的用途一是转发上级机关和不相隶属机关的公文。 在公文处理中,如果认为该公文对本地、本机关及全局具有指导、借鉴意义,可以以转发的形式发文至本机关下属的部门、单位,并可在行文中结合实际提出本机关的具体贯彻、落实意见和要求。 如:**省食品药品监督管理局转发国家药品监督管理局关于开展严厉打击制造邮售假药违法行为专项活动的通知。 二是用于以本机关的名义转发下级部门的公文,以提高公文的规格和效力。 如:**县人民政府办公室关于转发**县工商局农村食品安全监管“所村挂钩”工作实施方案的通知,这种文件以县政府办公室的名义转发,比县工商局直接行文,更有利于文件精神的贯彻落实。 二、转发文件标题拟定的几种方法公文的标题由发文机关、事由、文种构成,转发类公文的标题,一般由“发文机关+关于转发+原文标题+文种”组成。 但实际办文中,有省略发文机关的,也有省略重复的介词等等。 如:转发省政府办公厅关于切实做好当前森林防火工作的紧急通知,此标题中就省略了发文机关“**县人民政府办公室”以及介词“关于”。 在转发类公文中,经常会碰到多重转发的情况,这时标题中“关于”、“转发”、“通知”反复出现,十分累赘,让人读起来别扭。 为有效解决这些问题,下面向大家介绍几种方法:1、惯用法所谓惯用法,就是“发文机关+关于转发+所转文件名称+的通知”的格式,这是转发类通知最常用的格式。 例如:**县食品药品监督管理局关于转发**省食品药品监督管理局关于举办第二届全省食品药品监管好新闻评选活动的通知的通知。 2、省略法(1)省略发文机关名称,如:转发县供电公司关于**县2019年电网错避峰限电方案的通知,该标题中省略了发文机关“**县人民政府办公室”。 (2)省略介词“关于”或文种“通知”。

商务英语语料库的建设及应用

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(business english)是指商务场景下所应用到的英语,作为特殊目的英语(english for specific purpose)具有很强的专业性。商务英语跟普通英语(english for general purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有

一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的brown corpus以及lob corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的birmingham collection of english language text以及longman/lancaster english为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。

相关文档
最新文档