语料库网站网址

中央研究院近代汉语标记语料库：

语料库语言学在线：https://www.360docs.net/doc/8d16365344.html,(搜LOCNESS就能出来LOCNESS)

北京大学中国语言学研究中心，简称CCL语料库检索系统（包括：现代汉语语料库、古代汉语语料库、汉英双语语料库）

闽南语典藏：https://www.360docs.net/doc/8d16365344.html,.tw/

或https://www.360docs.net/doc/8d16365344.html,

中国科学院计算所的双语语料库：https://www.360docs.net/doc/8d16365344.html,/corpus/query_process.php

每个邮箱可以注册一次，免费期是一个月，免费期过了就再注册一个邮箱，再注册一次。其中汉语语料库是没有加工的生语料库，使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC，可以好好利用。

The Lancaster Corpus of Mandarin Chinesehttps://www.360docs.net/doc/8d16365344.html,/scripts/download.php?otaid=2474

【在线字典、工具类】

爱词霸汉语词典https://www.360docs.net/doc/8d16365344.html,/（有汉字笔顺Flash的演示，不错。PS：爱词霸的其它链接也不错）

韩国21世纪世宗计划语料库（21??????）http://www.sejong.or.kr/ 【计算语言学里面使用最广的汉语树库】

Chinese PropBank (By U of Colorado) https://www.360docs.net/doc/8d16365344.html,/chinese/cpb/

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) （平行或对应）语料的对齐 Alphanumeric 字母数字类的 Annotate 标注（动词） Annotation 标注（名词） Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) （主题词的）联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词；搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引（行） Concordance plot （索引）词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库（复数） Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语音识别综述

山西大学研究生学位课程论文（2014 ---- 2015 学年第 2 学期）学院（中心、所）：计算机与信息技术学院专业名称：计算机应用技术课程名称：自然语言处理技术论文题目：语音识别综述授课教师（职称）：研究生姓名：年级：学号：成绩：评阅日期：山西大学研究生学院 2015年 6 月2日

语音识别综述摘要随着大数据、云时代的到来，我们正朝着智能化和自动化的信息社会迈进，作为人机交互的关键技术，语音识别在五十多年来不仅在学术领域有了很大的发展，在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程，国内外研究现状，具体阐述语音识别的概念，基本原理、方法，以及目前使用的关键技术HMM、神经网络等，具体实际应用，以及当前面临的困境与未来的研究趋势。关键词语音识别；隐马尔科夫模型；神经网络；中文信息处理 1.引言语言是人类相互交流最常用、有效的和方便的通信方式，自从计算机诞生以来，让计算机能听懂人类的语言一直是我们的梦想，随着大数据、云时代的到来，信息社会正朝着智能化和自动化推进，我们越来越迫切希望能够摆脱键盘等硬件的束缚，取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象，通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史语音识别的研究工作起源与上世纪50年代，当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年，J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字，开始了计算机语音识别的研究工作。 60年代，计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划（DP）和线性预测分析技术（LP），其中后者较好的解决了语音信号产生模型的问题，对后来语音识别的发展产生了深远的影响。 70年代，LP技术得到了进一步的发展，动态时间归正技术（DTW）基本成熟，特别是矢量量化（VQ）和隐马尔科夫（HMM）理论的提出，并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代，实验室语音识别研究产生了巨大的突破，一方面各种连接词语音识别算法被开发，比如多级动态规划语音识别算法；另一方面语音识别算法从模板匹配技术转向基于统计模型技术，研究从微观转向宏观，从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型（HMM）就是其典型代表，能够很好的描述语音信号的时变性和平稳性，使大词汇量连

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文学院：化工与环境学院学号：2120151177 姓名：杜妮

摘要：随着计算机技术的不断发展，人工智能程度也越来越高，作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献，分析最新声音识别的方法和应用。关键字：模式识别声音识别方法应用随着人工智能的迅速发展，语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令，并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括：特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术，语音识别在过去的几十年里取得了飞速的发展，人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造，以期发现更好的方法来完成语音识别流程中的各步骤，以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献，分析目前语音识别流程中的技术进展和趋势，并在文章最后给出几项语音识别在日常生活中的应用案例，从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法 (一)特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础，只有分析出可以代表语音信号本质特征的参数，才能对这些参数进行高效的语音通信，语音合成，和语音识别等处理，并且语音合成的好坏，语音识别率的高低，也都取决于语音特征提取的准确性和鲁棒性。目前，针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟，已经能够满足通常应用的要求，并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

语料库与语料库建设

语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库（corpus）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前，语言学家对于语料库的定义不尽相同，如辛克莱（Sinclair）认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克（R.Quirk）等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库，在此基础上完成的《现代英语语法》（ A Grammar of Contemporary English）和《英语语法大全》（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

雅思王听力真题语料库的使用方法

哈喽宝宝们，今天给大家带来王陆老师语料库正确使用方法首先说一下同学们雅思听力存在的问题，听到某些单词反应慢，或者拼写速度慢，或者写出来不正确，所以可能造成分数比想象的少个0.5 - 1分左右。雅思听力7分以上要求更多的不常见单词写对，比如technician、secretary。雅思在2019年5月出现了一个新词，saliva（唾液，口水），这个估计很多同学反应不出来或者压根不会。很多同学问，语料库对选择题有帮助吗？答案是肯定的，比如，给的选项是fruit、vegetables.假设听到的原文是asparagus，那么可能同学们不一定知道这个是芦笋。如果原文是cabbage，那么估计多数同学会选对。这样来总结:听力想多分数，必须要增加一些会听会写，反应快的词汇！语料库是一本学习雅思听力比较有帮助的词汇书。现在最新版的语料库是机考笔试综合版，通过雅思考试，我们可以看出语料库覆盖雅思考试中的听力词汇，请同学们一定要练习拼写和发音。剑桥雅思系列4-14对于同学们考雅思熟悉题型有帮助，但是可能考试中出现的答案词同学在剑桥系列中没有见过，所以这就是语料库练习的好处了！ 2020年的语料库重点章节:11章+5章+3章+4章第11章和5章尤其重要。例如在2019年5月18日考试中，caravan出现在section 答案中，很多学生说多亏提前练习了，才能写对，今年1月18考试中也出现了这个词。特别注意:同学可能3章正确率到95％，但是11章80％多，但是最后可能你遇到的答案词就是来源于不熟悉的11章。所以请同学们以最差章节正确率为自己的分数基准！原因:可能有些人不会什么就考什么！！特别注意:只练习横向听力，不用练习纵向听力。其中的预测试词汇重要度排第二位，在保证了普通词汇正确率95％之后或雅思听力7分之后再练习这些。（预测试单词很难，这些词来源于2016年雅思听力真题答案）所以，建议同学先保证普通的词汇听见能写对，再来预测试练习！语料库第8章适合数字字母，地址等信息不能快速捕捉到的考生，这部分练习对于Section1想得分的同学尤其重要。语料库听写的目标: 第3章第4章第5章+11章：单词加速1.6倍速度，95％正确率（5章不用加速）同学们会问，其它章节不重要吗？答案是重要重要重要。可是，如果练习时间不够，先把3、4、5、11章节练习好。同学们只有在这四章听写正确率到了95％以上之后，才可以继续听写其它章节，这样听力分数提高更快。如果时间短，那么只能把这四章听写好。在练习这本书时，我们只需要听写横向听力就可以了，纵向听力不用练习（这是给雅思听力已经考到7分，又有时间准备，想到更高分数的同学准备）。其它同学不用练习纵向听力。错误的学习方法: 很多同学觉得自己基础不好，所以听写完一个章节之后，立刻对答案，发现正确率太低，然后就猛背错词，然后就再重新刷，发现正确率高了之后又刷，来得到成就感，满足感，但是这样的方法存在的问题是你正确率高了，等刷到后面别的章节之后一两周再回来，正确率

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计，实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件，以课文"Blackmail"为小型教学语料库，探索高级英语语篇教学的新途径。关键词语料库检索分析；高级英语；语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程，其教学目标是"通过阅读和分析内容广泛的材料，扩大学生知识面，加深学生对社会和人生的理解，培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力，巩固和提高学生英语语言技能"1。鉴于此，围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注，如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来，随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展，高级英语课程改革成绩斐然，教学效果显著提高。然而，在语篇教学中不难发现，由于缺乏科学的文本分析手段和工具，学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7，或者依赖于教学参考书籍上的注解，学习效果大打折扣，成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持，对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来，语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8，而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象，通过对大量语言事实进行分析，寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据，且基于语料库而得到的数据避免了偶然性，从而提升了分析结果的可信度。因此，语料库语言学为语言研究和教学提供了一种全新的模式。随着计算机信息技术的日新月异，语料库为语言研究提供了空前广泛的语言资料。目前，国际上影响较大的语料库有英国COBUILD语料库（CollinsBirminghamUniversityInternationalLanguageDatabas e）、BNC英语国家语料库（TheBritishNationalCorpus）、CIC 语料库CambridgeInternationalCorpus、ICE语料库

学为贵雅思：雅思备考资料

学为贵雅思给不同雅思水平阶段的考生推荐备考书籍许多烤鸭对于雅思学习的教材有着各种各样的疑问：这本书写的是什么？我应该买什么书？今天小贵贵就为大家介绍一下咱们学为贵的雅思真经教材，并为不同阶段的你做一个修炼手册的推荐！一.听力真经修炼手册 1.《雅思王听力真题语料库》语料库是每个烤鸭的必备书籍，语料库中所有材料首先建立在对2015年之前所有的语言类书籍的研究成果，特别是对剑桥1-10计算机分析成果之上还包括广大考生所提供的考试回忆。书里面归纳总结了许多的听力考点词包括：名词，动词，形容词，数词，字母，词组等，这些词都是雅思考试中会听到甚至需要写出类的单词。王陆老师独创的点听，复听，魔鬼跟读法在这本书上都有详细的使用说明和介绍。本书适合听力基础比较薄弱，刚刚接触雅思的“小白”，建议没有考过雅思的考生先用语料库打好单词基础，在此之上再加入听力技巧的使用，并用剑桥真题来做考前模拟。 2.《剑桥雅思听力考点词真经（剑10版）》所谓考点词就是在测试环节中表征测试目的的词汇。雅思听力考试题目的本质和雅思阅读一样，是考查考生的同义替换能力。而这本听力考点词真经就是总结了剑4到剑10真题中，所有题目所对应的同义替换词。这些同义替换是剑桥官方要求考生所必需掌握的听力词汇，也是雅思听力考试的精髓。这本书在总结这些考点词的基础上还配有词汇的音频。本书有两种排列形式，一种是按照雅思真题的分类方式，一种是按照九宫格的方式排列。无论是哪一种排列方式，都可以作为考生记忆和自我测试的工具。本书适合具备一定词汇量，并已经开始做雅思真题的烤鸭。建议在做完一套真题后，对照本书中这套题的考点词来进行归纳，总结。这样才算真正做完，做懂一套雅思真题。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符例如“I see a cat and a dog”类符6个，形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法，可以辅助说明文本的词汇难度。但是，文本中有大量功能词出现，文本每增加一个词，形符就会增加一个，但类符却未必随之增加。这样文本越长，功能词重复次数越多，TTR会越低。因此用TTR衡量词汇密度不合理，于是，出现了标准化类符/形符比，即STTR。例如，计算每个文本1000词的TTR，均值处理，得出STTR。Frequency（频率）例如每百万词、十万词中，某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量，用卡方检验或对数似然率进行对比，来确定两个库中该单词的使用是否有差异。 Wordlist词表根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目，词元比如go是lemma，对应各种屈折变化形式（inflections），go,goes,went,going,gone共5种屈折变化形式。在分析语言时，需要将它们全部归到go名下，这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引（KWIC 语境中的关键词key words in context）运用索引软件在语料库中查询某词或短语的使用实例，然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境，可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

语料库语言学的发展

语料库语言学的发展语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展；二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

语料库常用统计方法

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中，我们需要描述这些样本的出现和分布情况。此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。理论上说，几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。那么某词（如many ）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many 在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many 在第二个语料库中更常用。这里大家很容易想到，两个语料库的大小未必相同。按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。实例及操作频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency ）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。即： 1000?=总体频数观测频数标准化频率（每千词）（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。）例如，more 在中国学生的作文里出现251次，在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外，我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

陆陆教你语料库的正确打开方式

陆陆教你语料库的正确打开方式写在前面的话雅思王听力真题语料库是一本学习雅思听力比较有帮助的词汇书。当当，亚马逊，卓越都有卖的。现在最新版的语料库是剑10版,通过2016年1月的四场考试,我们可以得出结论,现在经常出现ABC卷,所以请同学们认真准备雅思,这样才能得到理想的雅思成绩。很多同学可能认为语料库只对于听力填空题有帮助，但是各位同学学习久了就会发现，词汇是基础，没有单词，选择题很难做出正确的判断。同学们可以想象：文章由段落组成，段落由句子组成，句子由词组组成，词组由单词组成，所以反过来，如果单词有问题了，文章也很难理解。特别注意：淘宝网有好多盗版的语料库，如果封面没有烫金字VOICE OF CAMBRIDGE, 那么就是盗版的,盗版是没有光碟的.目前有封面IELTS (旧版) 和剑10（新版）的。最佳版本：剑10是最新的，IELTS，2013也可以使用，但是2011,和2012封面的就是古董啦。中间加了很多词，建议大家使用最新版本（807听力非常有名，如果大家是网上下载的王陆807升级版，建议扔掉啦（因为那是我2006年录的，雅思变化太大了，已经无法跟上时代了）如果是807那本书，大家如果喜欢，可以继续使用，但是没有重点，必须1-9章

都听写好）2016年语料库重点章节重点章节为：5章，11章，3章，4章。如果数字字母等第一部分的基本功有问题，推荐每周练习1-2次8章，这个尤其在有干扰的情形下练习效果最好了。5章：就是词组搭配比较多的章节，也是吞音连读的章节。这些词组就是雅思考试中的神组合，意思就是经常出现的搭配，如果在考试题目要求中看到了NO MORE THAN THREE WORDS, 那么一定要注意听词组搭配，尤其是同学们不太熟悉的搭配，例如,hall of residence （学生宿舍），blue folder (蓝色文件夹)这样的不常用搭配，另外，也要注意guided tour,有下划线的代表容易漏写的，请小心。1月9日考试的3,4部分答案大量来自于这个章节。例如，unsocial hours, internal clock, articles from journals, photocopies of notes等。11章：2014-2015年的雅思听力新增词汇，按照四个部分排列的，其中很多单词都是首次出现在雅思听力考试中，请同学们一定要加强练习，这个部分在1月23,30日的考试中出现在1,4部分。最后的目标：单词1.6倍速，词组原速，正确率达到95%。经过基于大量数据基础上的统计，语料库听写正确率与听力分数的关系是这样的通过4年的统计，大量数据表明：语料库听写正确率20%左右，听力考试实际分数3.5.语料库听写正确率70%左右，听力考试实际分数5.0.语料库听写正

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)（平行或对应）语料的对齐Alphanumeric字母数字构成的 Annotate标注（动词） Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注（名词） Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)（主题词的）联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本（一句源语一句目标语对齐后的文本） Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion（新手）训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类（范畴）的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词；搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

语音识别技术

语音识别 1 摘要语音识别对于多年的研究人员来说一直是迷人、有趣的话题。过去几年在这一领域已经取得了很大进展，主要是由于多年的研究和高性能系统和算法的可用性。语音识别是一个声音信号转换为一组词的过程。许多不同的技术和应用都参与了识别的过程。该模板和统计方法是两大模式识别模型。首先是这样一个模型，它采用平均程序派生出词组和一个距离测度的比较模式。隐马尔可夫模型（HMM）是一种广泛使用的统计方法的例子，这是基于语音信号的特点可以作为参数随机过程的想法。语音识别被几种不同类别的用户使用。那些使用他们的手型有困难的人、专业人士，和有学习障碍的人是它的主要使用者。语音识别既有的优势也有局限。该软件可以给各种各样的使用者和许多因技术的提高而有生活乐趣的人提供了福利。尽管几十年的研究和技术的显着改善，但仍需要很大的努力，必须采取进一步的研究以应付存在的限制，重要的缺点是，使用者对处理器的功耗和低准确率的高要求。

1 摘要 (1) 3简介 (3) 4语音识别的一般问题 (3) 4.1历史回顾亮点 (3) 4.2过程概述 (4) 4.3用户和使用领域 (4) 5语音识别过程 (5) 5.1难点 (5) 5.2工艺步骤 (5) 5.2.1数字化 (6) 5.2.2代表 (6) 5.2.3搜索 (6) 5.3鲁棒性 (6) 5.4识别模型 (6) 5.4.1隐马尔可夫模型（HMM） (6) 5.4.1.1声学模型 (7) 5.4.1.2字和单元模型 (7) 5.4.1.3语言模型 (7) 5.5系统的范例 (7) 5.6 优点和局限性 (8) 6结论 (9)

现在和几乎过去的五十年，由机器实现自动语音识别是语音科学家和工程师的最终目标。在过去几年中，在语音识别技术已经发生了戏剧性的好转。这是由于有效的系统和算法有很大的进步，以及多年的研究。语音输入，对于有或没有残疾的人似乎都有很大的潜力。语音识别可用在不同的领域，如在电话网络的自动化，提高运营商服务。在过去的今年中这项研究已经取得了不断的进展。但是我们仍然远未达到让一个智能的机器可以理解任意发言者讲的每一句话的期望目标。基本的和语音识别过程都是本报告的考虑范围。 4语音识别的一般问题 4.1历史回顾亮点许多对声学语音学的基本思路的研究都发生在20世纪50年代。这是第一步，用机器建立自动语音识别装置系统。1952年在贝尔实验室，一个分离单扬声器的数字识别系统建成。尝试识别10个不同的音节，体现在10个单音节词，这是一个演讲者1956年在RCA实验室做成的。1959年，在英国大学学院，建成了一个音素识别器，它能识别四元音和九常数。频谱分析仪和模式匹配被用表彰这个仪器。另一个亮点是在1959年，元音识别器在麻省理工学院林肯实验室被建造出来。这种识别器可识别嵌入在任意一个音箱/ b/-vowel-/t 中的10个元音。几个基本的突破发生在1960年。识别器的硬件和硬件元音音素识别都于1962年在京都大学建成。1963年在NEC实验室建立了硬件数字识别。这十年包括三个关键研究项目，它们是在过去20年对语音识别的研究和开发的主要问题。首先，一套基本的时间归一化方法，伴随着降低变量作为任务识别的分数，在RCA实验室被创建。第二，Vintsyuk 提出了一种对话语进行修辞调整的时间动态规划方法。在20世纪70年代孤立词的识别是研究领域的关键。在俄罗斯，美国和日本的研究产生了“孤立词”技术的效用。在过去的20年里，IBM的研究人员在“大词汇量语音识别”领域研究了三个不同的任务。在AT＆T贝尔实验室中进行了“真正的扬声器独立扬声器识别系统”的实验[1]。 1980年，连字识别成为了一个重要的焦点。许多连字算法制定和实施了意图识别流利口语话的字符串匹配，这是基于单个单词的级联模式。在这十年中通过了两项新技术。首先，统计建模方法是关注的焦点。隐马尔可夫模型尤为广为传播。使用神经网络来解决问题被重新提出。国防高级研究计划局（DARPA）社区实施了大词汇量连续语音识别系统的研究[1]。 DARPA的项目是一直持续到20世纪90年代。在这十年中，语音识别技术被广泛应

语料库的类型

语料库的类型［作者：李文中转贴自：Corpora and the ELT点击数：97 文章录入：neilruan ］语料库来自拉丁词corpus，原意为“汇总”、“文集”等，复数形式为corpora或corpuses。语料库是“作品汇集，以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集，为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”(Sinclair，1986:185-203)。语料库是按照明确的设计标准，为某一具体目的而集成的大型文本库（Atkins and Clear，1992:1-16）。 Renouf认为，语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”（Renouf, 1987:1）。 Leech指出，大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础，“为获得必需的频率数据，我们必须分析足量的自然英语（或其它语言）文本，以便基于观测频率（observed frequency）进行合乎实际的预测。因此，就需要依靠可机读的电子文本集，即可机读的语料库”(Leech, 1987:2)。综上所述，语料库具有以下基本特征： 1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的，语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析，而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语，目的是进行美国英语和英国英语的对比分析和语法分析。 2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的，而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料（naturally-occurred data）。 3）语料库作为自然语言运用的样本，就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料，其结果必然存在偏差，缺乏代表性，“自然语料库存在如此严重的偏差，以至于对其所进行的描述将不过是一个词表而已”（Chomsky, 1962:159）。这种批评对任何以概率统计为基础手段的研究都是有价值的（McEnery, 1996:5）。但是，目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差，增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围，如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i]；再就是确定语料的分层结构，进行分层抽样，如把语料按文类（genre）和信道（channel, 如书面语和口语等）进行分层，如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’（balanced）和‘塔式抽样’（pyramidal）。前者对各种语料按平均比例抽取，而后者对不同的语料进行不等比例抽取。 4）语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上，以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本（htm 或html）格式转换为纯文本。另外，语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求，以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互，这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式：（1）‘数据检索模式’。计算机以便利的形式提供数据，人进行分析。（2）‘共生模式’。计算机提供部分经过分析的数据，人不断改善其分析系统。（3）‘自我组织模式’。计算机分析数据并不断改善其分析系统，人提供分析系统参数及软件。（4）‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析，人提供软件（Leech，1991：19）。计算机自动处理包括自动词性附码（tagging）、自动句法分析（parsing）等。其基本处理和分析过程包括以下几个步骤：语音分析（phonetic analysis）指音段分析，主要用于语音识别和语音合成。正字分析（orthographic analysis）指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。形态分析（morphological analysis）即词性指定和附码。语料库自动附码软件通过概率统计和分析，对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。句法分析（syntactic analysis）是指句子成分切分、句法关系识别、以及句法分析。语义分析（semantic analysis）和语用分析对语篇进行语义指定和意义解释。 5）基于语料库的研究以量化研究为基石，以概率统计为基本手段，以“数据驱动”为基本理念。其基本方法是通过对实际语言运用的抽样，确定其对语言整体的代表性，通过对样本特征的描述概括整体特征。在量化分析中，首先对特征进行分类，并统计各个特征的频率，通过建立复杂的统计模型对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征，那些现象仅属于偶然的个例。针对某一语言变体而言，我们还可以确切地知道某一语言现象的显著性，从而确认该现象是规范的还是异常的（McEnery，1997:3）。 6）语料库既是一种研究方法，又代表着一种新的研究思维，并以当代先进的计算机技术为技术手段。 7）语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse)，而不是孤立的句子和词汇。在语料库研究中，对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境（context）进行的。语料库索引提供的语境可分为以下几种：（1）指定跨距，即使用者指定以搜索词为中心左右相邻的词数；（2）意元语境，即以某一意义单元结束为一微型语境，在语料库索引中意元的确定是以意义结束符号如“，；”等为标识的；（3）句子语境，即以句子终结符号如“. !”等为标识；（4）可扩展语境，即对搜索词所在语境可无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛（word cluster）、词汇在连续语篇中呈现的范型（pattern）、以及主题词汇之间的意义关系提供了可靠而方便的途径。如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式，定义为“必定，必然”；Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条，给出的定义为“adv as a necessary result; inevitably”；各种英语教科书中对该词的定义和解释也大同小异。在上海交大科技英语语料库（以下简称JDEST）中搜索“necessarily”这个词，发现该词在全库中出现264次，频率最大的搭配词“not”出现在该词左边第一个位置，观察搭配频数为136。全库中出现5次以上的三词词丛有20组，同时含有“not”和“necessarily”的词丛有18组。通过索引行统计和词丛统计可以看出（见图2.4示例），“necessarily”一词最典型的用法是与“not”

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例王树振（天津师范大学外国语学院，天津， 300387）【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》（1922），自发表以来便引起文学评论界的极大关注。在作品中，通过对一个日常生活片段的叙述，作者揭示了女性生存困境的主题。而基于语料库的文学研究，则是通过利用语料库检索软件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上，笔者拟运用语料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等语料库检索软件，笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析，最后不仅能够分析得出海明威用词简单、句子简短的写作风格，还能利用关键词检索和自动生成的语境，来了解小说的主要内容和人物形象的塑造，这为解读小说的主题提供了新的研究方法和途径。【关键词】语料库检索；写作风格；主题近年来, 国内外不少学者将语料库研究方法应用到文学领域，利用语料库检索软件对文本进行分析, 如Sinclair（1991）、Biber（2000）、张厚振（2004）、肖普勤（2005）等。他们的研究大胆创新，为后来的文学研究者带来很大的启示。正如Sinclair（1991: 36）所论述的那样，“（语料库检索）最激动人心的方面不是对描述进行直观的分类，而是为找到新的方法、新的证据以及新的描述提供可能。在这里，计算机技术的客观性和表面的正当性变成了一种优势，而不是没有放弃直觉前提下的一种责任。当然，我们要尽力找到符合证据的解释，而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇，故事情节主要围绕一只雨中的猫展开，叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析，以展示语料库检索软件在文学分析方面的强大功能。一、基于词表的文本总体特征分析基于语料库的语言研究一般采取定性与定量相结合的研究方法，要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计，自动生成词表(图1)。它可以提供文本中的简略统计数据，从而有助于分析文本的总体统计特征和基本情况。