语料库检索程序concapp使用简介

合集下载

AntConc的详细使用说明

AntConc的详细使用说明

AntConc3.2.0的使用说明11.提取语境共现1.1设置检索项(1)单项检索a)点击file下拉菜单中的“open files”,选择要打开的语料(如果想打开整个文件夹,可以选择open directory);b)在“Search Term”一栏键入要检索的词项,如go;c)在“Search Window Size”一栏设置每一共现行出现的词数;d)点击,开始检索。

检索结果如图1.1所示:图1.1单项检索结果(2)多项检索●设置多项检索除了检索单个词项以外,AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号。

例:要检索动词go的各种时态形式,可在“Search Term”中输入go|went|gone|goes ●设置语境词检索为了限制语境共现的检索,可以设定一个语境词在检索项周边一定的语境范围内出现。

例:如要研究 a … of 这一类词组,可通过AntConc提取所有的词项,检索方法如下:a)在“Search Term”一栏键入a;b)点击“Search Term”旁的,进入“Advanced Search”界面,如图1.2所示。

点击“Use context words and horizons”,然后在“Context Words”一栏键入of,点击。

如要重新设置语境词,可先点击清除原来语境词,后重复以上操作。

另外,还需设定语境词距离检索项的位置,如本研究中,of在a的右二位置,所以1此说明书由华南师范大学外文学院2007研究生张杏娟编写,导师何安平订正和补充。

其中限定范围的检索方法由香港城市大学D.Lee博士提供,仅此致谢。

“Content Horizon ”确定为,最后点击;c)回到语境共现的界面后,点击,开始检索。

结果可提取a lot of, a bit of 等词块。

●设置多字语检索在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适合检索项数目较多的情况。

语料检索的速成教程:AntConc生鲜入门

语料检索的速成教程:AntConc生鲜入门

《语料检索的速成教程:AntConc生鲜入门》作者:李亮(广东外语外贸大学 词典学中心)2012年8月27日 Email: 492130980@【步骤1】AntConc这款免费软件,诞生于2002年4月16日(当时是1.0版),到2012年8月就刚好10年4个月了,适合处理不超过200MB的英语语料,因为当你处理200MB 的txt文件的时候,要占用1GB的物理内存呢,而100万英语单词的“中国英语学习者语料库”(CLEC库)才6.6MB,足够处理30个“CLEC库”了,也就是3千万单词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(1970年出生),本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc;【步骤2】AntConc有七大功能,你一看(下面截图的7个菜单项目)就眩晕的话,不妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3大关系”:(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差异?【步骤3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己的人际交往圈子,也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,也许跟你不认识,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;【步骤4】AntConc就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;【步骤5】AntConc的7大菜单,其实相当于在回答这7大问题:●●●●经常擦肩的身边人有哪些?(Clusters)●固定交往的身边人有哪些?(Collocates)●●多处兼职的身边人有哪些?(Keyword List)【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是“AK47”(诞生于1947年,是苏联人研制的稳定耐用的优秀的自动步枪);而“AK47”在整体上虽然你应该把它看作一个单词,但是,AntConc的默认状态却是只认“AK”呢!【步骤7】我们当前所处的时代是“2010s”,根据维基百科,它意味着2010年1月1日到2019年12月31日之间的整整10年,我是“70后(70s)”,你也是“70s”或者“60s”或“80s”啦,“We are 70s”这三个词,AntConc会告诉你“它”只看到“We are s”这三个词,它这么抬高“s”这个后缀字母的地位,你也许极为不赞成,但这就是AntConc 的默认状态!【步骤8】"2012"是一部关于全球毁灭的灾难电影,讲述在2012年世界末日到来时,主人公以及世界各国人民挣扎求生的经历,当你用AntConc来计算“2012 is a good film”这个句子有多少个单词,AntConc会告诉你“只有4个单词”,因为它在默认状态下会对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见!这也就解释了上面的“AK”与“47”发生脱离的问题;【步骤9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达的缩略形式,例如is not变成了isn't呀,are not变成了aren't呀,was not变wasn't呀,has not变hasn't呀,will not变won't呀,would not变wouldn't呀,shall not变shan't呀,do not 变don't呀,did not变didn't呀,ought not变oughtn't呀;反正,单引号都代表着“被省略的字母o”;这些“中间有单引号兼省略号的否定合成词”你让AntConc来计算“单词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didn't”就变成了“didn”和“t”,而“isn't”变成了“isn”和“t”,而“don't”变成了“don”和“t”,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!【步骤10】英语中也有“Ph.d.”或“a.m.”或“o'clock”或“etc.”这类单词,其他中间或单词尾部带“省略符号”的词也频频露面;AntConc也都把“省略符号”当作“词与词的国境线”而把它们强拆开;【步骤11】上面这些“AntConc的默认状态的异常现象”的根源,并非AntConc的“缺陷”,而是英语实在是太复杂了,“一条规则”总是夹杂着“多条意外规则”,到底是“漏过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认的对单词的识别规则是“纯粹字母的连续体”呢!……一旦遇到一个并非字母的符号就被当作“前一个单词与后一个单词的分界线”了【步骤12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”之间的比喻;这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计算结果不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就是从“什么是独立且完整的单词”而缘起的!【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3大类:视而不见类,点头之交类,促膝谈心类。

antconc平均句长

antconc平均句长

antconc平均句长随着语言学习与研究的不断发展,各类辅助工具应运而生。

其中,AntConc是一款备受瞩目的语料库分析软件,广泛应用于英语学习、教学和研究领域。

本文将详细介绍AntConc的平均句长分析功能,并探讨其在提高写作技巧和语言表达能力方面的实用价值。

首先,让我们了解一下AntConc的背景及功能。

AntConc由日本学者桥本尚久开发,适用于Windows和Mac操作系统。

这款软件的核心功能是处理和分析大型文本语料库,为语言学习者和研究者提供便利。

其中,平均句长分析是AntConc的一项重要功能,可以帮助用户了解文本的句子结构及表达能力。

接下来,我们来介绍一下如何安装和使用AntConc软件。

首先,从官方网站或其他可靠来源下载适用于您操作系统的AntConc安装包。

下载完成后,按照安装向导的提示完成安装过程。

安装完成后,打开AntConc,导入您需要分析的文本文件。

在软件界面中,您可以找到“平均句长”选项,点击后即可查看分析结果。

那么,AntConc的平均句长分析功能如何帮助我们提高写作技巧和语言表达能力呢?让我们深入了解这一功能。

在平均句长分析结果中,您将看到以下几个指标:1.总字数:文本中包含的总字数。

2.总句数:文本中的句子总数。

3.平均句长:文本中所有句子的平均字数。

4.最长句子:文本中最长的一句话。

5.最短句子:文本中最短的一句话。

通过分析这些指标,您可以更好地了解自己的文本特点,进而调整写作策略。

例如,如果您发现平均句长较长,可以尝试使用简练的表达方式,提高文章的阅读速度。

反之,如果平均句长较短,可以尝试加入一些长句,使文章更具深度。

同时,关注最长和最短句子,确保文章的句子结构多样,避免单调。

总之,AntConc的平均句长分析功能为语言学习者和创作者提供了一个实用的工具。

通过了解和运用这一功能,我们可以更好地掌握文本的句子结构和表达能力,进而提高写作水平。

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载资料来源:博主按:以下文字和软件等版权属原作者,使用请注意版权。

部分网址可能失效,但是可以按图索骥。

博主对原文和原软件作者深表谢意!作者:张义出自:张义的语言学博客浏览/评论:3,577/5日期:2005年10月20日18:011.concapp04(concapp03的修订版,可支持超大字符集)软件下载地址;(concapp03版)2.Wconcord--语料库分析软件软件介绍:A slow but very stable concordancer that can create concordances,collocation tables,and frequency lists.Unfortunately,the output is limited to 16,000 lines.下载地址3.WordSmith Tools 4--语料库分析软件介绍Michael Scott's brilliant software.下载地址中科院计算所汉语词法分析系统ICTCLAS软件介绍:词是最小的能够独立活动的有意义的语言成分。

但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。

为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。

分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。

ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。

语料库AntConc软件的应用对《葡萄牙人十四行诗集》的分析研究

语料库AntConc软件的应用对《葡萄牙人十四行诗集》的分析研究

语料库AntConc软件的应用对《葡萄牙人十四行诗集》的分析研究作者:邓宇萍来源:《智富时代》2016年第03期【摘要】语料库语言学兴起于20世纪80年代,是一门新兴学科。

它主要以文本的检索,分析及统计数据为主。

常见的语料库软件如:Word Smith, AntConc等都可处理文本,为文学文本提供客观、理性的依据。

本文通过语料库语言学的方法,主要运用AntConc软件中的 Word List, Concordance, Concordance Plot, Keyword List 等工具来分析白朗宁夫人的《葡萄牙人十四行诗集》的文本内容,主题,语言特点等方面。

【关键词】AntConc软件;《葡萄牙人十四行诗集》;白朗宁夫人一、引言随着科技的日星月异,计算机科学应用在语言类人文学科的研究,也越来越呈现出新的视角和上升之势。

语料库语言学作为一个新兴发展的学科,但又位处边缘,其很好地结合了自然科学与文学。

然纵观近年发展态势,语料库语言学凭借自身的明显优势,发展迅猛。

对于一篇文本,无论其长或短,语料库工具都可以做出理性分析、得出客观数据。

所以,对于一个文学文本,如果可以系统地主观分析再加上客观理性的数据,则可以最大程度剖析文本本身和文本外传达的信息。

实现两者完美的结合,语料库工具提供的是客观的文本数据分析,所以建立在客观数据分析的主观研究则可以得到最有利的论证。

此外,语料库语言学就其自身特点——系统加工、分析和统计——客观地分析文本主题、角色特征、情节发展等。

在最短的时间内可清楚文本的核心内容。

甚至可以发掘一些潜藏的隐秘规律。

本文通过利用语料库软件AntConc对目标文本进行系统地分析。

比如:通过Word List工具,进行词频排序整理,得出高频词和低频词;通过类比型符type/token 工具,可得出词汇量的丰富程度,类比型符比值高说明词汇量丰富,反之,则低;其次,通过检索功能concordance工具,可以实现准确判断该检索词在具体文本出现的情境,提高了结论的精确性;File View 工具可以展示整个文本的细节;Cluster/N-Grams工具可用于提取搭配短语;Collocates工具可以提取搭配词表。

AntConc软件基本操作

AntConc软件基本操作

主讲人:李广伟010302AntConc 软件介绍AntConc 功能介绍AntConc 功能演示AntConc基本操作AntConc是由日本早稻田大学(WasedaUniversity)教授Laurence Anthony开发的一款免费的语料库检索工具,主要用于语料库语言学、翻译学、外语教学等领域。

AntConc软件介绍 功能介绍图1 AntConc打开主界面如上图所示,AntConc包含“concordance”索引工具、“Concordance Plot”索引定位、“File View”文件查看、“Clusters/ N-Gram”词丛/N元模式、“Collocates”搭配、 “Word List”词表、“Keyword List”关键词表等菜单。

◆ 该软件具有提取语境共现、提取搭配词表、提取词频表等功能,以下《黄帝内经·素问》为例进行逐一说明:◆ 运用concordance工具进行提取语境共现,首先,单击File菜单,选择Open Files, 选择要打开的语料(如果想打开整个文件夹,可以选择open directory),然后,在下方Search Term下的输入框里输入“Huangdi”。

功能介绍AntConc功能演示提取语境共现图2“Huangdi”语境共现界面如2所示,“Huangdi”一词被用蓝色进行了凸显,《黄帝内经·素问》英译本里共出现“Huangdi”644次。

◆ 单击“start”,检索结果呈现在KWIC里显示,如下图所示:AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号,如在“Search Term”里输入“do|does|did|doing|done”(如图3),还可以单击“Advanced”,勾选“Use search term(s) from list below”。

在检索下面框手动输入(也可以直接加载一个txt词表用来检索),注意每个单词独立成行,设置完成后单击“Apply,然后回到语境共现界面。

语料库及其检索工具在英语教学中的应用

语料库及其检索工具在英语教学中的应用

语料库及其检索工具在英语教学中的应用刘晓阳(安徽农业大学外国语学院,安徽合肥230036)摘要:随着电子语料库的发展,它在英语教学中的应用也逐渐引起研究者们的重视。

本文重点分析了语料库及其检索工具所提供的词频表和惯用搭配在英语教学中的应用。

关键词:语料库;检索工具;词频表;惯用搭配中图分类号:H319文献标识码:A文章编号:1009-2463(2006)01-0140-05TheUseofCorporaandConcordancersinEnglishLanguageTeachingLIUXiao-yang(DepartmentofForeignLanguage,AAD,Heifei,230036,Anhui)Abstract:Withthedevelopmentofcomputerizedcorpora,researchersshowconsiderableinterestintheirapplicationinEnglishLanguageTeaching.ThispaperfocusesontheuseoffrequencylistsandcollocationsprovidedbycorporaandthecorrespondingconcordancersinEnglishlanguageteaching.Keywords:corpus;concordancer;frequencylist;collocation语料库是大型的书面语和口语的自然语言材料的集合。

随着计算机的发展和应用,我们目前所使用的语料库基本上都是通过计算机以文本形式来存储大量语言材料的电子语料库。

20世纪90年代以来,伴随着大规模﹑多品种语料库的建设,"语料库语言学"(CorpusLinguistics)这一名词频繁出现在应用语言学的研究领域。

对于这一术语,我们可以从两个角度来理解:一是语料库语言学是利用语料库对一些自然语言现象进行分析,从这个意义上讲,它是一种新的研究语言的手段;二是针对语料库所反映的语言现象从一种新的角度对语言学理论进行研究,从这个意义上讲,它一门新兴的学科。

语料库检索及处理分析软件HyConc功能与特点

语料库检索及处理分析软件HyConc功能与特点

Oc t . 2 0 1 3
E X D I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1 — 4 3 7 3 . 2 0 1 3 . 0 5 . 0 2 4
语 料 库 检 索及 处 理 分 析 软 件 H y C o n c功 能与 特 点
刘 克 强
( 云南红河学院 外国语学院 , 云南 蒙 自 6 6 1 1 0 0 )
功能如下 :
前 者 。Hy C o n c 是 由中国传 媒大 学博 士生程 南 昌开发 的 , 此 软件是一 款 免 费 共 享 绿 色 软 件 , 最初问世于 2 0 0 6年 , 在 Wi n d o ws 系 统 下运 行 , 当时命 名 为 语料 库 处 理 软 件 V1 . 0 HC 2 O o 7 Ⅵ L , 并取得 了国家计算 机软件 著作 权证 书 , 是作 者硕士论文 的成果 。该 软件 基于 D e l p h i 环 境开 发 的 , 当 时 主要是处理汉语 、 英语 及 小语 种的单语 语 料。功 能涉及 字 、 词频率及词形 、 词类频 率 的统计 、 排序 、 汉语 特 征语 言( 重叠
1 .单语语料分析处理功能 Hy C o n c 在问世之初 , 即名 为 HC 2 0 0 7 Y L C L时 , 主要 是 检索和分析汉语语料 的 , 因而在 汉语处 理方 面 比较 强大 , 而
且有显著的特色 , 是 目前 市面上许 多商 用软 件所不 具备 的 ,
Hy C o n c 后来逐渐增加了别 的语 种 的处理 , 目前 这款软 件ቤተ መጻሕፍቲ ባይዱ
8 )强大的文本辅 助处理功能 , 如批量编辑 文本 、 分割文 本、 文本 替换 等等 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,输入检索词efficiency。单击OK
弹出对话框
从中可以选择文件。可以选择一个或几个txt文档,或者单击最下面的Select all matching files,从而选中该文件夹中的全部txt文档。
弹出窗口
可以看到,此例中,五篇txt文档共检索出5处含efficiency的地方。
在颜色显示为红色的文字处单击右键
Wikipedia:语料库一词在语言学上意指大量的文本,通存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
Concapp由香港理工大学虚拟语言学习中心发布,是一款针对语料库的检索软件,主要支持英语语料的处理,汉语和日语语料的处理不够理想。
例如,输入关键词robot,输入一个相关词fish。进行检索。
弹出检索结果窗口
即弹出此句话的出处文档,并在该文档中标示检索词
3.concapp还可以检索同时存在多个检索词的语句。
单击菜单栏concordance选项,单击concgram search。
或直接单击菜单栏下的图标(图中标黑框)。
弹出对话框,与简单检索一样,击OK。
弹出对话框,可以输入一个关键词和三个相关词,其他与简单检索一样。
或直接单击菜单栏下的图标(图中标黑框)。
弹出对话框
其中Unicode是使用双字节对字符进行编码的统一码。一般选择ANSI,单击OK。
弹出对话框
对话框中,在Search string栏输入检索词。
File栏:Open是对打开的文件进行检索,Directory则是对目标文件夹中的文件进行检索。
Search Option栏:Word/phrase:搜索单词和短语,Prefix:搜索前缀,Suffix:搜索后缀,Any string:搜索出现在任何位置
Concapp在英文科技论文写作中,可以帮助我们了解其他文献(尤其是native speaker的论文)中一些词的用法。
使用:
1.concapp只能处理txt格式的文档,首先应将所用文献由pdf转为txt。
2.Concapp无需安装,直接双击exe文件(小于1M)即可运行。
3.单击菜单栏concordance选项,单击concordance search(F5)。
相关文档
最新文档