语料库 !!!
中医话语语料库

中医话语语料库
中医话语,那可真是一座神秘而又丰富的宝藏!你想想,咱们日常
说的“上火”“湿气重”,这些词是不是特熟悉?这就是中医话语里的一部
分呀!
就说我上次身体不舒服,去找中医瞧瞧。老中医把了把脉,看了看
我的舌头,然后一脸笃定地说:“孩子,你这是肝气郁结啦!”我当时
就懵了,啥叫肝气郁结?老中医不紧不慢地解释:“这就好比你心里头
有股气,堵在那儿出不来,时间长了就把身体给憋坏喽。”你说这比喻,
多形象!
还有我邻居大妈,总说自己“气血不足”。她天天念叨着要补气血,
又是喝中药,又是吃红枣。我就好奇地问她:“大妈,您咋就知道自己
气血不足啦?”大妈拍拍我的手说:“丫头,你看我这脸色苍白,整天
没精神,还总头晕,这不是气血不足是啥?”
中医话语里还有很多有趣的说法,像“肾主骨”“心主神明”。这就好
像每个脏腑都有自己的职责,得把活儿干好了,身体这台大机器才能
正常运转。
中医话语不只是简单的几个词,它背后是一套完整的理论体系和几
千年的实践经验。它就像一位智慧的长者,默默地守护着我们的健康。
我觉得呀,咱们可得好好挖掘和传承中医话语这笔宝贵的财富,让
它在现代社会继续发挥大作用!
语料库笔记

语料库简单DIY 第一讲语料库--语料库语言学的工具主讲叶城日本国立广岛大学综合科学研究中心计算机辅助语言教学博士一年联系方式: QQ 47354211 E-mail: sery2004@在语言学QQ群里面混迹了多年,经常潜水走马观花似的看着群里面的朋友们针对语料库提出各种各样的问题和困惑,总结起来,大家的问题无非离不开对于语料库的理解,应用,以及研究。
不过,因为群里面的朋友大多数都是文科的文学,语言学,以及对外汉语专业。
对于计算机辅助语言研究,语料库语言学等概念接触的机会并不是很多。
加上群里的女性朋友居多,她们对于电脑操作系统本身的使用都存在诸多头疼的问题,就更不要提数据量超大的语料数据库了。
本人不是计算机专业的毕业生,本科是日语专业,硕士是比较语言学,博士是计算机辅助对日汉语教学。
所以对于语料库本身的程序和数据库,认识只是停留在应用和架设阶段,实在说不清楚里面很多细节的问题,也请朋友们原谅。
我有说的不对的地方,欢迎来信或者QQ群里直接批判,我一定虚心接受。
谢谢!首先,我们来个扫盲活动,把对于语料库的认识梳理清楚。
第一个内容:语料库是干嘛的?CORPUS =The body of written or spoken material upon which a linguistic analysis is based .这里的CORPUS就是我们说的语料库,它实际上也等于CORPSE或者Dead Body。
就是死尸的意思。
好奇怪,这里怎么搞个死尸进来呢?其实这个概念是在构造主义时期1956年由英国的语言学会提出来的。
他们认为,人类研究语言的时候,需要诸多实体例子,这样的例子最好是最纯净的,最朴实的,甚至是最低俗低劣但是最普及的。
并且我们需要一个庞大的地方放置我们日常的言行,报纸杂志上刊登的新闻,以及各种各样的文学体裁等等。
而放置这些语言信息的地方,则被称为没有活力没有变化没有生机勃勃,像停尸房一样的地方----语料库。
语料库研究

语料库研究语料库研究是对大量的语言文本进行收集、整理和分析的过程,目的是研究语言的特性、规则和用法。
它在语言学、计算机科学和人工智能等领域有广泛的应用,包括自然语言处理、机器翻译、信息抽取等等。
语料库研究的重要性在于它能提供真实的语言使用情况,帮助我们了解不同语言的表达方式、用词习惯、句法结构等等。
通过收集大量的语言文本,我们可以统计并分析其中的词频、词义、语法结构等等,得到对语言规则和用法的深入了解。
语料库研究有几种常见的方法和技术。
首先是语料库的构建,需要从各种来源收集语言文本,如网页、书籍、报刊杂志等等。
然后需要对这些文本进行整理和标注,如分词、词性标注、句法分析等等。
接下来可以进行统计分析,比如计算词频、搭配频率、句子长度等等。
也可以进行语言模型的训练,比如n-gram模型、神经网络模型等等。
最后还可以进行语言规则的推导和应用,比如机器翻译、自动问答等等。
语料库研究的应用非常广泛。
在自然语言处理方面,可以利用语料库研究的结果来进行文本分类、情感分析、命名实体识别等等。
在机器翻译方面,可以利用语料库研究的结果来训练翻译模型,提升翻译的准确性和流畅度。
在信息抽取方面,可以利用语料库研究的结果来识别和提取文本中的实体、关系等等。
在问答系统方面,可以利用语料库研究的结果来进行问题理解和回答生成。
总之,语料库研究在语言学和计算机科学领域都有巨大的价值和影响力。
通过大规模的语言文本收集和分析,我们可以更好地理解和应用语言,从而推动自然语言处理和人工智能的发展。
但同时也要注意,语料库研究中需要考虑语言的多样性和变化性,以及数据的质量和可靠性问题。
只有在这些前提下,我们才能更好地利用语料库研究的成果来解决实际应用中的问题。
机器人语料库建设方法论

机器人语料库建设方法论嘿,咱今儿就来唠唠机器人语料库建设方法论这事儿。
你说这机器人啊,就跟那刚出生的娃娃似的,得给它喂饱知识才能茁壮成长。
这语料库呢,就是它的营养大餐啦!那怎么给它准备这顿大餐呢?首先啊,咱得广泛收集各种语料。
就好比咱做饭得有各种食材吧,不能光有萝卜白菜呀,还得有肉有鱼有海鲜啥的。
语料也是一样,要啥都来点,从日常对话到专业文献,从小说故事到科技论文,统统都要收进来。
这就像去逛超级大市场,啥都往购物车里扔,可不能挑三拣四的。
收集好了还不算完事儿,还得给这些语料分分类、整理整理。
你想啊,要是把大米和沙子混一块儿,那能做出香喷喷的米饭吗?肯定不行嘛!所以得把不同类型的语料分开来放,让机器人能清楚地知道啥时候该用啥。
然后呢,还得给语料做些加工处理。
这就好比把食材洗干净、切好,准备下锅。
把那些语句清理清理,去掉一些不必要的杂质,让它们变得更纯净、更清晰。
接下来,就是要让机器人去学习这些语料啦!就像咱上学读书一样,得把知识装进脑子里。
机器人也得把这些语料都记住,学会怎么运用。
这可不是一朝一夕就能完成的事儿,得慢慢来,一步一个脚印。
建设语料库可不是一件容易的事儿啊,这得花费大量的时间和精力。
但你想想,等机器人学会了这些知识,能跟咱畅所欲言,能帮咱解决各种问题,那多带劲啊!就像你养了一只聪明的小狗,它能听懂你的每一句话,还能给你回应,多有意思呀!而且哦,这语料库还得不断更新和完善呢!世界在变,知识也在不断更新,总不能让机器人一直吃老本吧。
就好比你一直吃一样菜,时间长了也会腻呀,得时不时换点新花样。
所以要不断地给语料库加入新的内容,让机器人一直保持学习的状态。
咱再想想,要是没有一个好的语料库,那机器人说话不就颠三倒四、前言不搭后语了吗?那可不行呀,咱得让它说话有条有理、有板有眼的。
这就全靠咱精心建设语料库啦!总之呢,机器人语料库建设就像是给机器人打造一个知识的宝库,让它在里面尽情遨游、学习。
这可是个技术活,也是个细致活,咱可得认真对待,不能马虎。
语料库与语料库建设

语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
语料库504

C1G3
Background Information
In linguistics, a corpus or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for sideby-side comparison are called aligned parallel corpora.
Terms
语料库Corpus 语料库即存放语言材料的仓库。现代的语料库是指存放 在计算机里的原始语料文本或经过加工后带有语言学信 息标注的语料文本。关于语料库的三点基本认识:语料 库中存放的是在实际使用中真实出现过的语言材料;语 料库是以计算机为载体承载语言知识的基础资源;真实 语料需要经过分析、处理和加工,才能成为有用的资源。
TEI文本编码Text Encoding Initiative TEI is a consortium which collectively develops and maintains a standard for the representation of texts in digital form. Its chief deliverable is a set of Guidelines which specify encoding methods for machine-readable texts, chiefly in the humanities, social sciences and linguistics. Since 1994, the TEI Guidelines have been widely used by libraries, museums, publishers, and individual scholars to present texts for online research, teaching, and preservation.
语料库的作用
语料库的作用:1.翻译学研究论文:语料库翻译学: 内涵与意义作者:胡开宝单位:上海交通大学外国语学院,上海200240如何作用:语料库在翻译学研究上的作用是指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,分析翻译本质、翻译过程和翻译现象的翻译学分支学科。
而语料库翻译学的诞生直接受益于语料库语言学和描写性译学研究。
Laviosa认为语料库语言学和翻译研究的结合形成了“一种连贯的、全面而丰富的研究范式。
该范式涉及翻译理论、描写和实践等方面的问题,业已成为当代描写性译学研究的新范式。
”她指出:“语料库翻译研究的问世主要受两个研究领域的影响,一个是语料库语言学,另一个是描写性译学研究。
”2.语言学研究论文:语料库语言学的研究视野作者:李文中单位:河南师范大学外国语学院,河南新乡 453007如何作用:语料库在语言学研究上的作用是为了研究语言意义,研究对象是语言使用。
语言在使用中产生关系,并呈现意义。
文本是语料库语言学研究唯一的数据源。
文本的意义只存在于文本内部。
语言意义只能用语言来解释。
语料库语言学以意义单位为着眼点考察文本的意义。
作为一门新兴的学科,语料库语言学以其独特的视角及可靠的方法和工作,对语言学研究做出的贡献将从根本上改变我们对语言的态度和认知。
3.教学研究论文:基于语料库的翻译教学研究作者:张杏杏单位:河南师范大学外国语学院,河南新乡 453007如何作用:语料库作为一种教学资源对翻译教学有着极大的促进作用,可以利用其来获得丰富的教学资源,获得并正式疑问模式和凡一直是,进一步提升学生的翻译技巧。
1.发挥学生的主体性,提高学生数据驱动式学习能力。
2.帮助教师制定更加科学完善的教学大纲和编写适合使用的教材。
3.增加教学信息的输入量,提高教学效率。
4.提供更加科学的练习或测试题友情提示:本资料代表个人观点,如有帮助请下载,谢谢您的浏览!整理为word格式。
ccl语料库及其检索系统[整理版]
一关于CCL语料库及其检索系统(如果时间紧张,可直接跳到最后的举例部分!)1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生的一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + - ~ ! :这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
多语语料库;可比性;跨语言研究;术语
多语语料库;可比性;跨语言研究;术语近年来,越来越多的研究人员投入了多语言、可比性和跨语言研究的领域中。
本文将针对以上三个术语进行详细的讨论,并分析它们在跨语言研究中的实际应用。
多语语料库(Multilingual Corpora)是指一系列由不同语言组成的文本,可用来研究语言特征。
它们可以是同一种语言的不同文本,也可以是不同语言的文本组成的混合文本,形成多种语言的语料库。
这种类型的文本集合可以用来定量研究各种语言之间的语言现象,以及这种现象如何影响语言学习和交流。
可比性(Comparability)是指多语言文本之间的比较能力,即他们之间具有相似性和对比性。
可比性是对不同语言文本集合进行比较分析所必需的内在特性,它涉及到词汇量和论述分析、语法和句法研究、以及不同文本之间的语义关系。
它的目的是最大限度地消除多语种文本中的偏差,以便研究多语言文本之间的可比性。
跨语言研究(Cross-Linguistic Research)是指以多语言文本为基础的研究工作,其目的是理解各种语言之间的共性和异性,以及它们如何影响语言学习和使用。
跨语言研究包括多语言语料库收集、可比性分析、语义分析、句法分析等多个步骤,此外,也会涉及到系统语言学、语言教学和跨文化交流等相关领域。
多语语料库、可比性和跨语言研究在实际应用中能发挥重要作用。
首先,多语语料库可以支持语言学习,帮助开发各种语言学习工具,包括多语言词汇表和语法词汇表。
其次,可比性分析可以帮助研究人员分析各种语言之间的差异,探究不同语言中可比性特征的发展趋势,并以此为基础构建多语言学习系统。
最后,跨语言研究可以帮助我们了解不同语言之间的可比性,从而有效地改善语言教学、跨文化交流和翻译服务。
综上所述,多语语料库、可比性和跨语言研究三者之间有着密切的联系,它们在跨语言研究中发挥着重要作用。
未来,不仅可以进一步深入研究多语语料库、可比性和跨语言研究之间的关联,还可以利用这三种术语来优化语言学习和跨文化交流。
翻译语料库
翻译语料库
翻译语料库是指一类用于研究机器翻译的特定语料库。
它收集了大量双语或多语句子,使研究人员可以探索翻译过程中出现的不同问题,并开发相应的解决方案。
翻译语料库主要由两部分组成:源语料库和目标语料库。
源语料库是原始句子的集合,其中包含一定数量的句子;而目标语料库是源语句子翻译成对应的目标语句子的集合,其中也包含一定数量的句子。
因此,翻译语料库既可以提供研究人员语料库的语料,也可以提供研究人员句子的翻译示例。
翻译语料库的优势在于能够提供大量的双语或多语句子,使研究人员可以从中获得更多的信息,以便于更好的理解语言的翻译规律,以及开发更准确的翻译模型。
此外,翻译语料库还可以提供研究人员访问语料库时所需的知识和工具。
例如,研究人员可以使用翻译语料库提供的软件工具来将双语或多语句子进行分析,从而更加深入地了解语言之间的差异。
翻译语料库是机器翻译研究的重要资源,它提供了研究实验所需的数据,使研究者可以更好地理解翻译过程中的语言特征,并开发出更准确的机器翻译系统。
因此,翻译语料库在机器翻译研究中占据着重要的地位。
总而言之,翻译语料库是指一类用于研究机器翻译的特定语料库,它是由源语料库和目标语料库组成,提供大量双语或多语句子,使研究人员可以探索翻译过程中出现的不同问题,并开发相应的解决方案。
它的优势在于能够提供大量的双语或多语句子,使研究人员可以从中获得更多的信息,以便于更好的理解语言的翻译规律,以及开发更准确的翻译模型。
它是机器翻译研究的重要资源,可以提供研究实验所需的数据,帮助研究者更好地理解翻译过程中的语言特征,并开发出更准确的机器翻译系统。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果你也搞语言,你会用到的语料库~~
中央研究院现代汉语标记语料库(现代汉语平衡语料库):
.tw/SinicaCorpus/这是首页。
进入中文版,就是这个:.tw/ftms-bin/kiwi1/mkiwi.sh
中央研究院近代汉语标记语料库:
.tw/Early_Mandarin/
或.tw/cgi-bin/kiwi/pkiwi/pkiwi.sh
中央研究院汉籍电子文献(瀚典全文检索系统)
.tw/ftms-bin/ftmsw3
国家现代汉语语料库:http://124.207.106.21:8080/(不知道是不是网络的原因我没打开)
国家语委现代汉语语料库:/retrieval/index.html(同上,也没打开~~~~(>_<)~~~~ 不知道这俩一样不)
树图数据库:.tw/
北京大学中国语言学研究中心,简称CCL语料库检索系统(包括:现代汉语语料库、古代汉语语料库、汉英双语语料库)/Yuliao_Contents.Asp
北京大学《人民日报》标注语料库:
北京语言大学的语料库:/kych/H.htm
清华大学的汉语均衡语料库TH-ACorpus:
/ainlp/source.htm
山西大学语料库/homepage/cslab/sxuc1.htm
台湾南岛语典藏:.tw/Formosan/
闽南语典藏:.tw/
香港城市大学的LIVAC共时语料库:.hk/livac/
或
浙江师范大学的历史文献语料库: /xueke/hyywzx/xkjj.htm
中国科学院计算所的双语语料库:/corpus/query_process.php 中文语言资源联盟:/xyzy.htm
红楼梦汉英平行语料库:.sg/hlm/index.htm#
SKETCHENGINE多语言语料库:
每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。
其中汉语语料库是没有加工的生语料库,使用价值不大。
关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。
The Lancaster Corpus of Mandarin
Chinese/scripts/download.php?otaid=2474
British National Corpus /
American National Corpus /
LIVAC共时语料库/
DICKENS Corpus http://www.ims.uni-stuttgart.de/ ... /frames-simple.html
【在线字典、工具类】
OED在线词典:从登入。
用户名:Coastline。
密码:Oed789
汉典/
在线新华字典/
汉语在线词典/hanyu-zidian.html
爱词霸汉语词典/(有汉字笔顺Flash的演示,不错。
PS:爱词霸的其它链接也不错)
商务印书馆工具书在线
/category/home.do;jsessionid=851D3F0AFC8AC8C0910A953B D7332E21
里氏词典在线/hanyu-zidian.html
朗文英英在线字典:/
The Commens Dictionary of Peirce's
Termshttp://www.helsinki.fi/science/commens/dictionary.html
Lexicon of Linguistics http://www2.let.uu.nl/UiL-OTS/Lexicon/
Cambridge Dictionaries Online /
1000 Dictionaries
Encyclopedia /
法语拉鲁斯rousse.fr/
【计算语言学里面使用最广的汉语树库】
Penn Chinese TreeBank (By UPenn)/~chinese/ctb.html Chinese PropBank (By U of Colorado) /chinese/cpb/
更多请看.tw/resources.html。