语块语料库的建设

合集下载

专业的语料库构建

专业的语料库构建

专业的语料库构建语料库是指收集和整理了大量语言文本的数据库,用于研究和分析语言特征和规律。

随着计算机技术的发展,语料库构建越来越重要,它在语言学研究、翻译、教育和其他领域都有广泛应用。

本文将介绍专业的语料库构建的方法和步骤。

一、语料库构建的重要性语料库是语言研究的基础工具之一,它提供了大量真实的语言数据,可以用于分析语言的结构、语义和使用情况。

语料库可以帮助研究者发现语言规律,探索词汇使用的频率和搭配方式,还可以用于制定教学材料和评估语言学习成果。

因此,专业的语料库构建对于语言研究和应用具有重要意义。

二、语料库构建的步骤1. 主题选择:首先,需要确定语料库的主题和领域。

可以根据研究需求或应用场景进行选择,例如英语学习、翻译研究或专业文本分析等。

2. 数据采集:数据采集是语料库构建的核心步骤。

可以通过不同的途径获取语言文本,如网络爬虫、提供者授权或已有的公开语料库等。

在采集过程中,需要注意数据的可靠性和版权问题,并确保数据的多样性和代表性。

3. 数据清洗:语料库中的文本数据通常存在一些噪音和错误,需要进行数据清洗。

清洗过程包括去除无意义的标点符号、停用词以及其他干扰因素,使得清洗后的数据更加干净和易于分析。

4. 数据标注:数据标注是指对语料库中的文本进行注释和标记,以便更好地进行语言分析。

标注可以包括词性标注、句法分析、语义关系标注等。

标注可以手工完成,也可以使用自动化的标注工具。

5. 数据存储和管理:构建好的语料库需要进行存储和管理,以便于后续的检索和使用。

可以使用数据库或专门的语料库管理系统来管理语料库,确保数据的安全性和可访问性。

三、专业语料库构建的技术支持在语料库构建过程中,可以借助一些专业的技术和工具来提高效率和质量。

1. 网络爬虫:网络爬虫可以帮助自动化地从网络上抓取大量文本数据,例如新闻、文章、博客等。

可以使用Python等编程语言编写网络爬虫脚本,定期更新语料库的数据。

2. 自然语言处理工具:自然语言处理工具可以实现自动的数据清洗、标注和分析。

语音语料库的设计与实现

语音语料库的设计与实现

语音语料库的设计与实现一、引言语音语料库是指包含大量语音样本的数据库,其中包含了各种类型的语音数据,用于语音识别、语音合成、语音情感识别等领域的研究和应用。

语音语料库的设计与实现是建立一个高质量、丰富多样的语音资源库的关键步骤。

本文将从语料库的构建、数据采集、数据标注等方面,探讨语音语料库的设计与实现。

二、语料库的构建1. 语料库的构建目标语料库的构建目标决定了语料库的规模、内容和用途。

根据具体需求,可以构建面向特定领域的语料库,如医学领域的语料库、法律领域的语料库等;也可以构建通用领域的语料库,用于各种语音相关领域的研究和应用。

2. 数据来源语料库的数据来源可以包括实验室内部采集、公开数据集收集、众包数据采集等方式。

实验室内部采集可以保证数据质量和隐私安全,但成本较高;公开数据集收集可以节省成本,但数据质量和内容受限;众包数据采集可以快速获得大量数据,但需要注意数据的质量和标注准确性。

三、数据采集1. 采集设备语音数据采集需要使用高品质的麦克风和录音设备,以确保采集到的语音信号质量良好。

同时,应选择适当的采样率和位深度,以满足后续处理和分析的需求。

2. 采集环境语音数据的质量受到采集环境的影响,应选择安静的环境,并注意消除噪声和回声对语音质量的影响。

此外,还可以考虑采集多种环境下的语音数据,以提高语料库的多样性。

四、数据标注1. 标注内容语音数据的标注是为了提供与语音相关的丰富信息,如语音文本、语音发音、语音情感等。

标注内容需要根据语料库的使用场景和目标任务来确定,如语音识别需要标注准确的文本内容,语音情感识别需要标注准确的情感类别等。

2. 标注准则为了提高标注准确性和一致性,应制定详细的标注准则,并对标注人员进行培训和监督。

标注准则应包括对各种情况下的处理方式和标注规则,以避免标注歧义和错误。

五、语料库的管理与维护1. 数据存储与管理语料库的数据应存储在可靠的存储介质中,同时建立合理的数据管理系统,包括数据索引、备份、权限控制等。

自然语言处理中的语料库构建与语料库分析研究

自然语言处理中的语料库构建与语料库分析研究

自然语言处理中的语料库构建与语料库分析研究自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要研究方向,旨在使计算机能够理解、处理和生成人类语言。

而语料库是NLP研究中不可或缺的资源,它是大量文本的集合,用于训练和评估各种语言模型和算法。

本文将探讨语料库的构建方法以及语料库分析在NLP研究中的应用。

一、语料库的构建方法语料库的构建是NLP研究的基础工作之一,它需要从大量的文本数据中收集、整理和标注语料。

以下是几种常见的语料库构建方法:1. 人工标注法:这是最常用的语料库构建方法之一。

研究人员通过阅读文本并手动标注其中的语言现象,如词性、句法结构等。

这种方法的优点是标注准确,但缺点是耗时耗力,适用于小规模语料库的构建。

2. 自动标注法:随着机器学习和深度学习的发展,自动标注法越来越受到关注。

这种方法利用机器学习算法对大规模文本进行自动标注,如词性标注、命名实体识别等。

自动标注法的优点是高效快速,但准确度可能不如人工标注。

3. 网络爬虫法:这种方法通过网络爬虫程序从互联网上收集文本数据。

研究人员可以针对特定主题或领域进行爬取,构建领域特定的语料库。

然而,网络爬虫法需要解决反爬虫机制、数据噪声等问题。

4. 数据库整合法:这种方法通过整合已有的语料库来构建新的语料库。

研究人员可以从不同来源的语料库中选取合适的数据进行整合,以满足特定的研究需求。

数据库整合法的优点是节省时间和资源,但需要解决数据格式和标注不一致等问题。

二、语料库分析在NLP研究中的应用语料库分析是对语料库进行统计和语言学分析的过程,它可以帮助研究人员了解语言的规律和特点,为NLP研究提供基础数据和启发。

以下是语料库分析在NLP研究中的几个典型应用:1. 词频统计:通过对语料库中的词频进行统计分析,可以了解不同词汇的使用频率和分布情况。

这对于构建词典、词性标注、命名实体识别等任务都具有重要意义。

语言的语料库建设:利用语料库进行语言研究和教学

语言的语料库建设:利用语料库进行语言研究和教学

03
利用语料库进行语言研究
基于语料库的词汇研究
词汇的统计与分析
• 词频:统计词语在语料库中的出现次 数 • 词性分布:分析词语在不同词性中的 分布情况 • 词汇搭配:研究词语之间的组合关系 和搭配规律
词汇的变异与演变
• 词义变异:分析词语在特定语境中的 意义变化 • 词形演变:研究词语在不同历史时期 的形式变化 • 词汇创新:探讨新词的产生、发展和 传播过程
DOCS SMART CREATE
语言的语料库建设:利用语料库进行语言研究 和教学
CREATE TOGETHER
DOCS
01
语料库的基本概念与重要性
什么是语料库及其发展历程
01
语料库的定义
• 语料库是一个大型、有代表性的 文本集合 • 用于语言研究、教学和自然语言 处理等领域
02
语料库的发展历程
语料库的整理与标注
语料库的整理方法
• 数据分类:将文本数据按照主题、体裁、来源等进行分类 • 数据存储:将整理好的数据归档、备份,便于后续使用 • 数据维护:定期更新、维护语料库,确保数据的时效性和准确性
语料库的标注方法
• 词性标注:为文本中的每个词分配词性标签 • 句法标注:为文本中的每个句子分配句法结构标签 • 语义标注:为文本中的每个词分配语义角色标签
语料库在语言测试中的应用
语料库辅助语言测试
• 测试题设计:利用语料库提供真实、具有挑战性的测试题 • 评分标准:根据语料库制定客观、公正的评分标准 • 测试反馈:通过语料库提供详细、准确的测试反馈,帮助学生提高语言能力
语料库驱动语言测试
• 测试模式:利用语料库开发多样化、个性化的语言测试模式 • 测试评估:通过语料库进行全面、持续的测试评估,了解学生的学习进度和需求 • 测试资源:提供基于语料库的丰富、实用的测试资源,满足不同学生的测试需求

语料库创建的具体实施步骤

语料库创建的具体实施步骤

语料库创建的具体实施步骤1. 准备语料在创建语料库之前,首先需要准备合适的语料。

语料是指已经标注好的文本数据集,可以包括文档、句子或者短语。

语料的选择应该与你的语言模型训练目标相匹配,例如,如果你的目标是训练一个用于自动文本摘要的模型,那么你的语料应该包含大量的新闻文章或者博客文章。

语料库的大小和质量对训练模型的效果有很大的影响,因此在准备语料时需要尽可能收集大量的高质量数据。

在准备语料时,还需要考虑到数据的来源和版权问题。

确保你有权使用和处理所选语料中的所有文本。

2. 数据清洗与预处理在创建语料库之前,必须对数据进行清洗和预处理。

数据清洗的目的是去除一些无用或噪音数据,以提高模型的质量。

预处理的目的是将数据转化为可用于训练的形式。

下面是一些常见的数据清洗和预处理步骤:•删除特殊字符和标点符号•转换为小写•去除停用词(如“的”,“是”,“在”等)•词干提取(例如将“running”转化为“run”)•标准化词汇形式(如将美国英语和英国英语统一为一种形式)•分割文本为句子或短语•去除重复数据数据清洗和预处理工作可以使用各种编程语言和工具来完成,如Python中的NLTK库或者其他文本处理工具。

3. 构建语料库构建语料库是将预处理后的数据存储起来,以便进行进一步的处理和训练。

一种常见的方法是将数据保存为文本文件,每个文本文件对应一个文档,每行对应一个句子或短语。

文本文件之间可以使用特殊符号或者空行进行分隔。

你也可以使用数据库或者其他数据存储方式来构建语料库。

在构建语料库时,还可以考虑将不同类型的文档存储在不同的文件夹或者数据库表中,以便更好地组织和管理数据。

4. 标注语料库标注语料库是指为语料库中的文本数据添加一些额外的标记或标签,以便后续的处理和分析。

例如,你可以为每个文档添加一个主题标签,或者为每个句子添加一个情感极性标记。

标注语料库是为了进一步的研究和应用而做的准备工作,具体的标注方式和规则需要根据具体的需求来定制。

全球华语语料库建设及功能研究

全球华语语料库建设及功能研究

全球华语语料库的建设方法
全球华语语料库的建设需要采集大量华语语料数据,包括文字、音频和视频 等多种形式。采集数据时要确保语料的多样性、真实性和可靠性。此外,对语料 进行加工处理也是非常重要的一环,包括文本清洗、标注、分词、句法分析和语 义分析等。在语料库建设过程中,质量检测也是必不可少的一环,以确保语料库 的准确性。最后,语料库需要存储在一个稳定、可扩展的数据库中,以便进行后 续的分析和处理。
在翻译领域,全球华语语料库可以为翻译者提供更加准确和地道的翻译参考, 提高翻译质量。然而,全球华语语料库也存在一些不足之处,例如数据偏差、文 化差异等问题,需要在使用时加以注意。
挑战与解决方案
全球华语语料库建设面临的挑战主要来自以下几个方面:数据采集的难度和 成本、数据处理的复杂性和准确性、以及如何保证语料库的实时更新和维护。为 了解决这些问题,我们提出以下解决方案:
3、应用领域将不断扩展,除了语言研究、教学和翻译等领域,全球华语语 料库还将应用于舆情分析、智能客服、机器翻译等领域,为社会各界提供更加高 效和精准的华语智能服务。
4、全球华语语料库将积极参与国际交流与合作,与全球其他语言资源库进 行互联互通,共同推动全球语言研究与应用的发展。
ቤተ መጻሕፍቲ ባይዱ 参考内容
随着全球汉语学习者人数的不断增长,汉语教学资源和工具的需求也日益增 加。为了满足这一需求,建设全球汉语学习者语料库成为了一项重要的任务。本 篇文章将介绍全球汉语学习者语料库建设的背景和意义、目标用户、建设方案、 技术保障、人才保障以及运营方案。
功能
全球汉语中介语语料库具有以下功能:
1、学习资源:全球汉语中介语语料库首先被视为一种学习资源,为汉语学 习者提供了丰富多样的真实语境,有助于学习者更好地理解和掌握汉语。

专业语料库建设

专业语料库建设

专业语料库建设随着信息技术的不断发展和应用,语料库建设逐渐成为语言学和应用语言学研究中的重要领域。

专业语料库是指针对特定领域或专业培训需求而构建的语言资源库。

本文将讨论专业语料库建设的重要性、方法和应用。

一、专业语料库的重要性专业语料库在多个领域中发挥着重要作用。

首先,它为语言学研究提供了有效的数据源。

研究人员可以通过专业语料库对特定领域中的语言现象进行深入研究,揭示其中的规律和特点。

同时,专业语料库也为应用语言学提供了强大的支持。

通过分析该领域的实际语言使用情况,可以为专业培训和语言教学提供参考,提高语言学习者的语言能力和专业素养。

二、专业语料库的建设方法1. 语料收集和筛选专业语料库的建设首先需要收集大量的相关语料,并加以筛选。

语料可以来源于不同的文本类型,例如专业书籍、学术论文、专业新闻等。

筛选时需要考虑语料的质量和代表性,确保语料库能够准确反映该领域的语言使用情况。

2. 数据标记和标注在构建专业语料库时,常常需要进行数据标记和标注。

数据标记是指对语料进行分词、词性标注等处理,以便后续的分析和应用。

标注是指对语料进行添加注释或标记,用于特定任务的需求,如命名实体识别、语法分析等。

数据标记和标注的准确性和一致性对于语料库的质量至关重要。

3. 数据存储和管理专业语料库的建设还需要进行数据存储和管理。

为了方便使用和检索,语料库的数据应该结构化存储,并建立合适的索引和标签。

同时,为了保护语料的版权和隐私,需要制定相应的数据使用政策和权限管理措施。

三、专业语料库的应用专业语料库的建设和应用有助于多个领域的发展。

首先,它在专业培训中起到了重要作用。

通过分析专业领域的语料,可以制定详细的培训计划和教学内容,提高学习者的专业知识和语言能力。

其次,专业语料库可以支持翻译和文本处理任务。

通过对大规模语料的处理和分析,可以提高机器翻译和文本自动处理系统的性能和效果。

此外,专业语料库还有助于学术研究和语言技术的发展,为相关领域的创新提供支持。

自然语言处理技术的语料库构建方法

自然语言处理技术的语料库构建方法

自然语言处理技术的语料库构建方法语料库作为自然语言处理(NLP)技术的重要基础,扮演着收集、组织和分析大量文本数据的关键角色。

构建高质量且多样化的语料库对于开发和改进NLP算法至关重要。

本文将介绍一些常用的语料库构建方法,以帮助研究人员和从业者在NLP领域取得更好的成果。

1. 语料库搜集与爬取语料库的第一步是搜集和爬取适合的文本数据。

这可以通过网络爬虫来实现,爬取各种网站的文本内容。

例如,可以爬取维基百科、新闻网站、社交媒体平台等,以获取各个领域的文本数据。

在爬取过程中,需要注意法律和道德要求,确保不侵犯他人的知识产权和隐私。

2. 语料库预处理与清洗获取到原始文本数据后,需要进行预处理和清洗。

这一步骤包括去除HTML标签、特殊字符和噪声数据,转换为小写字母,分句和分词等。

预处理的目的是提取出干净、结构化的文本数据,方便后续处理和分析。

常用的工具包括NLTK (Natural Language Toolkit)和SpaCy等。

3. 标注与注释语料库的质量和可用性可以通过标注和注释进一步提高。

标注是指将标签或标记应用于文本数据,以识别和分类特定的实体、情感、关系等。

这可以通过人工标注或使用机器学习算法进行自动化标注来完成。

注释则是在文本数据上添加额外的信息,例如词性标记、依存关系分析等。

这些标注和注释将为后续的NLP任务提供更多的指导和信息。

4. 语料库的规模与多样性构建语料库时,需要关注其规模和多样性。

规模指的是语料库中文本数据的数量和大小。

通常情况下,语料库越大,可以提供的信息越多,可用于建模和分析的范围也更广。

多样性则表示语料库中文本数据涵盖的领域、来源和主题的丰富程度。

一个高质量的语料库应该包含广泛的领域和文本类型,以应对多样的NLP任务需求。

5. 平衡性与采样构建语料库时需要考虑平衡性和采样的问题。

平衡性指的是在语料库中各个类别或主题的数据量相对均衡。

这可以避免模型在训练和评估过程中出现偏见。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

平均词长 2.53 1.31 4.13 2.16 2.06 2.07 2.55 1.01 2.29
表 5 具有不同长度词语的语块的分布统计
语块 类别 主语 述语 宾语 兼语 状语 补语 独立 语气 合计
构建大规模的汉语语块库
周强 智能技术与系统国家重 点实验室,清华大学计算
机系,北京 100084
詹卫东 北京大学中文系,北京
100871
任海波 上海师范大学国际文化 交流学院,上海 200234
摘要:本文介绍了构建 200 万字的汉语语块库的主要工作,包括设计语块标注体系、总结语 块标注规范和协调语块加工流程等,分析了我们的标注体系与英语的 CONLL-2000 语块任 务的主要差异,并提出了对现有标注体系的进一步理论思考和在现有语块库上的一些应用设 想。
汉语句子的述语块大多由谓词性成分充当,在我们的标注规范中对它们进行了严格 规定,其词语数都不超过 5 个。这些分布特点在两个表中都有很好的体现(词数 <5 的语块占 99%以上,平均词长为 1.31)。 状语块和补语块的平均词长约为 2,90%以上的语块中的词数都小于 5,表明汉语 真实文本中复杂状语和补语出现的频度不是很高。由于它们一般都有明显的边界标 志(介词、方位词、助词‘地’、助词‘得’等),因此自动识别难度不太大。 兼语块、主语块和宾语块得平均词长较大,特别是宾语块更达到 4.13。主要原因是 其中往往包含了复杂的定语。它们是自动识别的难点所在。 在我们的标注体系中,独立语块的内容比较杂,包括句子中的插入语、应答语、呼 语、同位性插入成分、句中的补充说明部分(一般在括号内)、句首的序号等,因 此分布比较特殊。如何对其中的不同情况进行分化处理,将是以后的一个研究课题。
点符号,‘汉字数’包括汉字和汉字标点。
表 3 ThCorp 切分和词性标注语料库的基本统计数据
文体 学术 新闻 应用 文学 合计
文件数 29 376 258 295 958
句子数 9846 16921 4302 38258 69327
词项数 273017 427649 88452 740445 1529563
2 语块描述体系
Abney(1991)最早提出了一个完整的语块描述体系。他把语块定义为句子中一组相邻的 属于同一个 s-投射(s-projection)的词语的集合,建立了语块与管辖约束(GB)理论的 X-bar 系统的内在联系,从而奠定了这个语块描述体系的比较坚实的理论基础。在此前后,一些应
用系统的研究重点则主要集中在名词短语的识别上,其中包括基本名词短语(BaseNP) ([Chu88], [RM95])和最长名词短语(MNP)([LZ95], [ZSH00])。在其他语块或基本短语方面 的研究则比较少。最近比较完整的工作是 Buchholz & al.(1999)。他们探索了 NP, VP, PP 和 ADJP 等基本短语的自动识别方法。另外,Veenstra(1999)也识别了 NP, VP 和 PP 块。他们的 研究为 CONLL-2000 提出的语块共享研究计划打下了基础。
语料则取自 Penn 树库的华尔街日报(WSJ)部分。利用自动程序将分析树标注文本直 接映射成不相交、无嵌套的语块标注文本,并保留了原来的大部分句法成分标记。目前抽取 的语料规模约为 30 万词,平均每个语块包含 2 个词。表 2 列出了其中最常见的几个语块的 信息描述,有关的详细资料可参阅[TB00]。
表 4 列出了现有语块库的基本统计数据,包括不同语块总数及语块中的词语分布。表 5 进一步计算了具有不同数目的词语的语块的分布特征,以 5 为界分为 4 个区间:1) 词数<5, 2) 5<=词数<10, 3) 10<=词数<15, 4) 15<=词数。从中可以看出不同语块的分布特点:
语气块定义为句尾的一个或多个语气词。由于汉语里多个语气词连用的情况很少, 因此其平均词长最小,为 1.01。
3 语块库构建
3.1 基础语料库
我们的语块加工对象是清华大学的 200 万汉字的平衡语料库(ThCorp)。它的主要语 料来源是 90 年代的现代汉语书面语以及准口语(包括剧本、谈话录、演讲录等)的真实文 本,按文体分为文学、新闻、学术、应用四类。经过自动切词、词性标注和人工校对,已经 形成了准确度很高的切分和词性标注精加工文本,为进一步进行语块信息标注打下了很好的 基础。表 3 列出了目前的 ThCorp 的一些基本统计数据,其中‘词项数’包括汉语词和标
在汉语方面,经过近几年的研究,已经建立了几个较大规模的切分和词性标注语料库, 包括清华大学的 200 万字的平衡语料库和北京大学与富士通合作开发的人民日报语料库。在 树库构建方面,也已取得一些成果,包括清华大学的汉语测试树库[ZS99]、美国宾州大学的 UPenn 树库[XP00]和台湾中研院的树库项目[HCC00]。但对语块标注和部分句法分析的研究 还比较少。
去年举行的自然语言学习国际会议(CONLL-2000)提出的语块共享任务(Chunking Shared Task)旨在开发出一个大规模的英语语块库,为基于统计的不同部分分析方法的探索 提供统一的训练和测试库。他们采用了 Abney 的语块描述框架,并对一些语块进行了分解
和细化,其中的一些差异可以从下面的例子中看出来(其中例句 1 采用了 Abney 的标注体 系):
为了保证标注结果的质量,我们设计了两级检查机制。首先,依据语块标注规范,开发 自动检查程序,发现大部分不合规范的标注语块,提供标注者进一步确认或修改。这个过程 重复数次后,可以大大减少标注“硬伤”。然后,对标注结果进行随机抽样检查,发现并改 正遗留的标注错误,直至最终标注质量达到要求为止。
3.4 语块库基本统计
语块描述 主语短语 述语短语 宾语语块 兼语语块 状语语块 补语语块 独立语块 语气块
我们从 2000 年 3 月起,开始进行大规模汉语语料库的语块标注研究。最初的设想是通 过语块划分和标注,描述一个句子的基本结构骨架,从而为进一步构建汉语树库,进行深层 的句法分析和知识获取打下基础。遵循以下几两条原则:
1 引言
构建大规模标注语料库是语料库语言学发展的重要基础。在英语方面,百万词次规模的 词性标注语料库——Brown 语料库的建成,直接促使了基于统计的词性标注模型:HMM 模 型和自动标注算法:Viterbi 算法的提出和完善。大规模的句法树标注语料库——Penn 树库 的建立,则为许多基于统计的自动句法分析模型提供了基础的训练素材。同时,作为一个统 一的训练和测试平台,也为不同分析算法处理性能的评估提供了客观的依据。近几年来,随 着部分分析技术的不断发展和应用范围的不断扩大,对处于中间层次的语块(chunk)标注 语料库的开发也越来越受到重视,出现了一些较大规模的语块标注语料库,如 CONLL-2000 的语块库[TB00]等。
(1) [He] [reckones] [the current account deficit] [will narrow] [to only $1.8 billion] [in September].
(2) [NP He ] [VP reckones ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only $1.8 billion ] [PP in ] [NP September ].
1.副词性成分(词性标记为 d,dB,dD,dN)连续出现作状语,可以整体标注为一个状语 语块‘[D’,其他不同类成分连续出现作状语,都必须分别单独标出状语块。
2.名词直接作状语,需单独标注状语块标记‘[D’。 3.动词直接作状语,需单独标注状语块标记‘[D’。 4.形容词直接作状语,需单独标注状语块标记‘[D’。 5.数量词作状语,需单独标注状语块标记‘[D’。这里的数量词主要有:半年、半日、 半晌、半天、多年、一辈子、一会、一会儿等。 6.介词结构、方位结构和“地”字结构、数量结构等成分在句中作状语(我们称之为 “复杂状语”结构),需单独标注状语块标记‘[D’。特别应注意它们与上面的简单状语 连用的情况,这时每个状语块都应显性标注,比如方位结构、“地”字结构状语的左边界, 介词结构作状语的右边界等。
表 4 不同语块的词语分布统计
语块类别 主语 述语 宾语 兼语 状语 补语 独立 语气 合计
语块总数 99121 179605 109362 5715 156000 3113 5649 12111 570676
词语总数 251041 236104 452211 12338 321254
6431 14414 12225 1306018
表 2 CONLL-2000 的常见语块描述
语块标记 NP VP PP
ADVP SBAR
ADJP
语块描述 名词短语 动词短语 介词短语(大部分情况下只包含一 个介词) 副词短语 小句(subordinated clause)(大部 分情况下只包含一个从属连词) 形容词短语
表 1 我们的语块标记集
语块标记 S P O J D C T Y
穷尽性——在完成语块标注的句子中,任何一个词都必须无遗漏地进入某个语块。 线性——在完成语块标注的句子中,全部语块将形成一个线性序列,即没有嵌套。 我们设计了包含 8 个标记的语块标记集(详见表 1)。下面是一个具体标注实例: [D 自/p 古/t 以来/f ,/, [S 人类/n [D 就/d [P 重视/v [O 档案/n 的/u 保 存/vN 和/c 利用/vN ,/, [P 设置/v [O 馆库/n 、/、 [P 选派/v [O 专人/n [P 进行/v [O 管理/v 。/。 从语块描述内容上看,两个语块库的差异还是很明显的。CONLL 的语块强调对局部的 句法相关词语的描述,侧重于从底向上地把句子分隔成不同的基本短语;我们的语块则强调 对句子整体功能块的描述,侧重于自顶向下地描述句子的基本骨架。这种差别使得 CONLL 的语块一般比较简单,平均每个块只包含 1-2 个词语,而我们的语块则比较复杂,有的语块 甚至包含 10-20 个词语。但两者具有很好的信息互补性。在适当的条件下,将两者的描述信 息进行合并,形成分层次的语块描述体系,并构建相应的语块库,将是一个很有意义的研究 课题。
相关文档
最新文档