中文分词技术毕业论文开题报告

合集下载

基于后缀数组SALM模型的中文分词研究的开题报告

基于后缀数组SALM模型的中文分词研究的开题报告

基于后缀数组SALM模型的中文分词研究的开题报告一、选题背景与意义随着互联网技术的普及与发展,大量的中文文本在网络上不断产生,如何高效地从中文文本中提取有效信息,成为了信息处理领域的核心问题之一。

在众多的自然语言处理技术中,中文分词技术更是中文信息处理的基础和核心。

传统的中文分词方法一般采用基于规则或基于统计的方法,虽然在某些情况下表现良好,但难以应对现实中复杂、多变和千差万别的语言现象,且无法充分利用大规模语料的优势。

而近年来,基于机器学习的中文分词方法已成为研究热点,并取得了很好的效果,其中又以基于深度学习的方法最为先进。

本文主要研究基于后缀数组SALM(Shortest-Path-Automaton-Based Linear-Time Chinese Morphological Analyzer)模型的中文分词方法。

该算法利用后缀数组技术和最短路径自动机技术,实现了在线性时间内进行中文分词的目的,且具有较高的准确率和速度。

通过对该算法的深入研究,可以进一步提高中文分词的效率和准确率,为中文信息处理提供更好的服务。

二、研究目标和内容本文的研究目标是深入分析后缀数组SALM模型的中文分词算法,探讨其工作原理和优缺点,并进行性能优化,最终实现一个高效、准确的中文分词系统。

具体研究内容包括:1. 后缀数组技术和最短路径自动机技术的原理与实现方法的探讨,以及后缀数组SALM模型算法的详细分析和优化。

2. 基于中文语言特点对后缀数组SALM模型进行改进,例如采用基于词典和上下文语境的方法,提高分词的准确率和鲁棒性。

3. 实现一个基于后缀数组SALM模型的中文分词系统,并进行性能测试和评估。

三、研究方法1. 文献调研和理论研究:通过查阅相关文献,了解后缀数组、最短路径自动机和SALM模型等技术的基本概念和实现原理,深入研究SALM 模型的中文分词算法及其改进方法。

2. 系统设计和实现:根据SALM模型的算法原理,设计并实现一个基于后缀数组SALM模型的中文分词系统,并进行测试和调试。

中文系论文开题报告

中文系论文开题报告

中文系论文开题报告中文系论文开题报告一、研究背景和意义随着时代的发展和社会的进步,中文的地位和作用日益凸显。

中文作为中国的国家语言,不仅是我国的交流工具,也是我国文化的重要载体。

在全球化的背景下,中文的学习和传播受到了广泛的关注。

因此,对中文的研究和发展具有重要的意义。

二、研究目的和问题本论文的研究目的是探索中文的特点、发展趋势以及对文化传承的影响。

具体研究问题包括:中文的起源和演变、中文与其他语言的关系、中文的语法特点、中文的书写和阅读习惯、中文在当代社会中的地位和影响等。

三、研究方法和途径为了回答上述研究问题,本论文将采用文献研究法和实证研究法相结合的方法。

首先,通过查阅相关文献资料,对中文的历史、语法、书写和阅读习惯等方面进行梳理和总结。

其次,通过问卷调查和实地调研,了解当代社会中中文的使用情况和影响力。

最后,通过数据分析和比较研究,得出相关结论。

四、论文结构和内容安排本论文将分为五个部分进行论述。

第一部分:绪论在这一部分,将介绍中文的研究背景和意义,阐述研究目的和问题,并简要介绍研究方法和途径。

第二部分:中文的起源和演变这一部分将从历史的角度出发,探讨中文的起源和演变过程。

通过对古代汉字的研究,揭示中文的发展轨迹和特点。

第三部分:中文与其他语言的关系这一部分将探讨中文与其他语言的关系。

通过对中文词汇的来源和语法结构的比较研究,分析中文与其他语言的相似性和差异性。

第四部分:中文的语法特点这一部分将着重研究中文的语法特点。

通过对中文句法结构、词序规律等方面的分析,揭示中文的语法体系和特点。

第五部分:中文的书写和阅读习惯这一部分将探讨中文的书写和阅读习惯。

通过对中文字符的形态学和书写规范的研究,了解中文书写的特点和演变。

同时,通过对中文阅读习惯的调查研究,分析中文阅读的特点和影响因素。

第六部分:中文在当代社会中的地位和影响这一部分将研究中文在当代社会中的地位和影响。

通过对中文的使用情况和影响力的调查研究,了解中文在全球化背景下的发展状况和趋势。

汉语分词中未登录词识别及词性标注的研究与实现的开题报告

汉语分词中未登录词识别及词性标注的研究与实现的开题报告

汉语分词中未登录词识别及词性标注的研究与实现的开题报告一、选题背景和意义随着大数据和自然语言处理的发展,汉语分词和词性标注技术在各种应用中得到了广泛应用。

然而,由于新词、专有名词等未登录词的存在,现有的分词算法难以完全识别这些词,影响了分词效果和应用效果。

因此,未登录词识别和词性标注是当前汉语分词和自然语言处理研究中的重要问题。

二、研究内容本课题将研究未登录词识别和词性标注的方法和技术,提出一种基于深度学习的未登录词识别和词性标注算法,并进行实现和评估。

具体研究内容包括:1.未登录词的概念和分类2.现有未登录词识别和词性标注算法的分析和比较3.基于深度学习的未登录词识别和词性标注算法的设计和实现4.实验设计和数据集准备,对比实验结果分析三、研究方法本课题将采用文献调研、方案设计、算法实现和实验评估等方法。

具体方法包括:1.搜集相关文献,了解现有未登录词识别和词性标注的研究成果2.设计基于深度学习的未登录词识别和词性标注算法,并结合实际应用场景进行优化3.使用Python等编程语言实现算法,并进行性能和效果评估4.选取适当的数据集,进行对比实验,获取实验数据,分析实验结果四、预期成果本课题预期达到以下成果:1.深入研究现有的未登录词识别和词性标注算法,总结其优缺点2.提出一种针对于未登录词的基于深度学习的识别和标注算法,并进行实现3.进行实验评估,得到实验数据,分析算法性能和效果4.撰写开题报告和毕业论文,发表相关学术论文五、工作计划1.文献调研和方案设计,预计时间 2 周2.算法实现和数据集准备,预计时间4周3.实验评估和实验数据分析,预计时间4周4.写作和论文修改,预计时间2周六、参考文献1. 张鹏程, 王飞跃. 基于隐马尔可夫模型和 CRF 的未登录词识别研究[J]. 计算机科学, 2018, 45(05):213-217.2. 喻红婵, 石义章. 一种基于深度学习的未登录词发现方法[J]. 河南大学学报(自然科学版), 2018, 48(03):269-273.3. 干绍龙, 朱国伟, 黄瑞娟,等. 基于标注规则和统计模型相结合的汉语分词方法[J]. 计算机研究与发展, 2018, 55(06):1185-1196.4. 李辽, 范春代, 范旭东. CRF 处理未登录词分词[J]. 计算机科学和探索, 2019, 13(05):824-829.。

2020年中文毕业论文开题报告范本

2020年中文毕业论文开题报告范本

中文毕业论文开题报告范本开题报告是指开题者对科研课题的一种文字说明材料。

这是一种新的应用写作文体,这种文字体裁是随着现代科学研究活动计划性的增强和科研选题程序化管理的需要应运而生的。

开题报告也是毕业论文答辩委员会对学生答辩资格审查的一个重要依据材料,下面是一篇中文系的毕业论文开题报告。

一、论文题目:论《水浒传》中的血腥暴力描写及其文化内涵二、开题报告内容(一)选题背景“血腥”,本词原指血液的腥臭气味,后来还用以形容战斗或屠杀的残酷。

也可表示场面的惨烈。

近几年由于翻拍名著的热潮一次次涌来,很多大家耳熟能详的作品都被翻拍成电视剧,其中就不乏像《水浒传》、《红楼梦》等这些四大名著。

而其中对于新版《水浒传》翻拍过程中,对原著的极大还原,也使得一部分人对电视剧中直观的血腥暴力场面产生了一阵阵热议。

《水浒传》里有不少凶杀场面的描写,甚至吃人肉,开人肉馒头店等等。

我们《水浒传》的研究者,或熟视无睹,讳莫如深,或严厉谴责,“残暴”、“血腥”、“杀人魔王”。

但是,这都不能解决问题。

《水浒传》里的残暴、血腥描写是客观存在,回避不了。

乱杀人,吃人肉对不对?当然不对,这是小学生都知道的。

问题是为什么读者在读《水浒传》时并不觉得恐怖?选择本题主要是想从历史、文化、人物、史实等几个方面对《水浒传》中血腥暴力描写的原因和目的进行研究,也通过多方研究,发掘其暴力美学的文化内涵和心理影响。

(二)国内外研究现状目前关于《水浒传》的研究在国内外有很多不同角度的解读,例如,《水浒》小说主要人物的象征意义,《水浒传》的女性意识,水浒中中的象征主意手法的运用,《水浒中》中的生命伦理意识,《水浒传》的各种主要人物分析,人名的寓意,所反映的宗教观、价值观,通过不同角度对作品的细节进行剖析等等。

关于《水浒传》中血腥暴力的研究并不是很多,但还是有一些值得借鉴的研究成果。

例如:1990年第四期山西师大学报上名为《论的血腥气》一文中写到“小说在表现好汉们奋起抗争、铤而走险的时候,直接地、具体地描写了许多争打斗殴、杀人流血的场面,甚至不加掩饰地描写血淋淋的凶杀和吃人情景,造成了一种浓重的血腥气氛,所谓‘说时杀气侵人冷,讲处悲风透骨寒’第十回。

中文分词交集型歧义处理研究的开题报告

中文分词交集型歧义处理研究的开题报告

中文分词交集型歧义处理研究的开题报告一、背景与意义随着互联网的普及和数据挖掘技术的发展,中文分词技术的重要性愈加凸显。

传统的中文分词技术主要采用基于词典的方法,即根据预设的词典来对文本进行分词。

但这种方法存在很大的局限性,因为无法涵盖所有的文本类型和专业词汇,而且容易出现交集型歧义现象。

在处理交集型歧义时,分词器需要确定哪个子串是分词结果的一部分,而哪个子串不是,这是一个非常有挑战性的问题。

因此,研究中文分词交集型歧义处理方法,对提高中文分词的准确性和效率具有重要意义。

本文将着重研究交集型歧义的处理方法,并探讨如何结合深度学习等先进技术,提高分词器的处理能力。

二、研究内容本文将围绕中文分词交集型歧义处理这一问题展开研究,主要内容包括以下几个方面:1. 研究中文分词交集型歧义的本质和分类方法根据交集型歧义的本质和特点,对常见的交集型歧义进行分类和分析,找出各类歧义的处理策略和解决方法。

2. 探究基于机器学习的分词交集型歧义处理方法通过探究现有的基于机器学习技术的分词交集型歧义处理方法,分析各种方法的优缺点,筛选出适用于中文分词交集型歧义处理的优秀算法。

3. 讨论基于深度学习的分词交集型歧义处理方法分析目前深度学习技术在中文分词领域的应用现状和研究进展,探讨如何将深度学习技术应用于交集型歧义处理,提高分词器的准确性和效率。

4. 构建实验系统,测试效果并进行性能分析通过构建实验系统,将研究成果应用到实际的中文分词任务中,测试算法的效果和运行性能,并进行深入分析。

包括使用F1值等标准对算法进行评估,探究算法的性能瓶颈,提出优化策略等。

三、研究计划及可行性分析本研究将分为以下几个阶段:1. 调研分词交集型歧义处理的研究现状:初步了解分词交集型歧义处理的研究现状和发展趋势,汇总和整理现有的相关文献,了解研究的理论和实践进展。

2. 深入分析交集型歧义的本质和处理方法:针对中文分词交集型歧义的各种形式和特点,对相关方法进行分类和分析,寻找最优解决方案。

中文分词及词性标注中领域自适应的研究的开题报告

中文分词及词性标注中领域自适应的研究的开题报告

中文分词及词性标注中领域自适应的研究的开题报告一、研究背景及意义随着互联网的迅速发展,文本数据的规模和复杂度不断增加,需要从大量的文本数据中提取或发现有用的信息。

自然语言处理技术是处理文本数据的重要手段之一,其中中文分词与词性标注是许多自然语言处理领域的基础任务。

中文分词是将汉字序列切分成有意义的词语序列的过程,而词性标注则是为分词结果中的每个词语标注其所属的词性类别,如动词、名词、形容词等。

中文分词及词性标注是文本数据处理、信息提取、自然语言理解等领域的关键技术。

然而,由于中文的特殊性质,中文分词及词性标注面临着一些挑战。

中文语言具有较为丰富的拼音声调和不同汉字间的复杂联系,因此识别和切分词语变得十分困难。

此外,不同领域中的中文文本所包含的词汇表、多义词等方面的差异也会给中文分词及词性标注带来一定的影响。

因此,为了提高中文分词及词性标注的准确率和效率,我们需要研究一种领域自适应的中文分词及词性标注算法,旨在让系统能够根据不同领域的需求自动调整模型参数,提高识别和切分词语的准确度。

二、研究问题及方法本研究旨在解决中文分词及词性标注在不同领域中遇到的问题,提出一种领域自适应的中文分词及词性标注算法。

具体而言,本研究将采用以下方法:1. 建立不同领域的语料库。

本研究将收集针对不同领域的中文文本数据,如新闻、法律、医学、金融、科技等,建立相应的语料库。

2. 分析不同领域的词汇差异。

通过对收集到的不同领域语料库进行分析,了解不同领域各自所包含的词汇表、多义词、特定领域术语等方面的差异。

3. 设计领域自适应的中文分词及词性标注算法。

本研究将综合考虑上述不同领域的词汇差异,设计一种领域自适应的中文分词及词性标注算法,使其能够根据不同领域的需求自动调整模型参数,提高识别和切分词语的准确度。

4. 实验验证算法效果。

本研究将采用现有的中文分词及词性标注算法作为对比,通过实验验证本研究提出的领域自适应的中文分词及词性标注算法的效果。

中文分词技术毕业论文开题报告

中文分词技术毕业论文开题报告

1 课题概述随着网络的高速发展,社会的信息化水平不断提高,人们越来越习惯,也越来越依赖从互联网中获取信息。

面对当前信息呈现的爆炸性增长趋势,我们迫切地需要优质、准确、快捷、简单、合理的手段对海量信息进行检索,从中获取有效的数据。

作为海量信息检索中最首要的预处理手段,分词技术应运而生。

在自然语言处理中,词是最小的能够独立活动的有意义的语言成分。

而分词技术指的是将文本拆分成词的一种技术。

它属于自然语言处理技术的范畴,是文本分类、数据检索、信息抽取、机器翻译、自动摘要、文本语音输入输出等研究领域的基础所在。

至于中文分词(Chinese Word Segmentation),则是将中文文本中的汉字序列合理切分成一个个单独的词,并对其进行分析处理,然后将文本中的字序列按照一定的规则重新组合成词序列的过程。

众所周知,中文与作为拉丁语系语言代表的英文相比,有着明显的区别。

英文以空格作为天然的分隔符,词与词之间的区分很明显,并不需要特殊的分词技术。

而中文由于继承了古代汉语的传统,以字作为基本的书写单位,词都处于具体的语句之中,所以并不存在天然的界限。

因此,仅仅通过句子或段落间的分隔标志进行切分是不可行的。

同时,由于中文语义的复杂性与语法的多变性,大多数英文分词技术不能直接适用于中文分词。

尽管如此,中文分词技术依然是中文信息处理的基础与关键所在。

作为自然语言处理与信息检索领域的研究热点,中文分词技术不断地发展,并被广泛应用于信息检索、搜索引擎、机器翻译、中文校对、文本语音输入输出等方面。

而近年来对中文分词技术的需求与要求的不断提高,也在一定程度上刺激了中文分词技术的发展。

目前,中文分词技术正在逐渐迈向成熟。

但是在其关键技术上,依然有改进的空间。

本课题的目的即在于,在前人的研究基础上,通过对中文数据检索中的分词检索机制进行研究,以期初步实现一种可行的中文分词技术,使之具备一定的实用意义与理论价值。

2 国内外发展现状自20世纪80年代初至今,中文分词技术的概念被提出以来,中文信息处理领域有了长足的进步与发展。

中文文本分类技术研究的开题报告

中文文本分类技术研究的开题报告

中文文本分类技术研究的开题报告一、选题的背景和意义随着互联网时代的到来,信息爆炸式增长已经成为现实。

众所周知,海量信息需要分类整理方便人们检索,而人工分类要消耗巨大的时间和精力,效率低下。

因此,文本分类技术得到了广泛的应用,通过自动分类来实现文本信息的快速加工和快速检索。

文本分类技术在搜索引擎、新闻聚合、智能客服、情感分析等领域都具有很好的应用前景。

基于此,本文就深入研究文本分类技术,探讨一些有趣和有用的话题。

二、研究的目标和内容本文主要研究文本分类技术的相关理论和算法,探讨其算法设计和训练策略,并进一步实现该技术运用的一些应用。

研究内容主要包括:1.文本分类的基本原理和背景知识介绍。

2.常用的文本分类算法,包括朴素贝叶斯、支持向量机、决策树、最大熵、神经网络等。

3.文本预处理技术,包括语言学处理、去除停用词、词干化等。

4. 数据集的构建及训练模型的实现与验证。

5.应用实例。

通过实例演示文本分类技术的实际应用情况,包括情感分析、新闻分类、垃圾邮件过滤等。

三、预期的研究成果和贡献通过对文本分类技术进行深入研究和实验,本文将掌握文本分类技术的基本理论和算法,掌握文本分类技术实现的方法和技巧,掌握常见的文本处理技术,对文本分类技术的应用进行探究。

同时,本文的研究可为实际应用提供良好的指引和参考,对于提高文本分类的准确性、速度和效率等方面都会有积极的作用。

四、研究方法和实施计划本文将采用文献资料法和实验探究法相结合的研究方法,首先通过查阅文献资料,了解文本分类技术的相关理论和实践,对文本分类的相关算法原理进行深入研究和分析,并对数据预处理和模型训练过程进行详细论述。

接着,以某些具体应用场景为背景,通过实验探究法对不同的分类算法进行比较,分析优缺点,进一步探讨算法设计和训练策略的优化。

计划完成时间如下:第一周:确定选题,完成选题申请。

第二周 - 第三周:查阅文献,积累相关知识,编写综述。

第四周 - 第五周:实现文本处理和分类算法,验证实验。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 课题概述随着网络的高速发展,社会的信息化水平不断提高,人们越来越习惯,也越来越依赖从互联网中获取信息。

面对当前信息呈现的爆炸性增长趋势,我们迫切地需要优质、准确、快捷、简单、合理的手段对海量信息进行检索,从中获取有效的数据。

作为海量信息检索中最首要的预处理手段,分词技术应运而生。

在自然语言处理中,词是最小的能够独立活动的有意义的语言成分。

而分词技术指的是将文本拆分成词的一种技术。

它属于自然语言处理技术的范畴,是文本分类、数据检索、信息抽取、机器翻译、自动摘要、文本语音输入输出等研究领域的基础所在。

至于中文分词(Chinese Word Segmentation),则是将中文文本中的汉字序列合理切分成一个个单独的词,并对其进行分析处理,然后将文本中的字序列按照一定的规则重新组合成词序列的过程。

众所周知,中文与作为拉丁语系语言代表的英文相比,有着明显的区别。

英文以空格作为天然的分隔符,词与词之间的区分很明显,并不需要特殊的分词技术。

而中文由于继承了古代汉语的传统,以字作为基本的书写单位,词都处于具体的语句之中,所以并不存在天然的界限。

因此,仅仅通过句子或段落间的分隔标志进行切分是不可行的。

同时,由于中文语义的复杂性与语法的多变性,大多数英文分词技术不能直接适用于中文分词。

尽管如此,中文分词技术依然是中文信息处理的基础与关键所在。

作为自然语言处理与信息检索领域的研究热点,中文分词技术不断地发展,并被广泛应用于信息检索、搜索引擎、机器翻译、中文校对、文本语音输入输出等方面。

而近年来对中文分词技术的需求与要求的不断提高,也在一定程度上刺激了中文分词技术的发展。

目前,中文分词技术正在逐渐迈向成熟。

但是在其关键技术上,依然有改进的空间。

本课题的目的即在于,在前人的研究基础上,通过对中文数据检索中的分词检索机制进行研究,以期初步实现一种可行的中文分词技术,使之具备一定的实用意义与理论价值。

2 国内外发展现状自20世纪80年代初至今,中文分词技术的概念被提出以来,中文信息处理领域有了长足的进步与发展。

其发展历程大致如下:1983年,梁南元等人将最大匹配法—MM方法(The Maximum Matching Method)与逆向的最大匹配法—RMM方法(The Reverse Maximum Matching Method)两种分词方法应用于中文分词系统CDWS(The Modern Printed Chinese Distinguishing Word System,现代书面汉语自动分词系统)中。

1989年,揭春雨、梁南元等人在考查中文信息处理领域中已有的几种中文分词方法后,提出自动分词方法的结构模型正向增大最大匹配法ASM,并对几种中文分词方法的时间复杂度及其对分词速度、分词精度的影响进行分析,同时指出在中文分词中设立“切分标志”并无意义。

随后于1991年设计并实现了中文分词系统CASS(Chinese Automatic Segmenting System,汉语自动分词实用系统)。

1991年,何克抗等人通过对歧义切分字段产生的根源和性质进行深入分析,把歧义字段从性质上分为四类,并给出了消除每一类歧义切分字段的有效方法。

在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,并论证了专家系统方法是实现自动分词系统的最佳方案。

1994年,孙茂松等人就中文分词中特有的中文姓名自动辨识作了深入的研究,提出了一种中文文本中自动辨识中文姓名的算法。

通过从新华通讯社新闻语料库中随机抽取的300个包含中文姓名的句子作为测试样本,结果表明,召回率达到了99.77%。

1996年,吴胜远对当时现有的汉语分词方法作了概述后,提出了一种新的汉语分词方法——单扫描分词方法,并对单扫描汉语分词方法的时间复杂度作了分析。

分析表明,单扫描分词方法的时间复杂度为2.89,比当时现有的分词方法的时间复杂度12.32小得多。

单扫描分词方法无论在理论,还是在实践上都有重大意义。

随后,又根据多级内码理论,成功设计出了一种并行分词方法,大大提高了分词速度。

同时,这种并行分词方法也便于设计成集成电路。

1998年,尹峰等人将人工神经网络技术应用于汉语自动分词的隐射模型和性能,着重分析网络结构和学习算法对歧义词切分的影响,在大量仿真实验的基础上,设计并实现了基于神经网络的汉语自动分词系统。

1999年,黄德根等人提出基于一种最长次长匹配原则的汉语自动分词算法,具有较好的分词效果。

随后于2010年,在最长次长匹配分词的基础上,提出一种一体化同步词法分析机制,实现了分词和词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化。

2000年,陈桂林等人在介绍了一种高效的支持首字Hash和标准二分查找,且不显词条长度的中文电子词表数据后,提出了一种改进的快速分词算法。

在快速查找二字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率。

分析表明,该分词算法的时间复杂度为1.66,在速度方面,由于当时所见的同类算法。

2002年,李振星等人在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的分词词典,并基础这种分词设计了一种快速的分词算法——全二分最大匹配快速分词算法。

2003年,首届国际中文分词评测Bakeoff(国内863、973分词测评)在日本札幌举办,基于字标注的统计学方法引起人们的广泛关注。

Bakeoff通过不同标准的分词语料同台测试,完成了从“分词规范”到“规范+词表”,再从“规范+词表”到“分词语料库”的“词语”的定义过程。

后来,经过多年的分析与研究,中文分词技术逐渐趋于成熟,中文分词系统也逐渐被应用于中文信息处理的各个领域。

以下是自中文分词技术被提出以来,相对成熟的几个中文分词系统:(1)CDWS分词系统CDWS分词系统由北京航空航天大学于1983年设计并实现,是我国第一个自动分词系统。

它采用最大正向匹配分词算法,并结合尾字构词知识进行纠错。

切分速度为11-15字/秒。

(2)CASS分词系统CASS分词系统由北京航空航天大学于1989年设计并实现。

它采用正向增字最大匹配分词算法,包括总控程序、自动分词、设施管理、分词词典和知识库五个部分,并结合知识库处理歧义字段。

切分速度为200字/秒。

(3)SEG/SEGTAG分词系统SEG/SEGTAG分词系统均由清华大学设计并实现。

其区别在于SEG分词系统集成了正向、逆向、双向最大匹配以及全切分等几种分词算法,而SEGTAG分词系统则在此基础上添加了切分标志。

分析表明,两者的切分精度均可达到99%左右。

(4)ICTCLAS分词系统ICTCLAS分词系统由中国科学院设计并实现,它采用层叠隐马尔可夫模型,将中文分词、词性标注、歧义词处理和未登录词识别等集成到一个完整的系统框架中,是目前应用最广泛的分词系统。

3 课题内容随着人们对中文分词技术的不断研究,各种各样的中文分词算法被不断提出,评价算法优劣的标准也逐渐趋于定式,而针对中文分词技术存在的难点问题,也取得了不同程度上的进展。

本文首先分析了当前中文分词技术的研究背景及发展状况,随后研究了主流的几种中文分词算法及其中文分词系统性能的评价指标,并根据中文分词的技术难点做出详细介绍,最后将在第5章节中提出初步的技术难点解决方案。

3.1 主流中文分词算法简介目前的中文分词算法主要分为三大类:基于字符串匹配的分词算法、基于统计的分词算法与基于理解的分词算法。

(1)基于字符串匹配的分词算法基于字符串匹配的分词算法,又称作机械分词方法,或基于字典的分词方法。

该算法按照一定的策略将待切分的汉字串与一个“充分大”的词库进行匹配,若找到某个词条,则匹配成功。

它有三个要素:文本扫描顺序、匹配原则和分词词典。

文本扫描顺序分为正向扫描、逆向扫描和双向扫描三种。

匹配原则分为最大匹配、最小匹配、最佳匹配和逐词匹配等。

该分词算法速度较快,但容易产生歧义、也不能解决未登录词的问题。

①最大正向匹配分词算法假设词典最长词条所含字数为n,则取被处理文本当前字符串序列中的前n 个字符作为匹配字段,在分词词典中进行查找,若找到某个词条,则匹配成功。

若找不到,则匹配失败,并去掉匹配字段最后一个字,剩下的字符作为新的匹配字段,再匹配下去,直到匹配成功为止。

②最大逆向匹配分词算法基本方法与最大正向匹配分词算法相同,区别在于该算法从待切分汉字串的末尾开始处理,若匹配不成功则去掉最前面的一个汉字。

根据大量测试数据统计结果表明,单纯使用最大正向匹配分词算法的错误率为1/169,单纯使用最大逆向匹配分词算法的错误率为1/245。

逆向匹配的切分精度略高于正向匹配,同时,在处理歧义字段的精度上,逆向匹配同样略高于正向匹配。

基于上述两种最大匹配算法,产生了一种新的名为双向匹配的分词算法,其原理为将最大正向匹配分词算法与最大逆向匹配分词算法的切分结果相结合,切分精度相对两者有了提高。

由于其目的着重于歧义字段的检测与纠错,因此能够消解部分歧义现象。

但执行算法时需要进行双向扫描,时间复杂度有所增加。

③最佳匹配分词算法将词条按照词频大小进行排列,缩短对分词词典检索时间,降低了分词的时间复杂度,提高了分词速度。

这是对分词词典的一种组织方式,对分词精度没有影响。

由于分词词典每个词条前都有一个词的长度的数据项,因此空间复杂度有所增加。

④切分标志算法切分标志分为自然切分标志和非自然切分标志。

自然切分标志指的是文本中出现的所有非文字符号,如标点符号等。

非自然标志指的是利用词缀和不构成词的词,如单音词、象声词等。

该算法对分词精度没有影响。

由于需要额外消耗时间来扫描切分标志,花费存储空间来存放非自然切分标志,因此时间复杂度和空间复杂度都有所增加。

(2)基于统计的分词算法基于统计的分词算法,首先需要采用全切分算法将词库中的词条按照长短顺序进行排列,并以此为基础搜索待处理的汉字串,知道把所有可能的词全部切分出来。

然后综合运用统计语言模型如N-gram、互信息、隐马尔可夫、最大熵等对结果进行判定。

该算法需要对已有的训练集或语料库进行预处理,其复杂度和规模庞大,并且由于分词中存在大量的数据概率计算,导致时间复杂度和空间复杂度极高。

(3)基于理解的分词算法基于理解的分词算法,通过分词的同时进行语义和句法分析,利用语义信息和句法信息处理字段歧义。

由于该算法需要大量的语言知识和信息,而汉语又具有笼统和复杂性的特点,目前仍处于初始实验阶段。

①专家系统分词算法从专家系统的角度把分词过程独立出来,使知识库的维护和分词过程互不干扰,易于管理和维护。

②神经网络分词算法模拟人脑并行、分布处理和建立数值计算模型,将分词知识存入神经网络内部,通过自学习和训练修改内部权值,达到分词效果。

相关文档
最新文档