分词技术研究报告
基于深度学习的中文分词技术研究及应用

基于深度学习的中文分词技术研究及应用一、引言中文分词作为自然语言处理的基础技术,在信息检索、机器翻译、自然语言生成、文本分类、关键词提取等应用领域有着广泛的应用,因此受到了广泛的关注。
以往的中文分词技术主要依靠规则、特征和字典等手工设计方式,因此存在着词典不全、规则复杂难以维护等问题。
随着深度学习技术的发展,基于深度学习的中文分词技术得到了快速发展,并取得了非常好的效果。
因此,本文将对基于深度学习的中文分词技术进行探讨,并介绍其在实际应用中的效果。
二、基于深度学习的中文分词技术研究在深度学习技术的引领下,中文分词技术也进行了很大的改进。
目前,在中文分词领域,基于深度学习的方法已经超越了传统算法。
主要包括CNN、RNN、LSTM、BiLSTM、CRF等模型。
2.1卷积神经网络(CNN)卷积神经网络是深度学习最重要的模型之一,它的前向传播是由一层卷积层、一层池化层和一层全连接层组成。
该模型可以基于窗口大小和滑动步长对特征进行抽取和提取。
在中文分词任务中,可以采用卷积神经网络学习汉字的表示向量,然后将向量输入到softmax层进行分类。
2.2循环神经网络(RNN)循环神经网络是另一种非常重要的深度学习模型,在自然语言处理中应用非常广泛。
在中文分词任务中,常用的是基于RNN的LSTM和GRU模型。
这两种模型可以在序列数据中提取上下文信息,并且能够自适应地调整模型的长度。
通过两种模型的组合,可以提高分词的准确率。
2.3双向循环神经网络(BiLSTM)BiLSTM是双向循环神经网络模型,它可以在序列数据中同时从前向后和从后向前进行信息提取。
然后将两个方向的隐藏向量拼接在一起以获得更好的特征表示。
在中文分词任务中,BiLSTM 模型可以在完整句子和部分句子中同时提取上下文信息,从而提高分词的准确率。
2.4条件随机场(CRF)条件随机场是一种概率无向图模型,它可以对序列数据进行标注,并且能够利用上下文信息相互影响。
国内中文自动分词技术研究综述

国内中文自动分词技术研究综述自动分词是自然语言处理中的重要任务,主要用于将连续的文本字符串分割成有意义的词语序列。
在中文自动分词中,由于中文没有像英文那样的明显的单词边界,因此这一任务更加具有挑战性。
下面是对国内中文自动分词技术的综述:1.基于规则的方法:这种方法基于已定义的规则和词典来分词。
规则可以是基于语法、词性、词频等方面设计的。
这种方法的优点是易于理解和调整,但缺点是需要大量的人工规则和词典,且无法处理未知词。
2.基于统计的方法:这种方法通过统计分析语料库中的词语出现频率和搭配信息来进行分词。
常用的统计模型包括隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场(CRF)等。
这种方法可以自动学习词语的概率分布,但对于未登录词的处理能力有限。
3.基于混合方法:这种方法将规则和统计方法相结合,充分利用两者的优点。
例如,可以首先用规则对已知词进行分词,然后用统计模型对未知词进行处理。
这种方法一方面可以提高分词的准确性,另一方面可以有效处理未知词。
4.基于机器学习的方法:近年来,随着深度学习等技术的发展,基于机器学习的方法在中文自动分词中得到了广泛应用。
这种方法利用神经网络等模型进行分词,可以自动学习特征表示,并具有较好的泛化能力。
总的来说,国内中文自动分词技术研究主要集中在基于规则、统计、混合和机器学习的方法上。
这些方法各有优劣,可以根据具体应用场景选择合适的方法。
随着技术的进步,中文自动分词的准确率和效率不断提升,为中文自然语言处理的应用提供了重要支撑。
自然语言处理的中文分词技术研究

自然语言处理的中文分词技术研究自然语言处理(Natural Language Processing, NLP)是一门涉及语言学、计算机科学、数学等多个学科的交叉学科。
其目标是让计算机能够理解人类语言,并能够根据这种理解来进行任务执行,如翻译、问答、语音识别等等。
在NLP中的中文分词问题是其中一个重要的研究课题。
本文将从中文分词技术的基本概念、中文分词技术现状以及近年来的中文分词技术发展趋势等方面来进行探讨。
一、中文分词技术的基本概念中文分词(Chinese Word Segmentation,CWS)是指对一段汉语文本进行切分、划分,使其成为一个句子中所有词语的集合。
分词是NLP中的一个基础步骤,它是文本处理中的重要环节。
中文分词在中文文本预处理、机器翻译、信息检索、文本分类、文本挖掘等领域中有着广泛的应用。
对于分词过程,主要分为基于规则的分词和基于统计的分词两种方式。
其中基于规则的分词主要是根据一定的分词规则,例如机器世界面试官岗位需求中的“有扎实的数据结构与算法基础,熟悉常见分词算法",则可以分为:“有”、“扎实”、“的”、“数据结构”、“与”、“算法”、“基础”、“熟悉”、“常见”、“分词”、“算法”十个词语。
规则分词方法比较直观,但只适用于分词规则简单的文本。
在一些复杂的文本处理任务中,无法覆盖所有的规则,因此效果难以达到理想状态。
基于统计的分词则是在大规模语料库数据上进行统计,以概率模型为基础进行分词。
例如:在机器世界面试官的需求中,频繁出现的“分词”与“算法”则很容易被统计出来成为两个独立的词语。
统计分词能够比较好地解决复杂语言规律,如歧义问题,但它需要较大的语料库支撑。
并且需要依赖于分词语料库来进行训练,因此其分词效果及质量的好坏也与语料库的质量密切相关。
二、中文分词技术现状如今,中文分词技术已经有了相对成熟的技术路线。
常见的算法有:最大匹配法、正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法、隐马尔可夫模型、条件随机场、深度学习等多种分词技术。
中文搜索引擎中的分词技术研究

中文搜索引擎中的分词技术研究随着互联网的发展,中文搜索引擎在人们的生活中扮演着越来越重要的角色。
然而,针对中文搜索引擎而言,其中最基本的技术--分词技术--却是一项极其复杂和难以完善的技术。
本文将对中文搜索引擎中的分词技术研究做一些探讨。
一、分词技术的定义和作用分词技术也称为“切词技术”,顾名思义就是将一段话语或文本流中的语言根据一定的规则,将其切割成一组组独立的词语。
中文中的一个汉字可以表示一个词,也可以表示几个词,这时需要用到分词技术。
中文的复杂性已经不足为奇,一个字就是一种词,而一个词也可以用好几个字组成,这样一来,对于搜索引擎而言,如果不能正确地对中文进行分词,搜索引擎就无法准确的对用户查询的意图进行理解,结果就是无法给用户提供满意的搜索结果。
二、中文分词技术的方法1、基于词典的分词方法词典是分词的重要基础。
基于词典的分词方法不是通过算法来解决问题,而是通过对词典的建设、扩展和维护。
由于中文词汇量大、词性较多,因此建立一个全面准确的词库是非常麻烦的。
但是值得一提的是,基于词典的分词方法较为准确,对于常用词、专业词等高频词分词效果较好。
2、基于规则的分词方法基于规则的分词方法采用规则来切分字串,判断字串是否为词。
如:某些词只有左邻字、右邻字或左右邻字满足一定条件才能成为分词结果;通过一些字符,如:+、——、||等,表示词尾或延长词头等。
3、基于统计的分词方法基于统计的分词方法是最常用的分词方式,主要实现方式是通过对样本的训练而生成统计模型,模型在适应到更多的分词数据中,以实现分词功能。
其中深度学习技术是在这个过程中被广泛使用的方式之一。
三、分词技术中的难点中文分词技术中的难点也是大家最关心的部分。
其中主要有以下几点:1、歧义对于汉语的复杂性我们已经有了比较深刻的认识,在分词过程中,这种复杂性变得更加明显。
汉语中很多字既能作为一个词进行独立的使用,也可以与其他词组合成短语或者句子,这就会造成歧义。
中文分词研究报告

中文分词处理第一阶段报告通信10班201221*** ***目录第一部背景——有关中文分词第二部知识储备1.文件2.中文文件的存储格式3.字符编码4.GBK编码基本原理第三部实践操作1.截图2.学到的知识3.疑难问题的处理4.学习心得第一部分:背景——有关中文分词记得刚抢上案例教学名额的时候,有人问我选的是什么课题,我说中文分“字”。
可见当时对这个课题是有多么的不了解。
后来查了一些材料,问了老师学姐,一个学长推荐我读一下吴军老师的《数学之美》。
慢慢的,我开始了解。
自计算机诞生以来,计算机无与伦比的运算速度与稳定性使得计算机在很多事情上做得比人好。
但是计算机用数字记录信息,人用文字记录信息,这就好比两个来自不同地区的人说着互相不懂得话,那么计算机到底有没有办法处理自然语言呢?起初,我们希望计算机能从语法语义上理解人类的自然语言,这种希望催生了基于规则的自然语言处理方法,然而,20年的时间证明,这种办法是行不通的,语言博大的语法语义语境体系无法移植到计算机。
20年弯路之后,我们找到了一条合适的路径——基于统计的自然语言处理方法,这种方法的大体思想是:拥有一个庞大的语料库,对句子的分析变为概率分析,而概率分析是将每一个词出现的条件概率相乘,也就是说,统计语言模型是建立在词的基础上的,因为词是表达语义的最小单位。
分词处理对自然语言处理起着至关重要的作用!对于西方拼音语言来讲,词之间有明确的分界符,统计和使用语言模型非常直接。
而对于中、日、韩、泰等语言,词之间没有明确的分界符。
因此,首先需要对句子进行分词。
(补充一点的是,中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就很清楚,中文分词方法可以帮助判别英文单词的边界。
)目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。
中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。
中文分词实验报告

实验:中文分词实验小组成员:黄婷苏亮肖方定山一、实验目的:1.实验目的(1)了解并掌握基于匹配的分词方法、改进方法、分词效果的评价方法等2.实验要求(1)从互联网上查找并构建不低于10万词的词典,构建词典的存储结构;(2)选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最大匹配法等),同时实现至少一种改进算法。
(3)在不低于1000个文本文件(可以使用附件提供的语料),每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、召回率、F-值、分词速度。
二、实验方案:1. 实验环境系统:win10软件平台:spyder语言:python2. 算法选择(1)选择正向减字最大匹配法(2)算法伪代码描述:3. 实验步骤● 在网上查找语料和词典文本文件; ● 思考并编写代码构建词典存储结构;●编写代码将语料分割为1500 个文本文件,每个文件的字数大于1000 字;●编写分词代码;●思考并编写代码将语料标注为可计算准确率的文本;●对测试集和分词结果集进行合并;●对分词结果进行统计,计算准确率,召回率及 F 值(正确率和召回率的调和平均值);●思考总结,分析结论。
4. 实验实施实验过程:(1)语料来源:语料来自SIGHAN 的官方主页(/ ),SIGHAN 是国际计算语言学会(ACL )中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG 汉“或“SIG 漢“。
SIGHAN 为我们提供了一个非商业使用(non-commercial )的免费分词语料库获取途径。
我下载的是Bakeoff 2005 的中文语料。
有86925 行,2368390 个词语。
语料形式:“没有孩子的世界是寂寞的,没有老人的世界是寒冷的。
基于语义分析的中文分词技术研究

基于语义分析的中文分词技术研究
中文分词是将连续的汉字序列切分成一个个有意义的词语的过程。
基
于语义分析的中文分词技术是一种通过利用语义信息进行分词的方法。
传统的中文分词方法是基于语法规则和统计模型的,通常依赖于词典
和规则,但这些方法在处理歧义性和新词识别等问题上存在一定的局限性。
因此,基于语义分析的中文分词技术出现,旨在通过使用更多的语义信息
来提高分词的准确性和效果。
1. 词向量模型:利用词向量模型,如Word2Vec和GloVe等,将每个
词语表示为向量,基于词语之间的语义相似度进行分词。
通过计算词向量
之间的余弦相似度,可以识别出合适的分词点。
2.基于上下文的分析:利用上下文信息来辅助分词。
例如,可以通过
观察词语前后的词性、语法关系以及常见的搭配等来进行分词。
3.基于语义角色标注:利用语义角色标注的结果来指导分词。
语义角
色标注模型可以识别出句子中的主谓宾关系,根据这些关系可以将句子切
分成有意义的词组。
4.基于深度学习的方法:利用深度学习模型,如循环神经网络(RNN)和长短期记忆(LSTM)等,学习中文分词的模式和规律。
通过训练模型识
别词语边界,可以提高中文分词的准确性。
需要注意的是,基于语义分析的中文分词技术虽然可以提高分词的准
确性和效果,但也存在一定的挑战和难点。
例如,如何处理多义词、新词
以及长词等问题,仍然是待解决的课题。
因此,目前仍然需要进一步的研
究和改进。
中文自动分词若干技术的研究的开题报告

中文自动分词若干技术的研究的开题报告一、研究背景随着互联网技术的不断发展,中文信息处理的需求日益旺盛,而中文自然语言中的词语粘连现象成为了中文信息处理的难点之一。
因此,在中文自然语言处理中,中文分词技术起着至关重要的作用,但中文分词技术也存在许多挑战性问题,如歧义消解、未登录词问题等。
因此,本研究旨在探究中文自动分词技术的若干技术,通过对不同分词算法的实现和对比,进一步提高中文自动分词的准确率和效率。
二、研究目的1. 了解中文自动分词的若干技术,并对其进行研究和实现。
2. 对不同的中文分词算法进行实验和比较,分析其准确率和效率。
3. 探讨如何应对中文自动分词中的歧义消解和未登录词问题。
4. 提高中文自动分词的准确率和效率,为中文信息处理提供更好的解决方案。
三、研究内容1. 中文自动分词技术相关理论研究和分析。
2. 中文分词算法的实现和对比研究。
3. 对中文自动分词中的歧义消解和未登录词问题进行探讨。
4. 提高中文自动分词的准确率和效率的实验研究。
四、研究方法1. 对中文分词的常用算法进行实现和对比分析。
2. 在分词实现的过程中,对一些应用的特殊场景进行分析,探讨应对方法。
3. 在分词算法实现的基础上,对同类算法进行准确率和效率比较。
4. 综合实验和比较结果,提出提高中文自动分词准确率和效率的方案。
五、研究意义1. 深入探索中文自动分词若干技术的发展和应用,提高其准确率和效率。
2. 增强中文信息处理中的自动化处理能力和智能化水平。
3. 对于中文自动分词技术的不足之处进行深入剖析,并提出解决方案,为相关领域研究提供借鉴。
4. 为中文自动分词技术的更广泛应用做出贡献。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分词技术研究报告(1)2008-9-13 7:28:22技术报告报告人:杨超一、研究内容目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文搜索引擎是必然的产物。
中文搜索引擎与西文搜索引擎在实现的机制和原理上大致雷同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而汉语自动分词技术就是其中很关键的部分。
汉语自动分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,最重要的是把最相关的结果排在最前面,这也称为相关度排序。
中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。
因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。
研究汉语自动分词算法,对中文搜索引擎的发展具有至关重要的意义。
快速准确的汉语自动分词是高效中文搜索引擎的必要前提。
本课题研究中文搜索引擎中汉语自动分词系统的设计与实现,从目前中文搜索引擎的发展现状出发,引出中文搜索引擎的关键技术汉语自动分词系统的设计。
首先研究和比较了几种典型的汉语自动分词词典机制,指出各词典机制的优缺点,然后分析和比较了几种主要的汉语自动分词方法,阐述了各种分词方法的技术特点。
针对课题的具体应用领域,提出改进词典的数据结构,根据汉语中二字词较多的特点,通过快速判断二字词来优化速度;分析中文搜索引擎下歧义处理和未登陆词处理的技术,提出了适合本课题的自动分词算法,并给出该系统的具体实现。
最后对系统从分词速度和分词准确性方面进行了性能评价。
本课题的研究将促进中文搜索引擎和汉语自动分词新的发展。
二、汉语自动分词系统的研究现状1、几个早期的自动分词系统自80 年代初中文信息处理领域提出了自动分词以来,一些实用性的分词系统逐步得以开发,其中几个比较有代表性的自动分词系统在当时产生了较大的影响。
CDWS 分词系统是我国第一个实用的自动分词系统,由北京航空航天大学计算机系于1983年设计实现,它采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。
其分词速度为5-10 字/秒,切分精度约为1/625。
ABWS 是山西大学计算机系研制的自动分词系统,系统使用“两次扫描联想-回溯”方法,运用了较多的词法、句法等知识。
其切分正确率为98.6%(不包括非常用、未登录的专用名词),运行速度为48 词/分钟。
CASS 是北京航空航天大学于1988年实现的分词系统。
它使用正向增字最大匹配,运用知识库来处理歧义字段。
其机械分词速度为200 字/秒以上,知识库分词速度150 字/秒(没有完全实现)。
书面汉语自动分词专家系统是由北京师范大学现代教育研究所于1991 前后研制实现的,它首次将专家系统方法完整地引入到分词技术中。
2、清华大学SEG 分词系统此系统提供了带回溯的正向、反向、双向最大匹配法和全切分-评价切分算法,由用户来选择合适的切分算法。
其特点则是带修剪的全切分-评价算法。
经过封闭试验,在多遍切分之后,全切分-评价算法的精度可以达到99%左右。
3、清华大学SEGTAG 系统此系统着眼于将各种各类的信息进行综合,以便最大限度地利用这些信息提高切分精度。
系统使用有向图来集成各种各样的信息。
通过实验,该系统的切分精度基本上可达到99%左右,能够处理未登录词比较密集的文本,切分速度约为30 字/秒。
4、国家语委文字所应用句法分析技术的汉语自动分词此分词模型考虑了句法分析在自动分词系统中的作用,以更好地解决切分歧义。
切词过程考虑到了所有的切分可能,并运用汉语句法等信息从各种切分可能中选择出合理的切分结果。
5、复旦分词系统此系统由四个模块构成。
一、预处理模块,利用特殊的标记将输入的文本分割成较短的汉字串,这些标记包括标点符号、数字、字母等非汉字符,还包括文本中常见的一些字体、字号等排版信息。
二、歧义识别模块,使用正向最小匹配和逆向最大匹配对文本进行双向扫描,如果两种扫描结果相同,则认为切分正确,否则就判别其为歧义字段,需要进行歧义处理;三、歧义字段处理模块,此模块使用构词规则和词频统计信息来进行排歧。
最后,此系统还包括一个未登录词识别模块,实验过程中,对中文姓氏的自动辨别达到了70%的准确率。
系统对文本中的地名和领域专有词汇也进行了一定的识别。
6、哈工大统计分词系统此系统能够利用上下文识别大部分生词,解决一部分切分歧义。
经测试,此系统的分词错误率为1.5%,速度为236 字/秒。
7、杭州大学改进的MM 分词系统系统的词典采用一级首字索引结构,词条中包括了“非连续词”(形如C1…* Cn )。
系统精度的实验结果为95%,低于理论值99.73%,但高于通常的MM 、RMM 、DMM 方法。
8、Microsoft Research 汉语句法分析器中的自动分词微软研究院的自然语言研究所在从90 年代初开始开发了一个通用型的多国语言处理平台NLPWin ,据报道, NLPWin 的语法分析部分使用的是一种双向的Chart Parsing,使用了语法规则并以概率模型作导向,并且将语法和分析器独立开。
实验结果表明,系统可以正确处理85% 的歧义切分字段,在Pentium 200PC上的速度约600-900字/秒。
9、北大计算语言所分词系统本系统由北京大学计算语言学研究所研制开发, 属于分词和词类标注相结合的分词系统。
系统的分词连同标注的速度在Pentium 133Hz/16MB 内存机器上的达到了每秒3 千词以上,而在Pentium II/64MB 内存机器上速度高达每秒5 千词。
三、主要的自动分词算法现有的分词算法主要可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
常用的几种机械分词方法如下;1 正向最大匹配2 逆向最大匹配3 最少切分(使每一句中切出的词数最小)还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。
由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。
一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。
统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。
但这种精度还远远不能满足实际的需要。
由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大基本问题:歧义切分问题和未登录词识别问题。
实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。
另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m),即Automatic Segmentation Model。
其中,d:匹配方向,+1表示正向,-1表示逆向;a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字;m:最大/最小匹配标志,+1为最大匹配,-1为最小匹配。
例如,ASM(+, -, +) 就是正向减字最大匹配法 (即MM 方法),ASM(-, -, +)就是逆向减字最大匹配法(即RMM 方法) ,等等。
对于现代汉语来说,只有m=+1 是实用的方法。
用这种模型可以对各种方法的复杂度进行比较,假设在词典的匹配过程都使用顺序查找和相同的计首字索引查找方法,则在不记首字索引查找次数 (最小为log<汉字总数> ? 12〜14)和词典读入内存时间的情况下,对于典型的词频分布,减字匹配ASM(d,-,m) 的复杂度约为12.3 次,增字匹配ASM(d,+,m) 的复杂度约为10.6。
2、基于理解的分词方法通常的分析系统,都力图在分词阶段消除所有歧义切分现象。
而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。
其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
它通常包括三个部分:分词子系统、句法语义子系统、总控部分。
在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
这种分词方法需要使用大量的语言知识和信息。
由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。
因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。
可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。
定义两个字的互现信息为:,其中是汉字X 、Y 的相邻共现概率,、分别是X、Y 在语料中出现的概率。
互现信息体现了汉字之间结合关系的紧密程度。
当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。
实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
在本课题中,采用基于字符串匹配的分词方法来实现中文搜索引擎下的汉语自动分词系统。
四、技术方案1)研究方法:1、研究词典的存储方式和数据结构2、采用正向/反向最大匹配分词法实现自动分词3、对2 中两种匹配分词算法的结果不一致的词进行提取,标记为歧义字段4、对歧义字段进行消歧处理5、对未登陆词进行处理6、从分词的准确性和分词速度方面对系统进行评价7、设计词典管理模块,完成对词典的更新和维护8、针对具体的中文搜索引擎应用背景,对自动分词算法进行改进2)技术路线:本项目的研究主要分为四个阶段来实施:第一阶段:定义词典的数据结构第二阶段:实现正向/反向最大匹配分词法第三阶段:实现歧义处理第四阶段:实现未登陆词处理3)实验平台:Windows + VC6.04)实验方案:实验一:建立词典机制,实现词典管理模块实验二:实现正向/反向最大匹配自动分词算法实验三:检测并提取歧义字段,实现歧义处理模块实验四:实现未登陆词处理模块五、已完成的工作目前,已对整个系统的模块设计进行了规划,完成实验一和实验二,实现了词典管理模块和正向/反向最大匹配自动分词算法。