国内中文分词技术研究新进展
汉语分词技术研究现状与应用展望

续的字符串( , C )输 出是汉语的词 串( . CC C… ,
2 1 通用 词表和 切分 规范 .
… ) 这里 , 可 以是单字词也可 以是多字 ,
词. 那么 , 在这个过程中, 我们所要解决 的关键问题是什么 , 我们又有什么样 的解决方案呢? 至今为止 , 分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据. 这不能不说是分词系
要 解决 的重要 问题 ,
除了同音词的自动辨识 , 汉语的多音字 自动辨识仍然需要分词 的帮助. 例如 : 校 、 、 、 、 等都 “ 行 重 乐 率” 是多音字. 无论是拼音 自动标注还是语音合成都需要识别出正确的拼音. 而多音字的辨识可以利用词以及
句子中前后词语境 , 即上下文来实现. 如下面几个多音字都可以通过所在的几组词得 以定音 : ) 、 z n ) 重(hn ) 快乐(e/ jo 对 行( ag 列/ x g 进 重(h g 量/ cog 新、 i n o 1)音乐 (u ) 率 (h a) 效 ye 、 sui领/
率( ) 1. v
2 汉语分词所面临 的关键 问题
汉语分词是由计算机 自动识别文本中的词边界的过程. 从计算机处理过程上看 , 分词系统的输入是连
定义两个字的互信息计算两个汉字结合程互信息体现了汉字之间结合关系的紧密程度需要大量的训练文本用以建立模型的参数到底哪种分词算法的准确度更高目前尚无定论对于任何一个成熟的分单独依靠某一种算法来实现都需要综合不同的算法汉语分词技术的应用国内自80年代初就在中文信息处理领域提出了自动分词从而产生了一些实用京航空航天大学计算机系1983年设计实现的cdws分词系统是我国第一个实用的自度约为625开发者自己测试结果下同早期分词系统机系研制的abws自动分词系统和北京师范大学现代教育研究所研制的书面汉语这些都是将新方法运用于分词系统的成功尝试具有很大的理论意义随后比较有代表性的有清华大学seg和segtag分词系统复旦分词系统州大学改进的mm分词系统北大计算语言所分词系统分词和词类标注相结合在自然语言处理技术中中文处理技术比西文处理技术要落后很大一段距离文不能直接采用就是因为中文必需有分词这道工序汉语分词是其他中文信息处理是汉语分词的一个应用语音合成自动分类自动摘要要用到分词因为中文需要分词可能会影响一些研究但同时也为一些企业带来机会参考文献汉语信息处理词汇01部分朱德熙
基于卷积神经网络的中文分词技术研究

基于卷积神经网络的中文分词技术研究一、引言自然语言处理是人工智能领域的一个重要分支,在实际应用中占有重要地位。
中文分词是自然语言处理的基础技术之一,它将中文文本分割成词语序列,是其他自然语言处理任务的基础。
在过去的几十年里,中文分词经历了从规则驱动的方法到基于统计和机器学习的方法的转变,卷积神经网络(CNN)作为一个强大的机器学习工具,近年来也得到了广泛应用。
本文将重点讨论基于卷积神经网络的中文分词技术的研究现状和进展。
二、卷积神经网络介绍卷积神经网络是深度学习领域的一个重要分支,以其出色的特征提取能力和泛化性能,在图像识别、语音识别等领域获得了广泛的应用。
卷积神经网络的基本结构包括卷积层、池化层、全连接层等。
其中,卷积层是提取特征的核心组件,采用了卷积操作,通过使用多个卷积核对输入特征图进行滑动计算,得到一系列高层次的特征表示。
池化层则用于缩小特征图的尺寸,同时保留有用的特征信息,全连接层负责将各层的特征进行组合,实现分类任务。
三、基于卷积神经网络的中文分词技术基于卷积神经网络的中文分词技术在近几年获得了广泛的关注和应用,具有高效、准确、可扩展等优点。
下面介绍几种常见的基于卷积神经网络的中文分词技术。
1. CWS-CNN模型CWS-CNN模型是一种基于卷积神经网络的中文分词模型,该模型通过卷积操作学习特征表示,并通过最大池化操作提取重要的特征。
为了解决中文分词的歧义问题,该模型引入了CRF方法进行标注。
实验结果表明,CWS-CNN模型在中文分词任务上具有优秀的性能。
2. CNN-LSTM-CRF模型CNN-LSTM-CRF模型将卷积神经网络、长短时记忆网络和条件随机场方法紧密结合,实现了端到端的中文分词任务。
该模型的卷积层和LSTM层负责提取文本中的上下文信息,CRF层用于对每个单词进行标注。
实验结果显示,该模型在各项标准指标上均表现出色。
3. ELMo-CNN模型ELMo-CNN模型将卷积神经网络和预训练语言模型ELMo结合,实现了更好的语境表示。
基于深度学习的中文分词技术研究及应用

基于深度学习的中文分词技术研究及应用一、引言中文分词作为自然语言处理的基础技术,在信息检索、机器翻译、自然语言生成、文本分类、关键词提取等应用领域有着广泛的应用,因此受到了广泛的关注。
以往的中文分词技术主要依靠规则、特征和字典等手工设计方式,因此存在着词典不全、规则复杂难以维护等问题。
随着深度学习技术的发展,基于深度学习的中文分词技术得到了快速发展,并取得了非常好的效果。
因此,本文将对基于深度学习的中文分词技术进行探讨,并介绍其在实际应用中的效果。
二、基于深度学习的中文分词技术研究在深度学习技术的引领下,中文分词技术也进行了很大的改进。
目前,在中文分词领域,基于深度学习的方法已经超越了传统算法。
主要包括CNN、RNN、LSTM、BiLSTM、CRF等模型。
2.1卷积神经网络(CNN)卷积神经网络是深度学习最重要的模型之一,它的前向传播是由一层卷积层、一层池化层和一层全连接层组成。
该模型可以基于窗口大小和滑动步长对特征进行抽取和提取。
在中文分词任务中,可以采用卷积神经网络学习汉字的表示向量,然后将向量输入到softmax层进行分类。
2.2循环神经网络(RNN)循环神经网络是另一种非常重要的深度学习模型,在自然语言处理中应用非常广泛。
在中文分词任务中,常用的是基于RNN的LSTM和GRU模型。
这两种模型可以在序列数据中提取上下文信息,并且能够自适应地调整模型的长度。
通过两种模型的组合,可以提高分词的准确率。
2.3双向循环神经网络(BiLSTM)BiLSTM是双向循环神经网络模型,它可以在序列数据中同时从前向后和从后向前进行信息提取。
然后将两个方向的隐藏向量拼接在一起以获得更好的特征表示。
在中文分词任务中,BiLSTM 模型可以在完整句子和部分句子中同时提取上下文信息,从而提高分词的准确率。
2.4条件随机场(CRF)条件随机场是一种概率无向图模型,它可以对序列数据进行标注,并且能够利用上下文信息相互影响。
中文分词与词性标注技术研究与应用

中文分词与词性标注技术研究与应用中文分词和词性标注是自然语言处理中常用的技术方法,它们对于理解和处理中文文本具有重要的作用。
本文将对中文分词和词性标注的技术原理、研究进展以及在实际应用中的应用场景进行综述。
一、中文分词技术研究与应用中文分词是将连续的中文文本切割成具有一定语义的词语序列的过程。
中文具有词汇没有明确的边界,因此分词是中文自然语言处理的基础工作。
中文分词技术主要有基于规则的方法、基于词典的方法和基于机器学习的方法。
1.基于规则的方法基于规则的中文分词方法是根据语法规则和语言学知识设计规则,进行分词操作。
例如,按照《现代汉语词典》等标准词典进行分词,但这种方法无法处理新词、歧义和未登录词的问题,因此应用受到一定的限制。
2.基于词典的方法基于词典的中文分词方法是利用已有的大规模词典进行切分,通过查找词典中的词语来确定分词的边界。
这种方法可以处理新词的问题,但对未登录词的处理能力有所限制。
3.基于机器学习的方法基于机器学习的中文分词方法是利用机器学习算法来自动学习分词模型,将分词任务转化为一个分类问题。
常用的机器学习算法有最大熵模型、条件随机场和神经网络等。
这种方法具有较好的泛化能力,能够处理未登录词和歧义问题。
中文分词技术在很多自然语言处理任务中都起到了重要的作用。
例如,在机器翻译中,分词可以提高对齐和翻译的质量;在文本挖掘中,分词可以提取关键词和构建文本特征;在信息检索中,分词可以改善检索效果。
二、词性标注技术研究与应用词性标注是给分好词的文本中的每个词语确定一个词性的过程。
中文的词性标注涉及到名词、动词、形容词、副词等多个词性类别。
词性标注的目标是为后续的自然语言处理任务提供更精确的上下文信息。
1.基于规则的方法基于规则的词性标注方法是根据语法规则和语境信息,确定每个词语的词性。
例如,根据词语周围的上下文信息和词语的词义来判断词性。
这种方法需要大量的人工制定规则,并且对于新词的处理能力较差。
国内中文自动分词技术研究综述

国内中文自动分词技术研究综述自动分词是自然语言处理中的重要任务,主要用于将连续的文本字符串分割成有意义的词语序列。
在中文自动分词中,由于中文没有像英文那样的明显的单词边界,因此这一任务更加具有挑战性。
下面是对国内中文自动分词技术的综述:1.基于规则的方法:这种方法基于已定义的规则和词典来分词。
规则可以是基于语法、词性、词频等方面设计的。
这种方法的优点是易于理解和调整,但缺点是需要大量的人工规则和词典,且无法处理未知词。
2.基于统计的方法:这种方法通过统计分析语料库中的词语出现频率和搭配信息来进行分词。
常用的统计模型包括隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场(CRF)等。
这种方法可以自动学习词语的概率分布,但对于未登录词的处理能力有限。
3.基于混合方法:这种方法将规则和统计方法相结合,充分利用两者的优点。
例如,可以首先用规则对已知词进行分词,然后用统计模型对未知词进行处理。
这种方法一方面可以提高分词的准确性,另一方面可以有效处理未知词。
4.基于机器学习的方法:近年来,随着深度学习等技术的发展,基于机器学习的方法在中文自动分词中得到了广泛应用。
这种方法利用神经网络等模型进行分词,可以自动学习特征表示,并具有较好的泛化能力。
总的来说,国内中文自动分词技术研究主要集中在基于规则、统计、混合和机器学习的方法上。
这些方法各有优劣,可以根据具体应用场景选择合适的方法。
随着技术的进步,中文自动分词的准确率和效率不断提升,为中文自然语言处理的应用提供了重要支撑。
中文分词技术的研究现状与困难

四、解决方案
为了克服中文分词技术的研究困难,以下一些解决方案值得:
1、优化分词算法:针对分词算法的复杂性问题,可以尝试优化算法的设计和 实现,提高其效率和准确性。例如,可以通过引入上下文信息、利用语言学知 识等方式来改进算法。
2、改进信息检索技术:在信息检索领域,可以尝试将先进的排序算法、推荐 系统等技术引入到检索过程中,以提高检索效果。此外,还可以研究如何基于 用户行为和反馈来优化检索结果。
3、缺乏统一的评价标准:中文分词技术的评价标准尚未统一,这使得不同研 究之间的比较和评估变得困难。建立通用的中文分词技术评价标准对于推动相 关研究的发展至关重要。
4、特定领域的应用场景:中文分词技术在不同领域的应用场景中面临着不同 的挑战。例如,在金融领域中,需要分词技术对专业术语进行精确识别;在医 疗领域中,需要处理大量未登录词和生僻字。如何针对特定领域的应用场景进 行优化,是中文分词技术的重要研究方向。
3、建立大型标注语料库:通过建立大型标注语料库,可以为分词算法提供充 足的训练数据,提高其准确性和自适应性。此外,标注语料库也可以用于开发 基于规则的分词方法和测试集的构建。
4、研究跨领域的应用场景:针对不同领域的应用场景,可以研究如何将中文 分词技术进行迁移和适配。例如,可以通过知识图谱等技术将不同领域的知识 引入到分词过程中,以提高分词效果。
然而,各种分词方法也存在一定的局限性和不足。例如,基于规则的分词方法 需要人工编写规则和词典,难以维护和更新;基于统计的分词方法需要大量标 注语料库,而且训练模型的时间和计算成本较高;基于深度学习的分词方法虽 然取得了较好的效果,但也需要耗费大量的时间和计算资源进行训练。
三、研究困难
中文分词技术的研究面临着诸多困难和挑战,以下是一些主要词方法:该方法主要依靠人工编写的分词规则来进行分词。 代表性的工作包括台湾大学开发的中文分词系统“THULAC”和北京大学开发 的“PKU中文分词系统”。这些系统均基于词典和规则,具有较高的准确率和 召回率。
自然语言处理的中文分词技术研究

自然语言处理的中文分词技术研究自然语言处理(Natural Language Processing, NLP)是一门涉及语言学、计算机科学、数学等多个学科的交叉学科。
其目标是让计算机能够理解人类语言,并能够根据这种理解来进行任务执行,如翻译、问答、语音识别等等。
在NLP中的中文分词问题是其中一个重要的研究课题。
本文将从中文分词技术的基本概念、中文分词技术现状以及近年来的中文分词技术发展趋势等方面来进行探讨。
一、中文分词技术的基本概念中文分词(Chinese Word Segmentation,CWS)是指对一段汉语文本进行切分、划分,使其成为一个句子中所有词语的集合。
分词是NLP中的一个基础步骤,它是文本处理中的重要环节。
中文分词在中文文本预处理、机器翻译、信息检索、文本分类、文本挖掘等领域中有着广泛的应用。
对于分词过程,主要分为基于规则的分词和基于统计的分词两种方式。
其中基于规则的分词主要是根据一定的分词规则,例如机器世界面试官岗位需求中的“有扎实的数据结构与算法基础,熟悉常见分词算法",则可以分为:“有”、“扎实”、“的”、“数据结构”、“与”、“算法”、“基础”、“熟悉”、“常见”、“分词”、“算法”十个词语。
规则分词方法比较直观,但只适用于分词规则简单的文本。
在一些复杂的文本处理任务中,无法覆盖所有的规则,因此效果难以达到理想状态。
基于统计的分词则是在大规模语料库数据上进行统计,以概率模型为基础进行分词。
例如:在机器世界面试官的需求中,频繁出现的“分词”与“算法”则很容易被统计出来成为两个独立的词语。
统计分词能够比较好地解决复杂语言规律,如歧义问题,但它需要较大的语料库支撑。
并且需要依赖于分词语料库来进行训练,因此其分词效果及质量的好坏也与语料库的质量密切相关。
二、中文分词技术现状如今,中文分词技术已经有了相对成熟的技术路线。
常见的算法有:最大匹配法、正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法、隐马尔可夫模型、条件随机场、深度学习等多种分词技术。
中文搜索引擎中的分词技术研究

中文搜索引擎中的分词技术研究随着互联网的发展,中文搜索引擎在人们的生活中扮演着越来越重要的角色。
然而,针对中文搜索引擎而言,其中最基本的技术--分词技术--却是一项极其复杂和难以完善的技术。
本文将对中文搜索引擎中的分词技术研究做一些探讨。
一、分词技术的定义和作用分词技术也称为“切词技术”,顾名思义就是将一段话语或文本流中的语言根据一定的规则,将其切割成一组组独立的词语。
中文中的一个汉字可以表示一个词,也可以表示几个词,这时需要用到分词技术。
中文的复杂性已经不足为奇,一个字就是一种词,而一个词也可以用好几个字组成,这样一来,对于搜索引擎而言,如果不能正确地对中文进行分词,搜索引擎就无法准确的对用户查询的意图进行理解,结果就是无法给用户提供满意的搜索结果。
二、中文分词技术的方法1、基于词典的分词方法词典是分词的重要基础。
基于词典的分词方法不是通过算法来解决问题,而是通过对词典的建设、扩展和维护。
由于中文词汇量大、词性较多,因此建立一个全面准确的词库是非常麻烦的。
但是值得一提的是,基于词典的分词方法较为准确,对于常用词、专业词等高频词分词效果较好。
2、基于规则的分词方法基于规则的分词方法采用规则来切分字串,判断字串是否为词。
如:某些词只有左邻字、右邻字或左右邻字满足一定条件才能成为分词结果;通过一些字符,如:+、——、||等,表示词尾或延长词头等。
3、基于统计的分词方法基于统计的分词方法是最常用的分词方式,主要实现方式是通过对样本的训练而生成统计模型,模型在适应到更多的分词数据中,以实现分词功能。
其中深度学习技术是在这个过程中被广泛使用的方式之一。
三、分词技术中的难点中文分词技术中的难点也是大家最关心的部分。
其中主要有以下几点:1、歧义对于汉语的复杂性我们已经有了比较深刻的认识,在分词过程中,这种复杂性变得更加明显。
汉语中很多字既能作为一个词进行独立的使用,也可以与其他词组合成短语或者句子,这就会造成歧义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国内中文分词技术研究新进展冯书晓 徐 新 杨春梅(石河子大学药学院 乌鲁木齐 832002)摘 要 就开发中文搜索引擎在汉语语言方面的关键技术之一,即中文分词技术进行综述。
关键词 中文搜索引擎 中文分词 文献检索搜索引擎通常由信息收集和信息检索两部分组成。
对于英文,由于英文中词与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大减轻了用户与计算机的工作量;相对来讲,中文的情形就复杂得多。
中文的词与词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种技术被称之为 汉语词语切分技术 。
根据是否采用词语切分技术,中文搜索引擎又可分为基于字的搜索引擎和基于词的搜索引擎。
由于中文信息处理的特殊性和复杂性,中文搜索引擎技术还很不成熟,开发中文搜索引擎决不像西文软件的汉化那样简单。
在实现中文搜索引擎时,不能照搬国外现成的技术,需要对中文的信息处理技术作专门地研究。
自然语言理解领域的应用已经越来越广,但是几乎任何一个基于汉语的系统,都必须经过分词这一步。
自动分词系统是中文信息处理中的一个主要组成部分,是中文自然语言理解、文献检索、机器翻译即语音合成系统中最基本的一部分。
在搜索引擎中,为了进行中文信息小型化,需要提取关键知识,也就是说首先要分隔出单个的中文词语,然后进行词频统计得到关键词。
要开发中文搜索引擎,快速的汉语分词算法和可靠的汉化技术是至关重要的。
本文将针对中文分词技术及近年来中文分词技术的发展作一综述。
1 中文分词技术1.1 中文词的特点 与英文不同,字是汉语的基本独立单位,但是具有一定语义的最小单位却是词。
词由单个或多个字构成,一般用得最多的是二字词,其次是单字词,另外还有一些多字词(如成语、专有名词等)。
1.1.1 数量多。
汉语中常用的词有几万条, 现代汉语词典 中收录的词就达6万个之多。
而且,随着社会的发展,不断地有新词产生。
1.1.2 使用灵活、变化多样,容易产生歧义。
例如同样的两个连续汉字,在有的句子中构成一个词,而在另外的句子环境中,却可能不构成词。
这给计算机的词法分析工作带来了极大的困难。
1.1.3 书写习惯。
在英文系统中,词与词之间在书写上用空格隔开,计算机处理时可以非常容易地从文档中识别出一个一个的词。
而在汉语系统中,书写以句子为单位,句间有标点隔开,在句内,字和词则是连续排列的,它们之间没有任何分隔。
这样,如果要对中文文档进行基于词的处理,必须先要进行词的切分处理,以正确地识别出每一个词。
1.1.4 其它特点。
诸如汉字同音字、同音异形字等等。
1.2 一般分词方法 目前采用的分词方法主要有以下几种:最大匹配法、反向最大匹配方法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、邻接约束方法、邻接知识约束方法、专家系统方法、最少分词词频选择方法、神经网络方法等等。
除了这些,许多基于统计的方法也引入到分词过程中。
例如分词与词性标注一体化方法,随机有限状态算法用于分词,模拟物理研究中结晶过程的统计方法也被尝试于分词过程。
此外,还有大量的基于统计或规则的汉语未登录词识别的研究,这里不能一一列举。
但归纳起来不外乎两类:一类是理解式切词法,即利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理机;另一类是机械式分词法,一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分。
下面笔者就以此对近年来中文分词技术的进展分类作一综述。
2 中文分词技术的进展目前的分词算法多种多样,基本上可分为两大类:机械性分词和理解性分词法。
后者可谓理想的方法,但在语法分析、语义分析乃至篇章理解还没有得到解决之前,其分词实用系统主要采用机械分词法,但实际上纯机械性分词也无人在用,一般都使用介于二者之间的某种分词法。
在此,本人称之为综合式分词法,收录了由作者本人明确指出同时采用了机械式分词法和理解式分词法的文章。
2.1 机械式分词法 邹海山等在现有分词技术的基础上,提出了一种基于词典的正向最大匹配和逆向最大匹配相结合的中文分词方案,可以高效、准确地实现中文文档的主题词条的抽取和词频统计。
应志伟等基于一个实际的文语转换系统,介绍了它的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一种基于统计模型的算法来处理其中的多交集歧义字段,并用穷举法和一些简单的规则相组合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别问题,达到实现文语转换的目的。
陈桂林等首先介绍了一种高效的中文电子词表数据结构,它支持首字Hasb和标准的二分查找,且不限词条长度,然后提出了一种改进的快速分词算法。
在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效情报杂志2002年第11期 情报检索率。
理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。
欧振猛、余顺争采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改造型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。
三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。
孙茂松等提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。
从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。
实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。
郭祥昊、钟义信、杨丽提出了一种快速汉语自动分词算法。
其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。
算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。
另外,本文还提出了用两字词簇快速检测交叉歧义的算法。
本文的分词算法简洁、速度快、易于实现。
张翠英介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类,对每类确定一组规则进行处理。
但不足之处是它不包含由于专用名词引起的歧义问题,由于专用名词(尤其是人名、地名)无法枚举,有限的词库规模无法满足这类问题的分词需要,它有待于自然语言理解各方面对这类问题的新的处理成果的应用。
而李建华、王晓龙描述了一种有效的中文人名识别方法。
它的基本原理是在大规模语料统计的基础上,利用知识源在文本上进行规则的施加与松弛,并引入概率分析器来提高识别的准确率和召回率。
实验结果表明,在兼顾识别的准确率与召回率的情况下,系统取得了良好的效果。
孙建军、陈肇雄等以语言文字的表达特征为基础,结合汉语词语在语言表达中的具体运用,从语言处理的可计算性角度出发,提出了一种基于多功能逻辑运算分析技术的汉语分词方法。
这种汉语分词方法是在汉语电子词典系统支持下实现的,其特点主要表现在构成汉语词语字序列的计算机内部表示上采用了多功能逻辑运算分析技术,从而使汉语分词过程中以往采用的简单模式比较匹配手段转换为多模式逻辑运算下的功能操作,实现了数据表示与数据操作的一体化处理,这不仅在一定程度上提高了汉语自动分词效率,同时也对分词歧义问题的解决提供了有力支持,在具体的应用中表现出较好的实用性和通用性。
基于词汇标注的特征项提取方法是中文信息处理的有效方法,但词汇的析取是基于词典的,词典的涵盖程度决定了词汇切分的准确率。
因而不断地学习新词汇、动态地维护词典,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题。
以搜索引擎系统为例,提出了一种基于词典动态变化的搜索引擎系统更新理论模型和实现模型。
相关实验表明,该模型对缩短搜索引擎信息库的更新时间、提高查询准确率等方面十分有效。
2.2 理解式切词法 韩客松等主要从知识的自动获取出发,介绍了研究中的汉语语言的无词典分词模型系统。
通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点。
该模型尚在实验室中不断地完善,包括对模型的进一步细化、匹配算法的改进、特殊情况的考虑以及系统性能的实验验证等。
邓伟等介绍一种针对特定领域的智能搜索引擎。
它采用一种新型的概念背景网络来组织领域背景知识,然后在背景网上对领域概念进行概念扩展和相关性比较。
与其他搜索引擎相比,该智能搜索引擎能对自然语言进行某种程度的语义理解,利用领域知识来提高搜索的查准率和查全率。
2.3 综合式分词法 杨建林、张国梁利用词频统计的结果,优先处理两字词,不考虑最大词长,将传统的最短匹配法改进成在全局或者局部范围内均不依赖最大词长的最短匹配法,同时把匹配过程作了调整,使匹配次数成倍减少,从而显著地提高分词速度。
利用上述改进的最短匹配法,找出可能存在歧义的词链,调用歧义词链的处理算法,给出词链的切分结果,从而提高切分的精度。
本文定义的算法是一个综合了机械性分词法和理解性分词法的分词方法。
3 结束语自动分词是汉语自然语言处理的第一步。
目前,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料(如Internet信息搜索引擎,各种全文检索系统等),因此分词的速度和分词算法的易实现性变得相当关键。
在多种分词算法中,正向最大匹配分词算法简洁、易于实现,在实际工程中应用最为广泛。
但开发中文搜索引擎既要很好的解决汉语语言信息处理问题,又要与国外的其它各种搜索引擎看齐,向智能方向发展。
从这方面来看,处理好中文信息处理,特别是中文分词技术是极其迫切、关键的,有待于进一步研究。
参考文献1 周 涛.中文搜索引擎.图书馆理论与实践.20002 邹海山,吴 庸,吴月珠,陈 阵.中文搜索引擎中的中文信息处理技术.计算机应用研究,20003 王 伟,钟义信等.一种基于EM非监督训练的自组织分词歧义解决方案.中文信息学报,2000;(15)4 应志伟,柴佩琪,陈其晖.文语转换系统中基于语料的汉语自动分词研究.计算机应用,20005 欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究.计算机工程与应用,20006 严 威,赵 政.开发中文搜索引擎汉语处理的关键技术.计算机工程,1999;(25)7 陈红英,李卫华.智能信息Agent的原理和实现方法.计算机系统应用,20018 赵铁军,吕雅娟,于浩等.提高汉语自动分词精度的多步处理策略.中文信息学报.2001;(15)9 张翠英.三字歧义链自动分词方法.情报学报,1998;(17)10 陈桂林,王永成等.一种改进的快速分词算法.计算机研究与发展,200011 孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法.清华大学学报(自然科学版),1999;(39)12 郭祥昊,钟义信,杨 丽.基于两字词簇的汉语快速自动分词算法.情报学报,1998;(17)13 李建华,王晓龙.中文人名自动识别的一种有效方法.高技术通讯,2000;(2)14 孙建军,陈肇雄等.基于多功能逻辑运算分析技术的汉语分词.计算机研究与发展,1998;(35)15 雷 鸣,刘建国,王建勇等.一种基于词典的搜索引擎系统动态更新模型.计算机研究与发展,2000;(37)16 韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统.计算机应用研究.1999;(10)17 邓 伟,张志伟,谭庆平,宁 洪.一种新型的智能搜索引擎.计算机工程,2000;(26)18 杨建林,张国梁.基于词链的自动分词方法.情报理论与研究,2000(责编:钧王京)情报检索 Journal of In formation No.11,2002。