自然语言检索中的中文分词技术研究进展及应用_何莘
中文分词与词性标注技术研究与应用

中文分词与词性标注技术研究与应用中文分词和词性标注是自然语言处理中常用的技术方法,它们对于理解和处理中文文本具有重要的作用。
本文将对中文分词和词性标注的技术原理、研究进展以及在实际应用中的应用场景进行综述。
一、中文分词技术研究与应用中文分词是将连续的中文文本切割成具有一定语义的词语序列的过程。
中文具有词汇没有明确的边界,因此分词是中文自然语言处理的基础工作。
中文分词技术主要有基于规则的方法、基于词典的方法和基于机器学习的方法。
1.基于规则的方法基于规则的中文分词方法是根据语法规则和语言学知识设计规则,进行分词操作。
例如,按照《现代汉语词典》等标准词典进行分词,但这种方法无法处理新词、歧义和未登录词的问题,因此应用受到一定的限制。
2.基于词典的方法基于词典的中文分词方法是利用已有的大规模词典进行切分,通过查找词典中的词语来确定分词的边界。
这种方法可以处理新词的问题,但对未登录词的处理能力有所限制。
3.基于机器学习的方法基于机器学习的中文分词方法是利用机器学习算法来自动学习分词模型,将分词任务转化为一个分类问题。
常用的机器学习算法有最大熵模型、条件随机场和神经网络等。
这种方法具有较好的泛化能力,能够处理未登录词和歧义问题。
中文分词技术在很多自然语言处理任务中都起到了重要的作用。
例如,在机器翻译中,分词可以提高对齐和翻译的质量;在文本挖掘中,分词可以提取关键词和构建文本特征;在信息检索中,分词可以改善检索效果。
二、词性标注技术研究与应用词性标注是给分好词的文本中的每个词语确定一个词性的过程。
中文的词性标注涉及到名词、动词、形容词、副词等多个词性类别。
词性标注的目标是为后续的自然语言处理任务提供更精确的上下文信息。
1.基于规则的方法基于规则的词性标注方法是根据语法规则和语境信息,确定每个词语的词性。
例如,根据词语周围的上下文信息和词语的词义来判断词性。
这种方法需要大量的人工制定规则,并且对于新词的处理能力较差。
自然语言处理技术在信息检索中的应用研究

自然语言处理技术在信息检索中的应用研究自然语言处理(Natural Language Processing, NLP)是计算机科学与人工智能领域的一个重要分支,致力于使计算机能够理解、处理和生成自然语言。
随着互联网的发展,信息爆炸式增长导致了大量的信息需要被处理和管理,而信息检索技术就应运而生。
本文将探讨自然语言处理技术在信息检索中的应用,并分析其优势和挑战。
信息检索是指通过从大量的文本语料库中自动检索出与用户查询相关的信息。
传统的信息检索系统通常基于关键词匹配,这种方法存在一定的局限性。
首先,关键词匹配往往无法准确地理解用户的查询意图,由于词语的多义性以及查询语句的歧义,导致检索结果的不准确。
其次,关键词匹配不能处理复杂的句子结构和语义逻辑关系,无法实现精确的语义匹配。
自然语言处理技术的引入为信息检索带来了新的解决方案。
首先,通过使用自然语言处理技术,可以更准确地理解用户的查询意图。
自然语言处理技术可以识别并解析用户查询中的实体、动作和关系等信息,从而更好地理解用户的需求。
其次,自然语言处理技术可以实现更精确的语义匹配。
它可以识别词语的同义词、反义词、层级关系,进而实现语义的扩展和转换。
通过将用户的查询与文本语料的语义进行比对,可以提供更相关和准确的检索结果。
在信息检索中,自然语言处理技术的应用主要有以下几个方面:1. 词义理解和语义表示:自然语言处理技术可以通过词向量模型、语义角色标注和依存句法分析等方法,将输入的自然语言文本表示成为计算机可以理解和处理的结构化形式。
这种表示方式可以捕捉到词语之间的关系和语义信息,从而更好地支持信息检索过程中的语义匹配。
2. 文本分类和情感分析:自然语言处理技术可以识别文本中的情感倾向和主题,实现文本的自动分类和情感分析。
通过将用户的查询与语料库中的文本进行分类和分析,可以提供与用户查询意图相关的结果。
这种应用可以广泛应用于舆情监测、智能客服等领域。
3. 信息抽取:自然语言处理技术可以从大量的文本数据中自动抽取结构化的信息。
中文分词技术的研究现状与困难

四、解决方案
为了克服中文分词技术的研究困难,以下一些解决方案值得:
1、优化分词算法:针对分词算法的复杂性问题,可以尝试优化算法的设计和 实现,提高其效率和准确性。例如,可以通过引入上下文信息、利用语言学知 识等方式来改进算法。
2、改进信息检索技术:在信息检索领域,可以尝试将先进的排序算法、推荐 系统等技术引入到检索过程中,以提高检索效果。此外,还可以研究如何基于 用户行为和反馈来优化检索结果。
3、缺乏统一的评价标准:中文分词技术的评价标准尚未统一,这使得不同研 究之间的比较和评估变得困难。建立通用的中文分词技术评价标准对于推动相 关研究的发展至关重要。
4、特定领域的应用场景:中文分词技术在不同领域的应用场景中面临着不同 的挑战。例如,在金融领域中,需要分词技术对专业术语进行精确识别;在医 疗领域中,需要处理大量未登录词和生僻字。如何针对特定领域的应用场景进 行优化,是中文分词技术的重要研究方向。
3、建立大型标注语料库:通过建立大型标注语料库,可以为分词算法提供充 足的训练数据,提高其准确性和自适应性。此外,标注语料库也可以用于开发 基于规则的分词方法和测试集的构建。
4、研究跨领域的应用场景:针对不同领域的应用场景,可以研究如何将中文 分词技术进行迁移和适配。例如,可以通过知识图谱等技术将不同领域的知识 引入到分词过程中,以提高分词效果。
然而,各种分词方法也存在一定的局限性和不足。例如,基于规则的分词方法 需要人工编写规则和词典,难以维护和更新;基于统计的分词方法需要大量标 注语料库,而且训练模型的时间和计算成本较高;基于深度学习的分词方法虽 然取得了较好的效果,但也需要耗费大量的时间和计算资源进行训练。
三、研究困难
中文分词技术的研究面临着诸多困难和挑战,以下是一些主要词方法:该方法主要依靠人工编写的分词规则来进行分词。 代表性的工作包括台湾大学开发的中文分词系统“THULAC”和北京大学开发 的“PKU中文分词系统”。这些系统均基于词典和规则,具有较高的准确率和 召回率。
自然语言处理中的分词技术

自然语言处理中的分词技术随着人工智能技术的发展,自然语言处理已经成为人工智能领域中的重要分支。
分词技术是自然语言处理中的一项基础技术,它将汉字序列经过分析和处理,将其切分成一个一个的词语,为后续的处理提供了基础。
本文将着重介绍自然语言处理中的分词技术。
一、分词技术的分类在自然语言处理中,分词技术主要分为两种:基于词典的分词技术和基于统计的分词技术。
基于词典的分词技术主要是依靠事先准备好的词典,通过匹配输入的汉字序列中所有可能的词语,将其切分为离散的词语。
词典中的词汇通常是人工手动构建的,可以通过收集大量的语料库,或者人工整理的方式进行构建。
由于词典是静态的,无法应对一些新出现的词语,因此在处理新的数据时,可能会出现切分错误的情况。
与基于词典的分词技术不同,基于统计的分词技术则是基于统计学习算法来进行分词的。
这种方法的主要思路是,通过构建训练集,利用统计学习算法学习到一些规律和分布,从而对未知的数据进行切分。
这种方法的优点是可以应对新出现的词语,但是需要大量的训练数据,且训练过程比较复杂。
二、中文分词技术的难点中文与其他语言的分词不同,主要因为中文中的词语通常不是离散的,而是紧密相连的。
这就意味着,对于一个汉字序列,往往存在多种可能的切分方式。
例如,“我爱北京天安门”这个句子可以切分为“我/爱/北京/天安门”,也可以切分为“我爱/北京/天安门”等等。
因此,中文分词的难点主要在如何确定一个最合适的切分方式。
此外,中文中还存在许多不同的词形变化和语法结构。
例如,“你在干什么呢”这句话中,“在”这个字并不是一个独立的词语,而是一个表示“正在进行”功能的助动词。
因此,在进行中文分词时,还需要考虑这些语法结构的影响。
三、中文分词技术的应用中文分词技术在自然语言处理中有着广泛的应用。
其中,搜索引擎是最常见的应用之一。
搜索引擎在对用户输入的搜索词进行处理时,需要对其进行分词,以便于匹配相关的网页内容。
此外,中文分词技术还被广泛应用于机器翻译、文本分类、情感分析等领域。
自然语言处理在信息检索中的应用

自然语言处理在信息检索中的应用随着互联网时代的发展,信息变得越来越丰富,但也愈加庞杂。
如何从这些信息中筛选出自己所需的内容,呈现给用户,成为信息检索技术需要解决的问题。
而自然语言处理技术正是信息检索领域中的重要应用方向。
本文将探讨自然语言处理在信息检索中的应用。
一、自然语言处理技术简介自然语言处理,缩写为NLP(Natural Language Processing),是计算机科学与人工智能领域的重要分支之一。
其主要任务是使计算机具备理解、处理人类语言的能力。
自然语言处理技术主要包括自动语音识别、自然语言理解、自然语言生成等等。
二、1. 实现语义分析搜索引擎对于用户搜索的关键字进行匹配排序,原理是基于关键字与搜索结果文档的匹配度。
但是,人类语言中有许多词汇的含义是可以根据语境变化的。
例如,搜索引擎无法判断“发夹”这个词到底是头发用的还是用来夹文件的。
因此,自然语言处理技术可以帮助实现语义分析,确保搜索结果的准确性和访问者的搜索体验。
2. 自动翻译信息检索也需要跨语言交流的能力,在处理多语言的信息时,自然语言处理技术的自动翻译功能便非常便利。
自然语言处理技术可以将输入的一个语言翻译成另一种语言,并且通过算法学习,逐渐提高自动翻译的准确性。
3. 建立专业知识库自然语言处理技术可以通过搜索引擎对特定领域和知识域的高质量、有用的资源进行收集,处理、归纳,并建立一套专业知识库。
用户在进行信息检索时,就可以通过专业知识库中的数据,获取更实用的信息。
4. 推荐引擎在衣物和杂货等细分市场,推荐引擎已成为重要的销售工具。
推荐引擎根据客户历史购买记录、购物车内容、和查看过的商品来推荐其他可能感兴趣的商品。
而自然语言处理技术的相似性匹配功能,可以增强推荐引擎的准确性,并且向客户推荐更适合他们的产品。
5. 自动文本分类在建立专业知识库的过程中,也需要对文本进行分类。
例如,对于医学领域的课程,可以通过自然语言处理技术,对相关的文本进行分类。
[Docin]中英文混合分词方法及应用研究
![[Docin]中英文混合分词方法及应用研究](https://img.taocdn.com/s3/m/ab96b4a9c67da26925c52cc58bd63186bceb9239.png)
摘要随着科学技术的迅猛发展,计算机在各个领域得到了前所未有的广泛应用。
已从过去的数据处理、信息处理发展到现在的知识处理和对语言文字的信息处理。
自从20世纪80年代初,中文信息处理提出自动分词以来,众多专家和学者在这一领域取得了令人可喜的进展,并且基于中文分词的算法也随着信息的多元化,复杂化在不断的升级,改进和完善。
分词算法在信息检索,自动归档等领域都有着广泛的应用,但是由于中国经济的飞速发展使得中国与世界的联系更加紧密,在一些前沿领域或是国人刚刚开始涉足的领域就难免要借鉴和引用一些发达国家的科研成果或创新理论。
这样,信息的形式就难免要使用中外语言混合的形式来表达,特别是中英文混合使用的情况将会越来越普遍。
这就要求信息处理系统不仅能够将中文正确分词,还要能够对中英文混合的情况正确分词。
目前有关中英文混合分词的研究相对较少,还没有形成比较成熟的理论,中英文混合分词的规范、评价体系还没有建立。
对于中英文混合字段一般是将中文汉字和英文字母、中文汉字和阿拉伯数字、英文字母和阿拉伯数字直接分开,没有对其进行词的判断和消岐处理。
基于此课题首先研究中英文混合的新特点,并着重研究了中英文混合分词的算法,特别是混合分词的消岐问题。
本文主要研究了中英文混合的形式、结构以及人们使用中英文混合的习惯,分析了现有的中文分词算法,提出了一种实用的中英文混合分词算法。
对于分词难点之一的消歧问题,本文做了深入的研究,并在现有消歧算法基础之上分析了需要继续消歧的原因并且给出了具体实施方法。
对于最大词长问题的解决本文充分考虑了分词速度的要求,提出了以待切分字符串的双首字开始的Hash词典的词长和待切分文本的长度进行比较从而确定RMM的最大词长。
为了验证该算法的效率,开发了中英文混合分词系统,以中国风能信息中心系统为例对中英文混合分词算法做了试验验证。
试验表明,该算法能够有效的将中英文混合文档正确的分词,其消歧率到达了较高的水平,算法对未登录词中的姓名名词也有很好的识别能力。
自然语言处理中的分词技术简介

自然语言处理中的分词技术简介自然语言处理(Natural Language Processing,简称NLP)是计算机科学与人工智能领域中的一个重要研究方向,旨在使计算机能够理解和处理人类语言。
在NLP的各个任务中,分词技术是其中一项重要的基础工作。
分词技术指的是将连续的文本切分成有意义的词语或字的过程,是NLP中的一个基本问题。
1. 分词技术的重要性在英文中,词与词之间通常由空格分隔,因此英文分词相对简单。
但在中文中,词与词之间并没有明确的分隔符号,因此中文分词变得尤为重要。
中文分词是许多NLP任务的基础,如机器翻译、信息检索、文本分类等。
正确的分词结果对于这些任务的准确性和效果具有重要影响。
2. 基于规则的分词方法基于规则的分词方法是最早被提出并广泛应用的一种分词方法。
这种方法依靠人工定义的规则和词典来进行分词。
规则可以是基于语法、词性、词典等方面的规则。
例如,可以通过查找词典中的词语,将文本中与词典中的词语匹配的部分切分出来。
这种方法简单直观,但需要大量的人工定义规则和维护词典,且无法处理未知词语。
3. 基于统计的分词方法随着机器学习和统计方法的发展,基于统计的分词方法得到了广泛应用。
这种方法通过学习大量的文本数据,自动学习词语出现的概率和上下文信息,从而实现分词。
常用的统计模型包括隐马尔可夫模型(Hidden Markov Model,简称HMM)和条件随机场(Conditional Random Field,简称CRF)。
这些模型通过训练数据学习得到分词模型,然后利用该模型对新的文本进行分词。
基于统计的分词方法可以处理未知词语和歧义问题,但对于训练数据的质量和规模有一定要求。
4. 基于深度学习的分词方法近年来,深度学习技术的发展对NLP领域产生了重要影响,也为分词技术带来了新的突破。
基于深度学习的分词方法利用神经网络模型,通过学习大量的文本数据,自动学习词语的表示和上下文信息,从而实现分词。
自然语言处理中的中文分词工具推荐

自然语言处理中的中文分词工具推荐在自然语言处理(Natural Language Processing,NLP)领域中,中文分词是一个重要的任务,它将连续的中文文本切分成有意义的词语序列。
中文分词对于机器翻译、信息检索、文本分类等应用具有重要意义。
然而,中文的复杂性和歧义性使得中文分词成为一个具有挑战性的任务。
为了解决这个问题,许多中文分词工具被开发出来。
本文将推荐一些常用的中文分词工具,并对它们的特点进行简要介绍。
1. 结巴分词(jieba)结巴分词是目前最流行的中文分词工具之一。
它基于基于前缀词典和HMM模型的分词算法,具有高效、准确的特点。
结巴分词支持三种分词模式:精确模式、全模式和搜索引擎模式,可以根据具体需求选择不同的模式。
此外,结巴分词还提供了用户自定义词典的功能,可以根据特定领域的需求进行词汇扩充。
2. LTP分词(Language Technology Platform)LTP分词是由哈尔滨工业大学自然语言处理与社会人文计算实验室开发的中文分词工具。
它采用了基于统计的分词算法,具有较高的准确率和鲁棒性。
LTP分词还提供了词性标注、命名实体识别等功能,可以满足更多的自然语言处理需求。
3. THULAC(THU Lexical Analyzer for Chinese)THULAC是由清华大学自然语言处理与社会人文计算研究中心开发的一种中文词法分析工具。
它采用了一种基于词汇和统计的分词算法,具有较高的分词准确率和速度。
THULAC还提供了词性标注和命名实体识别功能,并支持用户自定义词典。
4. Stanford中文分词器Stanford中文分词器是由斯坦福大学自然语言处理小组开发的一种中文分词工具。
它使用了条件随机场(Conditional Random Fields,CRF)模型进行分词,具有较高的准确率和鲁棒性。
Stanford中文分词器还提供了词性标注和命名实体识别功能,可以满足更复杂的NLP任务需求。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然语言检索中的中文分词技术研究进展及应用何 莘1,王琬芜2(1.西安石油大学机械工程学院,陕西西安710065;2.浙江大学信息科学与工程学院,浙江杭州310058)摘 要:中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。
本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。
关键词:中文分词;自动分词;分词算法中图分类号:TP391,G354 文献标识码:A 文章编号:1007-7634(2008)05-0787-05Research and Application of Chinese Word Segmentation TechnicalBased on Natural Language Information RetrievalHE Xin 1,W ANG Wan -wu2(1.School o f Mechanical Engineering ,Xi p an Shiyou University ,Xi p an 710065,China ;2.School o f In f o rmation Science and Engineering ,Zhejiang University ,Hangzhou 310058,China )Abstract :Chinese word segmentation technique is the important foundation that realize the natural language re -trieval,also is the key topic of the research in information retrieval domain.Professional information retrieval sys -te m and search engine both depend on the research achievements of word segmentation technique.This paper in -dexes in the domestic and international famous database,then Chinese word segmentation technique has been ana -lyzed in fa mous search engines is sum marized.Key words :Chinese word segmentation;automatic word se gmentation;word segmentation algorithm收稿日期:2007-10-23作者简介:何 莘(1968-),女,河北保定人,工程师,从事信息存储与检索技术、数字资源管理、搜索引擎技术等研究.1 分词及分词算法从中文自然语言句子中划分出有独立意义词的过程被称为分词。
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位。
由于中文词与词之间没有明确的边界,因此,中文分词技术中文信息处理的基础是机器翻译、分类、搜索引擎以及信息检索。
中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
111 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个/充分大的0机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
(1)正向最大匹配法(MM 法)。
其基本思想第26卷第5期2008年5月情 报 科 学Vol.26,No.5May,2008为:设D为词典,MAX表示D中的最大词长,str 为待切分的字串,MM法是每次从str中取长度为MAX长度的子串与D中的词进行匹配,若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。
(2)逆向最大匹配法(RMM法)。
RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。
统计结果表明,单纯使用正向最大匹配的错误率为1P169,单纯使用逆向最大匹配的错误率为1P245,显然, RMM法在切分的准确率上比MM法有很大提高。
(3)最少切分。
可以将上述各种方法相互组合,例如:可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。
由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。
一般逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。
统计结果表明,单纯使用正向最大匹配的错误率为1P169,单纯使用逆向最大匹配的错误率为1P245。
但这种精度还远远不能满足实际的需要。
实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。
另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
112基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。
其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
它通常包括:分词子系统、句法语义子系统、总控部分。
在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
这种分词方法需要使用大量的语言知识和信息。
由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
113基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。
因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。
可以对语句中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。
定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。
互现信息体现了汉字之间结合关系的紧密程度。
当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
这种方法只需对语句中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如/这一0、/之一0、/有的0、/我的0、/许多的0等,并且对常用词的识别精度差。
实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。
对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,需要综合不同的算法来处理不同的问题。
2搜索引擎中的中文分词技术要实现专业信息查询的中文搜索引擎,首要的问题就是中文分词。
搜索引擎技术的研究,国外比中国要早近10年,从最早的Archie,到后来的Ex-cite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。
在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。
例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。
虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,如百度、中搜等。
目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。
之所以形成这样的局面,一个重要的原因就在于中文和英文两种语言自身的书写方式不788情报科学26卷同,这其中对于计算机涉及的技术就是中文分词。
对于搜索引擎技术,雅虎中国网页搜索部总监张勤认为=6>,中文分词是搜索技术的基础,只有做好了分词,才能有好的搜索。
分词速度及其准确性对搜索引擎来说十分重要,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。
因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。
目前在中文分词过程中,有两大难题一直没有完全突破。
一是歧义识别,二是新词识别,这些还需要进一步解决。
雅虎在中文分词技术上花了很多力气,在美国成立了研究所,共有300多人进行相关研究。
目前,雅虎的搜索就是基于自己开发的中文分词技术。
据了解,Google的中文分词技术采用的是美国Basis Technology公司提供的中文分词技术,百度使用的是自己公司开发的分词技术。
由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。
对于搜索引擎来说,分词的准确性和速度二者都需要达到很高的要求。
目前国内研究中文分词的大多是科研院校,清华=7>、北大、中科院、北京语言学院、东北大学、IB M研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司很少。
科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品还需很长一段路。
中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。
其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。
在中文研究方面,相比外国人来说,中国人有十分明显的优势。
3国内外中文分词技术文献研究(1)在国外,关于中文分词技术研究的国外文献(本文定义为国外数据库中的文献),我们在Engineering Village检索平台的三个数据库(IN-SPEC、EI、NTIS)进行了检索=1>,在题目字段用检索式chinese and segmentation进行检索,时间段限制在1990~2007,检索日期2007年8越27日,共检索到相关文献353篇。