国内自然语言处理技术研究与应用的状态
自然语言处理技术的研究与应用

自然语言处理技术的研究与应用第一章绪论自然语言处理技术(Natural Language Processing,NLP)是迄今为止计算机科学领域内发展最迅速的一个领域之一。
它是研究语言学和人工智能技术相结合的一门交叉学科。
自然语言处理技术可以帮助计算机更好地理解、处理人类语言,从而实现自然语言的输入和输出,进而实现以自然语言为接口的计算机人机交互。
自然语言处理技术的研究与应用呈现出爆炸式增长。
它已经广泛应用于搜索引擎、智能客服、机器翻译、自动摘要、情感分析、信息抽取等各个领域。
本文将从自然语言处理技术的技术路线、主要技术难点、现状以及未来发展等方面进行分析。
第二章技术路线自然语言处理技术的核心是对自然语言进行分析,以便计算机可以理解和处理它。
自然语言处理技术主要的技术路线如下:1. 分词分词是将一段连续的文本按照一定规则切割成一个个具有独立意义的词语的过程。
中文分词是自然语言处理技术的一大难点,因为中文没有像英文空格这种词语分割符。
中文分词技术主要包括规则分词、统计分词、机器学习分词、深度学习分词等。
2. 词性标注词性标注是指对文本中的每个词语赋予相应的词性,如名词、动词、形容词、副词等。
词性标注技术可以帮助计算机更好地理解句子的结构和意义,从而进行后续处理。
3. 句法分析句法分析是指对文本中的句子进行结构分析和语义分析,以便构建出句子的基本成分和句子成分之间的关系。
句法分析主要涉及到句子的语义角色标注、句法树构建、成分串联等几个方面。
4. 语义分析语义分析是指对文本的语义内容进行分析,探究句子中的隐含含义和上下文关系。
语义分析包括文本关键词提取、实体识别、情感分析等。
第三章技术难点自然语言处理技术的研究最大的困难是自然语言的多义性、歧义性和语言表达多样性问题。
这些问题使得自然语言处理技术难以准确判断句子的含义和语义。
1. 歧义性自然语言中常出现相同的词语或者短语,但是它们可能有不同的含义。
例如,“哥哥爱弟弟”和“哥哥亲弟弟”中的“弟弟”和“哥哥”具有不同的含义。
自然语言处理的应用及发展趋势

自然语言处理的应用及发展趋势自然语言处理(NLP)是一个涵盖多种技术的交叉学科领域,它对计算机和人类语言的交互进行处理和超越了,被广泛地应用在语音识别、文本挖掘、自动翻译、智能客服、智能问答等多个领域。
本文从自然语言处理的应用入手,探讨其发展趋势。
一、自然语言处理的应用1.语音识别技术:人们可以用语音控制智能家居,自动化店铺、车辆,除此之外,也应用于电话呼叫中心、语音输入等。
2.句法分析和语义分析技术:这些技术已经广泛应用于拼写和语法检查,句子生成,文本分类和分类器,自动摘要和摘要,情感分析等方面。
3.实体识别’s人名,地名和其他名称都可以通过这种技术来识别和识别,有助于搜寻和分类文本。
4.文本挖掘技术:利用这种技术,可以对新闻、广告和各种社交媒体内容进行探索和研究。
目的是根据关键字和主题来建立模型,以获取可以用于商业分析的信息。
5.自动翻译:在全球化时代,语言障碍是跨国公司的主要瓶颈。
自然语言处理技术已经被广泛应用于多语种翻译技术。
6.智能客服:智能客服平台可以根据顾客的问题和反馈快速回应顾客信息。
客服机器人是专门为目的构建的满足特殊条件的客户服务平台。
7.智能问答系统:智能问答系统是基于数据驱动的技术,可以为用户提供答案或相关的结果,使问答系统能够快速准确的完成各种任务。
二、未来的发展趋势1. 深度学习技术的普及:深度学习已经成为人工智能领域的重要组成部分,并且被广泛地应用到自然语言处理中。
未来,深度学习将继续成为NLP的重要组成部分,并且随着科技的进步,深度学习模型将越来越普及和实用化。
2. 跨语言NLP:语言融合将会是一项重要趋势,特别是横跨语音和文本分析,包括对社交媒体,各类广告和其他类型的内容进行深入分析。
自然语言处理技术将发展新的技术,改进导航和增强搜索前缀。
3. 综合技术的研究:自然语言处理技术的综合技术将会变得更加普及,因为分析文本将会需要利用多种技术。
因此,研究治理软件和平台的整合,以便能够实现精准和高效的自然语言处理。
自然语言处理技术的研究与应用

自然语言处理技术的研究与应用自然语言处理技术(Natural Language Processing,简称NLP)是人工智能领域中最为重要、前沿的技术之一。
随着互联网和移动设备的普及,人类每天都会产生大量的文本数据,如何有效地理解并利用这些数据,已成为当代人工智能研究的重点之一。
本文将探讨自然语言处理技术的研究与应用。
一、自然语言处理技术的概念和发展历程自然语言处理技术是指通过计算机技术对人类自然语言的理解和处理,其中包括语音识别、自然语言分析、信息提取、机器翻译等一系列技术。
自然语言处理技术的出现可以追溯到上个世纪50年代,当时科学家们开始尝试通过机器模拟人类语言的处理过程,以实现对语言信息的处理。
在经过长时间的研究和发展后,自然语言处理技术已经成为了人工智能领域中最为热门和重要的技术之一。
在当今时代,自然语言处理已经被广泛应用于搜索引擎、智能客服、机器翻译、自然语言生成等各个领域,并且随着人工智能技术的不断发展,自然语言处理技术的应用范围还将不断扩大。
二、自然语言处理技术的核心技术和方法1. 语言模型语言模型是自然语言处理技术中最为基础和关键的方法之一,其主要目的是建立一种统计模型,用于计算一个句子或一段文本的概率。
在自然语言处理中,语言模型一般会利用大量的文本数据来训练,通过分析训练数据中出现的规律和模式来推测未知文本的概率。
2. 词法分析词法分析是自然语言处理技术中的一个重要组成部分,其主要目的是将自然语言文本中的单词进行分类、分词和标注词性。
在自然语言处理中,词法分析一般是通过利用N-gram模型和隐马尔可夫模型等方法来实现的。
3. 句法分析句法分析是自然语言处理技术中另一个非常重要的技术,其主要目的是分析句子的语法结构,比如确定主谓宾的关系、从句和修饰语等。
在句法分析中,一般会利用句子成分分析、依存分析、句法树等方法来实现。
4.语义分析语义分析是自然语言处理技术的核心问题之一,其主要目的是理解文本中的意思,即将自然语言转换为机器可处理的信息。
自然语言处理技术的发展趋势与应用前景

自然语言处理技术的发展趋势与应用前景随着互联网的不断普及和数据的迅速增加,自然语言处理技术正变得越来越重要。
自然语言处理技术是指通过计算机程序来处理自然语言,从而使得计算机能够理解、分析、生成或者翻译自然语言。
它已经成为了人工智能领域的核心技术之一,也是未来人工智能发展的重要趋势之一。
本文将探讨自然语言处理技术的发展趋势与应用前景。
自然语言处理技术在过去几十年进行了大量的研究和发展。
早期的自然语言处理技术主要集中在语音识别和机器翻译上。
语音识别技术主要是用来将口述语言转化成文字格式,而机器翻译则是用来将一种语言翻译成另一种语言。
这两种技术都是在特定领域的应用中取得了一定的成功,但是在更加广泛的领域中的应用还面临着许多挑战。
近年来,随着计算机算力的不断提高、数据集的不断壮大以及深度学习技术的不断发展,自然语言处理技术发生了翻天覆地的变化。
单纯依靠规则的方法已经不能满足需要,人们开始利用深度学习等方法来对自然语言进行处理。
深度学习是一种基于神经网络的机器学习方法,它可以从大量的数据中学习特征和规律,进而进行自然语言处理。
随着深度学习技术的广泛应用,自然语言处理技术已经在许多领域得到了广泛的应用。
其中最为重要的应用之一就是自动文本分类。
自动文本分类是指通过计算机程序对文本进行分类,比如将一篇新闻归为政治、文化、娱乐等不同的类别。
这项技术在电商、金融、医疗等行业中都有非常广泛的应用。
此外,自然语言处理技术还可以用来进行句子相似度判断、文本摘要生成、情感分析等方面的处理。
未来,自然语言处理技术将会更加广泛地应用在不同的领域中。
最重要的应用之一就是机器人交互。
目前,机器人已经开始大规模地进入人们的日常生活中。
未来这些机器人将会变得越来越智能,它们需要具备对自然语言的理解和处理能力。
目前虽然已经出现了一些机器人,但是它们的自然语言处理能力还比较弱。
未来更加智能的机器人将会具备更加强大的自然语言处理能力,人们可以通过口语与它们进行交互,达到更加便捷和自然的沟通方式。
自然语言处理技术的现状和发展趋势

自然语言处理技术的现状和发展趋势自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支,它涉及让计算机程序理解、处理和应用人类语言的各种技术和方法。
随着人工智能技术和计算机算力的不断发展,NLP技术也在不断创新和进步。
本文将从NLP技术的现状、发展趋势以及未来的发展方向等多个方面进行探讨。
一、 NLP技术的现状1.语言模型的发展语言模型是NLP技术中的一个重要组成部分,它涉及到对语言的理解和生成。
随着深度学习技术的快速发展,语言模型的性能得到了显著提升。
2018年,OpenAI发布了GPT(Generative Pre-trained Transformer)模型,其能够生成高质量的文本内容,使得语言模型的性能水平得到了巨大提升。
此外,BERT(Bidirectional Encoder Representations from Transformers)模型的出现也进一步提升了语言模型的性能,使其在自然语言理解任务上表现出色。
2.机器翻译的进步机器翻译是NLP技术应用最广泛的领域之一,其目标是实现机器对不同语言之间的翻译。
随着神经网络机器翻译技术的发展,机器翻译的质量得到了明显提升。
谷歌的神经网络机器翻译系统采用了端到端的神经网络模型,取得了令人瞩目的翻译效果。
此外,Transformer 模型的提出也为机器翻译带来了显著的提升,其在翻译任务上取得了很好的表现。
3.文本情感分析的应用文本情感分析是NLP技术中的一个重要应用领域,其旨在分析文本中的情感倾向。
随着深度学习技术的发展,文本情感分析的性能得到了显著提升。
情感分析模型在社交媒体、电商平台等领域得到了广泛应用,帮助企业快速了解用户对产品或服务的情感倾向,从而调整营销策略或改进产品质量。
4.语音识别技术的进步语音识别技术是NLP技术中的重要组成部分,其目标是将语音信号转化为文本。
随着深度学习技术的发展,语音识别的性能得到了显著提升。
自然语言处理技术的现状和发展趋势

自然语言处理技术的现状和发展趋势自然语言处理(Natural Language Processing,NLP)技术是人工智能领域的重要分支之一,其主要研究内容是让计算机能够理解和处理自然语言。
在过去的十年中,NLP技术取得了巨大的进步,应用领域也越来越广泛,例如智能语音识别、智能客服、机器翻译、文本挖掘、情感分析等。
本文将围绕自然语言处理技术的现状和发展趋势展开介绍,探讨NLP技术的核心研究方向、应用领域、发展趋势和挑战等内容。
1.自然语言处理技术的现状1.1自然语言处理的主要研究方向自然语言处理主要包括语音识别、语音合成、文本分析、信息检索、机器翻译、问答系统等多个研究方向。
其中,语音识别和语音合成是NLP技术在语音领域的应用,文本分析和情感分析是NLP技术在文本领域的应用,机器翻译和问答系统是NLP技术在语义理解和推理方面的应用。
1.2自然语言处理的发展历程自然语言处理技术的发展可以追溯到上世纪20年代。
随着计算机技术和人工智能技术的发展,自然语言处理技术得到了极大的促进和发展。
在过去的几十年中,自然语言处理技术取得了长足的进步,特别是在深度学习和大数据的驱动下,自然语言处理技术取得了突破性的进展。
1.3自然语言处理技术的主要应用领域自然语言处理技术的应用领域非常广泛,涉及到语音识别、机器翻译、智能客服、情感分析、智能问答等多个方面。
例如,智能语音助手可以帮助用户进行语音识别和语义理解,智能客服可以帮助企业提供智能化的服务,情感分析可以帮助企业分析用户评论和舆情等。
2.自然语言处理技术的发展趋势2.1深度学习是自然语言处理技术的主要发展趋势深度学习技术已经成为自然语言处理技术的主要推动力量,深度学习技术在语音识别、机器翻译、文本理解等方面取得了很大的突破。
例如,谷歌的神经机器翻译系统使用了深度神经网络模型,取得了比传统语言模型更加优秀的翻译效果。
因此,深度学习将继续是自然语言处理技术的主要发展方向。
自然语言处理技术的发展状况调研报告

自然语言处理技术的发展状况调研报告一、引言自然语言处理(Natural Language Processing,NLP)是计算机科学与人工智能领域的重要研究方向之一。
它致力于让计算机能够理解、解释和生成人类语言,实现人机之间的无障碍交流。
随着互联网的发展和智能设备的普及,NLP技术的研究与应用越来越受到关注。
本调研报告旨在对自然语言处理技术的发展状况进行调研,并总结其应用领域与前景。
二、自然语言处理技术的发展历程自然语言处理技术起源于上世纪50年代,最早是应用于机器翻译领域。
随着语料库的建立和计算机算力的提升,NLP技术得到了飞速的发展。
70年代,词法分析和句法分析技术逐渐成熟,为语义理解与语义分析的研究奠定了基础。
80年代,出现了基于规则的方法与基于统计的方法相结合的研究方向,进一步推动了NLP技术的发展。
90年代,随着支持向量机、深度学习等机器学习算法的出现,NLP技术进入了一个新的阶段。
三、自然语言处理技术的关键技术1. 语言模型:语言模型是NLP技术的核心之一,主要用于理解和生成语言。
传统的语言模型主要基于统计方法,利用大规模语料库对词频、句法结构等进行建模。
而近年来,基于深度学习的神经语言模型取得了显著的突破,能够在语义理解和自动问答等任务中取得更好的效果。
2. 词法分析与句法分析:词法分析主要包括分词、词性标注等技术,用于将连续的文本切分成一个个有意义的词。
句法分析则是对句子的结构进行分析,了解各个成分之间的关系。
这两项技术是NLP技术的基础,在机器翻译、信息检索等任务中有着广泛的应用。
3. 语义理解与信息抽取:语义理解和信息抽取是NLP技术的关键环节,涉及到对语义和上下文的深入理解。
这方面的研究主要包括命名实体识别、关系抽取、情感分析等技术,用于从文本中提取出实际的信息,支持文本分类、文本摘要等应用。
四、自然语言处理技术的应用领域1. 机器翻译:机器翻译是NLP技术的重要应用之一。
自然语言处理技术的现状与趋势

自然语言处理技术的现状与趋势随着互联网的发展,越来越多的信息以各种语言形式出现在我们的面前,对于语言的处理与理解也变得越来越重要。
自然语言处理技术作为一门交叉学科,应运而生。
本文从自然语言处理技术的现状与趋势两方面入手,简要介绍其概念和应用,同时探讨自然语言处理技术未来的发展方向。
一、自然语言处理技术的概念与应用自然语言处理技术(Natural Language Processing,简称NLP)是一门计算机科学与语言学共同研究的交叉学科,其研究的对象是自然语言(即人类语言)以及其在计算机系统中的应用。
自然语言处理技术旨在使计算机能够理解、分析、生成自然语言,并与人类进行语言交互。
自然语言处理技术的应用广泛,主要包括以下几个方面:1. 机器翻译:机器翻译就是将一种语言的文本自动转化为另一种语言的文本。
机器翻译技术的目标是实现高质量、实时的翻译,解决人类语言翻译的时空限制问题,为跨语言的信息传递提供条件。
2. 信息检索:信息检索一般是指在大量的文本中,根据用户的查询请求,自动查找与之相关的文本,给用户提供互联网上的信息资源。
自然语言处理技术可以对用户的查询语句进行分析和理解,提高信息检索的准确率和效率。
3. 文本分类:文本分类是按照一定的标准将文本分到不同的类别中。
自然语言处理技术可以对文本进行语义分析和特征提取,帮助计算机实现文本分类,从而实现自动化处理和分类。
4. 问答系统:问答系统是通过自然语言与计算机交互,为用户提供满足其特定信息需求的答案。
自然语言处理技术可以对用户提问进行解析和分析,理解用户的查询意图,从而为用户提供准确的答案。
二、自然语言处理技术的现状自然语言处理技术的发展可以追溯到20世纪50年代,随着语言学、计算机科学、数学等多个学科的发展,该领域得到了快速发展。
目前,自然语言处理技术已经形成了一系列成熟的技术和应用,包括词法分析、句法分析、语义分析、机器学习、深度学习等。
1. 词法分析:词法分析是NLP技术的基础,其主要任务是将自然语言中的单词转化为计算机可识别的形式,如单词的词性、语法结构等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
进行的[2]。基础性研究主要集中在语言学、数学、 计算机科学等领域,比如消除歧义、语法形式化、 计算语言学理论基础以及为语言资源库等。应用性 研究主要集中在一些需要应用自然语言处理技术的 领域中,比如,信息检索、文本分类、自动文摘、 机器翻译等。据此,本文将自然语言处理技术所涉 及的研究内容分为以下五个方面:①基础理论研究 与语言资源库建设;②自然语言理解;③机器翻译 及评测;④智能检索:信息检索、信息抽取、文本 分类、话题跟踪、自动文摘、文本过滤等;⑤术语 数据库及键盘输入、音字转换等。根据调查统计的 结果见表1。
关键词:自然语言处理技术,自然语言理解,机器翻译,技术应用,数字图书馆 DOI:10.3772/j.issn.1673-2286.2008.07.005
Special Focus
DLF
特 别 关 注
自然语言处理(Natural Language Processing,简 称NLP)是指用自然语言对信息进行处理的技术[1]。 从第一台电子计算机诞生起,人们就一直致力于研 究如何利用计算机来分担自然语言的自动识别、语 言翻译、语言理解和语言生成等工作。特别是今天 的互联网,Web2.0提倡用户参与度,在用户界面层 和网站内容层增加用户的互动,未来Web3.0则提倡 利用自然语言理解与处理,让使用者更好地使用互 联网资源。在这一背景下,自然语言处理技术有了 新的发展。2005年以来,信息的组织,已经从通用 型转向领域,中国科学技术信息研究所下属的万方 数据技术研究院为了在知识组织和挖掘上进行技术 储备,确定采用的技术路线,对国内已经进行的自 然语言处理相关研究工作进行调查和总结。本文调 研了150项研究项目,总结了国内14个研究机构、4 个在华国际公司、12个相关企业在自然语言处理领 域的研究状况和技术应用情况。
2 3% 自然语言理解 2 5%
智能检索 0 0%
智能检索 22 33%
智能检索 11
30.5%
基础理论研究及语言资源库建设 11 38%
基础理论研究及语言资源库建设 24 36%
基础理论研究及语言资源库建设 12
33.3%
其它 5
17.3% 其它 10 15% 其它
5 14%
DLF
特 别 关 注
Special Focus
表1 自然语言处理技术研究项目分类统计表
项目类别 机器翻译 自然语言理解 智能检索 基础理论研究及语言资源库建设 其它 总计
项目数量 30 7 28 47 20 132
百分比 23% 5% 21% 36% 15% 100%
目前,词法、句法、语义分析等基础理论的研 究和语言资源库的建设依然是研究的重点,这一类 别的项目几乎占据项目总数的“半壁江山”;其次 是机器翻译类的研究;智能检索类的项目数量略低 于机器翻译,此类研究是近年来研究的热点,而自 然语言理解以及术语数据库、键盘输入、音字转换 等其它类别的研究相对较少。
2000年以前 2000——2005 2006——2008
表2 研究项目按执行时间分类统计表
项目总量 占该时间段项目总量百分比
项目总量 占该时间段项目总量百分比
项目总量 占该时间段项目总量百分比
机器翻译 10
34.5% 机器翻译
9 13.4% 机器翻译
6 17%
自然语言理解 3
10.3% 自然语言理解
2 研究成果的应用
技术研究的最终目的在于应用(见表4)。 下面仅从机器翻译、搜索引擎两方面介绍国内
2008年第7期(总第50期)
企业对于自然语言处理技术的使用情况。
表4 项目实用成果统计表
论文 实用产品 实验室样品 资源库
机器翻译
5
14
11
1
自然语言理解
2
2
0
0
智能检索
8
14
18
0
基础理论与语言资源库 18
都是研究的重点,在各个时间段中关注程度都在第 一位。值得注意的是,2000年以后,机器翻译的热 点地位逐渐被信息检索、信息抽取、话题跟踪、文 本分类、文本过滤、问答系统等智能检索技术所代 替。近年来,机器翻译处于一个平稳的调整期,而 新兴的智能检索技术研究则,处于强势的上升期。
另外,从研究周期来看,除语言资源库建设以 外,自然语言处理技术的开发周期普遍较短,为1-3 年以内。语言资源库的建设包括自然语言文本的采 集、存储、检索、统计、标注、句法分析、语义分 析等,开发周期通常在10年左右,这是由于其处理 对象是非受限领域的语言,且是对真实文本进行大 规模的语言信息处理,因而搭建周期一般较长,例 如,北京大学计算语言所完成的《现代汉语语法信 息词典》与《人民日报》标注语料库,都经历了近 十年的研制时间。
2
7
10
其它
3
11
2
1
总计
36
43
38
12
2.1 机器翻译
90年代以来,国内机器翻译研究有了长足的进 步。目前正在从事机器翻译研究的高校包括北京大 学、清华大学、哈尔滨工业大学等。研究所包括中 国科学院计算技术研究所、自动化研究所等。公司 有译星公司、华建公司等。这些单位的研究成果在 产品开发中得到了充分运用。例如,译星、高立、 通译等全自动翻译系统,采用全自动机器翻译技 术,有简单的全自动翻译功能,并且提供带有用户 界面编辑工具以及用户词典管理的工具;金山快 译、东方快车等全自动汉化工具,除了采用全自动 机器翻译技术以外,还包括各种辅助功能,如软件 界面即时汉化和永久汉化、操作系统和帮助文件的 自动汉化、网页的自动翻译等;盈华双语浏览器、 看世界网等全自动网络浏览工具,可以在网络上提 供实时的免费全自动翻译服务;雅信CAT辅助翻译 软件等计算机辅助翻译系统,采用的主要技术不是 全自动的机器翻译,而是翻译记忆(TM)技术。
27 http: //
2008年第7期(总第50期)
出现这个结果大体有以下两个方面的原因: (1)研究传统。基础理论、语言资源库建设以 及机器翻译系统的研究起步时间早,这些领域历来 都是研究的重点,研究成果积淀丰富。 (2)研究成果的应用。词法、句法、语义分析 等研究是其它几个应用方面的理论基础,而各类语 言资源库是进行研究测试提取样本的重要资源,长 期来得到相当的重视;机器翻译是自然语言处理领 域中一个相当重要的部分,直到现在,国内对高质 量机器翻译系统仍然有相当大的需求;智能检索技 术所涉及的内容颇为广泛,随着广大网民对搜索的
HNC是Hierarchical Network of Concepts(概念 层次网络)的缩写,HNC理论,是一个关于自然 语言理解(natural language understanding)处理的 理论体系[4]。它是中科院声学所黄曾阳研究员创立 的面向整个自然语言理解处理的理论框架,是自然 语言处理技术研究的新方法。它自诞生以来,就受 到相关领域的广泛关注。本文在此对其进行简单的 介绍。
1 国内自然语言处理技术的研究
1.1 国内研究机构的研究现状
上世纪九十年代以来,中国的自然语言处理技 术研究进入快速发展时期,一系列商品化的系统推 向市场,新的研究内容、新的应用领域也在不断探 索中。
1.1.1 研究内容 自然语言处理的研究分为基础性研究和应用性 研究两部分,这两类研究都是从语音和文本两方面
HNC理论的目标是,以概念联想脉络为主线, 建立一种模拟大脑语言感知过程的自然语言表述模 式和计算机理解处理模式,使计算机获得消解模糊 的能力。围绕这一主线,HNC预定建立自然语言 的五个理论模式[5]:①自然语言概念体系的理论模 式;②自然语言语义块和语句的理论模式;③句 群、段落和篇章要点的表述模式;④短期记忆和长 期记忆的形成及其相互转换模式;⑤基于文字文本 的计算机学习模式。目前,HNC已经建立了五个理 论模式中的前两个,并实现了技术化,其进展具体 体现在HNC理论向技术转换的研发过程,先后被列 入国家计委“九五”攻关项目以及科技部的国家重 点基础研究发展规划项目(简称“973”计划),目 前已取得两项专利及多项领先成果。为了推进HNC 语言知识处理技术的产业化进程,中国科学院声学 研究所和深圳麦尼实业发展有限公司,合作建立了 大正语言知识处理研究院。目前,该研究院推出的 实用研究成果有:HNC智能信息过滤器、“花季 护航”青少年上网管理软件、中文信息智能搜索技 术、HNC词语知识库系统、句子级语义标注的现代 汉语语料库系统等。
日益青睐,网络文本检索与知识获取技术的需求也 日益增加,因此,这方面的研究也较多[3]。
1.1.2 研究时间 上世纪90年代以来,随着计算机速度和存储量 的大幅提升,自然语言处理的物质基础大幅改善, 技术研究进入了迅速发展的时期。从研究项目的时 间分布情况看,基本上都为上世纪90年代以后开始 的项目,2000年以后开展的研究项目要明显多于上 一个十年。 根据调查统计的结果见表2。 表2中,基础理论研究与语言资源库建设一直
(1)微软亚洲研究院 微软亚洲研究院的自然语言计算组,其研究课 题关注如何克服从海量数字化文本中获取信息的困 难。研究内容包括多国语言文本分析、机器翻译、 跨语言信息检索和自动问答系统等。这些研究项目 产生了一系列实用成果,如中文输入法(IME)、 对联游戏、中文分词系统、拼音搜索、用于SQL2005 和Share Point的文本挖掘技术、用于MSN的元数据提 取技术等,为微软的产品做出了重大贡献。 (2)IBM中国研究院 IBM中国研究院在自然语言处理技术领域主要 从事信息检索、语义网技术、语音技术等方面的研 究。信息检索,主要研究如何从海量数据中提取有 用的信息,提高用户的工作效率,研究项目包括: 中文实体的辨识匹配及数据清洗,中文信息挖掘及 搜索等。语义网技术,致力于研究如何通过数据集 成和关联分析,提供更好的商业智能,包括:语义 数据管理,语义搜索等。语音技术,旨在为用户提 供比传统的键盘和图形用户界面更为直观和普及的
自然科 社会科“863”“973” 企业 国家其 学基金 学基金 项目 项目 合作 它资助