自然语言处理论文:国内自然语言处理研究热点分析

合集下载

关于自然语言处理技术的分析与研究

关于自然语言处理技术的分析与研究

关于自然语言处理技术的分析与研究
自然语言处理技术是指利用计算机等人工智能技术对自然语言进行处理的一系列技术。

它可以帮助人们更便捷、高效地进行语言交流和信息处理,为人们的生活和工作带来了极
大的改变。

目前,自然语言处理技术已经应用到了很多领域,比如搜索引擎、机器翻译、语音识别、文本分类等。

其中,搜索引擎是自然语言处理技术的一个重要应用领域,通过对输入
的搜索关键词进行分析,搜索引擎可以帮助用户快速地找到相关信息。

机器翻译则可以帮
助人们跨越语言障碍进行交流,语音识别可以帮助人们更便捷地进行语音交流,文本分类
可以帮助人们更快速地对大量文本进行分类和处理。

n-gram模型是一种基于统计和概率理论的模型,它通过计算句子中相邻n个词出现的概率,来预测整个句子的概率。

n-gram模型的缺点是需要大量的训练数据,并且对复杂句子的处理效果不好。

自然语言处理技术的研究尚存在一些问题。

其中最大的问题是:语言处理技术的解释
性不足。

因为神经网络模型的黑箱性质,使得其对于一些语句的处理结果无法解释。

如何
提高自然语言处理技术的解释性是当前研究的重点。

总之,自然语言处理技术是一门发展非常迅速的技术,它的应用领域广泛,触及人们
的方方面面。

当前的研究主要是优化算法和提高解释性,未来自然语言处理技术将会更加
成熟和普及。

中文自然语言处理的前沿研究方向是什么

中文自然语言处理的前沿研究方向是什么

中文自然语言处理的前沿研究方向是什么在当今数字化和信息化的时代,自然语言处理(NLP)技术正以前所未有的速度发展,并在众多领域发挥着日益重要的作用。

对于中文自然语言处理而言,其前沿研究方向也在不断拓展和深化。

首先,知识图谱与语义理解的融合是一个重要的研究方向。

知识图谱能够以结构化的方式表示知识,将实体、关系和属性等信息清晰地呈现出来。

在中文处理中,由于语言的复杂性和多义性,准确理解语义一直是个挑战。

通过将知识图谱引入语义理解中,可以更好地解决词汇的歧义问题,增强对文本的深层次理解。

例如,对于“苹果”这个词,在不同的语境中可能指水果,也可能指科技公司。

借助知识图谱,能够根据上下文准确判断其具体所指。

多模态融合也是当前中文自然语言处理的热门方向之一。

我们所接触的信息往往不仅仅是文字,还包括图像、音频、视频等多种模态。

将这些模态的信息与中文文本结合起来进行处理,可以提供更全面、更丰富的理解。

比如,在电商场景中,商品的图片和文字描述相结合,可以更准确地理解用户的需求和商品的特征。

在教育领域,将教学视频中的语音和对应的文字教材进行融合分析,能够更好地评估学生的学习效果。

情感分析和意见挖掘在中文自然语言处理中也越来越受到关注。

在社交媒体和在线评论大量涌现的今天,准确分析和挖掘用户的情感倾向和意见具有重要的商业和社会价值。

比如,对于一款新上市的产品,通过对用户评价的情感分析,可以了解用户的满意度和改进方向。

在公共政策制定方面,对民众意见的挖掘能够为政策的优化提供依据。

然而,中文的情感表达较为含蓄和复杂,如何准确地进行情感分析仍然是一个需要不断探索的问题。

中文自然语言处理中的少样本学习和零样本学习也是前沿研究的重点。

在实际应用中,往往会遇到数据稀缺的情况,特别是对于一些特定领域或新的任务。

少样本学习和零样本学习旨在利用有限的数据甚至没有标注数据的情况下,实现有效的模型学习和预测。

这对于提高中文自然语言处理的泛化能力和适应性具有重要意义。

自然语言处理技术研究及应用前景分析

自然语言处理技术研究及应用前景分析

自然语言处理技术研究及应用前景分析随着人工智能技术的迅猛发展,自然语言处理技术(applicationof natural language processing)日益引起各界的注意。

自然语言处理技术是一种涵盖人机交互、语音识别、文本分析、机器翻译等多个领域的技术,其目的是让计算机像人一样理解和处理自然语言。

尽管在自然语言处理方面已经取得了重大进展,但仍处于快速演变的阶段,有许多问题和挑战亟待解决。

本文将从技术研究和应用前景两个方面,深入探讨自然语言处理技术。

一、自然语言处理技术研究从理论上看,自然语言处理技术可以分为以下三类:语言学、计算机科学和数学模型。

在语言学方面,需要探讨语言的结构和规则,以及词汇和语法等问题。

在计算机科学方面,需要实现语言分析和自动化理解,以及提高算法性能。

在数学模型方面,需要利用统计模型和机器学习技术,通过分析大量语言数据,进行结构和规则的推断和学习。

随着科技的不断进步,自然语言处理技术已经取得了一系列重大成果。

其中,自然语言语音识别技术是一个重要的方向。

该技术通过将语音信号转换为文本,实现语音对话系统的设计和开发。

目前,国际上已经有一些领先的自然语言处理技术公司,如微软、IBM和谷歌等公司,都致力于自然语言处理技术的研发。

二、自然语言处理技术应用前景随着智能化技术的不断提升,自然语言处理技术在实际应用中逐渐得到广泛应用。

以下列举几个自然语言处理技术应用的实例:1、智能对话系统。

随着智能助手的诞生,智能对话系统已经成为了自然语言处理技术的重要应用之一。

智能对话系统可以通过自然语言处理和机器学习技术,实现对复杂问题的处理和回答。

例如,微软公司的小冰(O)、谷歌的Google Assistant(M)、亚马逊的Alexa和Apple的Siri等技术,都是智能对话系统的重要应用。

2、自然语言搜索。

自然语言搜索技术可以帮助用户快速有效地获得所需信息。

例如,问答社区 Quora 就采用了自然语言搜索技术,用户只需要输入一个问题,就能得到相关的答案。

应用自然语言处理技术的微博热点话题挖掘研究

应用自然语言处理技术的微博热点话题挖掘研究

应用自然语言处理技术的微博热点话题挖掘研究近年来随着微博在社交媒体中的广泛应用,越来越多的用户通过微博分享自己的生活、思想和观点等,社交媒体也成为了一种重要的信息交流平台。

然而,由于微博信息呈现出即时性、海量性、碎片化和高度个性化等特点,热点话题发展变化快,追踪和分析热点话题的难度大。

自然语言处理技术作为人工智能领域的重要分支之一,逐渐成为研究微博热点话题的重要手段。

在应用自然语言处理技术挖掘微博热点话题的过程中,主要涉及到文本预处理、文本分析、词频统计、情感分析和聚类分析等多项技术。

首先,文本预处理通常包括分词、去停用词和词性标注等步骤。

针对微博信息的海量性,采用机器学习算法训练得到的分词模型可以快速、准确地对微博信息进行分词处理。

去除停用词后,我们得到的文本只包含有意义的关键词,这有助于进一步的文本分析。

其次,文本分析主要包括文本的主题判断、文本情感分析和文本关键词提取等步骤。

其中,主题判断通过对文本内容的抽取和分析,从而得出文本的主题,并确定主题相关词汇。

情感分析可以进一步判断文本表述者的情感倾向,这对于理解热点话题的态度和趋势具有重要指导意义。

在文本关键词提取过程中,可以通过词频统计和TF-IDF算法等进行关键词提取,从而获得热点话题的关键词并进行监测和分析。

第三,词频统计是一种非常简单且易于实现的文本分析方法,但对于热点话题的术语和领域熟悉程度不强的用户,直接采用词频统计容易忽略掉一些重要信息。

为了解决这一问题,研究人员通常采用TF-IDF算法等技术对每个词语进行权重计算,以此作为词语在主题中的重要程度依据并进行话题挖掘。

第四,在情感分析过程中,我们可以通过调用已训练好的情感分析模型,对微博信息的情感进行分析。

通常情感分析可以将微博信息划分为积极、中性和消极等不同的情感类型,从而在政策制定和社会研究等方面发挥关键作用。

比如,某种商品在微博上得到了大量用户赞誉,相关产业或营销部门可以据此开展生产和销售等工作。

自然语言处理技术的研究方向与应用场景

自然语言处理技术的研究方向与应用场景

自然语言处理技术的研究方向与应用场景随着人工智能的快速发展,自然语言处理技术也逐渐成为研究热点。

自然语言处理技术是人工智能领域中的一个重要子领域,是研究如何让计算机处理人类语言的一门学科。

这项技术已经广泛应用于搜索引擎、智能客服、机器翻译、语音识别和文本分类等领域。

自然语言处理技术的研究方向包括语音识别、语音合成、自然语言理解和自然语言生成等多个方面。

其中,语音识别是自然语言处理技术中的一个重要领域。

随着语音识别技术的不断提高,人们可以通过语音交互的方式控制家庭设备、车辆等,实现更加智能化的生活。

另外,随着人们对智能客服需求的增加,自然语言处理技术也开始应用于此领域。

通过智能客服,用户可以更加便捷地获取产品信息、解决问题等。

此外,自然语言处理技术还可以用于机器翻译。

虽然自然语言翻译领域仍存在很多问题,但是随着技术的不断进步,自然语言翻译的应用前景非常广阔。

除了以上应用场景,自然语言处理技术在文本分类方面也有着广泛的应用。

在搜索引擎中,自然语言处理技术可以对用户的搜索词进行分析和处理,从而让用户可以更精准地获取信息。

虽然自然语言处理技术已经取得了许多重要进展,但是在应用场景扩展和技术细节方面仍存在挑战。

比如,语音识别领域仍需要不断提高技术精度,以便更加准确地理解用户的语音指令,智能客服需要更好地实现语音交互,实现真正的人机交互。

而在自然语言翻译方面,需要更好地解决跨语种语言的翻译问题。

此外,当面对一些特殊类型的文本时,如情感类、调侃类等文本,自然语言处理技术还需要进一步提高。

总的来说,自然语言处理技术的研究方向和应用场景非常广泛。

随着技术的不断提高,人们对于智能化生活的需求也在不断增强,自然语言处理技术也将有着更广阔的应用前景。

自然语言处理技术的研究现状和发展趋势

自然语言处理技术的研究现状和发展趋势

自然语言处理技术的研究现状和发展趋势自然语言处理,英文名为Natural Language Processing (NLP),是一门研究人类自然语言与计算机之间互动的学科,主要涉及计算机科学、人工智能、语言学、心理学等多个领域。

其应用涵盖了机器翻译、问答系统、文本分类、情感分析、语音识别等多个领域,具有重大意义和广阔的应用前景。

目前,自然语言处理技术已经得到了广泛的应用,比如,手机里的语音助手、智能家居系统、搜索引擎、智能客服等,这些应用基于自然语言处理技术中的语音识别、语音合成、自然语言生成以及文本分类等技术。

自然语言处理技术的研究现状在过去的几十年中,各种自然语言处理技术得到了广泛的研究和应用,其中的核心技术包括词法分析、句法分析、语义分析、命名实体识别等模块。

词法分析是指将自然语言文本中的词汇进行分割、识别、词性标注等操作。

在词法分析的基础上,可以进行句法分析,即对句子的结构进行分析,包括句子的成分、句子的语义角色等。

语义分析是自然语言处理的关键环节。

它可以对句子的意思进行深入的理解,包括句子的表示、推理、概念归纳等。

命名实体识别则是指对文本中涉及到的实体名称进行识别,包括人名、地名、组织机构名称、专业术语等,并提供相应的实体类别标注。

这些核心技术构成了自然语言处理技术的基石,并为自然语言处理技术的研究和应用提供了基础性的支持。

自然语言处理技术的发展趋势未来,自然语言处理技术的应用将日益广泛,同时该领域也有着诸多的技术挑战和发展方向。

在下面,我们将从技术和发展方向两个角度对自然语言处理技术的未来发展进行展望。

一、技术发展1、深度学习技术将成为主流技术目前,深度学习技术成为了自然语言处理领域中最为流行的技术之一。

深度学习技术不仅可以提高自然语言处理的效率,还可以提高自然语言处理的准确性。

未来,深度学习技术将成为自然语言处理技术的主流技术。

2、增强学习技术将发挥更大作用增强学习技术是指通过不断的试错、学习优化模型,在与环境交互的过程中逐渐提高模型的效率和准确性。

关于自然语言处理技术的分析与研究

关于自然语言处理技术的分析与研究

关于自然语言处理技术的分析与研究自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要研究分支,其目的是使机器能够理解、分析和生成自然语言。

NLP技术的研究和应用正日益深入各个领域,如机器翻译、语音识别、文本分类和情感分析等,具有广泛的应用前景和商业价值。

本文将对自然语言处理技术进行分析和研究。

自然语言处理技术主要包括文本处理和语音处理两大类。

文本处理是指对文本进行分词、词性标注、命名实体识别等操作,对文本进行结构化表示,以便后续的语义分析和语义理解。

语音处理是指对语音信号进行识别和理解,将语音转化为文本,用于文本处理的任务。

自然语言处理技术的研究和应用涉及到多个学科领域,如计算机科学、语言学、心理学和认知科学等。

在计算机科学领域,自然语言处理是一门交叉学科,融合了机器学习、统计学、信息论和计算语言学等多个技术和方法。

在语言学领域,自然语言处理致力于模拟人类语言处理的过程,理解语言规则和结构,从而实现机器对语言的理解和生成。

自然语言处理技术的研究和应用还面临一些挑战和问题。

首先是语言的多样性和复杂性,由于不同语言的差异和语言的多义性,使得自然语言处理任务更加困难。

其次是语义理解和推理的问题,人类语言的意义和推理过程在计算机中的模拟和实现依然是一个难题。

数据的质量和数量也对自然语言处理技术的研究和应用造成影响。

自然语言处理技术在众多领域中具有广泛的应用和商业价值。

在机器翻译领域,自然语言处理技术的发展使得机器翻译的质量和效率得到了显著提升。

在智能客服领域,自然语言处理技术的应用使得机器能够自动处理用户的问题和需求。

在情感分析领域,自然语言处理技术的发展使得机器能够分析文本中的情感倾向和情感状态,有助于企业进行市场调研和舆情分析等。

自然语言处理技术是一个重要的研究领域,对于机器理解和生成自然语言具有重要意义。

虽然在实际应用中面临一些挑战和问题,但随着技术的发展和应用场景的不断扩展,自然语言处理技术具有广泛的应用前景和商业价值。

自然语言处理论文:国内自然语言处理研究热点分析

自然语言处理论文:国内自然语言处理研究热点分析

自然语言处理论文:国内自然语言处理研究热点分析[摘要]在确定国内自然语言处理领域使用频率最高的61个关键词的基础上,运用共词分析法,以SPSS 软件为工具,通过因子分析和聚类分析的方法,井借鉴相关研究结果,探讨国内自然语言处理研究现状及研究热点。

[关键词]自然语言处理共词分析法聚类分析因子分析1引言最早的自然语言处理方面的研究工作是机器翻译。

1949年,美国人威弗首先提出了机器翻译设计方案。

从20世纪40年代算起,自然语言处理的研究已经有印多年的历史了,随着信息网络时代的到来,它已经成为了现代语言学中一个颇为引人注目的学科。

美国计算机科学家Bill Manaris(马纳利斯)在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人一机交互的角度看自然语言处理》一文中,曾经给自然语言处理提出了如下的定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。

自然语言处理要研制表示语言能力(Linguistic Compe-tence)和语言应用(Linguistic Performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术”。

这个定义比较全面地说明了自然语言处理的性质和学科定位,国内外学者普遍认同这个定义。

在自然语言处理研究发展的60多年间,国外该领域经历了萌芽期、发展期和繁荣期三个时期,并取得了丰富的研究成果。

相比之下,国内在该领域较为系统的研究成果则为数不多,主要是由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了20多年。

但是,经过20多年的发展,汉语自然语言处理技术也获得了长足的进步,在机器翻译、语料库、语篇理解、概念层次网络等领域取得了一些重要成果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自然语言处理论文:国内自然语言处理研究热点分析[摘要]在确定国内自然语言处理领域使用频率最高的61个关键词的基础上,运用共词分析法,以SPSS 软件为工具,通过因子分析和聚类分析的方法,井借鉴相关研究结果,探讨国内自然语言处理研究现状及研究热点。

[关键词]自然语言处理共词分析法聚类分析因子分析
1引言
最早的自然语言处理方面的研究工作是机器翻译。

1949年,美国人威弗首先提出了机器翻译设计方案。

从20世纪40年代算起,自然语言处理的研究已经有印多年的历史了,随着信息网络时代的到来,它已经成为了现代语言学中一个颇为引人注目的学科。

美国计算机科学家Bill Manaris(马纳利斯)在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人一机交互的角度看自然语言处理》一文中,曾经给自然语言处理提出了如下的定义:
“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。

自然语言处理要研制表示语言能力(Linguistic Compe-tence)和语言应用(Linguistic Performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术”。

这个定义比较全面地说明了自然语言处理的性质和学科定位,国内外学者普遍认同这个定义。

在自然语言处理研究发展的60多年间,国外该领域经历了萌芽期、发展期和繁荣期三个时期,并取得了丰富的研究成果。

相比之下,国内在该领域较为系统的研究成果则为数不多,主要是由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了20多年。

但是,经过20多年的发展,汉语自然语言处理技术也获得了长足的进步,在机器翻译、语料库、语篇理解、概念层次网络等领域取得了一些重要成果。

本文拟采用共词分析方法,通过对国内自然语言处理领域文献中高频关键词共同出现频率规律的分析,深入揭示其研究热点以及研究现状,为其他从事自然语言处理研究的学者提供参考。

2研究方法
共词分析法(Co-term Analysis)在图书情报界的应用非常广泛,是文献计量学的一种重要方法,也是内容分析法的常用方法之一。

最先提出共词分析方法的是Callon等人,其后这种方法被广泛使用。

共词方法的思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。

利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,可以进一步按这种“距离”将一个学科内的重要关键词加以分类,从而归纳出该学科的研究现状、热点和内容。

不仅如此。

利用现代信息技术和统计软件图形显示功能,还能够将分析结果直观形象地显现出来,进而达到可视化的效果。

用共词分析法分析国内自然语言处理领域的研究热点。

需要通过四个步骤完成:①,确定国内该研究领域主要关键词;②建立关键词共词矩阵;③选取多元统计方法对所建矩阵进行统计分析;④对所获得的数据进行分析。

3数据来源与关键词获取
3.1数据来源
在中国期刊网(CNKi)上,以“自然语言处理”为关键词,检索时间范围为CNKI默认的年限。

选择了四个数据库,分别是中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等,并以关键词为检索字段,采用精确检索的方式检索出2233篇文献,然后从CNKI上下载这些文献的题录数据。

3.2关键词获取
笔者利用自编软件首先把所有的题录数据载人到数据库中,然后从这些数据中抽取出关键词。

进行关键词统计,选取高频关键词,然后对高频关键词进行两两共同出现次数统计,最终生成一个高频关键词共词矩阵。

在处理的过程中笔者去掉了与自然语言处理无关的文献,最终有效篇数为2231篇。

本文选择词频不低于12次的进行处理,去掉了一些不相关的词:如“汉语”、“综述”等;同时笔者对一些同义词进行了合并,如把“最大熵模型”和“最大熵”合并为“最大熵”等;最终确定了表征自然语言处理研究方向的61个关键词,这是本文进行共词分析的基础(见表1)。

对这61个关键词进行两两组合,统计它们共同在2 231篇文章中出现的次数,形成61×61共词矩阵,部分共词矩阵如表2所示:
在这里笔者把对角线的值设为该关键词与其他关键词共同出现次数的最大值+1,突出该关键词与自己的亲密关系。

4自然语言处理的共词分析
在共词分析中常用的多元统计方法有三种:因子分析(Factor Analysis),聚类分析(Cluster Analysis)和多维尺度分析(MultimensionaI Scaling)。

本文使用前面两种方法来对高频关键词进行分析,以揭示自然语言处理领域的研究现状和热点。

4.1因子分析
因子分析要达到的目标就是用尽可能少的因子去描述众多的指标或因素之间的联系,其基本思想是根据关键词间的相关性大小把研究对象的变量进行分组,使得同组内的变量之间相关性较高,而不同组的变量相关性较低。

每组变量代表一个基本结构,这个基本结构称为公共因子。

这样较少的几个公共因子就可以反映原资料的大部分信息。

利用因子分析法。

可根据因子得分值,在因子所构成的空间中把研究对象的变量点画出来,从而客观地达到分类的目的。

以上面得到的关键词共词矩阵为基础,在SPSSl8中选择主成份方法、协方差矩阵和最大方差旋转进行因子分析。

结果显示有10个公共因子被提取出来,其累计方差贡献率为85.343%(见表3)。

也就是说。

将这61个关键词分成10个类别,就可以解释国内自然语言处理领域85.343%的信息。

其中第1、2、6三个因子的方差贡献率较高,都超过了10%,分别为28.063%、10.821%、14.391%,累计方差贡献率为53.275%,这是国内自然语言处理研究的三个重要领域。

而与因子抽取相配套的因子个数碎石图(见图1)则比较直观地显示出因子分析的前10个因子类别是比较明确的,这说明因子分析中将自然语言处理研究划分为lO类是合理的。

因子提取结果产生10个公共因子,根据因子载荷量系数大于0.7对命名才有帮助的原则,共提出10个公共因子,命名见表4。

最后一个因子由于只有一个关键词,因此就以其命名。

关键词的载荷量反映了关键词在其公共因子中的相关度。

表4显示了由载荷量大于0.5的关键词组成的公共因子(载荷临界值越高,所确定的分类结构越简单。

根据本文的数据情况,为能较好反映关键词的组成结构,这里将载荷临界值定为0.5)。

其中有部分关键词由于载荷量小于0.5而未能参与分类。

它们是“文本挖掘、知识表示、句子相似度、wordnet、聚类”等。

这些关键词的相关度相对较低,一方面,表明有些关键词尽管频次较高,但其所代表的研究主题范围较大,在因子的相关度分析中并无特色,例如“聚类”等;另一方面,有些关键词所代表的主题较为新颖,还没有同其他的公共因子很好地结合,如“知识表示”等。

另外,关键词“机器翻译”同时出现在因子l和9中,体现了这两个因子——“机器翻译”和“语音识别”之间的密切相关性。

4.2聚类分析
聚类分析是从事物数量上的特征出发对事物进行分类。

是数值分类学和多元统计技术结
合的结果,其基本思想是依照事物的数值特征,来计算各个变量或样品间的亲疏关系。

而变量之间的亲疏关系则有变量之间的距离来衡量,一旦变量之间的距离定义之后。

则把距离近的变量归为同一类。

系统聚类(也称层次聚类)是最常用的一种方法,其含义是:开始将每个变量各看成一类,将距离最近的两个类合并;重新计算新类与其他类的距离,再将距离最近的两类合并;再计算新类与其他类的距离……。

这样一步步地进行下去,每一步减少—类,直至所有的变量都合并成一类为止,整个聚类过程可绘成聚类图。

本文采用聚类分析中常用的系统聚类法(Hierar-chical Clustering Method)对共词矩阵进行聚类。

该分析亦在SPSSl8中完成,聚类时选用离差平方和(Ward)作为聚类方法,在距离测度方法中选择离散数据类型Count中的斐方法(Phi-square Measure),在数据标准化中选择z分数。

聚类分析的结果见图2,可以将自然语言处理研究领域分为10类,综合考虑每一类中各关键词的性质,最终确定自然语言处理领域的十大研究热点:机器翻译、词性标注、句法分析、词义消歧、语音识别、人工只智能、自动文摘、问答系统、信息检索、语义网。

下面结合相关文献的具体内容,对自然语言处理的研究热点做进一步研究。

4.2.1机器翻译机器翻译是指利用计算机全自动或部分自动地将一种语言翻译成为另一种语言的处理技术,它是自然语言处理最早的研究工作,同时也是它的一个重要分支,而且一直都是自然语言处理领域关注的前滑和热点。

“语料库”、“双语语料库”等关键词表明了机器翻译的其中一种方法——基于语料库的方法,因为进入20世纪90年代后,统计方法在自然语言处理中异军突起;“计算语言学”、“语言学”等是与机器翻译密切相关的学科;“中文信息处理”、“词义排歧”、“标注”等则是机器翻译的关键技术环节;“电子词典”等则是机器翻译的重要应用。

相关文档
最新文档