自然语言处理论文:国内自然语言处理研究热点分析
自然语言处理技术的现状和发展趋势

自然语言处理技术的现状和发展趋势自然语言处理(natural language processing,NLP)是人工智能领域中的一个重要分支,其目标是使计算机能够理解、处理和生成人类自然语言的文本或语音。
随着人工智能技术的快速发展,NLP技术也得到了极大的发展,并在许多领域得到了广泛的应用,比如自动翻译、情感分析、智能客服、智能搜索等。
本文将就NLP技术的现状和未来发展趋势进行深入探讨。
一、NLP技术的现状近年来,NLP技术取得了巨大的进步,其中最大的推动力来自于深度学习技术的发展。
深度学习作为一种基于人工神经网络的机器学习方法,能够自动地从数据中学习特征,并取得比传统机器学习方法更好的效果。
在NLP领域,深度学习技术被广泛应用于诸如语言模型、命名实体识别、情感分析、机器翻译等任务,取得了显著的效果。
基于深度学习的方法使得NLP技术在许多任务上取得了突破性进展。
比如在语言模型任务上,出现了一系列效果出色的预训练模型,如BERT、GPT、XLNet等,在机器翻译任务上,Transformer模型的出现使得翻译效果得到了极大的提升,在情感分析任务上,使用深度学习方法可以更准确地识别文本中的情感倾向等。
这些进展极大地改善了NLP技术的性能,使得它能够被更广泛地应用到各个领域中。
另一方面,NLP技术也在不断地向着更加智能化的方向发展。
目前,已出现了一些基于深度学习的通用对话系统,如Google的Duplex、OpenAI的GPT-3等,这些对话系统能够比较自然地进行人机对话,并且在一些任务中表现出了非常高的智能水平。
此外,NLP技术还在知识图谱构建、信息检索和推荐系统等领域得到了广泛应用,进一步提高了NLP技术的智能化水平。
二、NLP技术的发展趋势1.深度学习模型的进一步发展目前,深度学习模型已经成为NLP领域的主流方法,未来这一趋势有可能会进一步发展。
随着计算能力的提高和算法的改进,我们可以预见更加复杂和强大的深度学习模型的出现,这些模型可以更好地理解和生成人类语言,从而使得NLP技术得到更大的提升。
大学生毕业论文范文基于机器学习的自然语言处理研究

大学生毕业论文范文基于机器学习的自然语言处理研究摘要本文基于机器学习的自然语言处理研究,从理论和实践两方面进行探讨。
首先,介绍了自然语言处理的基本概念和研究意义,然后详细解释了机器学习在自然语言处理中的应用,包括文本分类、情感分析、机器翻译等方面。
接下来,列举了一些基于机器学习的自然语言处理实际应用案例,并分析了其优势和局限性。
最后,总结了基于机器学习的自然语言处理研究的发展前景和挑战。
关键词:自然语言处理,机器学习,文本分类,情感分析,机器翻译,应用案例,发展前景,挑战1. 引言自然语言处理是人工智能领域的重要研究方向之一,其主要目标是使计算机能够理解和处理人类语言。
随着大数据时代的来临,以及互联网的快速发展,自然语言处理在很多领域都得到了广泛应用,比如搜索引擎、智能客服、智能翻译等。
2. 自然语言处理的基本概念和研究意义自然语言处理是研究如何使计算机能够理解和处理人类语言的一门学科,其内涵包括语言的理解、生成、翻译、问答等。
自然语言处理的研究意义主要体现在以下几个方面:提高人机交互的效果和体验、辅助知识获取与共享、加速信息处理与决策等。
3. 机器学习在自然语言处理中的应用机器学习是自然语言处理中常用的方法之一。
通过对大量的语料进行学习,机器能够识别出文本中的模式和规律,从而实现文本的自动分类、情感分析、机器翻译等任务。
在文本分类方面,机器学习可以将文本分为不同的类别,比如将新闻文章分为体育、政治、娱乐等不同类别。
在情感分析方面,机器学习可以识别文本中的情感倾向,判断文本是正面情感还是负面情感。
在机器翻译方面,机器学习可以将一种语言的文本自动翻译成另一种语言。
4. 基于机器学习的自然语言处理实际应用案例基于机器学习的自然语言处理在实际应用中具有广泛的应用前景。
以文本分类为例,许多搜索引擎和新闻聚合网站都采用了文本分类技术,对文章进行自动分类,并将其归入不同的类别。
以情感分析为例,很多企业通过对用户评论和社交媒体数据进行情感分析,来了解用户的情感倾向和需求。
自然语言处理技术的应用与研究

自然语言处理技术的应用与研究随着人工智能技术的发展,自然语言处理技术在各个领域的应用越来越广泛。
自然语言处理技术是一种能够使计算机理解并处理人类语言的技术,它能够帮助人们提高工作效率、增强信息检索的准确性、实现自然语言的智能交互等。
目前,自然语言处理技术已成为人工智能技术中最重要的分支之一,下面对自然语言处理技术的应用与研究进行探究。
一、自然语言处理技术在文本分类中的应用自然语言处理技术在文本分类中的应用非常广泛。
文本分类是对一组文本进行自动分类的过程。
通过自然语言处理技术,计算机可以识别和分析文本中的关键词、词性、语义等信息,从而将文本分成不同的类别。
这对于大规模的文本分析具有非常重要的意义,可以大大提高工作效率和精确度。
以新闻分类为例,利用自然语言处理技术,将不同的新闻类别进行分类。
在新闻分类中,计算机通过自然语言处理技术进行关键词提取,分析文本中含有关键词的词性、严密程度等因素,从而完成新闻分类。
在这个过程中,自然语言处理技术的应用可以大大提高新闻分类的准确度,加快了新闻整合的速度,提高了对于新闻信息的关注度和重要性。
二、自然语言处理技术在智能客服中的应用自然语言处理技术在智能客服领域也有非常广泛的应用。
随着企业数字化转型的加速,越来越多的企业开始将智能客服引入到公司的运营中。
利用自然语言处理技术,公司可以实现24小时不间断的人工智能客服,帮助顾客解决各种问题。
在智能客服中,利用自然语言处理技术进行对话,能够极大地提高对话的效率和交互性。
自然语言处理技术可以提取客户的表述,分析客户的需求和意图,将客户的疑问自动分类,然后回答客户的问题或者转接到相关人员。
在这个过程中,自然语言处理技术的应用可以大大提高智能客服的对话效率,更好地为顾客提供精准、快捷的服务。
三、自然语言处理技术在机器翻译中的应用自然语言处理技术在机器翻译领域也有着广泛的应用,能够将一种语言自动翻译成另一种语言。
机器翻译技术通过自然语言处理技术进行语言模型的训练,从而实现对自然语言的理解。
自然语言处理技术的研究与应用

自然语言处理技术的研究与应用第一章绪论自然语言处理技术(Natural Language Processing,NLP)是迄今为止计算机科学领域内发展最迅速的一个领域之一。
它是研究语言学和人工智能技术相结合的一门交叉学科。
自然语言处理技术可以帮助计算机更好地理解、处理人类语言,从而实现自然语言的输入和输出,进而实现以自然语言为接口的计算机人机交互。
自然语言处理技术的研究与应用呈现出爆炸式增长。
它已经广泛应用于搜索引擎、智能客服、机器翻译、自动摘要、情感分析、信息抽取等各个领域。
本文将从自然语言处理技术的技术路线、主要技术难点、现状以及未来发展等方面进行分析。
第二章技术路线自然语言处理技术的核心是对自然语言进行分析,以便计算机可以理解和处理它。
自然语言处理技术主要的技术路线如下:1. 分词分词是将一段连续的文本按照一定规则切割成一个个具有独立意义的词语的过程。
中文分词是自然语言处理技术的一大难点,因为中文没有像英文空格这种词语分割符。
中文分词技术主要包括规则分词、统计分词、机器学习分词、深度学习分词等。
2. 词性标注词性标注是指对文本中的每个词语赋予相应的词性,如名词、动词、形容词、副词等。
词性标注技术可以帮助计算机更好地理解句子的结构和意义,从而进行后续处理。
3. 句法分析句法分析是指对文本中的句子进行结构分析和语义分析,以便构建出句子的基本成分和句子成分之间的关系。
句法分析主要涉及到句子的语义角色标注、句法树构建、成分串联等几个方面。
4. 语义分析语义分析是指对文本的语义内容进行分析,探究句子中的隐含含义和上下文关系。
语义分析包括文本关键词提取、实体识别、情感分析等。
第三章技术难点自然语言处理技术的研究最大的困难是自然语言的多义性、歧义性和语言表达多样性问题。
这些问题使得自然语言处理技术难以准确判断句子的含义和语义。
1. 歧义性自然语言中常出现相同的词语或者短语,但是它们可能有不同的含义。
例如,“哥哥爱弟弟”和“哥哥亲弟弟”中的“弟弟”和“哥哥”具有不同的含义。
自然语言处理技术的研究方向与应用场景

自然语言处理技术的研究方向与应用场景随着人工智能的快速发展,自然语言处理技术也逐渐成为研究热点。
自然语言处理技术是人工智能领域中的一个重要子领域,是研究如何让计算机处理人类语言的一门学科。
这项技术已经广泛应用于搜索引擎、智能客服、机器翻译、语音识别和文本分类等领域。
自然语言处理技术的研究方向包括语音识别、语音合成、自然语言理解和自然语言生成等多个方面。
其中,语音识别是自然语言处理技术中的一个重要领域。
随着语音识别技术的不断提高,人们可以通过语音交互的方式控制家庭设备、车辆等,实现更加智能化的生活。
另外,随着人们对智能客服需求的增加,自然语言处理技术也开始应用于此领域。
通过智能客服,用户可以更加便捷地获取产品信息、解决问题等。
此外,自然语言处理技术还可以用于机器翻译。
虽然自然语言翻译领域仍存在很多问题,但是随着技术的不断进步,自然语言翻译的应用前景非常广阔。
除了以上应用场景,自然语言处理技术在文本分类方面也有着广泛的应用。
在搜索引擎中,自然语言处理技术可以对用户的搜索词进行分析和处理,从而让用户可以更精准地获取信息。
虽然自然语言处理技术已经取得了许多重要进展,但是在应用场景扩展和技术细节方面仍存在挑战。
比如,语音识别领域仍需要不断提高技术精度,以便更加准确地理解用户的语音指令,智能客服需要更好地实现语音交互,实现真正的人机交互。
而在自然语言翻译方面,需要更好地解决跨语种语言的翻译问题。
此外,当面对一些特殊类型的文本时,如情感类、调侃类等文本,自然语言处理技术还需要进一步提高。
总的来说,自然语言处理技术的研究方向和应用场景非常广泛。
随着技术的不断提高,人们对于智能化生活的需求也在不断增强,自然语言处理技术也将有着更广阔的应用前景。
自然语言处理的研究与应用

自然语言处理的研究与应用自然语言处理(Natural Language Processing,NLP)是人工智能领域的重要分支,研究如何使计算机能够理解、分析、处理和生成人类自然语言的方法和技术。
自然语言处理广泛应用于机器翻译、信息检索、文本分类、问答系统等领域,对人们的日常生活和工作产生了深远影响。
一、自然语言处理的历史与发展自然语言处理的研究可以追溯到上世纪五六十年代,当时的研究主要集中在基于规则的方法上,在实践中遇到了很多困难。
从上世纪九十年代开始,随着机器学习和统计方法的兴起,自然语言处理领域出现了许多重要的突破。
近年来,深度学习和神经网络的发展使得自然语言处理取得了更加显著的成果。
二、自然语言处理的关键技术1. 词法分析:词法分析是自然语言处理的基础,旨在将自然语言句子转化为一系列有意义的词组,如词语、短语等。
常见的词法分析任务包括分词、词性标注等。
2. 句法分析:句法分析研究句子的结构和成分之间的关系,目的是建立句子的语法结构树。
常见的句法分析任务包括语法依存分析、句法解析等。
3. 语义分析:语义分析旨在理解句子的语义,即句子所表达的意思和含义。
常见的语义分析任务包括语义角色标注、词义消歧等。
4. 机器翻译:机器翻译是将一种语言的内容自动转化为另一种语言的过程,属于自然语言处理的重要应用之一。
机器翻译的方法包括统计机器翻译和神经机器翻译等。
5. 信息检索:信息检索是根据用户的需求从大规模的文本集合中检索出相关的信息。
自然语言处理技术在信息检索中起到了重要的作用,例如文本索引构建、查询解析等。
三、自然语言处理的应用领域1. 机器翻译:自然语言处理技术在机器翻译领域有着广泛的应用。
早期的机器翻译方法主要基于规则,随着统计机器翻译和神经机器翻译的发展,机器翻译的翻译质量得到了显著提升。
2. 信息检索:自然语言处理技术在信息检索中起到了重要的作用。
通过对用户的查询进行语义解析以及对文本进行索引构建,可以提高信息检索的准确性和效率。
自然语言处理论文

自然语言处理论文自然语言处理(Natural Language Processing。
NLP)是人工智能领域的一个重要分支,主要研究如何让计算机能够理解和处理人类的自然语言。
随着大数据和深度研究的快速发展,自然语言处理在各个领域都得到了广泛的应用和研究。
本文将探讨自然语言处理的一些研究领域和技术应用。
首先,我们将介绍自然语言处理的基本概念和原理。
然后,我们将重点讨论自然语言处理在文本分类和信息抽取中的应用。
接下来,我们将探讨自然语言处理在机器翻译和问答系统中的应用。
最后,我们将讨论自然语言处理的发展趋势和挑战。
自然语言处理的基本概念和原理涉及语言学、计算机科学和统计学等多个学科的知识。
其中,自然语言处理的核心任务包括词法分析、句法分析、语义分析和语言生成等。
通过这些任务,计算机可以理解和处理人类的自然语言,从而实现自然语言的自动处理和应用。
文本分类是自然语言处理的一个重要任务,目的是将文本按照预定义的类别进行分类。
文本分类可以应用于舆情分析、情感分析、垃圾邮件过滤等多个领域。
在文本分类中,常用的技术包括词袋模型、TF-IDF权重计算和机器研究算法等。
信息抽取是自然语言处理的另一个重要任务,目的是从文本中提取出有用的信息。
信息抽取可以应用于新闻摘要、实体识别、关系抽取等多个领域。
在信息抽取中,常用的技术包括命名实体识别、关键词提取和依存句法分析等。
机器翻译是自然语言处理的一个典型应用,目的是将一种语言的文本自动翻译成另一种语言的文本。
机器翻译涉及到语言的语法、词汇和语义等多个方面的处理。
近年来,深度研究技术在机器翻译中取得了显著的进展,如用于神经机器翻译的Transformer模型。
问答系统是自然语言处理的另一个典型应用,目的是根据用户提出的问题,从大规模的语料库中检索和生成相关的答案。
问答系统可以应用于智能助手、智能搜索等领域。
在问答系统中,常用的技术包括问题理解、信息检索和答案生成等。
自然语言处理在不断发展中面临着一些挑战和困难。
自然语言处理技术研究

自然语言处理技术研究一、概述自然语言处理技术(Natural Language Processing,NLP)是计算机科学、人工智能、语言学等多个学科交叉的研究领域。
其目的是让计算机理解和应用自然语言(例如汉语、英语等),并能够进行自然语言与计算机语言转换和处理。
近年来,NLP技术不断发展,应用广泛,包括机器翻译、智能客服、智能搜索、情感分析、语音识别等多个领域。
本文将对自然语言处理技术进行系统性的探讨。
二、自然语言处理技术分类1. 语音识别语音识别是将人的语音转化为计算机可以理解的文本或指令的技术。
该技术已广泛应用在智能客服、语音助手、智能家居等领域。
其实现过程主要包括声学模型、语言模型、发音词典等过程。
2. 机器翻译机器翻译是指使用计算机技术将一种自然语言(源语言)的文本翻译成另一种自然语言(目标语言)的文本。
其应用广泛,如谷歌翻译、百度翻译等。
其实现过程主要包括语料库建立、特征提取、模型训练等过程。
3. 文本分类文本分类是对文本进行分类的技术,主要用于垃圾邮件过滤、新闻分类、情感分析等。
其实现过程主要包括特征提取、分类器训练等过程。
4. 信息抽取信息抽取是从非结构化文本中提取出特定的信息,如人名、地名、时间等。
其应用广泛,如舆情分析、新闻自动摘要等。
其实现过程主要包括实体识别、关系抽取等过程。
三、自然语言处理技术研究现状1. 中文分词中文分词是将中文句子分割成一个个词语。
中文分词技术是自然语言处理的基础,对后续的自然语言处理任务都有重要的影响。
目前,中文分词的方法主要有基于规则的方法、基于统计的方法、基于深度学习的方法等。
其中,基于深度学习的方法由于其准确度较高,应用越来越广泛。
2. 情感分析情感分析是对文本表达情感进行分析的技术,通常包括情感极性(正向、负向、中性)和情感强度(强烈、中等、微弱)等方面。
情感分析的应用范围较广,如社交媒体监测、舆情分析、产品评价等。
目前,情感分析的方法主要有基于规则的方法、基于统计的方法和基于深度学习的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然语言处理论文:国内自然语言处理研究热点分析[摘要]在确定国内自然语言处理领域使用频率最高的61个关键词的基础上,运用共词分析法,以SPSS 软件为工具,通过因子分析和聚类分析的方法,井借鉴相关研究结果,探讨国内自然语言处理研究现状及研究热点。
[关键词]自然语言处理共词分析法聚类分析因子分析
1引言
最早的自然语言处理方面的研究工作是机器翻译。
1949年,美国人威弗首先提出了机器翻译设计方案。
从20世纪40年代算起,自然语言处理的研究已经有印多年的历史了,随着信息网络时代的到来,它已经成为了现代语言学中一个颇为引人注目的学科。
美国计算机科学家Bill Manaris(马纳利斯)在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人一机交互的角度看自然语言处理》一文中,曾经给自然语言处理提出了如下的定义:
“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。
自然语言处理要研制表示语言能力(Linguistic Compe-tence)和语言应用(Linguistic Performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术”。
这个定义比较全面地说明了自然语言处理的性质和学科定位,国内外学者普遍认同这个定义。
在自然语言处理研究发展的60多年间,国外该领域经历了萌芽期、发展期和繁荣期三个时期,并取得了丰富的研究成果。
相比之下,国内在该领域较为系统的研究成果则为数不多,主要是由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了20多年。
但是,经过20多年的发展,汉语自然语言处理技术也获得了长足的进步,在机器翻译、语料库、语篇理解、概念层次网络等领域取得了一些重要成果。
本文拟采用共词分析方法,通过对国内自然语言处理领域文献中高频关键词共同出现频率规律的分析,深入揭示其研究热点以及研究现状,为其他从事自然语言处理研究的学者提供参考。
2研究方法
共词分析法(Co-term Analysis)在图书情报界的应用非常广泛,是文献计量学的一种重要方法,也是内容分析法的常用方法之一。
最先提出共词分析方法的是Callon等人,其后这种方法被广泛使用。
共词方法的思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。
利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,可以进一步按这种“距离”将一个学科内的重要关键词加以分类,从而归纳出该学科的研究现状、热点和内容。
不仅如此。
利用现代信息技术和统计软件图形显示功能,还能够将分析结果直观形象地显现出来,进而达到可视化的效果。
用共词分析法分析国内自然语言处理领域的研究热点。
需要通过四个步骤完成:①,确定国内该研究领域主要关键词;②建立关键词共词矩阵;③选取多元统计方法对所建矩阵进行统计分析;④对所获得的数据进行分析。
3数据来源与关键词获取
3.1数据来源
在中国期刊网(CNKi)上,以“自然语言处理”为关键词,检索时间范围为CNKI默认的年限。
选择了四个数据库,分别是中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等,并以关键词为检索字段,采用精确检索的方式检索出2233篇文献,然后从CNKI上下载这些文献的题录数据。
3.2关键词获取
笔者利用自编软件首先把所有的题录数据载人到数据库中,然后从这些数据中抽取出关键词。
进行关键词统计,选取高频关键词,然后对高频关键词进行两两共同出现次数统计,最终生成一个高频关键词共词矩阵。
在处理的过程中笔者去掉了与自然语言处理无关的文献,最终有效篇数为2231篇。
本文选择词频不低于12次的进行处理,去掉了一些不相关的词:如“汉语”、“综述”等;同时笔者对一些同义词进行了合并,如把“最大熵模型”和“最大熵”合并为“最大熵”等;最终确定了表征自然语言处理研究方向的61个关键词,这是本文进行共词分析的基础(见表1)。
对这61个关键词进行两两组合,统计它们共同在2 231篇文章中出现的次数,形成61×61共词矩阵,部分共词矩阵如表2所示:
在这里笔者把对角线的值设为该关键词与其他关键词共同出现次数的最大值+1,突出该关键词与自己的亲密关系。
4自然语言处理的共词分析
在共词分析中常用的多元统计方法有三种:因子分析(Factor Analysis),聚类分析(Cluster Analysis)和多维尺度分析(MultimensionaI Scaling)。
本文使用前面两种方法来对高频关键词进行分析,以揭示自然语言处理领域的研究现状和热点。
4.1因子分析
因子分析要达到的目标就是用尽可能少的因子去描述众多的指标或因素之间的联系,其基本思想是根据关键词间的相关性大小把研究对象的变量进行分组,使得同组内的变量之间相关性较高,而不同组的变量相关性较低。
每组变量代表一个基本结构,这个基本结构称为公共因子。
这样较少的几个公共因子就可以反映原资料的大部分信息。
利用因子分析法。
可根据因子得分值,在因子所构成的空间中把研究对象的变量点画出来,从而客观地达到分类的目的。
以上面得到的关键词共词矩阵为基础,在SPSSl8中选择主成份方法、协方差矩阵和最大方差旋转进行因子分析。
结果显示有10个公共因子被提取出来,其累计方差贡献率为85.343%(见表3)。
也就是说。
将这61个关键词分成10个类别,就可以解释国内自然语言处理领域85.343%的信息。
其中第1、2、6三个因子的方差贡献率较高,都超过了10%,分别为28.063%、10.821%、14.391%,累计方差贡献率为53.275%,这是国内自然语言处理研究的三个重要领域。
而与因子抽取相配套的因子个数碎石图(见图1)则比较直观地显示出因子分析的前10个因子类别是比较明确的,这说明因子分析中将自然语言处理研究划分为lO类是合理的。
因子提取结果产生10个公共因子,根据因子载荷量系数大于0.7对命名才有帮助的原则,共提出10个公共因子,命名见表4。
最后一个因子由于只有一个关键词,因此就以其命名。
关键词的载荷量反映了关键词在其公共因子中的相关度。
表4显示了由载荷量大于0.5的关键词组成的公共因子(载荷临界值越高,所确定的分类结构越简单。
根据本文的数据情况,为能较好反映关键词的组成结构,这里将载荷临界值定为0.5)。
其中有部分关键词由于载荷量小于0.5而未能参与分类。
它们是“文本挖掘、知识表示、句子相似度、wordnet、聚类”等。
这些关键词的相关度相对较低,一方面,表明有些关键词尽管频次较高,但其所代表的研究主题范围较大,在因子的相关度分析中并无特色,例如“聚类”等;另一方面,有些关键词所代表的主题较为新颖,还没有同其他的公共因子很好地结合,如“知识表示”等。
另外,关键词“机器翻译”同时出现在因子l和9中,体现了这两个因子——“机器翻译”和“语音识别”之间的密切相关性。
4.2聚类分析
聚类分析是从事物数量上的特征出发对事物进行分类。
是数值分类学和多元统计技术结
合的结果,其基本思想是依照事物的数值特征,来计算各个变量或样品间的亲疏关系。
而变量之间的亲疏关系则有变量之间的距离来衡量,一旦变量之间的距离定义之后。
则把距离近的变量归为同一类。
系统聚类(也称层次聚类)是最常用的一种方法,其含义是:开始将每个变量各看成一类,将距离最近的两个类合并;重新计算新类与其他类的距离,再将距离最近的两类合并;再计算新类与其他类的距离……。
这样一步步地进行下去,每一步减少—类,直至所有的变量都合并成一类为止,整个聚类过程可绘成聚类图。
本文采用聚类分析中常用的系统聚类法(Hierar-chical Clustering Method)对共词矩阵进行聚类。
该分析亦在SPSSl8中完成,聚类时选用离差平方和(Ward)作为聚类方法,在距离测度方法中选择离散数据类型Count中的斐方法(Phi-square Measure),在数据标准化中选择z分数。
聚类分析的结果见图2,可以将自然语言处理研究领域分为10类,综合考虑每一类中各关键词的性质,最终确定自然语言处理领域的十大研究热点:机器翻译、词性标注、句法分析、词义消歧、语音识别、人工只智能、自动文摘、问答系统、信息检索、语义网。
下面结合相关文献的具体内容,对自然语言处理的研究热点做进一步研究。
4.2.1机器翻译机器翻译是指利用计算机全自动或部分自动地将一种语言翻译成为另一种语言的处理技术,它是自然语言处理最早的研究工作,同时也是它的一个重要分支,而且一直都是自然语言处理领域关注的前滑和热点。
“语料库”、“双语语料库”等关键词表明了机器翻译的其中一种方法——基于语料库的方法,因为进入20世纪90年代后,统计方法在自然语言处理中异军突起;“计算语言学”、“语言学”等是与机器翻译密切相关的学科;“中文信息处理”、“词义排歧”、“标注”等则是机器翻译的关键技术环节;“电子词典”等则是机器翻译的重要应用。