基于特征学习的文本大数据内容理解及其发展趋势

合集下载

浅析大数据的特点及未来发展趋势

浅析大数据的特点及未来发展趋势

浅析大数据的特点及未来发展趋势摘要:随着二十一世纪的到来,人们已经进入了信息化的时代。

计算机技术水平越来越先进,给人们的生活带来了极大的便利。

在信息化的时代,人们每天接触的信息量成千上万。

获取有用的数据,不仅可以有效缩短时间,而且可以满足具体需求。

大数据技术正是适应现代社会的发展,从数据量巨大、结构复杂、类型众多的数据中,快速获取有价值的信息。

因此本篇文章主要分析了大数据的特点,通过进一步探讨,并对其未来的发展趋势进行展望。

关键词:大数据;特点;发展趋势大数据是继互联网、云计算技术后世界又一热议的信息技术,近几年来发展十分迅速。

大数据技术的出现,给人们的生活带来了极大的便利。

我们将生活中的东西数据化之后,就可以采用数据的格式对其进行存储、分析,从而获得更大的价值。

一、大数据技术的特点分析1)开源软件得到广泛的应用近几年来,大数据技术的应用范围越来越广泛。

在信息化的时代,各个领域都趋向于智能化、科技化。

大数据技术研发出来的分布式处理的软件框架Hadoop、用来进行挖掘和可视化的软件环境、非关系型数据库Hbase、MongoDb 和CounchDB等开源软件,在各行各业具有十分重要的意义。

这些软件的研发,与大数据技术的发展是分不开的。

2)不断引进人工智能技术大数据技术主要是从巨大的数据中获取有用的数据,进而进行数据的分析和处理。

尤其是在信息化爆炸的时代,人们被无数的信息覆盖。

大数据技术的发展显得十分迫切。

实现对大数据的智能处理,提高数据处理水平,需要不断引进人工智能技术,大数据的管理、分析、可视化等等都是与人密切相关的。

现如今,机器学习、数据挖掘、自然语言理解、模式识别等人工智能技术,已经完全渗透到了大数据的各个程序中,成为了其中的重要组成部分。

3)非结构化的数据处理技术越来越受重视大数据技术包含多种多样的数据处理技术。

非结构化的处理数据与传统的文本信息存在很大的不同,主要是指图片、文档、视频等数据形式。

基于深度学习的自动文本分析方法研究

基于深度学习的自动文本分析方法研究

基于深度学习的自动文本分析方法研究近年来,随着大数据和人工智能技术的快速发展,自动文本分析的应用越来越广泛,涉及领域也更加多样化。

在金融、医疗、社交媒体等领域,大量的文本数据都需要进行分析和处理,以便为人们提供更有价值的信息。

而基于深度学习的自动文本分析方法,由于其高效性和准确性,在这些应用场景中得到了广泛的应用。

深度学习是一种机器学习方法,它基于人工神经网络,通过多层次的学习和特征提取,实现了对复杂数据的高级抽象和分析。

在自然语言处理领域,深度学习算法已成为文本分析和情感分析等任务的主流方法之一。

与传统的统计学习方法相比,深度学习具有很多优势,例如对大规模数据的高效处理和对复杂模式的有效捕捉,以及对新数据的快速适应等。

在实际应用中,基于深度学习的自动文本分析方法可以分为三个阶段:特征提取、特征表示和模型训练。

首先,对文本数据进行预处理,包括分词、去停用词、词性标注等,将文本转换为数值化的特征向量。

然后,利用深度学习模型对特征进行表示和学习,例如卷积神经网络、长短时记忆网络等。

最后,对模型进行训练和优化,使其能够对文本数据进行分类、聚类、情感分析等任务。

基于深度学习的自动文本分析方法可以应用于许多实际场景。

以情感分析为例,情感分析是一种文本分类任务,旨在自动推断文本中的情感态度,如正面、负面、中性等。

深度学习模型通常能够从文本数据中学习到情感表示的高层次语义信息,从而提高分类的准确率。

在金融领域,情感分析可以帮助投资者分析新闻和社交媒体的情绪指数,从而更好地评估股票的走势。

在医疗领域,情感分析可以帮助医生更好地理解患者的心理状态,从而提供更好的诊断和治疗方案。

除了情感分析之外,基于深度学习的自动文本分析方法还可以应用于文本主题分析、关键词提取、文本摘要生成等任务。

例如,在社交媒体和新闻报道中,主题分析可以帮助我们了解人们的热点话题和关注点,从而更好地理解社会舆情和市场需求。

关键词提取可以帮助我们从大量文本数据中快速抽取重要信息,以便更好地进行分析和决策。

关于大数据研究热点及发展趋势的具体分析

关于大数据研究热点及发展趋势的具体分析

关于大数据研究热点及发展趋势的具体分析大数据研究是当今全球发展趋势中的一个重要领域。

随着数据计算和存储能力的不断提升,大量的新型研究方法和技术被开发出来,出现了许多热点问题和发展趋势。

在此,本文将对大数据研究的热点及发展趋势进行具体分析,以期为相关的学习、研究和应用提供指导。

一、大数据研究的热点1、大数据挖掘大数据挖掘利用数据挖掘技术,分析海量的历史数据,以发现信息中的有价值的知识,从而有助于真实世界的理解,是研究海量数据的有效工具。

目前,大数据挖掘研究的热点主要集中在改善模型效率、模型准确性、数据安全性、数据可视化等方面。

2、云计算云计算是基于快速流式处理和大数据存储的技术,具有弹性伸缩、容灾备份的优势。

研究的热点大多集中在云计算环境下构建大数据分析服务平台,以及在云计算环境中如何利用大数据分析服务提高工作效率和准确性等方面。

3、机器学习机器学习是指通过分析大量历史数据,并利用机器学习算法来发现数据内在规律,从而自动完成任务,是大数据技术中非常重要的一环,目前研究的热点主要集中在机器学习模型的优化设计、对复杂系统的动态建模、可扩展的机器学习算法等方面。

二、大数据研究的发展趋势1、大数据可视化大数据可视化通过有效的可视化技术,将大量复杂的数据以图表、统计图、动画、地图等形式展示出来,有效地提高了数据分析和信息传达的效率,体现了大数据技术的优势,目前研究的发展趋势涉及数据可视化技术的实现、大屏展示、数据交互等方面。

2、深度学习深度学习是一种基于人工神经网络的机器学习技术,能够从海量数据中自动发现特征,对复杂系统的动态建模能力极强,具有较高的预测准确性。

目前研究的发展趋势主要集中在深度学习模型的构建和优化、深度学习网络的可靠性检测、计算加速器设计等方面。

3、增强学习增强学习是一种基于奖励机制的学习方法,利用强化学习算法,将环境信息和算法的建模能力完美结合,实现智能体有效地学习和决策,目前研究的发展趋势主要集中在自适应奖励机制的设计、多智能体系统的设计、增强学习在复杂环境中的应用等方面。

基于机器学习的中文文本分类方法研究

基于机器学习的中文文本分类方法研究

基于机器学习的中文文本分类方法研究随着互联网和数字技术的迅速发展,每天产生大量的中文文本数据,如社交媒体上的微博、微信公众号文章、新闻报道等。

有效地对这些数据进行分类和分析,对于了解用户需求、监测舆情、进行情感分析等具有重要意义。

因此,基于机器学习的中文文本分类方法的研究成为了一个热门的领域。

本文将就该研究课题进行探讨,并介绍几种常见的中文文本分类方法。

一、基本概念与方法1. 文本分类概述文本分类是指将文本数据分为不同的类别或标签,通过自动学习和预测,将未分类的文本数据归入合适的类别中。

而机器学习则是一种人工智能和数据科学中的重要分支,基于大量的训练数据,通过构建模型来学习数据的特征和规律,然后使用这些模型对新的数据进行预测和分析。

2. 中文文本分类方法在中文文本分类中,常用的机器学习方法包括:朴素贝叶斯、支持向量机(SVM)、逻辑回归、随机森林和深度学习等。

二、常见的中文文本分类方法1. 朴素贝叶斯(Naive Bayes)朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的分类算法。

在中文文本分类中,朴素贝叶斯方法首先需要将文本转化为特征向量表示,常见的方法有词袋模型和TF-IDF方法。

然后,通过计算每个特征在每个类别中的条件概率,再结合贝叶斯定理计算后验概率,得到文本属于每个类别的概率,从而进行分类。

2. 支持向量机(Support Vector Machines,SVM)支持向量机是一种常用的二分类和多分类方法。

在中文文本分类中,SVM通过将文本数据映射到高维空间中,寻找一个最优的超平面,使得不同类别的文本数据在特征空间中有最大的间隔。

这样就可以将未分类的文本数据根据其在特征空间中的位置进行分类。

3. 逻辑回归(Logistic Regression)逻辑回归是一种用于解决二分类问题的线性回归算法。

在中文文本分类中,逻辑回归通常使用词袋模型将文本数据转化为特征向量表示,然后使用逻辑函数(sigmoid函数)将特征向量映射到0和1之间的概率值,来表示文本属于不同类别的概率。

基于大数据的文本分类与情感分析

基于大数据的文本分类与情感分析

基于大数据的文本分类与情感分析随着互联网时代的到来,数据的处理和应用成为了关注的焦点。

现在,几乎所有领域都涉及到数据的收集和利用。

特别是随着互联网和社交网络的发展,人们在日常生活中产生的数据量急剧增加。

这一现象使得数据分析变得更加重要和必要。

数据分类和情感分析是数据处理的两个重要应用,其重要性逐渐被人们所认识。

随着大数据技术的不断发展,这两个应用的效率和准确性也在不断提升。

1. 大数据的文本分类基于大数据的文本分类是指对文本内容进行分类分析,以处理文本数据为对象,从中提取有用信息。

文本分类应用广泛,如文本垃圾邮件过滤、新闻分类、用户评论分类等。

目前文本分类算法主要分为两种:基于特征的文本分类和基于深度学习的文本分类。

基于特征的文本分类是采用传统的文本分类算法,特征一般采用信息增益和互信息等经典统计方法,常用方法包括朴素贝叶斯、最大熵和支持向量机等。

该方法的优点是处理速度快、分类效果好,但需要人工提取特征。

基于深度学习的文本分类是基于深度神经网络的方法,利用词向量等特征进行文本分类。

常用的深度神经网络有卷积神经网络和循环神经网络等。

该方法的优点是可以自动提取特征,较少需要人工干预,但需要大量数据支持。

2. 大数据的情感分析情感分析是对文本内容进行情感的判断,如判断是否是正向情感和负向情感,也被称为情感极性分类。

目前,情感分析主要分为两种:基于词语本身的情感分析和基于语料库的情感分析。

基于词语本身的情感分析是指从词汇本身判断情感的这样一种方法。

首先对于所有的词语进行标注,将它们对应的情感类别进行映射,如积极、消极、中性等。

然后依据每个文本中各个词语出现的情感进行加权平均,最后得到整个文本所对应的情感。

基于语料库的情感分析是指依赖大规模的语料库,基于真实用户的情感反馈,采用机器学习等算法自动识别文本情感。

它是通过机器学习让计算机识别出大量的情感标签,然后通过情感分类模型来预测从未被见过的文本数据的情绪。

大数据的发展特点和发展趋势

大数据的发展特点和发展趋势

大数据的发展特点和发展趋势何辉【摘要】随着网络信息化时代的日益普遍,移动互联、社交网络、电子商务大大拓展了互联网的边界和应用领域。

现在正处在一个数据爆炸性增长的"大数据"时代,大数据在社会经济、政治、文化,人们生活等方面产生深远的影响,大数据时代对人类的数据驾驭能力提出了新的挑战与机遇。

【期刊名称】《时代农机》【年(卷),期】2015(000)010【总页数】2页(P81-82)【关键词】大数据;云计算;数据共享【作者】何辉【作者单位】福州大学空间中心,福建福州350000;【正文语种】中文【中图分类】TP311.131 大数据有四个基本特征大数据时代对人类的数据驾驭能力提出了新的挑战与机遇随着网络信息化时代的日益普遍,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。

大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。

它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。

为了获取大数据中的价值,我们必须选择另一种方式来处理它。

对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。

对大数据进行分析能揭示隐藏其中的信息。

例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。

对大数据的二次开发则是那些成功的网络公司的长项。

当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性:(1)数据规模大(Volume)。

企业面临着数据量的大规模增长。

例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。

目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。

简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。

此外,各种意想不到的来源都能产生数据。

(2)数据种类多(Variety)。

基于大数据的学习分析技术研究现状与趋势

基于大数据的学习分析技术研究现状与趋势

基于大数据的学习分析技术研究现状与趋势许文摘要:大数据背景下,学习分析的快速发展为实现个性化学习、自适应学习提供了技术保障,是在线学习、MOOCS等形式教学方式取得更好效果的重要技术辅助。

该文以梳理相关学习分析文献为基础,分析探讨了学习分析的概念内涵及特征,并从学习分析的理论基础与框架模型、学习分析技术与工具研究、学习分析技术应用与实践研究角度综述了大数据背景下学习分析技术研究现状与趋势。

关键词:学习分析;学习分析技术;大数据;数据挖掘分类号:G434 文献标识码:A 文章编号:1009-3044(2018)31-0024-04The Research Status and Future Prospect of Big Data-based Learning AnalysisXU Wen(Department of Information Engineering, Jiangxi Vocational College of Finance & Economics, Jiujiang 332000,China)Abstract: In the background of large data, the rapid development of learning analysis provides technical support for realizing personalized learning and adaptive learning. It is an important technical aid for online learning, MOOCS and other forms of teaching methods to achieve better results. based on the literatures of related learning and analysis, this paper analyzes and discussesthe conceptual connotation and characteristics of learning analysis. based on the theoretical basis and framework model of learning analysis, the research and analysis of technology and tools, the application of analytical techniques and practical research Current Situation and Trend of Learning Analysis Technology in Data Background.Key words: learning analytics; online learning;large data; data mining隨着信息技术的发展及各种互联网、物联网应用的出现,人和世界的交互逐步以可存储的数据记录下来,这些数据随着应用增加呈现爆发式增长,并表现出数据量大(Volume)、形式多样(Variety)、生成快速(Velocity)和真实性(Veracity)的特点,这些数据被称为大数据。

大数据:发展现状与未来趋势

大数据:发展现状与未来趋势

大数据:发展现状与未来趋势当前互联网时代,数据量呈爆炸式增长,促进了大数据技术的迅速发展。

大数据是指规模大、复杂度高、速率快、价值密度低的数据处理和分析。

它的产生主要来自于三个方面:社交媒体、物联网和传感器。

在商业、医疗、教育和政府等各个领域中都有大量的数据被产生。

应对海量的数据,普通的数据处理技术已经无法满足了。

为了更好地利用大数据,提升计算机的处理能力,大数据技术应运而生。

目前,大数据技术已经成为了互联网行业、金融行业、政府行业等的重要技术支撑之一。

在互联网行业中,大数据技术已成为企业实现差异化竞争的关键。

通过执续分析用户行为、个性化推荐等方式,大数据技术极大地提高了消费者购物的体验。

在金融行业中,利用大数据技术,可以进行信贷风险管理、顾客营销策略布置、投资管理等高价值创造。

而在政府行业中,大数据技术也被广泛运用,例如城市管理、社会治理、环保监测等方面。

未来,大数据技术的发展趋势主要表现在以下几个方面:一、实时性和实时算法实时性是大数据技术发展的前沿方向。

目前的数据处理技术,处理一次数据需要的时间往往是几分钟、几小时或几天,相应的算法也相对简单。

而大数据技术要想处理实时数据,需要我们设计更实时的算法。

面对上亿级的用户并发数据,实时数算法是技术的瓶颈。

针对这一问题,科学家研发了基于统计分析和机器学习的实时算法,目前已被应用于搜索引擎、视频流媒体等领域中。

二、云计算云计算是指将文件和计算资源划分到多个服务器上,使得数据处理更加高效、灵活和可扩展。

云计算无论在计算强度、存储能力及可靠性上都远远超过单机处理。

三、深度学习算法深度学习算法是人工智能领域中的一种新型算法,是受到了脑神经系统工作原理启发而发展起来的一种入门式神经网络算法。

它可以对输入进行自动特征提取和图像分类、识别等任务。

深度学习算法可以处理比较复杂的非线性数据,并且具有较高的精度。

它的发展,能够极大地促进大数据的快速处理和应用。

总之,大数据技术在今后的发展中会越来越深入,跨行业应用的便利性和商业价值会愈发凸显,其将凭借一系列核心发展趋势加速发展,并将为世人带来更加便捷的生活和工作方式。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于特征学习的文本大数据内容理解及其发展趋势199IT数据中心微信账户:i199IT大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类知识的主要载体。

特征作为数据内在规律的反映,将文本大数据映射到反映数据本质的特征空间是文本大数据语义理解的重要手段。

介绍了文本大数据的特征表示、特征学习,进而梳理了特征学习在文本大数据内容理解中的进展,最后阐述了基于特征学习的文本大数据内容理解未来的发展趋势。

1 引言近年来,随着互联网、云计算、社交网络的发展,网络空间中的信息总量在飞速膨胀,网络大数据时代已经到来。

如何充分挖掘大数据中蕴含的价值成为全社会共同关注的话题。

在20世纪90年代,数据仓库之父比尔·恩门(Bill Inmon)提出数据仓库的概念,激活了沉睡在数据库中多年的历史数据,使之用于数据分析与决策支持,以挖掘出隐藏在数据背后的有价值信息。

而在大数据时代,互联网每分钟都在产生大量的数据,YouTube每分钟内上传的视频长达72 h,Facebook上每分钟共分享了多达246万条信息,Instagram每分钟可产生21万张新照片;在数据快速增长、数据类型多样、数据结构复杂的背景下,传统的基于静态、浅层的数据分析方法,已经无法适应当前越来越多的对数据语义深层理解和计算应用的需求。

因此,大数据的分析、挖掘成为学术界、工业界共同的研究热点。

文本大数据是网络大数据的重要组成部分,人们日常工作和生活中接触最多的电子文档也是以文本的形式存在。

从海量文本数据中挖掘有价值的信息、知识,一直都是学术界研究的热点问题,但是文本大数据的复杂性和规模性,导致传统的全量数据模式下对文本进行分析变得异常困难。

挖掘海量文本数据的特征是降低计算时空复杂性、实现文本语义理解的重要手段。

本文主要介绍近年来伴随特征学习技术的发展,对海量文本数据特征发现,进而实现语义理解方面所取得的新进展。

2 文本大数据特征人类是通过识别出物体的特征来认识不同的物体的,因此,特征作为数据本质的反映是理解数据的重要手段。

将文本大数据映射到其特征空间,首先需要确定文本大数据的特征表示方式,正如不同的人认识同一物体时,会以不同的方式抽象物体的特征,特征表示方式也不尽相同,但是一个良好的特征表示方式是保证特征可理解、可计算的基础;在确定了特征表示方式的基础上,从文本大数据中学习能够精确表达文本语义的特征是实现内容理解的关键。

2.1 特征表示由于文本大数据的多源异构性,实现海量文本的内容理解首先需要将非结构化的文本数据转化为计算机可操作的结构化模型,文本特征表示将文本信息映射到计算机可理解的特征空间,从而为计算机理解文本语义提供基础。

在文本数据分析领域,传统的算法依赖人工定义反映输入数据性质的特征作为模型的输入,而为了尽可能地反映自然语言规律,提高算法的准确性,人工定义特征往往数量十分庞大,通常这一步骤称作特征工程。

为了生成大量的特征,特征工程首先定义一系列的特征模板(feature template),利用特征模板进一步产生语言的特征。

例如,在语言模型的研究中,定义三元特征模板(trigram feature template),对于训练语料库中出现的任意三元组(u,v,w),若在出现词语u、v 的情况下,出现词语w,则该特征为1;类似地,还可以定义二元特征模板、一元特征模板或词语前缀模板等。

从特征模板的定义可以看出,最终生成的特征可以高达数十万甚至数百万级别,这也导致人工定义的特征十分稀疏,只有极少部分的特征为非0值,而当测试语料中出现训练数据中没有的特征时,将训练数据产生的特征应用于测试数据,效果并不理想;且人工定义特征在面对特定任务时,通常存在过度细化的问题,而面对海量数据时,又存在表示不足的问题。

近年来,表示学习(representation learning)或非监督的特征学习(unsupervised feature learning)由于其可以自动地发现数据特征,从而有效地避免繁琐的人工参与,成为重要的研究方向。

深度学习作为特征学习的主要手段,不仅可以利用海量训练数据实现分类、回归等传统机器学习的目标,还可以在模型的训练过程中产生层次化的抽象特征,该特征表示是提高训练准确性的重要基础。

图1[1]对比了传统机器学习和深度学习在实现步骤上的不同。

图1 深度学习与传统机器学习步骤对比一般而言,特征学习的目的在于学习一种数据的转换方式,用于从数据中抽取有效的特征信息,最终使得数据的分类、预测更加准确,而有价值的特征信息应该满足表达性、抽象性、排他性等要求[2]。

(1)表达性表达性是指合理大小的特征应该能够有效表示足够大的输入数据。

传统的文本数据理解以one-hot的形式表示,n维的空间只能表示n个特征。

分布表示(distributed representations)是一种基于神经网络的表示方式,其思想来自于认知表示,它认为脑中的一个物体可以用许多描述该物体的神经元来有效表示,这些神经元可以独立地激活或不激活,例如,一个n维的二值神经元集合,可以描述2n个不同的数据,即每一个数据都由所有的神经元共同表示,而每个神经元都参与到各个不同数据的表示[3]中去。

因此,分布表示可以看作由n维连续实值向量构成的特征空间,向量的每一维共同构成数据的特征表示向量,特征表示维度不会随着数据数量的增加而增加。

(2)抽象性文本特征是对文本数据本身的抽象表示,因此文本的特征对文本数据的抖动应具有相应的顽健性,同时也不应该因任务的不同而变化。

通常而言,对特征的抽象也具有层次性,低层次的抽象特征来源于输入数据,高层次的抽象特征来源于对低层次抽象特征的进一步学习,抽象的层次越高对数据抖动的不变性就越强,例如,相似的词汇、同义语句应该有相似的特征。

因此,特征的抽象性反映了特征的不变性和层次性。

(3)排他性文本特征的排他性是指特征应该刻画数据不同方面的性质,对于互不相同的性质,其特征也应该互相排斥。

例如,文本是由文本的结构、文本中词语的选择、文本词语出现的顺序等多种互相关系的因素共同组成,而有效的特征表示应该能够尽可能多地分离出互相关联的因素,使得不同的抽象特征反映不同的文本内在因素。

文本大数据特征的表达性、抽象性和排他性定义了特征表示的不同层次,逐层递进。

文本大数据的表达性保证了文本特征必须适合刻画非结构化数据,并且特征表示本身能够以固定的结构描述文本;在此基础上,文本特征应该是对文本内容的归纳和抽象,文本大数据是无穷尽的,但是特征应该是有限的;最后,特征的排他性要求特征能够使一个对象区别于其他对象,即如果一个文本具有某个特征,那么这个特征就能使这个文本区别于不具有这个特征的文本,从而为文本内容的精确理解提供基础。

2.2 特征学习特征表示规约了特征的抽象形式,特征学习则指在选择特征表示的规范下,学习数据的特征。

目前,对特征的学习主要有两类方法:一类是通过监督学习的方法,利用训练数据构建适合描述数据特征的模型;另一类是非监督学习的方法,该类方法主要通过降维将数据约简至特征空间,以发现数据的内在规律。

近年来,由于深度学习可以自动发现结构化深层次特征,从而逐渐成为特征学习的主要方法。

深度学习本质上是一个深度、多层的神经网络模型,由于它在图像处理、语音识别、自然语言处理等应用上的重大突破而成为研究热点。

2006年,Hinton等人[4]利用受限玻尔兹曼机(restricted Bolzman machine)非监督地预训练(pre-training)深层神经网络中每一层模型的参数,进而利用反向传播算法有监督地更新整体模型的参数,极大地提高了模型在图像识别上的准确率。

其中,每一层受限玻尔兹曼机预训练得到的模型都可以看作对图像不同层次上的抽象特征。

因此,早期的深度学习算法可分为两个阶段,首先是对每一层神经网络非监督地预训练该层模型参数,得到各层的抽象特征表示,进而将预先训练好的各层神经网络模型叠加,以构成深度模型,并依据训练数据中的标注信息对整个模型的参数进行调优(finetune),以提高算法的准确性,从而体现出深度神经网络复杂模型带来的表示能力提高的优势。

随着深度学习技术的自身发展[5,6],深度模型逐渐不再依赖非监督的预训练,而是直接学习出结构化的模型并用于预测,特征学习也即通过深度模型训练得到的层次化的抽象特征。

3 文本大数据内容理解由于语言本身是一个复杂的结构对象,借助于特征学习方法可以较好地刻画语言的复杂结构,从而实现对文本大数据的内容理解。

基于特征学习的文本大数据内容理解目前主要从两个方面展开:第一个方面是面向非结构化文本,以词汇为基本单元,抽象词汇的特征,进而组合以表示语句的特征,并在特征表示的基础上实现对文本内容的理解;第二个方面是面向结构化知识数据,以知识表示三元组为基本单元,从非结构化文本中抽取出计算机可操作的结构化知识,实现知识的发现、推理等,从而理解文本的内容。

3.1 面向非结构化文本的内容理解词汇作为自然语言的最小组成单元,学习其特征是让计算机理解词汇进而理解文本的基础;在理解词汇的基础上,阐述语义组合方法,语义组合通过将词汇组合成短语、语句的特征表示,从而让计算机理解文本大数据内容。

3.1.1 词汇理解在计算机中,所有的字符都是以固定的编码形式表示,例如,汉字“中”在Unicode编码中表示为“4E2D”,字母“A”的Unicode编码为“0041”。

计算机中的文字是由无任何意义的编码拼接而成,均无法直接应用于文本理解。

因此,一种能够刻画词汇语义特征的表示方式是实现词汇语义理解的关键。

以词汇为基本单位,旨在研究建立合适的词语表示模型,经典的当属以WordNet[7]和知网(HowNet)[8]为代表的人工编制的知识库。

WordNet中每个词项(synsets)都代表词汇的一个具体含义,词项间通过词义的语义关系建立联系,形成完善的词汇网络,以表达词汇语义。

知网则是把概念与概念之间的关系以及概念的属性与属性之间的关系构成网状的知识系统,知网定义义原为最小的语义概念单元,并通过义原对义项的结构属性相互关系描述词汇语义。

这类人工知识库对词汇的语义描述虽然准确,但是其规模小,缺乏可扩展性和自适应能力,难以满足文本大数据语义理解的需要。

利用特征学习方法实现词汇的语义表示源自神经网络语言模型,语言模型的训练目的是最大化词汇出现的概率分布。

在参考文献[9]中,作者基于前向神经网络语言模型,随机初始化训练语料库中的词向量表示,以海量文本作为训练数据,假设在文本中套用滑动窗口产生的短句为正例样本f,将滑动窗口中的某个词随机替换为词典中的任一词所产生的错误短句为负样本f′,并令正例样本的得分比负例样本的得分高,以Hinge loss为目标函数,该目标函数在正例样本和负例样本中划分距离为1的边界,从而利用反向传播算法更新词向量,通过训练得到的词汇表示向量,使得相似的词的特征表示也相似。

相关文档
最新文档