文本特征提取方法研究
使用Word2Vec进行文本特征抽取的实用方法

使用Word2Vec进行文本特征抽取的实用方法自然语言处理(Natural Language Processing, NLP)是人工智能领域中的一个重要研究方向,而文本特征抽取是NLP的核心任务之一。
Word2Vec是一种基于神经网络的词向量模型,它能够将文本中的词语转化为实数向量,进而用于文本分类、聚类、情感分析等任务。
本文将介绍使用Word2Vec进行文本特征抽取的实用方法。
一、Word2Vec模型简介Word2Vec模型是由Google于2013年提出的一种词向量模型,它通过训练神经网络来学习词语的分布式表示。
Word2Vec模型有两种训练方式:Skip-gram和CBOW。
Skip-gram模型是基于上下文预测中心词语,而CBOW模型则是基于中心词语预测上下文。
在训练过程中,Word2Vec模型会根据语料库中的词语共现关系来更新词向量,从而使得相似的词语在向量空间中距离较近。
二、数据预处理在使用Word2Vec进行文本特征抽取之前,我们需要对原始文本数据进行预处理。
首先,需要将文本数据分割成句子,并对句子进行分词。
分词可以使用现有的中文分词工具,如结巴分词。
其次,需要去除停用词,即那些在文本中频繁出现但没有实际意义的词语,如“的”、“了”等。
最后,可以根据实际需求对文本进行其他预处理操作,如词性标注、词干提取等。
三、训练Word2Vec模型在进行文本特征抽取之前,我们需要先训练一个Word2Vec模型。
为此,我们需要准备一个大规模的语料库,其中包含足够多的文本数据。
可以使用维基百科、新闻语料库等公开数据集,也可以使用自己的数据集。
在训练Word2Vec模型时,需要指定一些参数,如词向量的维度、窗口大小、迭代次数等。
这些参数的选择会影响最终的词向量质量,需要根据实际情况进行调整。
四、文本特征抽取在训练好Word2Vec模型之后,我们可以使用它来进行文本特征抽取。
一种常见的方法是将文本中的每个词语转化为对应的词向量,然后将这些词向量进行平均或加权平均得到文本的表示向量。
基于深度学习的多模态数据融合与特征提取研究

基于深度学习的多模态数据融合与特征提取研究摘要:深度学习在近年来取得了显著的突破,并在各个领域得到广泛应用。
随着互联网的快速发展和大数据的普及,多模态数据的获取越来越容易。
多模态数据融合和特征提取是深度学习在多模态数据应用中的两个重要任务。
本文将对基于深度学习的多模态数据融合与特征提取进行探讨与研究。
引言:在现实生活中,我们常常遇到各种类型的数据,例如图像、文本、语音等。
多模态数据指的是包含了两种或多种不同类型数据的集合。
与传统的单一模态数据相比,多模态数据在表达能力和丰富性上更加强大。
因此,多模态数据的融合与特征提取具有重要的研究意义和应用价值。
一、多模态数据融合的方法多模态数据融合是将多个模态的数据进行有机结合,以实现更全面、准确的信息传递和表达。
基于深度学习的多模态数据融合方法通常包括以下几种:1. 基于特征融合的方法:该方法通过提取不同模态数据的特征,并将这些特征融合在一起,形成一个综合的特征向量。
常用的特征融合方法包括将特征进行拼接、求和、平均等操作。
深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)可以用于特征提取和融合。
2. 基于神经网络的方法:该方法通过构建一个端到端的神经网络模型,将多模态数据输入到网络中,并通过网络学习模态间的相关性,从而实现多模态数据的融合。
常见的深度学习模型包括多通道卷积神经网络(MC-CNN)、多输入多输出循环神经网络(MIMO-RNN)等。
3. 基于注意力机制的方法:该方法通过引入注意力机制,使网络能够自动学习不同模态数据的重要性权重,并根据权重对不同模态数据进行加权融合。
注意力机制可以通过深度学习模型自动学习得到,也可以通过先验知识进行设计。
二、多模态数据特征提取的方法特征提取在深度学习中起着至关重要的作用,它能够将数据转化为可供机器学习和模式识别算法使用的高层次数据表示。
在多模态数据中,不同模态数据的特征提取方法如下所示:1. 图像特征提取:图像是一种常见的多模态数据类型,它包含了丰富的视觉信息。
文本分类中常用的特征提取方法对比研究

文本分类中常用的特征提取方法对比研究在文本分类任务中,特征提取是至关重要的步骤,它决定了分类准确度和效率。
特征提取旨在将文本数据转化为可供机器学习算法使用的数字表示。
下面将介绍几种常用的特征提取方法,并进行对比研究。
1. 词袋模型(Bag of Words,BoW)词袋模型是一种简单而常用的特征提取方法。
它将文本看作是一个无序的词的集合,忽略了词语的顺序和语法结构。
具体来说,词袋模型通过统计每个词在文本中的出现频率构成一个向量表示文本。
这种方法简单直观,易于实现。
然而,它忽略了词语的顺序和语义信息。
2. TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency)是一种常见的特征提取方法,它综合考虑了词语在文本中的出现频率和在语料库中的普遍程度。
TF-IDF首先计算每个词在文本中的出现频率,然后乘以一个逆文档频率,该逆文档频率通过计算语料库中包含该词的文档数目的倒数得到。
这样,TF-IDF能够减少常见词汇的权重,强调仅在特定文本中出现的重要词汇。
TF-IDF能够较好地捕捉词语的重要性,它具有保留词语顺序的优点。
3. Word2VecWord2Vec是一种基于神经网络的词嵌入(Word Embedding)方法。
它通过训练一个神经网络,将每个词语映射到一个低维的实数向量空间中,这样相似的词语在向量空间中距离也会比较接近。
Word2Vec能够从大量的文本语料中学习到词语之间的语义关系,能够很好地捕捉语义信息。
但相比于前两种方法,Word2Vec的训练时间较长,且需要足够大的语料库。
4. 特征哈希特征哈希是一种将文本特征映射到固定维度的稀疏向量的方法。
它通过利用哈希函数将文本中不同的词语映射到同一维度上。
这样,所有的文本经过特征哈希处理后都具有相同的维度,方便了后续的特征表示和分类。
特征哈希可以简化特征处理过程,减少存储空间和计算复杂度。
然而,由于多个词语可能映射到同一维度上,可能会产生冲突,导致信息丢失。
文本分类与情感分析中的特征提取研究

文本分类与情感分析中的特征提取研究特征提取是文本分类与情感分析中的重要研究方向之一。
在信息爆炸的时代, 巨大的文本数据量使得文本分类和情感分析变得越来越重要。
特征提取作为文本分类和情感分析中的关键步骤,能够从海量数据中提取有用的、代表性的特征信息,从而提高算法的性能。
本文将探讨文本分类与情感分析中的特征提取研究。
首先,我们来介绍传统的特征提取方法。
传统的特征提取方法主要包括词袋模型、词频统计和TF-IDF方法。
词袋模型以及词频统计方法将文本看作一个个独立的词汇集合,利用词频的统计信息作为特征输入模型。
TF-IDF方法在词频统计的基础上,引入了词在整个语料库中的重要性作为权重,从而更好地表示词汇的特征。
然而,传统的特征提取方法在处理文本分类和情感分析任务时,往往面临着词汇稀疏性、词汇歧义性和词汇组合性等问题,无法充分挖掘文本中蕴含的语义信息。
为了解决传统方法的局限性,近年来提出了许多基于深度学习的方法,如基于卷积神经网络(CNN)和循环神经网络(RNN)的特征提取。
CNN通过卷积层和池化层的组合,可以有效地捕捉局部特征和全局特征,适用于处理局部特征较为重要的文本分类任务。
而RNN则通过循环单元网络结构,能够捕捉到文本的上下文关系,并在处理情感分析任务时取得很好的效果。
此外,还有一些基于注意力机制的方法,如Transformer模型,能够充分捕捉不同词之间的依赖关系,进一步提升了特征提取的效果。
除了基于深度学习的方法之外,还有一些其他的特征提取方法。
例如,利用词性、句法和语义等语言学特征,可以在一定程度上提高文本分类和情感分析的性能。
同时,也可以通过主题模型和词嵌入等方法进行特征提取。
主题模型能够从文本中提取主题信息,可以用于文本分类和情感分析。
词嵌入是一种用低维向量表示词语的方法,通过学习词语的分布式表示,可以更好地表示词语之间的语义关系。
总结一下,特征提取是文本分类与情感分析中的关键步骤之一。
传统的特征提取方法包括词袋模型、词频统计和TF-IDF方法,但在处理文本分类和情感分析任务时存在一些问题。
文本特征提取的研究进展

DOI:10.13878/j.cnki.jnuist.2019.06.008曾明睿1㊀袁梦奇1㊀邵曦1㊀鲍秉坤1㊀徐常胜1,2文本特征提取的研究进展摘要文本理解是人工智能的一个重要分支,其技术推动了人与计算机之间在自然语言上的有效交互.为了让计算机准确地理解和感知文本数据,文本特征提取是最为基础和关键的步骤之一.基于此,本文介绍文本特征提取研究的发展历史,以及近年来主流特征提取的方法,并对未来的研究方向进行展望.首先,介绍语义最底层的词级表示;接着,总结在词级表示基础上衍生出的句级表示上的研究进展;随后,介绍比词级表示和句级表示更高层的篇分析;最后,通过文本特征提取的一个典型应用 问答系统的介绍,阐述文本特征提取的最新方法和技术在问答系统上的应用,并对未来的研究方向做了展望.关键词自然语言处理;文本特征提取;问答系统中图分类号TP391 1文献标志码A收稿日期2019⁃10⁃15资助项目国家自然科学基金(61572503,61872424,6193000388,61872199);南京邮电大学高层次人才启动基金(NY218001);模式识别国家重点实验室开放课题(201900015)作者简介曾明睿,男,硕士生,主要研究方向为多媒体计算.894606932@qq.com鲍秉坤(通信作者),女,博士,教授,博士生导师,主要研究方向为多媒体计算和计算机视觉.bingkunbao@njupt.edu.cn1南京邮电大学通信与信息工程学院,南京,2100442中国科学院自动化研究所模式识别国家重点实验室,北京,1001900 引言㊀㊀互联网技术的高速发展,以及硬件产品的不断更新换代,使得网络上的数据呈现出 爆炸式 的增长态势.特别是作为信息主要载体的文本数据,一方面数量迅速增长,另一方面其表现形式和结构也变得复杂多样,为文本理解带来了巨大的挑战.文本理解的核心是将文本数据通过数学运算转换为计算机可以感知和分析的信号,并根据任务的不同,对其进行自动处理以反馈结果.在文本理解中,最基础和最关键的步骤之一就是文本特征提取.文本特征提取是为文本数据集寻找一个具有判别力的特征空间,并将所有的文本数据映射到这一空间上,以抽取有代表性的㊁鲁棒的特征表示向量.互联网上涌现的海量文本数据,既带来了丰富的语料资源,同时也使文本感知㊁分析和处理面临了巨大的挑战.首先,每个用户都可以产生和传播数据,而其中文本的占比又最大,这导致了文本语料规模的迅速增长,因此 大数据 是面临的第一个挑战;其次,在大数据的背后隐藏了大量重复且无意义的数据,这些数据良莠不齐,价值密度低,因此 大噪声 是面临的第二个挑战;最后,数据存在于各种各样的平台中,其类型包括了结构化数据㊁半结构化数据和非结构化数据等,因此 结构复杂 是面临的第三个挑战.近年来,许多学者针对新环境下文本数据的这三个挑战,在文本特征提取上提出了大量有效的方法和技术.本文将对这些研究成果进行归纳和总结,为该方向的研究人员快速了解文本特征提取提供参考.依据语义单元的大小,本文首先介绍词上的特征提取方法和技术,包括利用上下文信息和外部知识引入;随后介绍比词级更高一层的句级特征表示,主要基于词级表示的方法,通过引入词和词之间的关联,对句子进行更高层语义的理解;再次,对语篇表示的研究成果进行总结,主要关注语篇关系挖掘的方法和技术.最后,介绍文本特征提取在问答系统上的典型应用,将结合双向Transformer的编码表示㊁注意力模型和卷积神经网络的方法展开阐述.新时代背景下所面临的大数据㊁大噪声和结构复杂三个挑战,也是词级表示㊁句级表示㊁语篇表示和问答系统需要解决的难点,因此本文在文献总结的过程中将侧重这三个方面详细阐述相关的应对方法和解决方案.本文第1章到第3章将依次详细阐述在对于词级表示㊁句级表示和语篇关系三层语义做特征提取时所采用的技术,并对每层语义级㊀㊀㊀㊀再次细分做介绍.第4章是对文本特征提取方法进行结合和实际在问答系统的应用.最后,展望了文本特征提取的未来研究方向并对全文进行总结.1㊀词级表示词作为文本中最基础的单位,是构成句子和语篇的最小元素.对词的特征提取通常称为词级表示,但在文本中,不管是英文单词还是中文词汇的数量都是非常庞大的,仅仅对这些词进行顺序编码,不仅人力花费高昂,还难以揭示词与词之间的语义关系,因此对词级进行语义距离可度量的向量化表示是非常必要的.具体来说,在给定某一语义度量准则下,将每个词或词组投影为高维的向量,这些向量形成的空间称为词级的向量空间,以此将非结构化的文本转化为了可处理的结构化形式.然而这种工作是属于预训练的范畴的,当我们把词级表示应用到实际问题的时候,无须从零开始训练一个新的模型,这为后面的训练大大节省了时间.目前关于词的预训练方法,可以分为两条思路:利用上下文相关信息和外部知识关系的结合.1 1㊀利用上下文相关信息在自然语言中,很多单词有着多种含义,而其真实含义是根据所在的上下文语境来决定的.因此在设计词的特征提取模型时,需要引入上下文相关信息,以消除一词多义的影响.根据模型种类的不同,基于上下文信息的词级表示方法可以分为基于LSTM模型和基于Transformer模型两类.基于LSTM模型这类方法,是针对于传统方法(如word2vec等)忽略词的上下文关系,无法建模词的一词多义的缺陷所提出的.具体实现是通过将整句的单词,输入进LSTM神经网络中,通过LSTM建模目标词和句子里其他单词的上下文的语义关联,来获得融合其他单词信息的词级表征.根据融合单词与目标词的位置不同,这类词级表示的方法可以分为两类:前向融合[1](图1)和双向融合[2](图2).前向融合只考虑目标词之前的词对其产生的语义影响,如图1所示,对 into 进行词级表示,将 into 之前的单词 problems ㊁ turning 等依次输入至LSTM模型中,根据单词与目标词的远近,进行有选择的记忆存储和遗忘,并将记忆信息融合至 into 的词级表示中.很显然,不仅 into 之前的单词对其有语义影响,其之后的单词 banking ㊁ crises ㊁ as 等也会有影响,因此学者又在前向融合的基础上,考虑目标词之后的词,提出双向融合的方法(图2).具体而言,建模由两个LSTM构成的Bi⁃LSTM模型,分别从前往后和从后往前对单词进行输入,以融合目标词前后的所有单词的语义.基于Bi⁃LSTM模型,Melamud等[2]改进了基于word2vec的CBOW图,提出con⁃text2vec.其中,基于word2vec的CBOW图计算窗口内所有词嵌入的平均值(图3),而context2vec是基于Bi⁃LSTM融合目标词的上下文(图4).为了建模更为复杂的上下文语义关系,Peters等[3]提出了ELMo(EmbeddingsfromLanguageModels)模型,这是一种深度语境化词表示方法,由两层Bi⁃LSTM组成的语言模型内部状态函数生成的词向量,通过Bi⁃LSTM连接的语言模型将每个输入字上方堆叠的向量的线性组合以组合表示多样的文字特征,表示更加丰富的语义.相比于基于LSTM模型的方法,Transformer模型不仅不需要通过循环来并行处理句中的单词,还能结合上下文的信息,因此在处理长语句时,效率较高.Radford等[4]最先基于Transformer提出了OpenAIGPT,该模型克服了LSTM的短期预测能力,通过捕捉长距离的语言结构,来学习一个通用表示.2018图1㊀前向融合[1]Fig 1㊀Forwardconvergence[1]图2㊀双向融合[2]Fig 2㊀Bi⁃directionconvergence[2]707学报(自然科学版),2019,11(6):706⁃715JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2019,11(6):706⁃715图3㊀CBOW模型[2]Fig 3㊀CBOWmodel[2]图4㊀Context2vec模型Fig 4㊀Context2vecmodel年,Devlin等[5]提出了基于深度双向Transformer的BERT(BidirectionalEncoderRepresentationfromTransformer)模型,与OpenAIGPT单方向的预训练模型不同的是,BERT提出了一种遮蔽语言模型图5㊀遮蔽语言模型[5]Fig 5㊀Masklanguagemodel[5](MaskLanguageModel)来训练出上下文的特征(图5),它通过遮蔽一个单词,训练一个深度双向Trans⁃former模型,从单词的左右两个方向来预测遮蔽单词.2019年,Dai等[6]通过引入相对位置编码和片段循环机制对Transformer模型进行改进,提出Trans⁃former⁃XL模型,循环机制在每处理完一个片段之后都会将输出保留在隐藏层中以便后面循环,建立长期的依赖关系.而相对位置编码则是通过对隐藏状态的相对位置进行编码,克服了不同片段编码可能导致编码一样的问题.两种方法的融合解决了由于固定上下文的长度所带来的无法获取超出定义长度的依赖关系的问题.1 2㊀外部知识的引入传统的词级表示方法在情感分类㊁文本分类等任务上取得了令人满意的结果,但当处理稀疏词汇时,由于词汇出现的频率较低,无法对其抽取得到准确的语义,甚至容易受到噪声的干扰.因此,学者们提出通过加入维基百科等其他语料库,引入外部的知识,以获得更为准确的词级表示.如何将外部语料库有效地引入到目标语料库中,生成融合外部知识的词嵌入,是目前这部分工作面临的挑战.2017年,Cao等[7]建模文本和知识库之间的关联,以解决多义词引起的歧义的问题.Sarma等[8]分别在目标语料库上训练一个通用词嵌入和在外部语料库上训练一个外来词嵌入,然后对两组嵌入使用线性CCA[9]或非线性CCA[10],沿着最大相关的方向投射,再取平均值,最终得到引入外部知识的词级特征表示.Xu等[11]将通用词嵌入和外来词嵌入的双重嵌入机制与CNN网络结合,让CNN网络决定两种嵌入中可用信息的比重,从而使文本特征提取更加高效㊁简单.相较于BERT的MaskLanguageModel无法对显式语义单元进行建模,百度的Paddle发布了知识增强的预训练模型ERNIE[12](EnhancedLanguageRepresentationwithInformativeEntities),该模型通过将知识图谱在编码输入至预训练模型,从而有效地挖掘了图谱中实体间关系,最终增强了模型语义表示能力.例如在图6中, 哈尔滨 作为一个整体被抹去时,则需要通过更长的依赖性来预测学习,而ERNIE可以通过先验知识 黑龙江的省会 预测表示出遮掩词 哈尔滨 .2㊀句级表示仅依靠词级表示,无法获得对文本的准确理解,807曾明睿,等.文本特征提取的研究进展.ZENGMingrui,etal.Researchprogressontextfeatureextraction.图6㊀ERNIE的学习Fig 6㊀LearntbyERNIE需要考虑词和词之间的关联对语义的影响,因此句子级表示的研究就应运而生了.句级表示方法最常用的是句子嵌入,具体来说是用向量来表示自然语言中的语句,使其携带句子中的语义信息.句子嵌入方法可分为基于词向量的线性组合和基于深度学习两类方法.图7㊀SiameseCBOW网络结构[14]Fig 7㊀SiameseCBOWnetworkstructure[14]2 1㊀基于词向量的线性组合把句子中所有词的词嵌入取平均值是一种非常成功和高效的获得句子嵌入的方法[13].具体来说,是将句子中每个词嵌入相加除以句中词数得到的向量值作为句嵌入.这一方法的缺陷在于忽略了句中词的权重和顺序.Kenter等[14]基于word2vec中的CBOW提出了SiameseCBOW(图7),与CBOW有着相同的原理,只不过该模型是将句中的词向量先做平均值处理表征句向量,然后通过周围的句子对目标句子进行预测来学习词嵌入以便达到优化的目的,最后对优化之后的词嵌入做平均值处理形成句向量.Arora等[15]仅计算句子中词向量的加权平均,然后删除第一个向量上的平均投影,权重的计算来自于作者提出的SIF,即一个词的权重:w=aa+p(w),其中,a为参数,p(w)为预测词的词频.这样的加权方案具有十分不错的鲁棒性:使用从不同语料库得出的单词频率不会损害性能并且a的取值很广,可以让结果达到最佳.2 2㊀基于深度学习的句级表示近年来,随着深度学习在文本领域的广泛应用,越来越多的学者在句级表示上尝试引入深度学习模型,以建模词与词之间的复杂关系.目前基于深度学习的方法主要基于循环神经网络㊁卷积神经网络和encoder⁃decoder.在基于循环神经网络方面,Zhang等[16]提出sentence⁃stateLSTM,每次循环都对所有单词语义特征的隐藏状态进行建模,而不再是一次一个单词输入.将整个句子看成一个状态,这个状态是由各个词的子状态和一个整体的句子层状态组成.在每次循环时,单词的隐藏状态都能捕捉到越来越大的n⁃gram信息,并与句子状态进行信息交换.最终,循环得到一句话的表示.卷积神经网络方法在图像处理上已经取得了非常不错的效果,要求输入值是一个固定的图像分辨率.近年来,学者也在尝试将卷积神经网络应用在自然处理上,但是输入的文本或者句子长度不固定会907学报(自然科学版),2019,11(6):706⁃715JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2019,11(6):706⁃715造成多余的卷积结果丢失,从而对模型结果产生影响.Kim[17]先将词表示变成矩阵,然后通过一个仅有一层卷积层的简单CNN,对其进行Max⁃overtimepoo⁃ling,最后经过全连接层得到句向量.Santos等[18]让词嵌入和字符嵌入通过卷积神经网络联合表示形成句向量,其创新之处在于利用两层卷积层去提取词和句中的相关特征.第一层提取句子级的特征,第二层获取每个单词字符周围生成的局部特征用最大化的方式将其组合,最终生成一个固定大小的向量.在encoder⁃decoder方面,句级表示主要是将词级表示中的word2vec模型推广到句子上.Kiros等[19]提出了Skip⁃ThoughtVectors,通过大量连续的语料库训练出一个encoder⁃decoder模型,将多个词向量编码成句向量,并同时用一个句子来预测上下文另一个的句子.模型如图8,模型中是用一个三元组(si-1,si,si+1)表示连续的三句话,将来自连续语库si编码重建前一句si-1和后一句si+1.图中未连接的箭头连接到编码器输出,颜色指示了共享参数的组件.受到BOW编码思想的启发,Hill等[20]提出了对数线性语句模型 FastSent,将一个连续句子的三元组(si-1,si,si+1),对于中间的句子si进行编码,编码方式是将si中的词向量求和即ðwɪsisi,这种方法没有考虑句中的词序,因此使得FastSent的训练速度大幅提升.根据实验用Skip⁃ThoughtVectors[19]和FastSent两种模型训练得到参数的数据如表1所示,图8㊀Skip⁃ThoughtVectors模型[19]Fig 8㊀Skip⁃ThoughtVectorsmodel[19]其中∗表示在GPU上进行训练.表1㊀两种模型参数比较[20]Table1㊀Parametercomparisonbetweentwomodels[20]句向量维度/维词向量维度/维训练时间/hSkip⁃ThoughtVectors4800620336∗FastSent1001002㊀注:∗表示在GPU上进行训练.3㊀语篇分析事实上,句子之间也会存在着复杂的逻辑关系,因此需要引入语篇分析挖掘来进一步理解文本.语篇分析又称篇章分析,是通过对文本内部实体关系的挖掘和理解,对语篇整体进行分析,从而获得整个文档的高层语义.本章将分别介绍语篇分析中文本关系和隐式语篇表示嵌入两部分的研究.文本关系抽取需要深入理解语篇内所有实体之间的关系,由此学习到的文本关系嵌入可以用来扩充现有的关系提取模型,并能显著地提高它们的性能.Xu等[21]通过卷积神经网络从实体间最短依赖路径学习更稳健的关系表示文本关系.但是这一方法需要依赖大量的标注句子作为训练集生成嵌入模型.Su等[22]提出GloRE,通过定义句子依赖图中两个实体的最短路径去改进关系提取,同时将文本关系和知识库关系的全局共现统计来学习文本关系的嵌入.可是由于手工标注的训练集太少,这一方面仅适用于小规模的训练数据的关系提取.2019年,Chen等[23]将GloRE方法与可以从缺少标签的数据中提取关系的远程监督方法[24]相结合进一步应用于大规模㊁领域无关的数据,目的是学习通用文本关系嵌入.作为语篇分析另一重要分支,隐式语篇分析是在没有显式连接词的情况下提取关系,这很难从输入句子对的表面特征派生出来,所以需要从文本语义理解的角度中去寻找关系.近几年不少学者已经提出了基于神经网络的方法或高级表示的模型:CNN[25]㊁注意神经张量网络[26]㊁记忆网络(memorynetwork)[27]和RNN[28]等.还有一些方法考虑到了上下文段落和段落间相关性[29].但是对于机器来说,如何更好地理解文本成为了隐式语篇关系识别研究前进的障碍.因此,Bai等[30]通过字词和ELMo[2]的增强嵌入和深度剩余双注意力编码器,让表示更加丰富和深入模型结构(图9).017曾明睿,等.文本特征提取的研究进展.ZENGMingrui,etal.Researchprogressontextfeatureextraction.图9㊀增强嵌入和深度剩余双注意力编码器[30]Fig 9㊀Enhancedembeddinganddeepremainingdualattentionencoder[30]4㊀文本特征提取结合实际的应用问答系统是文本特征提取的一个典型应用,任务是能够准确地理解用户用自然语言提出的问题,并通过检索语料库㊁知识图谱或问答知识库返回简洁㊁准确的答案.相较于搜索引擎,问答系统能够根据已有语料库学习问答知识,进而更有效地满足用户的信息需求.将文本特征提取的技术应用在问答系统中可以很好地帮助计算机理解人类语言的重点,同时在提高训练速度㊁检索答案质量等方面都会有很好的表现.在问答系统领域方面,有效的提取问句的意图识别和填槽可以为快速准确匹配出答案和使其更加人性化奠定基础.表2显示了一个用户查询的意图分类和填槽的实例.表2㊀用户查询的意图分类和填槽的实例Table2㊀Anexampleofintentionclassificationandslotfillingofuserquery今天南京天气怎么样?意图查询天气信息槽具体查询哪里的天气?哪一天的天气?Chen等[31]将之前BERT[5]扩展到一个联合意图分类和槽填充模型.基于第一个特殊token的隐藏状态h1的意图被表示为yi=softmax(Wihi+bi),而对于槽填充模型,将会提供除去第一个token的最终隐藏状态:h2, ,hT进入Softmax层,对槽填充标签进行分类.当两个任务联合训练时,使目标函数pyi,ys|x()=p(yi|x)ᵑNn=1pysn|x()最大化.经过在Snips和ATIS数据集上测试的结果如表3,可以看出基于BERT的意图分类和槽填充在准确率方面相较于其他方法都取得了最好的结果.表3㊀不同测试集上的实验结果[31]Table3㊀Experimentalresultsondifferenttestsets[31]%SnipsATIS意图分类槽填充意图分类槽填充RNN⁃LSTM96 987 392 694 3Atten⁃Bi⁃LSTM96 787 891 194 2Slot⁃Gated97 088 894 195 2JointBert98 697 097 596 1此外,对于问题的理解对于问答系统来说也是117学报(自然科学版),2019,11(6):706⁃715JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2019,11(6):706⁃715十分重要的.Dong等[32]介绍了多列卷积神经网络,模型不依赖于手工特征和规则,通过共享相同的词向量来表示问题单词,使用不同列的网络来提取答案类型㊁关系和上下文信息.同时,也会在知识库中共同学习实体和关系的低维嵌入.使用问题⁃答案组合对模型进行训练,以对候选答案进行排序.如图10不同网络列获取得问题表示.2017年,Seo等[33]提出BIDAF(BidirectionalAt⁃tentionFlowforMachineComprehension)双向注意力矩阵来计算上下文的每个字与查询问题之间的相关性,从而建立查询感知的上下文表示.然而这种模型却不能像人类一样对候选答案进行反思,因此Gong等[34]将BIDAF扩展成RuminatingReader使其能够进行第二遍阅读和推理,通过门控机制让第一遍和第二遍阅读的内容进行融合(模型框架如图11),在选择答案的时候能够有效地使用上下文并更好地权衡答案.5 展望本文根据语义层面的由低到高依次总结了词㊁句和篇章三个层次上文本特征提取方法的研究进展.近年来,学者们注意到图作为一种特殊的数据结构,能够面对一组对象和对象之间的联系进行建模.由于这一强大的优点,把基于图神经网络的方法用于机器学习的方向越来越受人追捧.同时,现在数据平台的多样性使得数据结构变得极为复杂,给文本特征提取带来了不小的挑战,而图神经网络作为一种可以在图结构上运行的神经网络,能够保存图形嵌入中的全局结构信息,因此在处理具有丰富关系结构的任务时可以得到很好的效果.所以,利用图神经网络来应对结构复杂的文本信息也成为了一个新的研究方向.在问答系统方面,生成的回答也更加人性化,因此,在未来的文本特征提取中,应该建立新的文本特征表示模型,并结合领域知识快速定位用户的兴趣反馈,以达到更加流畅的使用感受.图10㊀使用不同列网络获得的问题表示来查询最近的上下文[32]Fig 10㊀Usingquestionrepresentationsobtainedbydifferentcolumnnetworkstoquerythenearestneighbors[32]217曾明睿,等.文本特征提取的研究进展.ZENGMingrui,etal.Researchprogressontextfeatureextraction.图11㊀反思器模型结构[34]Fig 11㊀ModelstructureofRuminatingReader[34]参考文献References[1]㊀HochreiterS,SchmidhuberJ.Longshort⁃termmemory[J].NeuralComputation,1997,9(8):1735⁃1780[2]㊀MelamudO,GoldbergerJ,DaganI.Context2vec:learninggenericcontextembeddingwithbidirectionalLSTM[C]ʊProceedingsofthe20thSIGNLLConferenceonCom⁃putationalNaturalLanguageLearning,2016:51⁃61[3]㊀PetersME,NeumannM,IyyerM,etal.Deepcontextual⁃izedwordrepresentations[J].arXivPreprint,2018,arXiv:1802.05365[4]㊀RadfordA,NarasimhanK,SalimansT,etal.Improvinglanguageunderstandingbygenerativepre⁃training[EB/OL].[2019⁃10⁃12].https:ʊs3⁃us⁃west⁃2.amazonaws.com/openai⁃assets/researchcovers/languageunsupervis⁃ed/languageunderstandingpaper.pdf,2018[5]㊀DevlinJ,ChangMW,LeeK,etal.Bert:pre⁃trainingofdeepbidirectionaltransformersforlanguageunderstanding[J].arXivPreprint,2018,arXiv:1810.04805[6]㊀DaiZ,YangZ,YangY,etal.Transformer⁃xl:attentivelanguagemodelsbeyondafixed⁃lengthcontext[J].arXivPreprint,2019,arXiv:1901.02860[7]㊀CaoYX,HuangLF,JiH,etal.Bridgetextandknowledgebylearningmulti⁃prototypeentitymentionem⁃317学报(自然科学版),2019,11(6):706⁃715JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2019,11(6):706⁃715bedding[C]ʊProceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers),2017:1623⁃1633[8]㊀SarmaPK,LiangY,SetharesWA.Domainadaptedwordembeddingsforimprovedsentimentclassification[J].arXivPreprint,2018,arXiv:1805.04576[9]㊀HotellingH.Relationsbetweentwosetsofvariates[J].Biometrika,1936,28(3/4):321.[10]㊀HardoonDR,SzedmakS,Shawe⁃TaylorJ.Canonicalcor⁃relationanalysis:anoverviewwithapplicationtolearningmethods[J].NeuralComputation,2004,16(12):2639⁃2664[11]㊀XuH,LiuB,ShuL,etal.DoubleembeddingsandCNN⁃basedsequencelabelingforaspectextraction[J].arXivPreprint,2018,arXiv:1805.04601[12]㊀ZhangZ,HanX,LiuZ,etal.ERNIE:enhancedlanguagerepresentationwithinformativeentities[J].arXivPreprint,2019,arXiv:1905.07129[13]㊀FaruquiM,DodgeJ,JauharSK,etal.Retrofittingwordvectorstosemanticlexicons[J].arXivPreprint,2014,arXiv:1411.4166[14]㊀KenterT,BorisovA,DeRijkeM.SiameseCBOW:optimi⁃zingwordembeddingsforsentencerepresentations[J].arXivPreprint,2016,arXiv:1606.04640[15]㊀AroraS,LiangY,MaT.Asimplebuttough⁃to⁃beatbase⁃lineforsentenceembeddings[C]ʊInternationalConfer⁃enceonLearningRepresentations,2017[16]㊀ZhangY,LiuQ,SongL.Sentence⁃stateLSTMfortextrepresentation[J].arXivPreprint,2018,arXiv:1805.02474[17]㊀KimY.Convolutionalneuralnetworksforsentenceclassi⁃fication[J].arXivPreprint,2014,arXiv:1408.5882[18]㊀DosSantosC,GattiM.Deepconvolutionalneuralnetworksforsentimentanalysisofshorttexts[C]ʊPro⁃ceedingsofCOLING2014,the25thInternationalConfer⁃enceonComputationalLinguistics:TechnicalPapers,2014:69⁃78[19]㊀KirosR,ZhuY,SalakhutdinovRR,etal.Skip⁃thoughtvectors[C]ʊAdvancesinNeuralInformationProcessingSystems,2015:3294⁃3302.[20]㊀HillF,ChoK,KorhonenA.Learningdistributedrepresen⁃tationsofsentencesfromunlabelleddata[J].arXivPre⁃print,2016,arXiv:1602.03483[21]㊀XuK,FengYS,HuangSF,etal.Semanticrelationclas⁃sificationviaconvolutionalneuralnetworkswithsimplenegativesampling[J].arXivPreprint,2015,arXiv:1506.07650[22]㊀SuY,LiuHL,YavuzS,etal.Globalrelationembeddingforrelationextraction[J].arXivPreprint,2017,arXiv:1704.05958[23]㊀ChenZY,ZhaHW,LiuHL,etal.Globaltextualrelationembeddingforrelationalunderstanding[J].arXivPreprint,2019,arXiv:1906.00550[24]㊀MintzM,BillsS,SnowR,etal.Distantsupervisionforre⁃lationextractionwithoutlabeleddata[C]ʊProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP:Volume2⁃ACL⁃IJCNLP,2009:1003⁃1011[25]㊀QinLH,ZhangZS,ZhaoH.Astackinggatedneuralar⁃chitectureforimplicitdiscourserelationclassification[C]ʊProceedingsofthe2016ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2016:2263⁃2270[26]㊀GuoFY,HeRF,JinD,etal.Implicitdiscourserelationrecognitionusingneuraltensornetworkwithinteractiveattentionandsparselearning[C]ʊProceedingsofthe27thInternationalConferenceonComputationalLinguis⁃tics,2018:547⁃558[27]㊀JiaYY,YeY,FengYS,etal.Modelingdiscoursecohe⁃sionfordiscourseparsingviamemorynetwork[C]ʊPro⁃ceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume2:ShortPapers),2018:438⁃443[28]㊀JiYF,EisensteinJ.Onevectorisnotenough:entity⁃aug⁃menteddistributedsemanticsfordiscourserelations[J].TransactionsoftheAssociationforComputationalLin⁃guistics,2015,3:329⁃344[29]㊀DaiZY,HuangRH.Improvingimplicitdiscourserelationclassificationbymodelinginter⁃dependenciesofdiscourseunitsinaparagraph[J].arXivPreprint,2018,arXiv:1804.05918[30]㊀BaiHX,ZhaoH.Deepenhancedrepresentationforimplicitdiscourserelationrecognition[J].arXivPreprint,2018,arXiv:1807.05154[31]㊀ChenQ,ZhuoZ,WangW.BERTforjointintentclassifi⁃cationandslotfilling[J].arXivPreprint,2019,arXiv:1902.10909[32]㊀DongL,WeiFR,ZhouM,etal.Questionansweringoverfreebasewithmulti⁃columnconvolutionalneuralnetworks[C]ʊProceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thIn⁃ternationalJointConferenceonNaturalLanguagePro⁃cessing(Volume1:LongPapers),2015:260⁃269[33]㊀SeoM,KembhaviA,FarhadiA,etal.Bidirectionalattentionflowformachinecomprehension[J].arXivPre⁃print,2016,arXiv:1611.01603[34]㊀GongYC,BowmanSR.Ruminatingreader:reasoningwithgatedmulti⁃hopattention[J].arXivPreprint,2017,arXiv:1704.07415417曾明睿,等.文本特征提取的研究进展.ZENGMingrui,etal.Researchprogressontextfeatureextraction.ResearchprogressontextfeatureextractionZENGMingrui1㊀YUANMengqi1㊀SHAOXi1㊀BAOBingkun1㊀XUChangsheng1,21Schoolofcommunicationandinformationengineering,NanjingUniversityofPostsandTelecommunications,Nanjing㊀2100442InstituteofAutomation,ChineseAcademyofSciencesInstituteofAutomation,ChineseAcademyofSciences,Beijing㊀100190Abstract㊀Textunderstandingisanimportantresearchbranchinartificialintelligence,whichavailstheeffectiveinteractionbetweenhumanandcomputerwithnaturallanguage.Textfeatureextractionisoneofthebasicandkeystepsforcomputerstounderstandandperceivethetextualdata.Inthispaper,weintroducethedevelopmenthistoryoftextfeatureextractionandthemainstreamfeatureextractionmethodsinrecentyears,andprospectsthefuturere⁃searchdirectionsoftextfeatureextraction.Thethreesemantichierarchies,namelywordrepresentation,sentencerep⁃resentationanddiscourserelationshipminingareelaborated,thenacaseisgiventoshowthetypicalapplicationoftextfeatureextractiononquestionansweringsystem.Keywords㊀naturallanguageprocessing;textfeatureextraction;questionansweringsystem517学报(自然科学版),2019,11(6):706⁃715JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2019,11(6):706⁃715。
文本特征提取方法

/u2/80678/showart_1931389.html一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。
文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。
文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。
传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。
所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。
在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。
使计算机能够通过对这种模型的计算和操作来实现对文本的识别。
由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。
目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。
这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。
因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。
为了解决这个问题,最有效的办法就是通过特征选择来降维。
目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。
文本 特征 提取 算法

文本特征提取算法文本特征提取算法是自然语言处理领域的重要研究方向之一。
在文本处理过程中,为了将文本转化为可供机器学习或其他算法处理的特征表示,需要进行特征提取。
本文将介绍几种常用的文本特征提取算法,并分析它们的优缺点。
首先,常用的文本特征提取算法之一是词袋模型。
词袋模型将文本看作是由词汇表中的词组成的集合,忽略了词序和语法等信息。
它通过统计每个词在文本中出现的次数或频率来表示文本特征。
词袋模型简单且易于实现,但无法捕捉词语之间的关系,因此在处理语义信息时存在局限性。
其次,n-gram模型是一种常见的文本特征提取算法。
n-gram模型通过考虑相邻词之间的关系,将文本表示为n个连续词的序列。
常用的是2-gram和3-gram模型,即考虑相邻两个或三个词的组合。
n-gram模型可以在一定程度上捕捉词语之间的语义关联,但对于长文本和高维特征空间的数据处理效果较差。
此外,TF-IDF(Term Frequency-Inverse Document Frequency)是另一种常用的文本特征提取算法。
TF-IDF通过计算词频和逆文档频率来评估词语在文本中的重要性。
词频指的是某个词在文本中出现的次数,而逆文档频率则是所有文本中包含该词的文档数的倒数的对数。
TF-IDF可以较好地捕捉到词语的重要性和区分能力,常用于信息检索和文本分类等任务。
最后,基于词向量的文本特征提取算法也在近年来得到广泛应用。
词向量是将词语表示为实数向量的一种方法,可以通过训练神经网络模型或使用预训练的词向量模型来获取。
基于词向量的文本表示方法能够克服传统方法中的一些问题,如词语维度灾难和语义表示能力不足等。
综上所述,文本特征提取算法在自然语言处理中起着重要作用。
词袋模型、n-gram模型、TF-IDF和基于词向量的方法都有各自的特点和适用场景。
在实际应用中,根据具体任务和数据特点选择合适的算法是关键。
通过合理选择和结合多种特征提取算法,可以提取出更全面、准确的文本特征,为后续的文本处理和分析任务提供有力支持。
文本特征提取的研究进展

文本特征提取的研究进展文本特征提取是自然语言处理领域中的关键任务,它是将给定的文本数据转换为可用于机器学习算法的数值特征的过程。
这些特征可以用来训练分类器、聚类算法以及其他机器学习模型,从而实现各种文本分析任务,如情感分析、文本分类、信息检索等。
近年来,随着深度学习技术的发展,基于神经网络的文本特征提取方法取得了很大的突破。
传统的文本特征提取方法主要包括以词为基本单位的词袋模型和TF-IDF等方法,但这些方法忽略了词之间的语义和上下文关系。
与传统方法相比,基于神经网络的文本特征提取方法可以自动学习到更丰富的语义表示。
在文本特征提取的研究中,词嵌入是一个非常重要的技术。
词嵌入是指将词语映射到低维向量空间的过程,其中每个维度表示一个语义特征。
通过预训练的词嵌入模型,可以将上下文语义信息编码为向量形式。
目前最流行的词嵌入模型是Word2Vec和GloVe,它们通过训练海量的语料库来学习词语之间的语义关系。
除了词嵌入之外,句子级别的特征提取也成为了研究的热点。
传统的句子表示方法主要是基于统计特征和手工设计的规则。
近年来,一些基于循环神经网络(RNN)和卷积神经网络(CNN)的模型被提出来用于句子的特征提取。
这些模型可以通过学习句子的上下文关系来提取句子的语义信息。
此外,还有一些其他的文本特征提取方法值得关注。
一种是基于注意力机制的方法,它可以根据输入文本中的关键信息自适应地选择性地关注不同的特征。
另一种是基于迁移学习的方法,它可以通过在大规模数据集上进行预训练,然后将学到的特征迁移到目标任务上,从而提高模型的性能。
最后,文本特征提取还面临一些挑战和未解决的问题。
首先,如何处理大规模数据集上的文本特征提取仍然是一个挑战,因为传统的方法很难处理海量的文本数据。
其次,对于不同类型的文本数据,如长文本、微博、电子邮件等,如何选择适当的特征提取方法仍然是一个开放问题。
此外,文本特征提取的解释性也是一个重要的问题,目前大多数方法都是黑盒子模型,很难解释为什么这些特征对于任务有重要作用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本特征提取方法研究______________________________________________________一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。
文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。
文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。
传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。
所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。
在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。
使计算机能够通过对这种模型的计算和操作来实现对文本的识别。
由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。
目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。
这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。
因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。
为了解决这个问题,最有效的办法就是通过特征选择来降维。
目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。
用于表示文本的基本单位通常称为文本的特征或特征项。
特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。
在中文文本中可以采用字、词或短语作为表示文本的特征项。
相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。
因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。
这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。
如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。
特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。
文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。
通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。
特征选取的方式有4种:(1)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
随着网络知识组织、人工智能等学科的发展,文本特征提取将向着数字化、智能化、语义化的方向深入发展,在社会知识管理方面发挥更大的作用。
二、文本特征向量经典的向量空间模型(VSM)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。
当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。
文本处理中最常用的相似性度量方式是余弦距离。
文本挖掘系统采用向量空间模型,用特征词条(T1,T2,…Tn)及其权值Wi代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。
特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。
设D为一个包含m个文档的文档集合,Di为第i个文档的特征向量,则有D={D1,D2,…,Dm},Di=(di1,di2,…,din),i=1,2,…,m其中d ij(i=1,2,…,m;j=1,2,…,n)为文档Di中第j个词条tj的权值,它一般被定义为tj在Di中出现的频率tij的函数,例如采TFIDF函数,即dij=tij*log(N/nj)其中,N是文档数据库中文档总数,nj是文档数据库含有词条tj的文档数目。
假设用户给定的文档向量为Di,未知的文档向量为Dj,则两者的相似程度可用两向量的夹角余弦来度量,夹角越小说明相似度越高。
相似度的计算公式如下:通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
三、基于统计的特征提取方法(构造评估函数)这类型算法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。
然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。
显然,对于这类型算法,决定文本特征提取效果的主要因素是评估函数的质量。
TF-IDF:单词权重最为有效的实现方法就是TF*IDF,它是由Salton在1988年提出的。
其中TF称为词频,用于计算该词描述文档内容的能力;IDF称为反文档频率,用于计算该词区分文档的能力。
TF*IDF的指导思想建立在这样一条基本假设之上:在一个文本中出现很多次的单词在另一个同类文本中出现次数也会很多,反之亦然。
所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。
另外还要考虑单词区别不同类别的能力,TF*IDF法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度。
TFIDF法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重,即其中,tfi(t,d)表示词t在文档d中的出现频率,N表示总的文档数,DF(t)表示包含t的文档数。
用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高,同时在其他文档中出现的次数越少,则表明该词对于表示这篇文档的区分能力越强,所以其权重值就应该越大。
将所有词的权值排序,根据需要可以有两种选择方式:(1)选择权值最大的某一固定数n个关键词;(2)选择权值大于某一阈值的关键词。
一些实验表示,人工选择关键词,4∽7个比较合适,机选关键词10∽15通常具有最好的覆盖度和专指度。
TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。
另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。
因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF 的调整,调整权值的目的在于突出重要单词,抑制次要单词。
但是在本质上IDF 是一种试图抑制噪音的加权,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。
IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。
此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。
特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。
因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。
词频方法(Word Frequency)词频是一个词在文档中出现的次数。
通过词频进行特征选择就是将词频小于某一闭值的词删除,从而降低特征空间的维数。
这个方法是基于这样一个假设,即出现频率小的词对过滤的影响也较小。
但是在信息检索的研究中认为,有时频率小的词含有更多的信息。
因此,在特征选择的过程中不宜简单地根据词频大幅度删词。
文档频次方法(Document Frequency)文档频数(Document Frequency,DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。
在训练文本集中对每个特征计一算它的文档频次,并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。
文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。
在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF 值大于某个阈值也将其去掉。
因为他们分别代表了“没有代表性”和“没有区分度”2种极端的情况:DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。
DF 的优点在于计算量很小,而在实际运用中却有很好的效果。
缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。
文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。
不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2统计的性能还不相上下。
DF 是最简单的特征项选取方法,而且该方法的计算复杂度低,能够胜任大规模的分类任务。
但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。
互信息(Mutual Information)互信息衡量的是某个词和类别之间的统计独立关系,某个词t 和某个类别Ci 传统的互信息定义如下:(,)(,)log ()()(|) log ()i i i i i P w C MI w C P w P C P C w P C ⎛⎞=⎜⎟⎝⎠⎛⎞=⎜⎟⎝⎠互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。