文本分类概述

文本分类概述
文本分类概述

第一章绪论

1.1研究背景

当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。

据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖端科技文献的增长则更快,约2-3年翻一番。

同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。

从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。

如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也

在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本数据的关键技术,受到了广泛的关注。

1.2文本分类的定义

1.2.1文本分类的定义

文本分类是指依据文本语义内容将未知类别的文本归类到已知类别体系中的过程。文本分类有多个英文名称,如Text Categorization [5]、Text Classification [6]、Document Categorization [7]、Document Classification [8]以及Topic Spotting [9]等,现在比较常用的为Text Categorization (TC)。文本分类的形式化定义如下,假设有一个文本集合D = {d 1,…,d |D |}和一个预先定义的类别集合C = {c 1,…,c |C |},二者之间的真实关系可由以下函数表示[5]:

??

??

???????∈=Φ→?Φj i j i j i j i c d if F c d if T c d c d F T C D ,,),(),(}

,{: (1-1)

于是,自动文本分类问题可以转化为找到函数Φ的近似表示Φ

??

??

???????∈=Φ→?Φj i j i j i j i c d if F c d if T c d c d F T C D ,,),(),(},{:

(1-2)

使得Φ 尽量逼近未知的真实函数Φ。此处的函数Φ

称为文本分类器,力求真实反映文档和类别的关系,以便尽可能对未知类别的文本进行正确分类。

文本分类根据分类算法的不同,可以分为两类分类算法和多类分类算法。所谓两类分类算法是指算法本质上只能进行两类分类,即只能判别文档属于两类中的某一类,如支持向量机算法;而多类分类算法是指算法可以同时对多个类别进行操作,即同时判别文档属于多类中的某一类或某几类,如KNN 算法。两类分类算法应用于多类分类问题时,通常需要将一个多类分类问题转化为若干个两类分类问题来解决。具体转化方法将在本文第二章详细论述。

另外,文本分类根据文档所属类别是否单一还可以分为单标号分类(Single-label Text Categorization)问题和多标号分类(Multilabel Text Categorization)

问题。所谓单标号分类指文档的类别体系没有重合,一篇文档属于且只属于一个类别,而多标号分类是指文档的类别体系有重合,一篇文档可以属于多个不同的类别。

1.2.2自动文本分类过程

现代自动文本分类技术涉及到人工智能、机器学习、模式识别和统计理论等多个学科,自动文本分类的过程实际上也是机器学习和模式识别的过程。图1-1为基本的分类过程。

图1-1自动文本分类模型

如其他机器学习问题一样,文本分类也包括训练和测试两个模块。训练模块由预处理、文本表示、特征选择(Feature Selection)、分类器(Classifier)和性能评价五个部分组成:

1. 预处理

负责对训练集中的文本进行去除停用词、词干化(Stemming)、分词、统计等操作,并对文本进行去噪处理。此处对中英文分别采取不同的处理,英文使用空格进行分词[1,10],而中文则需要根据语义进行分词[11-15]或采用N-gram法进行分词[16,17]。

2. 文本表示

把文本表示成分类算法可以识别的形式。最常用的统计模型是由Salton等人提出的向量空间模型[18],在此模型中,文档d j被表示成向量的形式,

>=

3. 特征降维

在文本表示阶段使用的特征集合的数目通常非常巨大,并常含有大量对分类没有贡献甚至具有相反作用的噪声特征。使用如此巨大的特征量会大大影响分类速度,因而需要通过特征降维减少特征数目,以提高训练和分类的速度与精度。特征选择后需要根据新的特征子集对文本重新进行表示。

4. 分类器

使用各种机器学习和模式识别算法对训练集进行学习,确定算法的各参数值,生成分类器。

5. 性能评价

评价分类器对训练集的分类结果,如果性能达不到要求,返回特征选择阶段重新选择特征。

分类模块由预处理、文本表示和分类器三个部分组成: 1. 预处理

功能作用和训练模块中的预处理相同。 2. 文本表示

与训练模块的第一个文本表示有所不同,此处的文本表示使用的特征空间为经过特征选择后的特征空间。

3. 分类器

使用训练完成的分类器对文本分类,输出最终分类结果。

至此,完成了整个文本分类过程。除了预处理部分与语种密切相关外,其余部分均独立于语种。

文本分类是一个应用性很强的技术,分类器的实现需要建立在一个高质量的训练集基础上,不同的应用领域有截然不同的训练集。为了评测文本分类技术的优劣,人们建立了一些标准语料库,常用的英文语料库有Reuters [19]、20_newsgroups [20]、OHSUMED [21]等。目前还没有标准的中文语料库,较多使用的有复旦大学语料库[22]、北京大学天网语料库[23]等。为了避免产生过分适合的现象,语料库通常包含两个互不相交的训练集和测试集。所谓过分适合指的是用训练集来测试分类器,产生较好的分类性能,但是用别的文本进行分类时发生分

类性能急剧下降的情况。

1.3文本分类的发展历史

文本分类最早可以追溯到20世纪60年代[5,24,25],在这之前主要是采用手工分类的方法。进入60年代后,Maron发表了具有里程碑作用的论文“Automatic indexing: An experimental inquiry”,采用贝叶斯公式进行文本分类,大大推进了文本分类工作。在该文中,Maron还假设特征间是相互独立的,这就是后来被广泛采用的“贝叶斯假设”。

在随后的二十多年,主要是采用知识工程(Knowledge Engineering, KE)的方法进行文本分类[26],它通过在专家知识基础上手工建立一系列分类规则来构建分类器。知识工程方法需要大量领域的专家和工程师参与,势必耗费很多人力物力,当电子文档急剧增长时将无法满足需求。这种方法最典型的应用实例为由Carnegie Group开发的CONSTRUE系统[27],该系统用来对路透社的新闻稿件自动分类。

直到进入20世纪90年代,随着Internet的迅猛发展,为了能够更好地处理大量的电子文档,并且伴随着人工智能、机器学习、模式识别、统计理论等学科的发展,基于知识工程的文本分类方法渐渐退出了历史舞台,文本分类技术进入了更深入的自动分类时代。由于基于机器学习的自动文本分类系统几乎可以达到与人类专家相当的正确度,但是却不需要任何知识工程师或领域专家的干预,节约了大量的人力,并且分类效率远远高于人类专家,因此机器学习方法在文本分类领域得到了深入的研究和广泛的应用,例如贝叶斯、最近邻、神经网络、支持向量机等。

1.4文本分类的应用领域

自动文本分类是对文本信息基于内容管理的基础,文本分类技术产生的初衷就是为信息管理服务,伴随着信息技术和内容的多元化发展,文本分类也得到了越来越广泛的应用,甚至涉及到通过语音识别和文本分类合成的方式对语音进行分类[46]以及通过分析文本标签对多媒体文本分类[47]等。下面简要介绍文本分类的几种应用,这些应用之间的划分没有非常明确的界限,有时某个应用可能是另

一个应用的特例。

1.4.1文本组织与管理

以科学论文为例,本文1.1节曾经提到,80年代仅科学论文一项每天就产生1.3万-1.4万篇,科学文献平均年增长率为13%,有些学科每10年翻一番,某些尖端学科2-3年翻一番。从这些统计数据可以得出,到目前为止,科技论文每天约产生4万-5万篇,如果进行人工分类,那么如此庞大的数据量必将使得各领域的科学家付出巨大的劳动。另外,科技论文对实时性的要求也很高,研究人员需要了解到本学科最新的研究现状,这就要求论文库能够及时动态更新。所有这些情况都使得人工组织文本越来越成为不可能,此时就需要使用自动文本分类技术。文本分类使得有序地按类别存储海量文件并及时作出更新成为可能。

另外,Internet已经成为人们生活中必不可少的一部分,人们已经习惯了坐在电脑前了解自己感兴趣的知识。各大门户网站如新浪、雅虎、搜狐等都建有各自的层次化分类体系,对网页根据其内容进行分类,读者只需按类别层层找下去就可以浏览到各种信息。目前各网站的分类都需要人工干预,如果采用自动文本分类技术,无疑将大大改善分类效率。

文本分类在数字化图书馆[48]、专利分类[49]、新闻文章自动归档和会议文章自动分组等方面都有成功应用。

1.4.2信息检索

毫无疑问,信息检索(Information Retrieval)工具可以根据查询词返回相关信息,有效帮助了人们查找相关知识,如Goole、Baidu、Yahoo、Excite等搜索引擎。但是,所有的搜索引擎都存在着相同的一个问题,返回结果并没有如用户期望的那样排列,并且包含了大量用户不感兴趣的网页,用户必须通过阅读这些网页滤除无用信息,这就降低了查询效率。在信息检索领域引入文本分类技术,由用户选择查询类别,或者由搜索引擎给出分类存放的搜索结果,都可以提高查询效率,方便用户使用。

另外,针对信息资源库中各个不同类别,还可以建立各类别的专用搜索引擎,直接供仅对某个专题感兴趣的人使用。

1.4.3冗余文档过滤

信息检索不仅包含了大部分用户不感兴趣的类别,还包含了大量相同或相似的网页,在搜索结果较少时更是如此。这些相同或相似的网页称为冗余文档,相同网页是指除了链接地址不同,内容完全相同的网页;相似文档是指内容只有少许不同的网页。虽然各大搜索引擎都号称对相同和相似网页进行了过滤,但在搜索结果中包含大量相同或相似网页的情况还是经常出现。利用文本分类技术对网页计算相似度,超过指定阈值的网页即可认为是冗余文档,在数据库中只保存一份。

Narayanan Shivakumar等对24,000,000个网页进行统计分析,发现有18%的网页有一个重复网页,5%的网页有10到100个重复网页,经过冗余检测后,可以把存储空间压缩22%[50]。

为了提高检测效率,计算网页相似度之前,可以先对抓取到的网页进行预分类,然后再根据网页类别仅仅在该类别进行检测,这样不仅可以大大减少检测时间和计算复杂度。

1.4.4信息过滤

信息过滤(Information Filtering)是指根据用户对信息的需求,对产生或到来的信息流进行动态地分类,保留对用户有用的信息,屏蔽无用信息。信息过滤与信息检索如同一面硬币的两面[51]:信息检索关心的是如何从信息源中找到符合用户需求的信息,可以形容为“人找信息”,用户为主动方,称之为“拉”(pull);信息过滤关心的是过滤系统如何把信息发送给感兴趣的用户,可以形容为“信息找人”,信息发布方为主动方,称之为“推”(push)。

信息过滤的一个典型应用如新闻推送服务,信息发布方为某个新闻社,用户为某种报纸[5,52]。在这个例子中,过滤系统应该屏蔽掉所有用户不感兴趣的文档,例如对于体育报纸,应该屏蔽所有与运动无关的文档。因此信息过滤可以看作是一个单标号分类问题,把所有到来的文本分为两个互不相交的类别:相关文档和无关文档。另外,过滤系统还可以进一步对相关文本按照各个主题进行分类,方便用户阅读。在上一个例子中,与运动有关的文本还可以进一步按照运动类别分类。同样,垃圾邮件过滤系统也可以丢弃垃圾邮件[53],并对非垃圾邮件根据用

户兴趣进行分类。

过滤系统既可以安装在信息的发送端,此时系统基于信息内容仅发送给对该信息感兴趣的用户;也可以安装在信息的接收端,此时系统负责阻断用户不感兴趣的信息。对于前一种情况,系统需要为每个用户建立一个档案[54],而在后一种情况下,系统只需建立一个用户档案。

文档过滤(Document Filtering)可以追溯到上世纪60年代有选择的信息分发技术(selective dissemination of information),当今数字信息的爆炸更加促进了这类技术的发展,如基于内容的垃圾邮件过滤、新闻组订阅等[5]。

1.4.5词义辨析

词义辨析(Word Sense Disambiguation)是指根据多义词所处上下文环境判断该词此时含义的活动[5]。例如,英文英文单词“bank”至少有两个不同含义,在“the Bank of England”中为“银行”,在“the bank of river Thames”中为“河岸”,在“I borrowed some money from the bank”中“bank”的含义就需要借助词义辨析来确定。把单词所处上下文看作文本,把单词的各种不同含义看作不同类别,那么词义辨析问题就可以转化为一个文本分类问题。显然,词义辨析属于单标号分类任务。

词义辨析只是解决自然语言歧义性时常见难题中的一个例子,也是计算语言学中最重要的一个难题。还有很多机器翻译中的其他问题,比如基于上下文的拼写校对(Context-sensitive spelling correction)[57]、介词短语连接(Prepositional Phrase Attachment)[58]、词性标注(Part-of-speech Tagging)[59,60]等,也都可以通过借助文本文类技术来解决。

第二章文本分类的性能评估

2.1引言

由于自动文本分类技术在文本处理领域具有关键性作用和广泛的应用前景,因此得到了众多学者的高度重视。随着人工智能、机器学习、模式识别和统计理论等领域技术的快速发展,涌现出了越来越多的文本分类方法。但是,这些分类方法的性能如何,以及如何客观评估和比较这些分类方法,就成为了选择分类方法时无法忽视的问题。

分类器的评估是一个非常复杂的问题,目前还没有一个可以从理论上对单个分类器进行评估或对不同分类器进行比较的方法。由于难以从理论上对分类器进行客观公正的评估,文本分类领域沿用了信息检索领域的评估办法,从仿真的实验结果来评估分类器的性能。已有很多学者使用实验的方法对分类器进行了比较,并且研究者在说明某种分类算法的性能时也是用数据来表示。

分类器的性能评估有两个重要的作用,客观比较不同分类器仅仅是其中的一个方面,另一个重要作用是在训练过程中指导分类器的生成。如图1.1中所示那样,分类器评估是训练过程中必不可少的一个模块,分类器的构建需要根据评估结果调整各参数,以使分类器性能达到最优。

如同任何一个其他领域的科学实验,文本分类的实验结果也受很多客观因素的影响,比如:实验数据集的选定、文本的表示模型、特征选择的方法、分类算法的确定、各参数的选定、评估指标的确定以及实验数据的分析与处理等。显然,不同分类器只有在诸多客观因素均一致的情形下才具有可比性。许多学者基于Reuters、20_Newgroups、OHSUMED等标准数据集对一些分类算法进行了比较,结果就具有较高的可信度[29,81]。另外,由于分类器对数据集的严重依赖性,依靠仿真实验得出的任何一种评估结果都只能作为一定的参考,在不同数据集上同一种分类方法可能会表现出截然不同的性能。

由此可见,文本分类的性能评估是文本分类领域的一个重要课题,针对不同的目的,评估侧重点也应有所不同。

2.2文本分类器的性能评估指标

从实验方面来看,文本分类器的性能主要表现在两个方面:效率和效果。所谓效率指的是分类器训练和分类的时间;所谓效果指的是分类器做出正确决定的能力。具体到评估指标上,效率的评估指标是时间,即分类器训练的时间及单篇文本分类的时间;而效果的评估指标并不唯一,有多种类型,下面将重点进行讨论。在目前的文本分类应用中,主要关心的是分类效果的度量,所以本文也将主要讨论分类效果的评估,本文其余部分若未特别指出,文本分类性能评估均指分类效果的评估。

文本分类有多个性能评估指标,常用的有查全率(Recall, r )、查准率(Precision, p )、正确率(Accuracy, acc )、错误率(Error, err )以及查全率与查准率的综合评价值

βF 、11-点平均(Eleven-point average, 11-Ave )和平衡点(Breakeven point, BEP )等。

下面针对单标号分类器给出这些指标的定义及计算方法。

假设一个单标号文本分类器Φ

、测试文本集合},...,{1M d d D =和预先定义的类别集合},...,{1N c c C =,D 中每篇文档只属于一个类别,C 中各类别两两之间互

不相交。分别由专家和分类器Φ

来对全部测试文本判断类别,那么可建立如下的邻接表:

表2-1 多类分类器列联表

在表2-1中,ij a 的含义如下:

???≠==j i a j

i a a ij

ii ij ,, (2-1)

其中,ii a 表示原本属于类别i c 并被分类器正确判断为i c 的文档数目,ij a 表

示原本属于类别j c 但被分类器错误判断为i c 的文档数目。

根据表2-1,各指标定义及计算方法如下: 1.查全率(Recall, r )与查准率(Precision, p )

查全率定义为正确判别为该类的测试样本占该类总测试样本的比例,查准率定义为正确判别为该类的测试样本占判别为该类的测试样本的比例,那么类别i c 的查全率i r 和查准率i p 的计算公式如下[5]:

∑==

N

k ki

ii

i a

a r 1

(2-2)

∑==

N

k ik

ii

i a

a p 1

(2-3)

查全率与查准率来源于信息检索领域,是最为传统、也是使用最多的两个指标。查全率和查准率从不同方面反映了分类系统的性能,查全率反映了分类的完备程度,即应该正确分类的文本中有多少被正确分类;查准率反映了分类的准确程度,即分类结果中有多少是正确的。二者通常被一起使用,作为一对指标从不同侧面共同描述分类器性能。 2.βF

把查全率和查准率分开考虑没有任何意义,例如,100篇文档中有10篇属于类别1c ,假设训练了一个类别1c 的“接受分类器”,即所有文本均判为1c ,那么对于1c 来讲,查全率达到100%,但查准率只有10%。于是,Rijsbergen 提出了把二者综合考虑的指标βF ,类别i c 的i F β定义如下[108]:

i

i i

i i r p r p F ++=22)1(βββ (2-4)

其中,),0[+∞∈β,β是可调节参数,反映了i p 和i r 的相对重要程度。当0=β时,βF 为查准率i p ;当+∞=β时,βF 为查全率i r 。β越小,越强调i p 的作用;

β越大,越强调i r 的作用。最为常用的是i F 1值,此时1=β,认为i p 与i r 具有同等重要程度,计算公式如下:

i

i i

i i r p r p F +=

21 (2-5) 3.11-点平均(11-point average, 11-Ave )

11-点平均也是一个常用的分类器综合评价指标[31,61],来源于信息检索领域。11-点平均定义为调整分类器参数,使得查全率分别为0%, 10%, …, 90%, 100%时相应的查准率的算术平均值。 4.平衡点(Breakeven point, BEP )

Break-even 点是另外一个综合评价指标[39,62],指的是分类器查全率与查准率相等时的值,这是分类器的一种特殊情况,此时i F r p i i β==。有时通过实验可能得不到i r 和i p 相等的值,这时就取i r 和i p 最接近的值的平均值作为i BEP ,称为插值i BEP 。

5.宏平均(Macro-average)与微平均(Micro-average)

前面所述几个指标都是针对单个类别的局部性能进行评估的,对于一个多类分类器来讲,关心的是整体性能。宏平均和微平均是计算全局性能的两种方法。

宏平均是指先计算各类别的性能指标,然后再求算术平均值,宏平均查全率(macroR )、宏平均查准率(macroP )及宏平均1F (1macroF )的定义如下:

N

r

macroR N

i i

∑==

1

(2-6)

N

p

macroP N

i i

∑==

1

(2-7)

N

F

macroF N

i i

∑==

1

11 (2-8)

微平均是指计算各个样本的分类性能,然后求算术平均值。微平均查全率

(microR )、微平均查准率(microP )及微平均1F (1microF )的定义如下:

M

a

microR N

i ii

∑==

1

(2-9)

∑∑∑====

N i N

j ij

N

i ii

a

a

microP 11

1

(2-10)

microR

microP microR

microP microF +??=

21 (2-11)

从微平均各指标的定义可以看出,如果在分类器中未引入拒识策略,则有

∑∑===N i N

j ij

M a

11

,此时1microF microP microR ==。

宏平均和微平均两种方式的结果可能相差很大,尤其是对于不均衡的测试集更是如此。宏平均是按类别求平均,微平均是按样本求平均,故宏平均的结果受小类别影响较大,微平均的结果受大类别影响较大。 6.正确率(Accuracy, acc )与错误率(Error, err )

正确率与错误率也是两个衡量分类器整体性能的指标。正确率定义为分类器正确分类的样本占所有测试样本的比例,错误率定义为分类器错误分类的样本占所有测试样本的比例,计算公式如下:

M

a

acc N

i ii

∑==

1

(2-12)

acc M

a

err N

i N

i

j j ij

-==

∑∑=≠=111

(2-13)

正确率与错误率来源于机器学习领域,由公式(2-9)可以看出,正确率与微平均查全率的值完全相等,只是物理意义不同罢了。

第三章 文本表示

3.1引言

文本是一个由众多字符构成的字符串,人类在阅读文章后,可以根据自身的理解能力产生对文章的模糊认识,并对其进行分类。但计算机并不能理解文章的内容,从根本上说,它只认识0和1,所以必须把文本转换为计算机或者说分类算法可以识别的形式。

文本表示方法的选择取决于文本中的语义单元以及把这些单元结合在一起的自然语言处理规则。对文本中语义单元的研究属于词汇语义学的范畴,对各单元组合规则的研究属于组合语义学的范畴。文本表示首先根据词汇语义学及组合语义学的相关知识对文本d j 进行分割,把文本转化为由若干个语义单元组成的空间形式,...),...,,(21k t t t ,这就是在文本分类及信息检索领域广泛应用的向量空间模型(Vector Space Model ,VSM),这些语义单元t k 称为特征(term 或feature)。确定文本所用特征后,再计算各特征在文本中的权重(weight),文本d j 被表示为特征向量的形式),...,,...,,(||21j T kj j j j w w w w w ,其中权重值w kj 表示特征t k 在文本d j 中的重要程度,T 表示特征空间的特征集。

向量空间模型是由Salton 提出的[18],最早成功应用于信息检索领域,后来在文本分类领域也得到了成功应用。Salton 的向量空间模型基于这样一个假设:文本所属类别仅与特定单词或词组在该文本中出现的频数有关,而与这些单词或词组在该文本中出现的位置或顺序无关。

针对如何尽可能准确地表示文本,众多学者进行了广泛研究,主要集中在特征空间的选取和特征权重的计算方面。虽然使用向量空间模型表示文本将丢失大量文本信息,但这种文本的形式化处理使得大量机器学习算法在文本分类领域得到成功应用,大大促进了自动文本分类的发展。

随着文本分类技术的不断进步,向量空间模型也处于不断发展变化中。我们称Salton 最初提出的向量空间模型为狭义向量空间模型,在这基础上发展起来的所有以向量形式表示文本的模型称为广义向量空间模型。事实上,目前使用的文本表示法基本上都是以向量形式表示的,各方法之间的差异主要表现在特征粒度

及权重计算方法的不同。本文其余部分若不特别指出,向量空间模型均指广义向量空间模型。

3.2向量空间模型

向量空间模型中,特征是文本表示的最小单位。划分文本的特征可以是词(包括字)、词组、n-gram和概念等,根据特征粒度的不同,一篇文本可以有多种表示方式。下面介绍各种文本特征及特征权重计算方法。

3.2.1特征

3.2.1.1词

词是自然语言理解的最小语义单位。不同的语种获取词的方式也大不相同。对英文等拼音文字而言,各个词之间用空格进行分隔,计算机处理时可以用空格作为切分标志,来提取文本的特征。但是对于中文等亚洲文字来说,表达方式以字为最小单位,在自然理解当中又是以词作为有意义的最小单位,词与词之间没有自然分割标志,这样就需要通过分词来取得文本的词特征。

无论何种语种,都会有一些对分类没有任何贡献的代词、介词和连词等,这些词称为停用词(stop words)。中英文对停用词的处理也不同。英文通常根据分类任务构建停用词表,然后在取词特征时根据该表去除停用词,表3-1是本文实验中采用的停用词表,包含319个停用词。而中文通常通过分词时建立的词典去除停用词,即词典初始建立时就不包含停用词。

表3-1 停用词表

表3-1 (续)

另外,英文中存在各种时态、语态及名词的单复数,故英文还可对文本中各

单词进行取词根(stemming)处理,就是依据一定的语法规则剥离各个单词的后缀,得到表明单词基本含义的词根。例如,answer, answered, answers的词根都为answer,则统一用answer来表示。目前常用的是Porter的取词根算法[115]。但也有研究说取词根会降低分类性能[116],但取词根还是得到了很广泛的应用,因为该方法可以有效降低特征维数。

虽然以词作为特征的词表示法丢失了大量的文本信息,但依然能够在文本分类中取得很好的效果,因而得到了广泛使用。

3.2.1.2词组

以词组作为特征的表示法称为词组表示法,该方法与词表示法非常相似,唯一不同的是特征粒度变大了。显然,用词组作为特征可以更多地包含文本信息,但分类结果却不尽人意[10,117]。

主要原因在于词组表示法虽然提高了特征的语义质量,但却降低了特征的统计质量。和词特征相比,词组特征具有较多的特征、较多的同义或近义特征、较低的一致性以及较低的文档频率[10]。统计质量的降低只能使得特征向量更加稀疏,从而对分类性能产生影响。

3.2.1.3字符串

与词表示法和词组表示法需要依赖于语种不同,字符串(n-gram)表示法[118]是完全独立于语种的一种表示法。n-gram表示法把文本看作一个大字符串,由若干个以n个字符组成的字符串作为特征单位。在字符串表示法中,不再考虑文本的语义单位,文本只是一个由各种字符组成的字符串,由计算机根据字符长度n对文本进行分割。例如,“text categorization”被14-gram分解为包含特征“text categoriz”、“ext categoriza”、“xt categorizat”、“t categorizati”、“categorizatio”和“categorization”;“华南理工大学”被2-gram分解为包含特征“华南”、“南理”、“理工”、“工大”和“大学”。

n-gram表示法可以避免分词的工作,因此尤其适合中文等亚洲语言。但是n-gram的缺点也非常明显,存在数据噪声大、特征复杂、计算量大和易于过学习等问题。

3.2.1.4概念

在自然语言中,一义多词的现象非常普遍,比如“计算机”“电脑”“微机”表示的都是一个概念。概念具有很高的抽象性,一个概念可以对应一个词,也可以对应若干个词。从自然语言理解的角度看,采用概念作为特征是最高级的表示。

采用概念作为特征有很多好处。首先,一个概念可能对应若干个不同的词,这样将大大降低特征空间的维数,提高分类速度;其次,同义词的聚类使得该概念的权重集中,避免了权重分散带来的对该特征的削弱,从而提高分类的精度。

用概念表示文本需要有一个专门的语义词典,这就需要语言专家和各领域专家的参与,无疑将耗费大量的人力和物力。所以,用概念表示文本的想法虽然非常好,但进展并不十分理想[119]。

3.2.2特征向量

特征空间中不同特征项对文档的重要程度和对分类的贡献是不同的,因此文本分类系统在对文本进行形式化处理的时候,需要对文本的每个特征项赋权,以形成特定文本的特征向量,权重越大的特征认为对文本越重要。由于各研究者对特征重要性认识的不同,涌现出了许多特征权重计算方法,下面介绍几种常用方法,这些方法都基于Zobel 和Moffat 提出的假设[64,120]:

(1)IDF(Inverted Document Frequency)假设:稀有特征的重要程度不低于常见特征;

(2)TF(Term Frequency)假设:一篇文档中出现多次的特征的重要程度不低于只出现一次的特征;

(3)规范化(Normalization)假设:同样的特征匹配数,长文档的重要程度不高于短文档。

从把文本转换为若干个特征的集合到生成文本的特征向量,通常需要经过三个步骤:生成索引向量;对索引向量赋权;规范化。 3.2.2.1文本索引

设训练集有N 篇文档,特征空间为},...,,{||21T t t t T =,对文本d j 进行索引后得到索引向量),...,,(||21j T j j j f f f =f ,其中,f kj 表示特征t k 在文本d j 中的索引值。索

引值的计算通常有以下几种方式。

布尔索引是最简单的一种索引方式,f kj 值的取0或1,取值方式如下:

?

??=中出现未在文本若中出现在文本若j k j k kj d t d t f ,0,1 (3-1)

词频索引采用特征t k 在文本d j 中出现的次数TF kj 作为索引值:

kj kj TF f = (3-2)

对数索引也利用了特征t k 在文本d j 中出现的次数TF kj ,计算公式如下:

)1log(+=kj kj TF f (3-3)

可以看出,无论采用何种方式计算的索引向量均为非负向量。虽然索引向量真实反映了文本中各特征项出现的情况,但由于各特征对分类的贡献不同,需要在索引向量中进一步加入类别信息,以便准确分类。 3.2.2.2特征赋权

特征赋权的方式有很多种,可以分为“均权”与“非均权”两类。顾名思义,所谓“均权”,就是研究者认为特征在整个训练集中的统计信息对分类不会产生实质性的影响,所以给索引向量中的每个特征赋以相同的权重,也就是使用原索引向量,既不突出也不抑制任何特征。而“非均权”认为特征分为主要特征和次要特征,经过赋权处理可以放大主要特征的作用,缩小次要特征的作用。

目前的研究普遍认为不同特征在分类中的贡献是不同的,一般采用“非均权”对特征加权。其中最有代表性的是“IDF(Inverted Document Frequency)权”。IDF 权认为训练集中包含特征t k 的文档数目越多,则该特征对分类的贡献越小,这样的特征需要受到抑制;相反,训练集中包含特征t k 的文档数目越少,则该特征对分类的贡献越大,这样的特征需要被放大。设特征加权向量为),...,,(||21T g g g =g ,训练集中出现过特征t k 的文档数为DF k ,那么特征t k 的加权值g k 由下式计算:

)log(

k

k DF N

g = (3-4) 至此,文档d j 由加权索引向量),...,,(||21j T j j j h h h =h 表示,j h 等于索引向量j

f 与特征加权向量

g 的内积,由公式(3-5)计算。

),...,,(||||2211T j T j j j j g f g f g f ???=?=g f h (3-5)

3.2.2.3规范化

为了消除文档长度不同对加权索引向量h 的影响,需要对h 进行规范化处理,使得各特征权重落在区间[0,1]内,最终生成文本d j 的特征向量

),...,,(||21j T j j j w w w =w 。特征t k 的权重w kj 的计算公式如下:

∑==

|

|1

2T i ij

kj

kj h

h w (3-6)

3.2.2.4相似度计算

文本表示为向量后,文本之间的距离或相似度可以通过空间中这两个向量的几何关系来度量。设有两个特征向量),...,,(||21T x x x =x 和),...,,(||21T y y y =y 。

如果特征向量是布尔向量,那么相似度函数通常采用汉明距离,定义如下:

∑=⊕-=|

|1)(||)(T i i i y x T D y x, (3-7)

如果特征向量非布尔向量,则相似度函数通常采用夹角余弦函数,定义如下:

∑∑∑===?

?=

|

|1

2|

|1

2

|

|1

),(T i i

T i i

T i i

i y

x

y

x sim y x (3-8)

3.3经典特征权重

在文本分类领域,通常使用Salton 等人提出的TFIDF(Term Frequency and Inverted Document Frequency)公式计算特征项权重,特征t k 在文档d j 中的TFIDF 计算公式如(3-9)所示[5]:

)log(

),(k

kj j k DF N

TF d t tfidf ?= (3-9) 其中,TF kj 表示特征t k 在文档d j 中出现的次数,DF k 表示在整个训练集中包含特征t k 的文档数,N 表示整个训练集中包含的文档数。该公式的直观解释为:特征t k 在文档中出现的次数越高,在整个训练集中包含该特征项的文档数目越少,则该特征权重越大;反之,特征t k 在文档中出现的次数越少,在整个训练集

文本分类入门(五)训练Part 2

将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。 再重复一次,所谓样本,也叫训练数据,是由人工进行分类处理过的文档集合,计算机认为这些数据的分类是绝对正确的,可以信赖的(但某些方法也有针对训练数据可能有错误而应对的措施)。接下来的一步便是由计算机来观察这些训练数据的特点,来猜测一个可能的分类规则(这个分类规则也可以叫做分类器,在机器学习的理论著作中也叫做一个“假设”,因为毕竟是对真实分类规则的一个猜测),一旦这个分类满足一些条件,我们就认为这个分类规则大致正确并且足够好了,便成为训练阶段的最终产品——分类器!再遇到新的,计算机没有见过的文档时,便使用这个分类器来判断新文档的类别。 举一个现实中的例子,人们评价一辆车是否是“好车”的时候,可以看作一个分类问题。我们也可以把一辆车的所有特征提取出来转化为向量形式。在这个问题中词典向量可以为: D=(价格,最高时速,外观得分,性价比,稀有程度) 则一辆保时捷的向量表示就可以写成 vp=(200万,320,9.5,3,9) 而一辆丰田花冠则可以写成 vt=(15万,220,6.0,8,3) 找不同的人来评价哪辆车算好车,很可能会得出不同的结论。务实的人认为性价比才是评判的指标,他会认为丰田花冠是好车而保时捷不是;喜欢奢华的有钱人可能以稀有程度来评判,得出相反的结论;喜欢综合考量的人很可能把各项指标都加权考虑之后才下结论。

可见,对同一个分类问题,用同样的表示形式(同样的文档模型),但因为关注数据不同方面的特性而可能得到不同的结论。这种对文档数据不同方面侧重的不同导致了原理和实现方式都不尽相同的多种方法,每种方法也都对文本分类这个问题本身作了一些有利于自身的假设和简化,这些假设又接下来影响着依据这些方法而得到的分类器最终的表现,可谓环环相连,丝丝入扣,冥冥之中自有天意呀(这都什么词儿……)。 比较常见,家喻户晓,常年被评为国家免检产品(?!)的分类算法有一大堆,什么决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等等等等(这张单子还可以继续列下去)。在这里只挑几个最具代表性的算法侃一侃。Rocchio算法 Rocchio算法应该算是人们思考文本分类问题时最先能想到,也最符合直觉的解决方法。基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有“体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相像(八股点说,判断他们之间的距离)就可以确定新文档属不属于这个类。稍微改进一点的Rocchio算法不尽考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法做了两个很致命的假设,使得它的性能出奇的差。一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

SVM支持向量机白话入门

(一)SVM的八股简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[14](或称泛化能力)。 以上是经常被有关SVM 的学术文献引用的介绍,有点八股,我来逐一分解并解释一下。 Vapnik是统计机器学习的大牛,这想必都不用说,他出版的《Statistical Learning Theory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质,就在于统计机器学习能够精确的给出学习效果,能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比,传统的机器学习基本上属于摸着石头过河,用传统的机器学习方法构造分类系统完全成了一种技巧,一个人做的结果可能很好,另一个人差不多的方法做出来却很差,缺乏指导和原则。 所谓VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度,VC 维越高,一个问题就越复杂。正是因为SVM关注的是VC维,后面我们可以看到,SVM解决问题的时候,和样本的维数是无关的(甚至样本是上万维的都可以,这使得SVM很适合用来解决文本分类的问题,当然,有这样的能力也因为引入了核函数)。 结构风险最小听上去文绉绉,其实说的也无非是下面这回事。

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本分类入门(十一)特征选择方法之信息增益

前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。 才因此先回忆一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n 多种,分别是x1,x2,……,x n,每一种取到的概率分别是P1,P2,……,P n,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直觉得我们的政策法规信息量非常大,因为它变化很多,基本朝令夕改,笑)。 对分类系统来说,类别C是变量,它可能的取值是C1,C2,……,C n,而每一个类别出现的概率是P (C1),P(C2),……,P(C n),因此n就是类别的总数。此时分类系统的熵就可以表示为: 有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C1,C2,……,C n,因此这个值所携带的信息量就是上式中的这么多。 信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。系统含有特征t的时候信息量很好计算,就是刚才的式子,它表示的是包含所有特征时系统的信息量。 问题是当系统不包含t时,信息量如何计算?我们换个角度想问题,把系统要做的事情想象成这样:说教室里有很多座位,学生们每次上课进来的时候可以随便坐,因而变化是很大的(无数种可能的座次情

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖

端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本数据

人工智能与健康图文稿

人工智能与健康

2019年度人工智能与健康 1.如果一个人体检时发现乳腺癌1号基因发生突变,可以推断出()。( 2.0分) A.这个人患乳腺癌的概率增加了 B.这个人已经患了乳腺癌 C.这个人一定会患乳腺癌 D.这个人很快会被检查出乳腺癌 我的答案:A√答对 2.医学上用百分位法来判定孩子是否属于矮小。如果一个孩子的身高低于同种族、同年龄、同性别正常健康儿童身高的第()百分位数,医学上称之为矮小。(2.0分) A.1 B.2 C.3 D.4 我的答案:C√答对 3.在()年,AlphaGo战胜世界围棋冠军李世石。(2.0分) A.2006 B.2012 C.2016 D.2017 我的答案:C√答对 4.人工智能是()的一个分支,它试图揭示人类智能的实质和真相,并以模拟人类智能的方式去赋能机器,使机器能够模拟人类的智能进行学习、思维、推理、决策和行动。(2.0分) A.自然科学 B.社会科学 C.语言科学 D.计算机科学

我的答案:D√答对 5.古代把计量叫“度量衡”,其中,“衡”是测量()的过程。(2.0分) A.长度 B.容积 C.温度 D.轻重 我的答案:D√答对 6.据2005年美国一份癌症统计报告表明,在女性的所有死亡原因中,排在第二位的是()。(2.0分) A.肺癌 B.肝癌 C.乳腺癌 D.淋巴癌 我的答案:C√答对 7.1997年,Hochreiter&Schmidhuber提出()。(2.0分) A.反向传播算法 B.深度学习 C.博弈论 D.长短期记忆模型 我的答案:D√答对 8.()是自然语言处理的重要应用,也可以说是最基础的应用。(2.0分) A.文本识别 B.机器翻译 C.文本分类 D.问答系统 我的答案:C√答对 9.()是一种基于树结构进行决策的算法。(2.0分) A.轨迹跟踪

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.360docs.net/doc/217292137.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

文本分类入门(八)中英文文本分类的异同

从文本分类系统的处理流程来看,无论待分类的文本是中文还是英文,在训练阶段之前都要经过一个预处理的步骤,去除无用的信息,减少后续步骤的复杂度和计算负担。 对中文文本来说,首先要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词汇(因为词汇将作为训练阶段“特征”的最基本单位),例如原文是“中华人民共和国今天成立了”的文本就要被切分成“中华/人民/共和国/今天/成立/了”这样的形式。而对英文来说,没有这个步骤(更严格的说,并不是没有这个步骤,而是英文只需要通过空格和标点便很容易将一个一个独立的词从原文中区分出来)。中文分词的效果对文本分类系统的表现影响很大,因为在后面的流程中,全都使用预处理之后的文本信息,不再参考原始文本,因此分词的效果不好,等同于引入了错误的训练数据。分词本身也是一个值得大书特书的问题,目前比较常用的方法有词典法,隐马尔科夫模型和新兴的CRF方法。 预处理中在分词之后的“去停止词”一步对两者来说是相同的,都是要把语言中一些表意能力很差的辅助性文字从原始文本中去除,对中文文本来说,类似“我们”,“在”,“了”,“的”这样的词汇都会被去除,英文中的“ an”,“in”,“the”等也一样。这一步骤会参照一个被称为“停止词表”的数据(里面记录了应该被去除的词,有可能是以文件形式存储在硬盘上,也有可能是以数据结构形式放在内存中)来进行。 对中文文本来说,到此就已初审合格,可以参加训练了(笑)。而英文文本还有进一步简化和压缩的空间。我们都知道,英文中同一个词有所谓词形的变化(相对的,词义本身却并没有变),例如名词有单复数的变化,动词有时态的变化,形容词有比较级的变化等等,还包括这些变化形式的某种组合。而正因为词义本身没有变化,仅仅词形不同的词就不应该作为独立的词来存储和和参与分类计算。去除这些词形不同,但词义相同的词,仅保留一个副本的步骤就称为“词根还原”,例如在一篇英文文档中,经过词根还原后,“computer”,“compute”,“computing”,“computational”这些词全都被处理成“compute”(大小写转换也在这一步完成,当然,还要记下这些词的数目作为compute的词频信息)。 经过预处理步骤之后,原始文档转换成了非常节省资源,也便于计算的形式,后面的训练阶段大同小异(仅仅抽取出的特征不同而已,毕竟,一个是中文词汇的集合,一个是英文词汇的集合嘛)。 下一章节侃侃分类问题本身的分类。

中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书 毕业设计(论文) 题目中文文本分类算法的设计及其实现 电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文) 毕业设计(论文)任务书 电信学院计算机系84 班学生丰成平 毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学 课题的背景、意义及培养目标 随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。 设计(论文)的原始数据与资料 1、文本语料库(分为训练集与测试集语料库)。 2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。 课题的主要任务 1.学习文本特征向量的构建方法及常用的降维方法。 2.学习各种分类器的基本原理及其训练与测试方法。 3.设计并编程实现文本分类器。

毕业设计(论文)任务书 4、对试验结果进行分析,得出各种结论。 5、撰写毕业论文。 6、翻译一篇关于文本分类的英文文献。 课题的基本要求(工程设计类题应有技术经济分析要求) 1、程序可演示。 2、对源代码进行注释。 3、给出完整的设计文档及测试文档。 完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等) 1、提交毕业论文 2、提交设计和实现的系统软件源程序及有关数据 3、提交外文资料翻译的中文和原文资料 主要参考文献: 自然语言处理与信息检索共享平台:https://www.360docs.net/doc/217292137.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.360docs.net/doc/217292137.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.360docs.net/doc/217292137.html,/p-030716713857.html TF-IDF的线性图解:https://www.360docs.net/doc/217292137.html,/blog-170225-6014.html 东南大学向量降维文献:https://www.360docs.net/doc/217292137.html,/p-690306037446.html 指导教师相明 接受设计(论文)任务日期2013-02-21~2013-06-20 学生签名:

基于贝叶斯的文本分类

南京理工大学经济管理学院 课程作业 课程名称:本文信息处理 作业题目:基于朴素贝叶斯实现文本分类姓名:赵华 学号: 114107000778 成绩:

基于朴素贝叶斯实现文本分类 摘要贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 关键词社区发现标签传播算法社会网络分析社区结构 1引言 数据挖掘在上个世纪末在数据的智能分析技术上得到了广泛的应用。分类作为数据挖掘中一项非常重要的任务,目前在商业上应用很多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该分类器可以将数据集合中的数据项映射到给定类别中的某一个,从而可以用于后续数据的预测和状态决策。目前,分类方法的研究成果较多,判别方法的好坏可以从三个方面进行:1)预测准确度,对非样本数据的判别准确度;2)计算复杂度,方法实现时对时间和空间的复杂度;3)模式的简洁度,在同样效果情况下,希望决策树小或规则少。 分类是数据分析和机器学习领域的基本问题。没有一个分类方法在对所有数据集上进行分类学习均是最优的。从数据中学习高精度的分类器近年来一直是研究的热点。各种不同的方法都可以用来学习分类器。例如,人工神经元网络[1]、决策树[2]、非参数学习算法[3]等等。与其他精心设计的分类器相比,朴素贝叶斯分类器[4]是学习效率和分类效果较好的分类器之一。 朴素贝叶斯方法,是目前公认的一种简单有效的分类方法,它是一种基于概率的分类方法,被广泛地应用于模式识别、自然语言处理、机器人导航、规划、机器学习以及利用贝叶斯网络技术构建和分析软件系统。 2贝叶斯分类 2.1分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。 从数学角度来说,分类问题可做如下定义: 已知集合:和,确定映射规则,使得任意有且仅有一个使得成立。(不考虑模 糊数学里的模糊集情况) 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

中文文本分类语料

中文文本分类语料 文本自动分类就是用电脑对文本按照一定的分类体系或标准进行自动分类标记。 文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。现如今,统计学习方法已经成为了文本分类领域绝对的主流。 统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。 1.中科院自动化所的中英文新闻语料库https://www.360docs.net/doc/217292137.html,/data/13484 中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。 2.搜狗的中文新闻语料库https://www.360docs.net/doc/217292137.html,/labs/dl/c.html 包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。 3.李荣陆老师的中文语料库 https://www.360docs.net/doc/217292137.html,/data/11968 压缩后有240M大小 4.谭松波老师的中文文本分类语料https://www.360docs.net/doc/217292137.html,/data/11970 不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。 5.网易分类文本数据https://www.360docs.net/doc/217292137.html,/data/11965 包含运动、汽车等六大类的4000条文本数据。 6.中文文本分类语料https://www.360docs.net/doc/217292137.html,/data/11963 包含Arts、Literature等类别的语料文本。 7.更全的搜狗文本分类语料 https://www.360docs.net/doc/217292137.html,/labs/dl/c.html 搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载 8.2002年中文网页分类训练集https://www.360docs.net/doc/217292137.html,/data/15021 2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

贝叶斯算法(文本分类算法)java源码

package com.vista; import java.io.IOException; import jeasy.analysis.MMAnalyzer; /** * 中文分词器 */ public class ChineseSpliter { /** * 对给定的文本进行中文分词 * @param text 给定的文本 * @param splitToken 用于分割的标记,如"|" * @return 分词完毕的文本 */ public static String split(String text,String splitToken) { String result = null; MMAnalyzer analyzer = new MMAnalyzer(); try { result = analyzer.segment(text, splitToken); } catch (IOException e) { e.printStackTrace(); } return result; } } 停用词处理 去掉文档中无意思的词语也是必须的一项工作,这里简单的定义了一些常见的停用词,并根据这些常用停用词在分词时进行判断。 package com.vista;

/** * 停用词处理器 * @author phinecos * */ public class StopWordsHandler { private static String stopWordsList[] ={"的", "我们","要","自己","之","将","“","”",",","(",")","后","应","到","某","后","个","是","位","新","一","两","在","中","或","有","更","好",""};//常用停用词public static boolean IsStopWord(String word) { for(int i=0;i

基于特征值提取文本分类方案

目录 一、综述 (2) (一)实现目标 (2) (二)主要功能 (2) 二、总体架构 (3) 三、各模块建模挖掘层详解 (4) (一)无监督学习模块.............................................. 错误!未定义书签。 (二)有监督学习模块.............................................. 错误!未定义书签。 四、输入层和输出层详解 (6) (一)输入层 (6) (二)输出层 (6)

基于特征值提取文本分类设计方案 一、综述 (一)实现目标 本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档,基于词频、互信息、类别信息的综合特征,从每个分类中挖掘出对应的有效特征值。 该模块还实现了对特征值的权重计算,按照特征词的权重值,构造了分类器。新增文本可以通过文本分类器进行分类,无法分类的文本可以人工分类后重新执行特征值抽取功能,重新调整特征值,从而达到优化分类器的目的。 该模块由Java编写,可用于任何需要挖掘文本主题的项目中,也可以单独使用。 (二)主要功能 该模块的主要功能包括以下几个方面: ●对原始语料库进行中文分词、去除停用词 ●词性过滤,只提取名词,动词 ●按类别进行特征词提取 ●特征词权重计算 ●文本分类

二、总体架构

三、挖掘层详解 1.文本分词 中文分词采用开源的Ansj分词工具,基于中科院的ictclas 中文分词算法,采用隐马尔科夫模型(HMM),比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。 Ansj实现了用户自定义词典的动态添加删除,当然,也支持从文件加载词典。用户自定义词典默认路径:项目目录/library/userLibrary/userLibrary.dic。格式为:[自定义词] [词性] [词频],其中[词性]和[词频]两项可以空缺不写。本项目在Ansj原本自带的词典(367425条)基础上,扩展了以下词典: 1)从数据库中抽取的电信业务词库(5767条) 2)广深东佛城市信息精选词库(来源:搜狗细胞词库)(62617条) 3)搜狗标准词库(392778条) 4)搜狗精选词库(392507条) 5)搜狗万能词库(362333条) 本模块还提供了从数据库加载词库的功能。目前整理了以下的数据库版本的词库: 1)公积金领域词(1332条) 2)医保领域词(2503条) 2.词性过滤 代词、连词、介词等的表征能力比较弱,因为一篇文本中的代词、连词或介词对于区分这个文本所属哪个领域几乎没什么参考价值。为此可以将表征能力很差的词性的词过滤掉。而名词和动词的表征能力最强,它们是文本中具有代表性的关键词项,因为大量的汉语知识表明,名词和动词是一个汉语句子中的核心部分,它们的简单组合,往往就可以表达出一种中心思想,一种主题。因此,我们只保留名词和动词,将其他词性的词作为弱词性词过滤掉。

人工智能在自动文本分类系统中的应用研究

人工智能在自动文本分类系统中的应用研究摘要:人工智能与信息社会人工智能研究的就是怎样利用机器模仿人脑从事推理规 划、设计、思考、学习等思维活动。文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。该文阐述了自动文本分类分类在利用人工智能技术设计时的必要性 和重要性,通过对当前具有代表性的分类算法原理进行分析、比较, 总结出每种算法的性 能特征, 既便于使用者了解掌握各种分类算法、更好地选择合适的算法, 又便于研究者对 算法进行研究改进, 提出性能更好的分类算法。 关键词:人工智能;分类; 文本分类; 分类方法 1 引言 数据的丰富带来了对强有力的数据分析工具的需求, 大量的数据被描述为“数据丰富, 但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中, 没有强有力的 工具, 理解它们已经远远超出了人的能力。 人工智能的一个重要支柱是数据挖掘技术。数据挖掘一开始只是一种从大规模数据库或数据仓库中提取隐藏的预测性信息的科学方法。它让人们有能力最终认识数据的真正价值,即数据中潜在的可用信息和知识。数据挖掘是数据库知识发现的核心步骤,它研究的主要目标是发展有关的方法论、理论工具,以支持从大量数据中提取有用的和让人们感兴趣的知识、模式和规则。其主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、知识分类算法、半结构化和非结构化数据中的知识发 现以及网上数据挖掘等 而分类作为数据挖掘的一种模式, 可以用于提取描述重要数据的模型, 通常是预测分 类标号( 或离散值) 。例如, 可以建立一个分类模型, 对银行贷款的安全或风险进行分 类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。 文本自动分类技术是自然语言处理的一个重要的应用领域, 是替代传统的繁杂人工分 类方法的有效手段和必然趋势,特别是随着互联网技术的发展, 网络成为人们进行信息交互和处理的最有效的平台, 各种数字化的信息每天以极高的速度增长, 面对如此巨大的信息, 人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择通过利用先进的计算机技术、人工智能技术, 不仅可以实现方便快捷的分类效果, 节省大量的人力物力, 并 且可以进一步进行更深层次的信息挖掘处理, 提高信息的利用效率。 文本分类处理的研究是计算机、信息处理领域的重要内容, 特别是随着网络技术的快 速发展, 这种应用也变得更加迫切。 2 基本概念 2.1 人工智能

相关文档
最新文档