海量中文文本的特征提取(终稿)

海量中文文本的特征提取

吴春尧张海军杨炳儒

(北京科技大学信息工程学院100083)

(wuchunyao@https://www.360docs.net/doc/189193325.html,)

FEATURE EXTRACTION ON MAGNANIMITY CHINESE TEXT

Wu Chunyao, Zhang Haijun and Yang Bingru

(Information Engineering College, University of Science & Technology of Beijing, 100083)

Abstract This paper has developed a special model with magnanimity Chinese text feature extraction. The goal of model is to draw the common features of certain class along with its weight. The model contains four parts: DIDF, CIDF, FC, LD. The feature extraction model can balance the conflict among four parts. This paper has given the crucial parameter of model: Classification minimum document occurrence (Pmin), minimum relative confidence (Cmin), maximum classification occur occurrence (Pmax), minimum centralized degree (FCmin). Its classification precision reach 87.34% when the recalling rate is set to 95%.higher more 10 percent then TD-IDF method under same condition.

Key words text classification, feature extraction, magnanimity data, data balance

摘要:本文针对海量中文文本提出了专门的特征提取模型。目标在于提取出某个类别的共同特征,并且评价各个特征权重。模型包含四部分:文档DIDF、类别CIDF、特征的类别集中度FC、长度分布因子LD。模型能够很好平衡了各个指标之间彼此相互影响。本文给出了关键参数:类别最小文档发生数量Pmin、最小相对可信度Cmin、最大类别发生数量Pmax、最小加权集中度FCmin四项最优值。在召回率95%下,其分类准确度达到87。34%;比同样条件下TD-IDF方法提高了10多个百分点。

关键词特征提取文本分类,海量数据处理,数据去躁,数据平衡

中图法分类号TP191.12

1.引言

随着互联网的普及,文本自动分类越来越成为具有实用价值的关键技术。文本的特征提取是个被讨论比较多的问题,目前也是个研究热点]4

1[-,已经提出了诸多的方法]9

5[-,但至今没有很好的被解决。相对于普遍意义的特征提取,海量中文文本有着其自身的特点:一、噪声问题。由于海量文本数量巨大,用近似的粗分类作为的分类样例,造成了大量的噪声;二、类别之间的文章数量不平衡以及类别内部可再分性。三、文章的长度参差不齐。长文比短文有更好的覆盖率。综上,有必要针对于海量中文文本专门研究相应的特征提取方法。

本文组织如下:第2节介绍目前各种文本特征提取方法,重点提出了海量中文文本特征提取模型。第3节详述的实验的设置。第4节对参数选择方法以及实验结果做了详细分析。最后,模型存在的问题及可能的改进。

2.文本特征提取方法

2.1.常用文本的特征提取方法

比较常用的有信息增益(Information Gain) ]5[、CHI

统计]6[、互信息(Mutual Information) ]7[分别从不同侧面对特征提取做了评价,但对于海量文本并不适合。

2.2.海量中文文本特征提取模型

本文提出了海量中文文本特征提取模型,包含四部分:文档IDF、类别IDF、特征的类别集中度FC、长度分布因子LD。

2.2.1.

文档DIDF

定义1 文档DIDF :N 为训练文本的总数,n 为训练文本集中出现特征t 的文本数,那么,对于特征t 的文档DIDF 值:

DIDF (t )=∑++2

)dd /log()dd /log(t

t n

N n N dd 为平衡参数,

分母为归一化因子。 (1) 文档DIDF 相当于是传统的TD-IDF 的IDF 值]

9[,

是一个与文档相关的特征提取量,文档DIDF 是一个与文档所在类别无的全局统计量,适合于提取专属于某个文档的特征, 2.2.2.

类别CIDF

文档DIDF 值很适合提取文档的专有特征,并不利于提取总体类别的特征,某些特征在某一类别中的不同

文档频繁出现,然而其文档DIDF 值并不是很高,因此,本文提出了类别CIDF 的概念。

定义2 类别CIDF :M 为训练文本的类别总数,m

为训练文本集中出现t 的类别数,那么,对于特征t 的类

别CIDF 值:

CIDF (t )=∑

++2)

cc m /M log()

cc m /M log(t

t ,cc 为平衡参数,分母为归一化因子。 (2)

类别CIDF 很好的解决了同一类别的共同特征的问题,而且并不与文档IDF 值相对立。换句话说,某一特征的CIDF 获得了最大,其DIDF 也可以获得最大,这种情况常常出现在某个特征仅仅出现在某一类别的某篇文章中。 2.2.3.

特征的类别集中度FC

以上两个特征依旧没有彻底解决同一类别的共同特征的问题。我们希望让这样的特征获得很大的权重:某个类别中大部分文档都共同存在,而其他类别存在较少。显然,以上两个参数并没有解决这个问题。

对于一个大的类别中很容易出现彼此不相重合的小类别,既然特征提取的目的是尽量提取出类别的公共特征,那么,这样的特征也应该获得很高的权重,

特征的类别集中度FC 包含两部分:集中度的相对可信度C1和集中度的相对可信度C2。

设Ft 为特征t 在类别i 中出现的文档数,Ci 为类别i 的总文档数,Ct 为特征t 的出现的所有文档数。

定义3 集中度的相对可信度C1:特征t 在类别i 中的相对可信度C1(t ,i)为:

C1(t ,i) =Ft/Ci ;

定义4 集中度的绝对可信度C2:特征t 在类别i 中的绝对可信度C2(t ,i) 为:

C2(t ,i)=Ft/Ct ;

定义5特征的类别集中度FC : 特征t 在类别i 中的类别集中度FC(t ,i) 为:

FC(t ,i)=

∑i)

C2(t,*i)C1(t,i)

C2(t,*i)C1(t,,分母为对所有

特征的归一化因子。 (3)

从这个公式可以看出,在某个特征很集中的类别中,这项参数获得了很高的值。

这项指标从另一个侧面更细化的评价了特征作为某个类别关键特征的重要程度。

2.2.4. 长度分布因子LD

海量中文文本的文档长度极其不平衡,为了平衡这

个因素,提出里长度分布因子的概念。

定义6长度分布因子LD :H 为某训练文本的总词

数,h 为训练文本集中出现特征t 的词数,特征t 在文本

中出现的概率P(t)=H

h t

分母为归一化因子,特征t 在文档d 中的长度因子LD(d)的定义为:

LD(t ,d)=

∑P(t)

P(t)

,分母为对文档中所有特征

的归一化因子。 (4)

需要说明的是,长度分布因子LD 并不作为全局评价标准。 2.2.5.

中心特征向量的权重评价

本文使用向量空间模型 (VSM)作为文本的表示模型]

8[(见3.2.1),每个类别使用一个向量,所有待分类文本,通过与这一向量进行比较,计算相似度,这种方法常常被称作中心向量法。在不同的类别当中各个分类的向量和权重各不相同,我们称这个向量为中心特征向量。

根据上述的公式,海量中文文本提取模型中,中心特征权重是这样计算的。特征t 在类别i 中的中心特征权重CW 为:

CW(t,i)=DIDF(t)*CIDF(t)*FC(t,i)

DIDF、CIDF、FC为上面分别提出的定义,试验表明,模型获得了很好的特征提取能力,实现了强化类别中主要特征的分类思想。

3.实验设置

3.1.web文本分类的一般过程

自动文本分类的一般过程如下(见图1):

Fig.1 The course of text classification

图1 文本分类的过程

训练文本:对文本进行预处理,如去掉一些标记。

自动分词:我们使用自行开发的分词算法,基于词典的正反向最大匹配法,并且利用概率进行消歧处理。其准确性和鲁棒性都比较好。其测试准确率在94%以上。

特征提取:通过使用本文所提供的模型对各个类别进行特征提取,去掉阈值比较低的特征,保留了各个类别的高权重的特征。

分类器:对所获得的特征作特征权重计算,使用本文所建立的模型,获得各个特征的中心特征向量,用于分类。

特征表示:获得新文本所有特征空间的所有可能特征并计算其特征的权重

分类:利用分类器中的分类特征作相似计算,计算新文本的所属的特征。

3.2.文本的表示

3.2.1.向量空间模型

目前,在信息处理中,文本的表示主要采用向量空间模型(VSM) ]10[。向量空间模型的基本思想是以向量来表示文本:(W1,W 2,W3,…,Wn),其中Wi为第i个特征项的权重。一般可以选择字、词或词组。根据实验结果,普遍认为选取词作为特征项要优于字和词组,我们使用分词算法获得的词串作为待评价特征,由这些词作为向量来表示文本。常用的计算方法主要运用TF-IDF公式。目前存在多种TF-IDF公式,

W(t,d)=

∑+

+

]

)

01

.0

/

log(

*)

,(

[

)

01

.0

/

log(

*

d)

tf(t,

2

t

t

n

N

d

t

tf

n

N

(5)

其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为训练文本的总数,n为训练文本集中出现t的文本数,分母为归一化因子。3.2.2.海量中文文本的特征表示模型

本文使用海量中文本文的特征表示模型,根据上节的论述,具体如下:

W(t,i)=

∑2i)]

CW(t,

*

d)

LD(t,

[

i)

CW(t,

*

d)

LD(t,

(6)

LD为特征t在文档d中的长度分布因子,CW为向量t在类别i中的中心特征向量权重,分母为归一化因子。

3.3.分类器

本实验所用的分类器为中心向量法,即每个类别使用一个向量作为分类比较依据,新文本的特征与每个中心向量进行夹角余弦相似计算,相似度最高的类别即为所属类别。

3.4.实验的数据集

我们使用商品购物搜索引擎的数据作为测试数据,其数据量巨大,符合我们模型的海量的要求。目前我们掌握的数据量达到229万的商品条目,搜索得到的数据源已经进行了分类,由于各个数据来源的不同,各个购物网站的分类粗细不同,分类规则也有很大的差别,通过人工统一分类规则,样本数据的分成90类。这个数据集的数据分布极不平衡,最大的是图书总共有2149080篇文档,5000篇以上的有8类,有1-10片文章的类别共有6类。这个数据集的另一个特点是:很多类别的数据彼此交叉,比如:图书和收藏品,收藏品中有很大一部分是旧书。文档的分类是依靠抓取程序自动来完成的,存在着很多错误的分类。这个的数据集,为海量中文文本特征提取模型提供了很好的验证数据源。

4.参数设定及实验分析

4.1.试验参数设定

在海量中文文本特征提取模型中,设定了多项固定参数作为阈值,用于解决噪声、数据类别的不平衡、样

本本身的分类歧义等问题。下面根据试验详细说明阈值的选定。

4.1.1.噪声控制

噪声控制参数有以下几个:类别最小文档发生数量Pmin、最小相对可信度Cmin、最大类别发生数量Pmax、最小加权集中度FCmin。

类别最小文档发生数量Pmin:设Ft为特征t在类别i中出现的文档数,类别最小文档发生数量为一固定整数Pmin,当Ft

部分少量样本文本被错误地进行了分类,对于数量少的类别中却很明显,Pmin一定程度上,会解决小类别样例分类错误噪声问题。根据试验,我们对现有的数据集得出的Pmin合理参数是2。

最小相对可信度Cmin:源于集中度的相对可信度C1(t,i) ,最小相对可信度Cmax为一小数,当C1(t,i)< Cmin时,该特征t不做为特征处理。

对于大类别也存在类别噪声问题,引入了最小相对可信度Cmax的概念,一定程度上控制了大类别中可能出现的不属于该类别的小部分数据。根据试验,我们对现有的数据集得出的Cmin合理参数是0.01。

最大类别发生数量Pmax:m为训练文本集中出现特征t的类别数,Pmax为固定整数Pmax,当m>Pmax 时,该特征t不做为特征处理。常见信息检索得停用词(如:的、地、得)很容易用这个参数过滤掉,实验可知Pmax值设为6比较合理。

最小加权集中度FCmin :对应于特征的类别集中度FC, 当FC(t,i)< FCmin时该特征不作处理。

FCmin对特征的类别集中度FC的最小值的控制,对词条是否作为特征起了关键的评价作用。FCmin的大小选择对影响数据中的不平衡因素造成的影响也产生影响,过大的FCmin会丢掉一些共属多类的特征, 过小的FCmin无法去除常用的词条的影响。实验获得合适的FCmin值为0.005,见图2。

Fig 2 the relation between precision and Fmin

图2 FCmin与准确率的关系4.1.2.平衡参数

平衡参数用于对数据的光滑处理使用,本模型有两个平衡参数:CIDF平衡参数cc、DIDF平衡参数dd。调整平衡参数可以避免零结果,这项参数的选择业要考虑对原有的数据产生的影响,使其降到最低。

通常的选择是平衡参数在0.01-0.0001之间,就我们的具体应用而言CIDF平衡参数cc是对类别的处理,而类别并不是一个很大的数值(最大90),通过试验选取cc 为0.001;DIDF中的文档数量相当庞大(200万),对其平衡参数dd选择了相对大的数值0。1,通过试验对识别精度的影响不大,这里不再列出试验结果。

4.2.试验结果分析

4.2.1.特征提取参数分析

我们对数据集内所有文档做了数据预处理、自动分词后,获得100万个的不重复字符串分割(词条),保留了2-7字的汉字词汇,通过词频统计,去掉词频数低于2的词,获得了188738条词汇用来做进一步的特征评价。通过我们海量中文文本特征提取模型,提取出了全部特征数量为140186,比原始空间减少了25。43%。

我们对全部90类的特征进行了提取,直观上特征提取结果和权值评价符合我们设想的结果。

4.2.2.分类结果评价

为评价分类效果,使用通用的性能评价方法:召回率R(Recall)、准确率P(Precision)和F1评价。

我们设定了个相似度阈值作为评价试验参数,根据

Fig 3 the influence of similarity threshold

图3 相似度阈值对准确率的影响

应用目的不同,可以选取不同的参数阈值作为使用标准,

图3是有关相似度阈值的实验。

我们设定的相似度阈值为0.018,总体的准确率达到87。34%,召回率95%。

使用传统的TD-IDF方法同样的对比试验表明,同样的试验条件下以及召回率下,TD-IDF方法获得的准确率75。32%,提高了10几个百分点。

5.结论

本文提出了特征提取方法,一定程度上解决了海量数据问题出现的特殊现象,对于web大量的文本特征提取分类,有很强的推广意义。目前的模型分类效果比以前的方法有所的提高,但是仍然有改进的空间,比如:数据源的本身的错误分类问题、不平衡的问题有可能通过对数据源的聚类来解决,特征也可以使用词对代替词会有更好的代表性,这部分的后续研究有待继续。

参考文献

[1]Selamat Ali,Omatu。Sigeru Web page feature

selection and classification using neural networks。

Information Sciences

Volume:158,January,2004,pp.69-88

[2]Casillas J,Cordón O,Del Jesus M J,Herrera

F.Genetic feature selection in a fuzzy rule-based

classification system learning process for

high-dimensional https://www.360docs.net/doc/189193325.html,rmation Sciences

Volume:136,Issue:1-4,August,2001,pp.135-157 [3]Tsymbal Alexey,Puuronen Seppo,Patterson David

W.Ensemble feature selection with the simple

Bayesian classification .Information Fusion.Volume

4 Issue 2 June 2003 pp87-100

[4]Mladenic Dunja,Grobelnik.Marko Feature selection

on hierarchy of web documents.Decision Support

Systems Volume:35 Issue 1 April 2003 pp45-87 [5]Tom Mitchell. Machine Learning. McCraw Hill

1996.

[6]T.E.Dunning. Accurate methods or the statistics of

surprise and coincidence . Computational

Lingguistices Volume 19:1 page 61-74 1993.

[7]Kenneth Ward Church,Patric Khands.Word

association norms,Mutual informaion and

lexicography in: Proceedings of ACL27, pages

76-83

[8]Y.Yang. A Comparative Study on Feature Selection

in Text Categorization . Proceeding of the

Fourtheenth International Conference on Machine

Learening (ICML'97) 412-420 1997

[9]Y.Yang and X.Liu. Are examination of text

categorization methods. Proceedings 22nd Annual

International ACM SIGIR Conference on Research

and Developmention Information Retrieval

[10]Dash M,Liu H.Feature Selection for

Classification.Intelligent Data Analysis

Volume:1,Issue:1-4,1997, pp.

Wu Chunyao. Male. Born in 1970. PhD candidate. Research interest: statistical language model, Chinese word segment, parsing, text classification, chatbot.

吴春尧,男,1970年生,北京科技大学计算机应用博士研究生,研究方向:统计语言模型,自动分词,语法分析,文本分类,聊天机器人,全文检索。

Zhang Haijun. Male. Born in 1974. PhD candidate. research interest: image handling

张海军男,1974年生,博士生,从事图像处理。

Yang Bingru. Male. Born in 1943. Doctor advisor.

杨炳儒,男,1943年生,博士生导师,研究方向知识发现与智能系统;柔性建模与集成技术。

Research Background

Knowledge Engineer institute (https://www.360docs.net/doc/189193325.html,/kdd) cooperated with the Chinese biggest shopping search engine (https://www.360docs.net/doc/189193325.html,) to study classification method about shopping. This paper is the sub problem in the project. The data of shopping is complex and it is difficult of automatic classification difficulty. The feature extraction model in this paper increase classifies precision in some extent. The feature research can focus on two fields: Cluster can break the large class to balance data; Word is replaced with Word pair as feature to get more information.

联系人:吴春尧北京科技大学信息工程学院100083 北京市海淀区学院路30号

e_mail:wuchunyao@https://www.360docs.net/doc/189193325.html,

wuply@https://www.360docs.net/doc/189193325.html,

133******** 62332089 83449933

相关文档
最新文档