Web文本挖掘中特征提取算法的分析及改进

合集下载

浅析Web内容挖掘技术

浅析Web内容挖掘技术
◎艺 科 论 坛 ◎
浅 析 We b内容 挖 掘 技 术
崔 敏
( 东 营 职业 学 院 教 师 教 育 学 院 , 山东 东 营 2 5 7 0 9 1 )
摘 要: 随着因特 网的飞速发展 , 各种信息可以以非常低的成 本在 网络 上获得 , 这样 因特 网的迅 速 发 展 对 万维 网信 息 的查 找 与 发 现提 出 了巨大的挑 战 。对 于大 多数 用户提 出的与主题 或领 域相 关 的查询 需求 , 传统 的通 用搜 索 引 擎往 往 不 能提 供令 人 满 意 该 词 汇 现的位 置和 卜 下 文环境 、属忡 t J ‘ 以是 布尔 型 , 根据 词 汇是 否 在 文档 中出 现而 定 , 也口 r 以有 频 度 , 即 该词 汇在 文档 中 的出现 频 率 。这种 方 法 可 以扩 展 为选 择 终 结符 、 标点 符号 、 不常用 词 汇的 属性 作 为 考察 集 合 。词 汇袋 方 法 的 一 个 弊端 是 自由文 本 中的数 据 丰 富 , 词 汇 量 非常 大 , 处理 起 来很 困难 , 为解 决这个 问题 人们 做 r 相应 的研 究 , 采取 了 不 同技 术 , 如信 息增 益, 交叉 熵 、 差异 比等 , 其 目的都是 为 了减少 属性 。另 外 , …・ 个 比较 有意 义 的方法 是潜在 语 义索 引 ( L a t e n t S e m a n t i c I n d e x i n g ) , 它 通过 分析 不 同文档 中相 同主题 的共 享词 汇 , 找 到他们 共 同 的根 , 用 这个 公共的根代替所有词汇 , 以此来减少维空问。例如: “ i n f o r m i n g ” 、 “ i n f o r m a t i o n ” 、 “ i n f o r m e r ” 、 “ i fo n r m e d ” 可 以用 他 们 的根 “ i n r f I l ” 来 表示 , 这样可以减少屙l 生集合的规模。其他的属性表示法还有词 汇在 文档 中的 出现位 置 、 层 次关 系 、 使 用短语 、 使用 术 语 、 命 名 实体 等, 目前还 没有研 究 表明一 种表 示法 明显 优于 另一种 。 4 用 资 源查 找 ( I fo n r m a t i o n R e t r i e v a 1 ) 的观 点 挖 掘 半 结 构 化

基于Web的文本挖掘研究

基于Web的文本挖掘研究

的 We b文本 。其次 , b We 在逻辑上是一个 由文档集
合 超链 接 构 成 的 图 ,因此 ,We b文 本挖 掘 所 得到 的 模 式 可 能 是 关 于 We b内 容 的 ,也可 能 是 关 于 We b
结构的。 由于 We b文本 是 一个 半 结 构化 或 无 结构 化 的 ,且 缺乏 机 器所 能 理解 的语 义 ,从 而使 有 些数 据 挖 掘 技 术 并 不适 用 于 we 掘 。 因而 ,开 发 新 的 b挖 We b文本 挖 掘技 术 以及 对 We b文本 进 行 预处 理 , 以
处 。首 先 , b 本挖 掘 的对 象是 海 量 、 构 、 布 we 文 异 分
其 中 t 词 条 项 , ; ) t在文 档 d中 的权 值 。基 ; 为 W( 为 ; d
于 We b的 文 本 挖 掘 的特 征 提 取 重 点 是 对 文 本 中 出
现 的词 汇 、 名字 、 术语 、日期 和短 语 的特征 提 取 ,目 标是 实 现 提 取过 程 的 自动 化 。事实 上 , 本 中词 汇 、 文 名字 和 日期 一般 在 文 中 出现很 多 ,因而特 征 提取 已 成 为基 于 we b文件 挖 掘 中 的一 项关 键 技 术 。

崔 志 明 谢 春 丽 ( 苏州 2 5 0 ) 10 6
要 : 基于 We b的文本挖掘是 数据挖掘 的重 要组成部分 , 文章重点对 文本特征提取 、 文本分类 、 文本聚类等
We b文本挖 掘关 键实现技术做 了介绍 , 最后讨论 了 We 文 本挖掘 的价值及 其对 We b b发展 的重要性 。 关键词 :文本挖掘 。 文本分类 。 文本 聚类 , 特征 提取
1 引言

数据挖掘技术在文本挖掘中的使用教程

数据挖掘技术在文本挖掘中的使用教程

数据挖掘技术在文本挖掘中的使用教程随着互联网的迅猛发展,大量的文本数据涌现在各个领域。

如何从这些海量的文本数据中提取有用的信息,成为了一项具有挑战性的任务。

为解决这个问题,数据挖掘技术在文本挖掘中逐渐得到了广泛应用。

本文将介绍数据挖掘技术在文本挖掘中的基本概念和常用方法,帮助读者了解如何利用数据挖掘技术进行文本挖掘。

一、文本挖掘概述文本挖掘是指从大量的文本数据中自动地提取出有用的知识和信息。

它结合了信息检索、自然语言处理和数据挖掘等多个技术领域。

对于文本挖掘任务,常见的包括文本分类、文本聚类、情感分析等。

二、数据预处理在进行文本挖掘之前,需要对文本数据进行预处理。

主要包括以下几个步骤。

1. 文本清洗:去除文本中的HTML标签、特殊符号、停用词等,只保留有意义的内容。

2. 分词:将文本切分成一个个独立的词语,便于后续处理。

3. 去除低频词:去除在整个文本数据中出现频率较低的词语,可以减少噪音带来的影响。

4. 词性标注:为每个词语标注词性,可以方便后续的特征提取和分析。

三、特征提取对于文本数据,需要将其转化为机器学习算法能够处理的特征向量。

常见的特征提取方法有以下几种。

1. 词袋模型:将文本表示为一个词语的集合,忽略了词语的顺序和语法,只关注词语的出现与否。

2. TF-IDF:考虑了词语的出现频率和在整个文本数据中的重要程度,能够更好地表示词语的信息。

3. Word2Vec:利用神经网络方法将词语映射到一个连续的向量空间中,能够更好地表示词语的语义信息。

4. 主题模型:通过对文本进行聚类分析,将文本数据归纳为若干个主题,可以更好地求解文本分类和聚类问题。

四、文本分类文本分类是将文本归类到不同的类别中的过程。

常见的文本分类算法有以下几种。

1. 朴素贝叶斯:基于贝叶斯定理和特征条件独立假设,能够快速进行文本分类,但对特征之间的关联性要求较低。

2. 支持向量机:通过在特征空间中找到一个超平面,将不同的类别分开,能够处理高维空间的文本分类问题。

文本特征提取方法

文本特征提取方法

/u2/80678/showart_1931389.html一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。

文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。

文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。

传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。

所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。

在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。

文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。

使计算机能够通过对这种模型的计算和操作来实现对文本的识别。

由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。

目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。

这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。

因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。

为了解决这个问题,最有效的办法就是通过特征选择来降维。

目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。

文本特征提取以及分类结果分析

文本特征提取以及分类结果分析

文本特征提取以及分类结果分析文本特征提取是文本挖掘领域的重要任务,通过对文本中的特征进行提取和表示,能够实现对文本的分类、聚类、情感分析等任务。

本文将介绍文本特征提取的常见方法,并利用这些特征进行文本分类,并对分类结果进行分析。

一、文本特征提取方法1.词袋模型(Bag of Words)词袋模型是文本特征提取的基本方法,它将一篇文本表示为一个词频向量。

首先对文本进行分词处理,然后统计每个词在文本中出现的频率,最后将每个词的频率作为特征,构成一个向量。

2.TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征提取方法,对于每个词,它结合了在文本中出现的频率和在整个语料库中出现的频率。

TF(词频)表示词在文本中的频率,而IDF (逆文档频率)表示词在整个语料库中的频率。

TF-IDF的计算公式为:TF-IDF = TF * log(N / IDF),其中N表示语料库中的文档数。

3. Word2VecWord2Vec是一种通过训练神经网络从文本中学习词的向量表示的方法。

它能够将每个词映射到一个固定维度的实数向量,使得具有相似语义的词在向量空间中距离较近。

Word2Vec的训练方法有两种:CBOW (Continuous Bag of Words)和Skip-gram。

4. GloVeGloVe(Global Vectors for Word Representation)是一种利用全局语料统计信息来进行词向量训练的方法。

与Word2Vec类似,GloVe也能够将词转化为固定维度的实数向量,但是在计算上更加高效。

二、文本分类1.特征表示上述介绍的文本特征提取方法可以用于构建文本的特征表示。

通过选择合适的特征提取方法,可以有效地提取文本中的关键信息,帮助模型区分不同的类别。

2.模型训练常见的文本分类方法有朴素贝叶斯、支持向量机(SVM)、随机森林、神经网络等。

文本挖掘与自然语言处理的基础原理与实践

文本挖掘与自然语言处理的基础原理与实践

文本挖掘与自然语言处理的基础原理与实践第一章:文本挖掘的基础原理文本挖掘是一种从大量文本数据中自动发现隐藏的知识和信息的技术。

它结合了信息检索、机器学习、数据挖掘和自然语言处理等领域的理论与方法。

在文本挖掘中,有几个基础的原理需要掌握。

1. 文本预处理文本预处理是文本挖掘的第一步,目的是将原始的文本数据转化为可供分析的结构化数据。

包括去除噪声、标准化文本格式、分词、去除停用词等操作。

2. 特征提取特征提取是指从文本数据中提取出有用的特征。

常见的特征包括词频、逆文档频率、TF-IDF等。

特征提取的目的是降维,减少分析的维度,提高算法的效率。

3. 文本分类与聚类文本分类是将文本按照一定的标准进行分类的过程,常用的算法包括朴素贝叶斯、支持向量机等。

文本聚类是将文本按照相似性进行聚类的过程,常用的算法包括K-means、层次聚类等。

4. 关键词提取与摘要生成关键词提取是从文本中自动提取出能够反映文本主题的关键词,常用的算法包括TF-IDF、TextRank等。

摘要生成是将一篇文本自动化地缩减为几个句子的过程,常用的算法包括TextRank、LDA 等。

第二章:自然语言处理的基础原理自然语言处理是一种研究如何将计算机与人的自然语言进行交互的技术。

它涉及到文本分析、词法分析、句法分析、语义分析等多个方面。

1. 词法分析词法分析是指将一个句子的单词按照一定的规则进行分词和词性标注的过程。

常见的词法分析技术包括正则表达式、最大匹配算法等。

2. 句法分析句法分析是指将一个句子的词汇按照一定的语法规则进行语法结构的分析。

常见的句法分析技术包括基于规则的句法分析和统计句法分析。

3. 语义分析语义分析是指对一个句子进行词义的理解与判断。

常见的语义分析技术包括词义消歧、语义角色标注等。

4. 机器翻译机器翻译是指将一种语言的文本自动翻译成另一种语言的过程。

常见的机器翻译技术包括基于规则的机器翻译和统计机器翻译。

第三章:文本挖掘与自然语言处理的实践文本挖掘与自然语言处理的实践是指将上述的理论与方法运用到具体的项目中去。

文本挖掘的方法与应用技巧研究

文本挖掘的方法与应用技巧研究文本挖掘是一种从大规模的文本数据中获取有用信息的技术,通过用计算机自动化方式对文本数据进行处理和分析,可以帮助人们发现隐藏在海量文本中的规律、模式和关联。

随着互联网的快速发展和信息爆炸的到来,文本挖掘的重要性和应用价值也日益凸显。

一、文本挖掘的方法1. 数据清洗:文本挖掘的第一步是对原始的文本数据进行清洗和预处理。

包括去除噪声数据、标记化、分词、过滤停用词和词干提取等。

清洗后的数据能够更好地应用于后续的文本挖掘任务。

2. 文本分类:文本分类是文本挖掘中最常见和基础的任务之一。

它利用机器学习和自然语言处理技术,将文本数据划分到预先定义的类别中。

常用的分类算法包括朴素贝叶斯、支持向量机和深度学习等。

3. 文本聚类:与文本分类相似,文本聚类是将文本数据划分为不同的组别。

不同之处在于,文本聚类是通过计算文本数据之间的相似度来实现的,不需要预定义的类别。

常用的聚类算法包括K-means、层次聚类和谱聚类等。

4. 情感分析:情感分析是一种对文本中所表达的情感倾向进行评估和分析的技术。

它可以帮助企业了解用户的情感需求和情绪变化,用于产品改进、舆情监测等应用场景。

情感分析常用的方法包括基于规则的方法、基于机器学习的方法和基于深度学习的方法等。

5. 关键词抽取:关键词抽取是从文本中自动识别和提取出能够表达该文本主题的关键词的过程。

常用的关键词抽取算法包括TF-IDF、TextRank 和基于深度学习的方法等。

二、文本挖掘的应用技巧1. 建立领域词表:在文本挖掘的过程中,建立一个专业领域的词表对于提高挖掘效果非常重要。

通过收集相关领域的专业术语和关键词,并根据其在文本中的频率和重要性进行权重计算,可以建立一个较为完整和准确的领域词表。

2. 特征选择:为了提高文本挖掘的准确性和效率,选择合适的特征是非常重要的。

可以通过使用统计学方法,如卡方检验和互信息等,来选择与目标挖掘任务相关的特征。

3. 多模态数据挖掘:在文本挖掘中,除了利用文本数据,还可以结合其他多模态的数据进行分析和挖掘,如图像、音频、视频等。

面向Web的数据挖掘技术

面向Web的数据挖掘技术[摘要] 随着internet的发展,web数据挖掘有着越来越广泛的应用,web数据挖掘是数据挖掘技术在web信息集合上的应用。

本文阐述了web数据挖掘的定义、特点和分类,并对web数据挖掘中使用的技术及应用前景进行了探讨。

[关键词] 数据挖掘web挖掘路径分析电子商务一、引言近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。

数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。

可以发现有用的知识,从而为决策支持提供有力的依据。

web目前已成为信息发布、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。

它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。

面向web的数据挖掘就是利用数据挖掘技术从web文档及web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。

二、概述1.数据挖掘的基本概念数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。

数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet 信息库以及新兴的数据仓库等。

2.web数据挖掘web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。

web上的数据最大特点就是半结构化。

所谓半结构化是相对于完全结构化的传统数据库的数据而言。

由于web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为web挖掘所要解决的一个难点,也使得用于web的挖掘技术不能照搬用于数据库的挖掘技术。

因此,开发新的web挖掘技术以及对web文档进行预处理以得到关于文档的特征表示,便成为web挖掘的重点。

文本挖掘的基本原理与实践

文本挖掘的基本原理与实践文本挖掘是一种利用自然语言处理、机器学习和统计学等技术,从大规模文本数据中提取有用信息的方法。

它可以帮助我们发现隐藏在海量文本背后的模式和趋势,为决策和研究提供支持。

本文将介绍文本挖掘的基本原理和实践方法。

一、文本预处理在进行文本挖掘之前,首先需要对文本进行预处理。

预处理包括去除停用词、分词、词性标注等步骤。

去除停用词是为了去除那些在文本中频繁出现但对文本主题没有贡献的常见词,如“的”、“是”等。

分词是将文本划分为一个个独立的词语,便于后续处理。

词性标注是为了标注每个词语的词性,如名词、动词等。

二、特征提取特征提取是文本挖掘的关键步骤之一。

在文本挖掘中,文本数据需要转化为可供机器学习算法处理的数值型特征。

常用的特征提取方法包括词袋模型和TF-IDF。

词袋模型将文本表示为一个词语的集合,忽略词语的顺序和语法信息。

TF-IDF是一种衡量一个词语在文本中重要性的方法,它考虑了词语在文本中的频率和在整个语料库中的频率。

三、文本分类文本分类是文本挖掘的一个重要应用。

它将文本分为不同的类别,如垃圾邮件分类、情感分析等。

文本分类通常使用机器学习算法,如朴素贝叶斯、支持向量机等。

在文本分类中,需要将文本转化为特征向量,然后使用训练数据训练分类器模型,最后使用该模型对新的文本进行分类。

四、关键词提取关键词提取是文本挖掘的另一个重要任务。

它可以从文本中自动提取出最具代表性的关键词。

常用的关键词提取方法包括基于统计的方法和基于图的方法。

基于统计的方法通过计算词语在文本中的频率和重要性来提取关键词。

基于图的方法则通过构建词语之间的关系图,利用图算法来提取关键词。

五、主题建模主题建模是一种将文本数据分解为多个主题的方法。

主题是一组相关的词语,代表了文本的主题内容。

主题建模可以帮助我们理解文本的隐含结构和主题分布。

常用的主题建模方法包括潜在语义分析(LSA)、隐含狄利克雷分布(LDA)等。

这些方法通过对文本进行数学建模,将文本转化为主题-词语分布和文档-主题分布的表示。

基于概念集和粗集的中文Web文本挖掘特征提取的研究

维普资讯
2 0 年第 2期 0于概念集和粗集的中文 We 文本挖掘特征提取的研究 b
庄世芳 ,林世 平 ,陈旭晖 ,苏芳 仲
( 州 大 学 教 学 与 计 算 机 科 学 学 院 ,福 建 福 州 30 0 ) 福 50 2
【 摘 要 】 本 文 引入 Ho Ne 本 体 论 , 为 中文 W e 本 特 征 向 量 集 映 射 到 概 念 集特 征 向 量 的 背 景 知 识 。 现特 w t 作 b文 实

k‘ g而

( uo t et aeo zt n 。 是 利 用 计 算 机 对 大 量 的 自然 语 A t i T x tgr a o、就 ma c C ii CHlF =乞 P C ) G) () (i ( i 言 文本 集 按 照 一 定 的 分 类 体 系 或 标 准 进 行 自动 分 类 。 文 本 分类 2 2基 于 概 念 的 向 量 空 间 的 转 换 . 可 以应 用 于 信 息 检 索 、 器 翻译 、 机 自动 文 摘 、 息 过 滤 、 件 过 滤 信 邮 采 用 概念 空 间 来描 述 文 档 特 征 . 主要 是 出 于 文 本 挖 掘 下 一 等 诸 多 领 域 。 文 本 聚 类则 是 一 种 无 监 督 的 自动 学 习 过 程 . 而 与分
征 提 取 ; 时将 粗 糙 集 理 论 应 用于 特 征子 集 的 选取 , 为 一 种 尝 试 。最后 , 过 实验 , 测 表 明 了 两种 技 术 较 之 传 统 评 估 同 作 通 评 函数 法 在 文 本 聚 类 和 分 类应 用上 的优 势 。
【 键 词 】 w e 本 挖 掘 , 统 计 , 念 映射 , 糙 集 关 b文 概 粗
1 弓言 l
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 文本特征项提取
在目前所采用的文档表示方法中 , 存在一个共同的不合人意的地方是文档特征向量具有惊人的维 数 , 使特征子集的选取成为 Web 文本挖掘过程中必不可少的一个环节. 特征提取即进行维数压缩的工 作 , 这样做的目的主要有 : ①提高程序效率和运行速度 ; ②提高分类精度 , 快速筛选出针对该类的特 征项集合.
λi ( i = 1 , 2 , . . . , r) , σi 为 A 的奇异值.
在奇异值分解理论中 , 真正起作用是它的简化形式 , 即若设 Ur , Vr 分别表示 U , V 的前 r 列构成的
矩阵 , 则
A
=
U
r
DrV
T r
,

A
= σ1 u1 v1T
+ σ2 u2 v2T + . . .
收稿日期 : 2004 - 10 - 15 作者简介 : 张脂平 (1980 - ) , 女 , 硕士研究生. 基金项目 : 福建省自然科学基金资助项目 (A0110009) ; 福建省教育厅科研基金项目 (JB03026) ; 福州大学科技发展基
金资助项目 (2002 - XQ - 21)
·64 ·
的 ; yp 是与 y1 , y2 , …, yp- 1 不相关的 , 在 t1 , t2 , …, tm 的一切线性组合中方差最大的. 分别称 y1 , y2 ,
…, yp 为原始随机变量的第一个 , 第二个 , …, 第 p 个主成分. 即满足 a1T = 1 的条件下 , 使得主成分 y1
∑ 的方差 Var ( y1 ) = a1T a1 达到最大 , 其它主成分可依次求出.
福州大学学报 (自然科学版)
Байду номын сангаас
第 32 卷
1. 1 独立评估方法 基于词间关系相互独立的基本假设 (正交假设) , 对特征进行权值调整有多种标准 : 互信息[3] 、期望
交叉熵[4] 、信息增益[5] 等. 1) 词和类别的互信息量. 初始情况下 , 该特征项集合包含所有该类中出现的词. 对于每个词 , 计
T k
的第
k
行向量.
4 运用 SVD 方法的实验结果
随着 Internet 及其相关技术的快速发展 , WWW 已经成为最大的信息积聚地. 在这个分布式信息空 间中蕴涵着具有巨大潜在价值的知识 , 迅速 、有效地从这些海量数据源 (主要是异质 、非结构化数据集 合) 中发现有用的知识或者模式已经成为信息服务领域中的重要问题. Web 挖掘[1] 就是对文档的内容 、 可利用资源的使用以及资源之间的关系进行分析 , 发现有效的 、新颖的 、有潜在价值的 、并且最终可理 解的模式和规则. 本研究描述了文本挖掘[2] 中较有代表性的几种特征提取方法 , 分析了每种方法的特 点并提出了改进方法.
算词和类别的互信息量 :
∑j p ( Cj ) log
P ( W Cj ) P( W)
其中 : P ( W Cj ) =
V
∑ 1 + ∑ ∑ +
D
i =1 V
s=1
N ( W , di )
D
; P(W
i = 1 N ( Ws , di )
Cj ) 为 W 在 Cj 中出现的比重 ;
D 为该类
∑ ∑ 的训练文本数 ; N ( W , di ) 为词 W 在 di 中的词频 , V 为总词数 ;
据如下两条原则进行系数 aij 的选择 : ① yi 和 yj ( i ≠j , i , j = 1 , 2 , …, p) 互不相关 ; ② y1 是 t1 , t2 ,
…, tm 的一切线性组合中方差最大的 ; y2 是与 y1 不相关的在 t1 , t2 , …, tm 的一切线性组合中方差最大
分对其起作用的原始特征 , 达到特征选择的目的.
2 特征提取方法的特点分析
所述独立评估方法都是在假设每个特征独立的情况下 , 对各个单词进行计算其权值的 , 而且只能 应用于有类别指导的情况下.
主成分分析法就没有这些条件限制 , 它基于这样的思想 : 根据相关性的大小将变量分组 , 使同组内 的变量之间相关性较高 , 但不同组的变量相关性较低. 由此 , 可以认为 , 每组变量代表一个基本结构 (因子) , 它们可以反映问题的一个方面 , 或者说一个维度. 即将分散在一组变量上的信息集中到某几个 综合指标 (主成分) 上的探索性统计分析方法. 主成分分析法适用的场合往往是一些多变量大样本的情 形 , 在文本挖掘中的样本一般选为文本 , 变量即所选取的特征词条. 因此应用这种方法也有很严格的条 件限制.
+
σ r
u
r
vTr
,
上式即为近似计算的依据.
在实际应用
中 , r 的值可能较大 , 处理起来不方便 , 通常用 Ak = σ1 u1 v1T + σ2 u2 v2T + . . . . . . + σk ukvTk ( k ≤ r) 来近似
A , 这就是降维思想的理论基础 , 这样近似计算的误差可用矩阵 A - Ak 的范数来描述 , 通常选择
增刊
张脂平 , 等 : Web 文本挖掘中特征提取算法的分析及改进
·65 ·
分上的载荷. 而实际上载荷往往是指 ( ai1
λ1 , ai2
λ2 ,
…, aip
λ p
)
,
它是第
i
个变量在各个标准化主
成分上的载荷. 通过分析载荷矩阵的具体形式 , 可以得到各个主成分对每个原始指标的贡献 , 因而可以
利用载荷的分析进行特征选择 , 保留那些有多个主成分对其起作用的原始指标 , 而剔除只有少数主成
此 , 可以采用一种综合评估方法对这些高维的 、彼此间不独立的原始特征集中进行变换 , 得到较少的描
述这些特征的综合指标. 主要有主成分分析方法 :
原始特征和主成分之间的映射关系可解释为每个主成分是原始特征的线性组合. 一般设文档 D 表
示为一个 m 维向量 : D = ( t1 , t2 , …, tm ) ′, 主成分 Y表示为一个 p 维向量 : Y = ( y1 , y2 , …, yp ) ′. 根
Frobenius 范数或 2 - 范数 , 即 ‖A - Ak ‖F =
σ2 k +1
+
… + σ2r ,
‖A -
Ak ‖2
= σk+1 .
第 j 篇文档向量 dj
对应 A 的第 j 列 , 因为 Ak
=
Uk
Dk
V
T k
]
xi
=
ui1 F1
+
ui2 F2 . . .
+
uik Fk , 其中
Fk

DkV
i
P ( Ci
W)
log P ( Ci W) P ( Ci )
+
P( W)
i
P ( Ci
W)
log P ( Ci W ) P ( Ci )
信息增益与期望交叉熵唯一的不同之处在于考虑了单词未发生的情况.
1. 2 综合评估方法
文本中出现的词往往存在一定的相关性 , 即出现斜交情况 , 在某种程度上会影响计算的结果. 因
主成分分析是利用载荷的分析进行特征选择 , 保留那些有多个主成分对其起作用的原始指标 , 而 剔除只有少数主成分对其起作用的原始特征 , 达到特征选择的目的. 利用这个思想 , 提出了基于矩阵理 论中的“奇异值分解”技术的特征提取方法.
3 矩阵的奇异值分解理论及其在特征提取中的应用
对任意 Am×n 矩阵都可以进行奇异值分解[6] , 设 A 是任意一个 m ×n 实矩阵 , AT 表示 A 的转置矩阵 , r ( A) 表示 A 的秩 , 则存在一个 m 阶正交阵 U , m ×n 广义对角阵 D , n 阶正交阵 V , 使 A = UDVT , 设 r ( A) = r , A T A 为 n 阶对称阵 , A T A 的特征值为λ1 ≥λ2 ≥,. . . , ≥λr > 0 , λr+1 = . . . = λn = 0 , σi =
第 32 卷 增刊 2004 年 12 月
福州大学学报 (自然科学版)
Journal of Fuzhou University(Natural Science)
Vol. 32 Supp. Dec. 2004
文章编号 :1000 - 2243 (2004) 增刊 - 0063 - 04
Web 文本挖掘中特征提取算法的分析及改进
V s=1
D i =1
N ( Ws , di ) 为该类所有
词的词频和.
而 P ( W) 同上面的计算公式相同 , 只是计算词在所有训练文本中的比重 , 其中 D 为全体训练文
本数.
2) 期望交叉熵 :
∑ CrossEntry Txt ( W) = I ( C , W) = I ( W , C)
=
P( W)
张脂平 , 林世平
(福州大学数学与计算机科学学院 , 福建 福州 350002)
摘要 : 介绍 Web 文本挖掘的定义 , 描述几种特征提取方法及特点 , 并在主成分分析的基础上提出了 SVD 方
法 , 进一步提高了 Web 文本的处理效率 , 为文本的分类 、聚类以及其它处理提供了简练的特征表示方法.
ZHANG Zhi - ping , LIN Shi - ping
(College of Mathematics and Computer Science , Fuzhou University , Fuzhou , Fujian 350002 , China)
Abstract: Introduced the definition related to Web text mining , described several feature extraction method , and deduced the SVD method based on principal component analysis , which improved the effi2 ciency of dealing with text , gave much better way to classify , cluster and other processing. The experim2 ents show the method well active in feature dimension reduction. Keywords : Web text mining ; feature extraction ; principal component analysis ; SVD
相关文档
最新文档