基于Web的文本挖掘研究
基于Web的文本分类挖掘的研究

Capital Normal University论文编码:TP181首都师范大学学士学位论文基于Web的文本分类挖掘的研究院系信息工程学院专业计算机科学与技术系年级2001学号1011000047指导老师刘丽珍论文作者王雪完成日期2005年6月6日中文提要文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的研究方法己经不适合大规模文本分类,文本数据挖掘应运而生。
作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点。
文本分类目的是对文本集有序组织,便于文本信息高效管理,为人的决策提供支持。
但是传统的人工分类的做法存在许多弊端,不仅是耗费大量人力、物和精力,而且受人为因素影响较大,分类结果一致性不高。
与之相比,文本自动分类具有快速、高效的特点,且分类准确率较高。
对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。
采用支持向量机技术,设计并实现了一个开放的中文文档自动分类系统。
实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和查全率。
关键词:文本挖掘文本分类支持向量机向量空间模型外文提要Text categorization appears initially for text information retrieval system; however text data increases so fast that traditional research methods have been improper for large-scale text categorization. So text data mining emerges, and text categorization becomes more and more important as a major research field of it.The purpose of text categorization is to organize text by order,so as to manage text information efficiently and support decisions of human being. However categorization by hand not only consumes plenty of manpower, material resources and energy, but also makes categorization accuracy inconsistent. Compared with categorization by hand, automatic text categorization classifies texts faster and its categorization accuracy rates higher.Introduces the techniques of text categorization, including its basic process ,the algorithms of text feature extraction ,the theories and technologies such as Naïve bayes, KNN, SVM, Voted and so on. Chinese text classification is discussed.An open Chinese document classification system using support is designed and implemented.The experiment shows that it not only improves training efficiency, but also has good precision and recall.Key wordt ext mining Text categorization Support Vector Machine(SVM)vector space model目录中文提要 ..................................................................................................................... 1外文提要 ..................................................................................................................... 3目录 ........................................................................................................................... 4第一章绪论 ........................................................................................................... 51.1文本自动分类研究的背景和意义 ............................................................. 51.2问题的描述 ................................................................................................. 71.3国内外文本自动分类研究动态 ................................................................. 7第二章中文文本分类技术研究 ............................................................................. 92.1文本预处理 ................................................................................................. 92.1.1文本半结构化 ................................................................................... 92.1.2自动分词 ........................................................................................... 92.1.3特征选择[12]....................................................................................... 92.2分类模型 ................................................................................................. 102.2.1贝叶斯(Naive Bayes)方法[14] .................................................. 102.2.2K-近邻(KNN)方法 .................................................................. 102.2.3决策树(Decision Tree)分类..................................................... 112.2.4基于投票的方法 ........................................................................... 112.2.5支持向量机(SVM)方法[17] ...................................................... 122.3分类性能评价 ......................................................................................... 12第三章基于支持向量机的中文文本分类 ......................................................... 133.1 统计学习理论.......................................................................................... 133.2支持向量机原理 ..................................................................................... 153.3支持向量机的特点 ................................................................................. 17第四章基于支持向量机的中文文本分类器的实现 ......................................... 184.1 系统体系结构.......................................................................................... 184.1.1文本训练模块设计 .......................................................................... 194.1.2文本分类模块设计 .......................................................................... 19第五章系统的性能测试 ..................................................................................... 205.1开发环境和数据集 ................................................................................. 205.2测试结果及分析 ..................................................................................... 20第六章总结与展望 ............................................................................................... 226.1全文总结 ................................................................................................. 226.2进一步工作及展望 ................................................................................. 22附录(附图) ......................................................................................................... 23参考文献 ................................................................................................................. 26致谢 ..................................................................................................................... 27第一章绪论1.1文本自动分类研究的背景和意义分类最初是应信息检索(Information Retrieval,简称IR)系统的要求而出现的,也是数据挖掘应用领域的重要技术之一[1].随着全球计算机与通讯技术的飞速发展、互联网的普及与应用,信息爆炸的现实使人们越来越注重对自动分类的研究,文本自动分类及其相关技术的研究也日益成为一项研究热点。
基于weka的web文本挖掘的研究和实现的开题报告

基于weka的web文本挖掘的研究和实现的开题报告一、研究背景随着互联网的飞速发展,网络上日益涌现大量的文本数据,许多的信息都属于非结构化文本数据,这给人们的信息处理、分析和挖掘带来了一定的挑战。
因此,基于Web文本的挖掘方法成为了当前信息处理应用中的一个重要研究方向。
数据挖掘技术是一种从数据中提取有用信息的方法,它包括了分类、聚类、关联规则挖掘、文本挖掘等技术。
而文本挖掘技术的主要目的是从大规模的文本数据中提取出其中有用的知识,帮助人们更好地了解文本数据中蕴含的信息。
然而,文本挖掘技术的研究面临着许多挑战。
首先,文本数据的语言表达是非结构化的,很难进行统一的数据表示和分析。
其次,在处理大规模的文本数据时,传统的数据挖掘方法往往会面临着计算速度慢、内存消耗大等问题,限制了其实际应用的范围。
因此,建立一种可靠、高效的文本挖掘方法成为了研究人员的重点之一。
在这样的背景下,基于Weka的Web文本挖掘方法的研究和实现具有十分重要的理论和实践意义。
二、研究内容本研究旨在探索基于Weka的Web文本挖掘方法,并将其运用到实际问题中。
具体研究内容如下:1. 建立Web文本挖掘的理论模型框架,包括文本数据的预处理、特征提取、分类和聚类等模块。
2. 基于Weka平台,实现Web文本挖掘的相关算法并进行优化。
3. 针对不同应用场景,通过对比不同的分类、聚类算法的实验结果,选取最佳的算法。
4. 在Web数据集上进行实验验证,分析算法在不同数据集、不同参数设置下的性能表现,并对结果进行解释。
三、研究意义本研究将探索基于Weka的Web文本挖掘方法,将其作为Web数据分析的一种有效手段,具有以下的意义:1. 可以有效地提高Web数据的分析和挖掘速度,充分发挥Web数据的潜在价值。
2. 可以为相关领域研究提供一个可靠的文本数据分析的平台,便于对大规模非结构化文本数据进行挖掘和分析,深入了解文本数据背后隐藏的规律和知识。
3. 可以拓展数据挖掘的应用领域,并促进数据挖掘技术的创新和发展。
面向Web的文本信息挖掘研究

张宏松 刘建辉 ( 宁工程技 术大学研 究生学院 阜新 130 ) 辽 2 00
摘要 : 万维 网是一个 巨大的、 分布 广泛的、 全球性 的信 息服务 中心 , 包含 了丰 富的信息资 源。We 它 b挖掘 可 以快速 有效地获取所 需要 的信息 。基 于 We b的文本挖掘是数据挖 掘 的重要 组成部 分 , 讨 了 We 探 b文本特征提 取 、 文本
分类、 文本 聚类等 We b文本挖掘关键 实现技 术 , 最后讨论 了 We b文本挖掘 的价值及其对 We 发展 的重要性 。 b
关键 词 : b挖 掘 文 本 挖掘 文 本 分 类 文 本 聚 类 We
1 We b文本挖掘技术
We b挖掘一 门交叉性学科 , 涉及 数据 挖掘、 器学 机 习、 模式识别、 人工 智能、 统计 学、 算机语 言学 、 计 计算 机 网络技术、 信息学 等多个领 域。We b挖 掘是 指从 大 量非 结构化 、 异构 的 We b信 息资源 中发现有效 的、 新
计 算 机 系 统 应 用
用户界 面主要都通过 We b实现。 由一个 R b t o o 程序 自
词、 词组和短语组成 文档的基本 元素 , 并且在 不同 内容的文档 中 , 各词条 出现频率 有一定 的规 律性 , 同 不 的特征 词条就可 以区分 不同内容的文 本 。因此 可 以抽 取 一些特 征词 条构成 特征矢 量 , 用这 个 特征矢 量来表 示 We b文本 , 一个 有效 的特征 词 条集 , 必须 具备 以下 三个特征 : 完全 性 , 征 词条 能够确 实 表示 目标 内容 ; 特
动通过 We b进 行 用 户主 题 信 息 的文 本 的 自动搜 集 。 为 了提高 数据挖掘 的效率 和有效性 , 将高速 缓存 中的
基于数据挖掘的Web文本分析研究的开题报告

基于数据挖掘的Web文本分析研究的开题报告一、选题背景随着互联网技术的发展,越来越多的人开始使用互联网进行信息的传递和交流,Web文本因其明显的实用性,现已成为计算机科学、文献管理、社会学、新闻传播学等多个领域的重要研究对象。
现如今,互联网上汇集了海量的Web文本数据,但如何从这些庞杂的数据中挖掘出有价值的信息,并进行分析和应用,成为当前亟待解决的问题。
二、选题意义Web文本分析是利用数据挖掘和自然语言处理等技术,对Web文本进行提取、处理和分析,从中挖掘出有用的信息和知识。
它可以在新闻传播、市场营销、网络安全等领域发挥重要作用,如利用Web文本挖掘技术对竞争对手的策略进行分析、进行用户情感分析等。
因此,Web文本分析研究对于完善信息社会、提高竞争力有着极其重要的意义。
三、研究内容本研究将基于数据挖掘技术,对Web文本进行分析,主要包括以下内容:1. 文本数据的采集:运用Web爬虫等技术,从网络上采集Web文本数据;2. 文本数据的预处理:对采集到的Web文本数据进行去重、停用词过滤、词性标注、分词等预处理;3. 文本数据的挖掘和分析:运用数据挖掘技术,对预处理后的Web 文本数据进行文本分类、情感分析和主题分析等,进而挖掘出Web文本中存在的有用信息;4. 文本数据的可视化:基于Web数据可视化技术,将挖掘出的Web文本信息进行可视化展示,使其更加直观易懂。
四、研究方法1. 数据采集:使用Web爬虫技术采集目标网站的Web文本数据;2. 数据预处理:运用Python语言,利用NLTK和scikit-learn等工具包进行文本数据的去重、停用词过滤、词性标注和分词等预处理工作;3. 数据挖掘:基于Python语言使用机器学习算法实现文本分类、情感分析和主题分析等;4. 数据可视化:利用Web数据可视化技术,借助D3.js等可视化工具将挖掘出的Web文本信息进行可视化展示。
五、研究难点1. 文本数据的采集:如何规避网络反爬虫等问题,高效地从网络上采集到Web文本数据;2. 数据预处理:如何准确地进行文本分类、情感分析和主题分析等预处理工作,从而避免对最终挖掘结果的影响;3. 数据挖掘:如何选择合适的机器学习算法进行文本分类、情感分析和主题分析等工作,并对挖掘出的信息进行可信度评估;4. 数据可视化:如何选取恰当的可视化技术和图形展示形式,使得挖掘出的Web文本信息能够更直观、更易懂的呈现出来。
基于层次聚类算法的WEB文本挖掘技术研究

脑
2 1 年第 3期 01
基 于层 次 聚 类算 法 的 WE B文本 挖 掘 技术 研 究
吕 岚
(陕西铁路 工程 职 业技 术学院 陕西 渭南 7 4 0 10 0)
【 摘 要 】 本文 分析 了 目前信 息检 索存在 的 问题 , 绍 了 WE : 介 B文 本挖 掘 的概 念及 处理 过 程 , 并提 出 了两种基 于层 次聚类 的 WE B文本挖 掘技 术 并给 予分析 。
aaQ 'cl ’( rx a ()( gPD rxIc 1 m( m- a  ̄ rl I k憩 )
2 1 年 第 3期 0 1
福 建 电
脑
4 1
层 次 聚类 中的 每一 步 是 基 于前 一步 的选择 进 行 局
在 计算 过程 中需 要 大量 的计算 形  ̄l [?的项 。 o n1 g 为
文本 挖掘 的过程 如 图所示 ,从 文本 信 息源 出发 , 最 生 的划分 方案具 有最 大的后验 概率P1 I1 ( D 。为了书 写 2。 终 结果 是用户 获得 的知识 模式 。文 本挖 掘一 般 经过文 方便 . 们省 去Q。 的星号 。采 用 最大后 验 估计 的 局 我 上 本 预 处理 、 特征 提 取及 约减 、 习与 知识 模 式 提取 、 学 知 部 目标 函数 为 : 识模 式 评价 四个 阶段 。 We b文本 的收集 和 预处 理 :程 序能 自动 利 用 网页
法 无法 把海量 的信 息转化 为知识 的形 态 。 文本 挖掘f We 即 b内容挖 掘1 以计算 语 言学 、 是 统计
将层 次聚 类算 法 与模 型选择 相 结合在 许 多领 域 都
一方 面层次 聚类 限制 了搜索 空 间 , 在速度 数 理分 析为 理论基 础 , 合机器 学 习 和信息 检 索技术 , 取 得 了成功 。 结 从 文本 数据 中发 现和提 取独 立于用 户 信息 需求 的文本 与准确 度之 间进 行 了一个 折衷 :另一 方面 在层 次聚类 集 中的隐含 知识 .文本挖 掘 是近几 年来 数 据挖 掘领 域 中通过使 用对数 似然 比. 去一些 项后 , 以大 幅度 降 消 可 的一个 新兴 分支 . 它是利 用文 本切 分技 术 , 抽取 文本 特 低后 验 概率 的计 算量 。本 文重点 讨论 两种层 次 聚类 算
面向Web的文本信息挖掘技术研究

面向Web的文本信息挖掘技术研究1包剑辽宁工程技术大学职业技术学院计算机系,辽宁阜新(123000)摘要:WWW是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。
Web挖掘可以快速有效地获取所需要的信息。
基于Web的文本挖掘是数据挖掘的重要组成部分,探讨了Web文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术,讨论了Web文本挖掘的价值及其对Web发展的重要性。
关键词: Web挖掘,文本挖掘,文本分类,文本聚类中图号:TP.391 文献标识码:A0. 引言随着WWW技术的迅速发展,万维网中蕴涵着具有巨大潜在价值的知识,为了从大量数据集合中识别出有效的、新颖的、潜在有用的和最终可理解的模式,通常采用数据挖掘技术。
Web文本挖掘是从数据挖掘发展而来,但是它又不同于传统的数据挖掘。
Web文本挖掘对象从数据库中的数据延伸到网络上的海量、异构、分布的Web文本数据。
Web在逻辑上是一个由文档集合超链接构成的图,因此,Web文本挖掘所得到的模式可能是关于Web 内容的,也可能是关于Web结构的。
由于Web文本是一个半结构化或无结构化的,且缺乏机器所能理解的语义,从而使有些数据挖掘技术并不适用于Web挖掘,因此Web挖掘需要用到更多的有别于传统数据挖掘的技术,以提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。
1. Web文本挖掘技术Web挖掘一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。
Web挖掘是指从大量非结构化、异构的Web信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的过程[1]。
当前研究的Web挖掘一般可分为三类:(1)Web内容挖掘。
它是从Web文档内容或其描述的挖掘获取知识的过程。
(2)Web结构挖掘。
Web文本挖掘技术探析
用 VB6 0高 级 语 言 编 写 上 位 机 数 据 查 询 程 序 , 随 时 对 数 . 可
据库进 行查 看 、 检索 。
5 数 据库 部 分
3 We b文 本 挖 掘 的 过 程
当的相似度 阈值 , 以保 证 同一 个 聚 类 中 文 档 的 紧密 相 关 。
不 We 文 本 挖 掘 的 主 要 处 理 过 程 是 对 大 量 的 HTML 文 档 所 以 它 的 运 行 速 度 较 慢 , 适 合 于 大 量 文 档 的 集 合 。 在 平 b 面划分法 中 , 先确 定 要生 成 的簇 的数 目 K。再 按 照某 种 首 集 合 的 内 容进 行 预 处 理 、 征 提 取 、 本 分 类 、 本 聚类 、 联 特 文 文 关
型分析 、 词性 标注 、 短语边 界辨 认 等 。通 常选用 词作 为 文本 基于密 度方法是根 据密度完 成对 象 的聚类 。它根 据对 象周 特征 的特征项 。 目前汉语 分词 主要有 基 于词典 和 规则 的方 围 的密 度不断增长 聚类 。基 于网格 方法 是先 将对 象 空间划 然 法 和 基 于 统 计 的 方 法 。前 者 应 用 词 典 匹 配 和 汉 语 语 言 知 识 分为有 限个单元 以构 成 网格 结 构 , 后利 用 网格结 构 完成 聚类 。 进行 分词 。方 法 比较 简 单 、 词 容 易 、 分 效率 高 , 对 词 典完 但
及 动态 的 we b内容 的 查 找 。W e b挖 掘 可 以 分 为 三 类 : e S re o aa 日志 挖 掘 的 手 段 是 路 径 分 析 、 联 规 w b evrL gD t 等 关 内容挖掘 , e W b结 构 挖 掘 , e 用 记 录 的 挖 掘 。W e 容 则 和序列模式 的 发现 、 W b使 b内 聚类 和分 类 。we b访 问信息 挖 掘可 用 I T u h9 5编 写 应 用 程 序 , 用 图 形 化 语 言 , 序 界 面 的 4路 视频信号 ( 中两路为 可云 台 的摄 像机 ) n o c . 采 程 其 以及集 安机 美 观 大 方 , 机 界 面 良好 , 于 操 作 , 用 多 种 方 法 将 检 测 房 的 3路视频 信 号 。监控 图 像清 晰 , 足 之处 在于 控 制速 人 便 采 不 但 数据 显示 在程 序 界 面上 。应 用 程序 可 实 时采 集 现 场数 据 , 度较 慢 , 不影 响系统的正 常工作和功能 。 当采 集 的 开 关 量 发 生 变 位 时 , 用 程 序 即 可 发 出 声 光 报 警 应 并 将 此 变 位 数 据 存 人 S E QLS RVE 0 0数 据 库 中 , R20 以便 值
Web文本挖掘研究
从海量的结构化数据 中提取其中隐含的信息和
知 识 的方法 和途径 , 即数 据挖 掘技术 , 在 已经 比较 现 成熟 。而 随着 Itme 的飞 速 发 展 , 别 是 We ne t 特 b应
We 内容挖掘 I b I b We结构挖掘I I b We使用记录挖掘
We b内容挖掘是对 We b页面内容进行挖掘 , 从
We 文档内容信息或其描述 中抽取知识 , b 具体 的挖 掘形式可以有文本内容的总结 、 分类 、 聚类 、 关联分
基金项 目 : 文系湛江师范学院人文社会 科学研究项 目“ 向学科建设 的高校 图书馆知识服务 ” W0 3 ) 本 面 ( 80 成果之一 。
图 1 )
1 1 We . b内容挖 掘
We 使用记录挖掘指通过挖掘 We b b日志记录, 来 发现 用户 访 问 We b页 面 的 模 式 , 改进 We 以 b页 面的设计和 we 应用程序的设计 , b 增强对最终用户 的信息服务质量。挖掘的对象是在服务器上的包括
Srelg a 等 日志 。 掘 的 手 段 有 : 径 分 析 、 evri D t n a 挖 路
学、 计算机 网络技术 、 信息学等多个领域。 1 We b挖掘 分类
We 息 的 多样 性 决 定 了 We 掘 任 务 的多 b信 b挖
题类别 的情况下 , W b页面集全 聚合成若干个 将 e 簇, 并且同一簇的页面内容相似性尽可能大, 而簇间
相似 度尽 可能小 。
12 We . b结 构 挖 掘
图 l We b挖掘 分 类图
析、 趋势预测等针对 We b文本信息和多媒体信息 , 可 分为 We 本 挖掘 和 We 媒体 挖 掘 。We b文 b多 b内
WEB文本挖掘的研究
K ywod : x iigF aueS lc o ; x tg r a o ; x utr g e rsTe t nn ;etr eet nTe tCae oi d nTe tCls i M i z en
1引言
It nt ne e的规 模 是 相 当 庞 大 的 .9 9年 竹 计 有 35亿 个 网 页 , r 19 . 并 且 以 每 天 10万 的 速 度 增 长 . og 0 G ol 近 宣 布 已经 索 引 了 3 e最 0
亿 个 网 页 随 着 it nt 发 展 , B信 息 也 急 剧 增 长 , 海 量 、 ne e 的 r WE 在
摘 要 : 章 首 先探 讨 了 w e 掘 的 地 位 , 于 WE 的文 本 挖 掘嘎 W E 文 b挖 基 B B挖 掘 的 重要 组 成 部 分 。 文章 重 点 对 文 本 特 征 提 取 、 本 分 文 类 、 本 聚 类 等 W E 文 本挖 掘 关键 实现 技 术做 了介 绍 . 文 B 最后 讨 论 了 w e b文本 挖 掘 的价 值 关 键 词 : 本挖 掘 ; 征 提 取 ; 本 分 类 : 本 聚 类 文 特 文 文
中图分类号 :P 9 T 33
文献标识码 : A
文章编号 :0 9 3 4 (o 6 1 — 0 7 0 1 0 — 0 42 o )1 0 8 — 3
Re e s amh n o W e Te t b x Miig nn
W U e e . I Ho g u Yu —fn L U n —h i 1
上 是 由文 件 结 点 和 超 链 接 构 成 的 网络 . 因此 WE B数 据 挖 掘 的 模
Web文本挖掘及其分类技术研究
[ y rsWe x Miig;C tg rz to1Al oih C mp rs n Ke wo d ] b Te t rn i ae o iaiI g rt m; o a io
1 引言
We b文 本 挖 掘 是 指 从 大 量 W e b文 档 的 集 合 C 中发 现 隐 含 的 模 式 P。 如 果 将 C 看 成 输 入 ,P看 成 输 出 , 则 W e b文 本 挖 掘 的 过 程 就 是 从 输 入 到 输 出 的 映 射 o : C_◆ P。 目前 , w e b文 本 挖 掘 可 以 实 现 对 W e b 上 大 量 文 档 集 合 的 内 容 进 行 总 结 、分 类 、 聚 类 、 关 联 分 析 等 功 能 , 以 及 利 用 We b文 档进行趋势分析 等。 W e 文 本 挖 掘 系统 总体 结 构 图 如 图 1 b 所示 。
文 本 挖 掘 的两 种 重 要功 能一 一 分 类 及 其 它 们 常 用 的 算 法 ,并 分 别 对 算 法 做 了 比较 ;最 后 ,得 出 结 论 并 进 行 了 展 望 。
【 键词] e 关 W b文 本 挖 掘 分 类 算 法 比 较 [ 图 分 类 号 ] 31 中 TP l [ 献 标 识 码】 文 A [ 章 编 号 ]0 7 4 6 ( 0 0 0 —0 7 —0 文 1 0 -9 1 2 1 ) 7 0 4 2
・
应 用研 究 ・
We 文 本 挖 掘 及 其 分 类 技 术研 究 b
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的 We b文本 。其次 , b We 在逻辑上是一个 由文档集
合 超链 接 构 成 的 图 ,因此 ,We b文 本挖 掘 所 得到 的 模 式 可 能 是 关 于 We b内 容 的 ,也可 能 是 关 于 We b
结构的。 由于 We b文本 是 一个 半 结 构化 或 无 结构 化 的 ,且 缺乏 机 器所 能 理解 的语 义 ,从 而使 有 些数 据 挖 掘 技 术 并 不适 用 于 we 掘 。 因而 ,开 发 新 的 b挖 We b文本 挖 掘技 术 以及 对 We b文本 进 行 预处 理 , 以
处 。首 先 , b 本挖 掘 的对 象是 海 量 、 构 、 布 we 文 异 分
其 中 t 词 条 项 , ; ) t在文 档 d中 的权 值 。基 ; 为 W( 为 ; d
于 We b的 文 本 挖 掘 的特 征 提 取 重 点 是 对 文 本 中 出
现 的词 汇 、 名字 、 术语 、日期 和短 语 的特征 提 取 ,目 标是 实 现 提 取过 程 的 自动 化 。事实 上 , 本 中词 汇 、 文 名字 和 日期 一般 在 文 中 出现很 多 ,因而特 征 提取 已 成 为基 于 we b文件 挖 掘 中 的一 项关 键 技 术 。
摘
崔 志 明 谢 春 丽 ( 苏州 2 5 0 ) 10 6
要 : 基于 We b的文本挖掘是 数据挖掘 的重 要组成部分 , 文章重点对 文本特征提取 、 文本分类 、 文本聚类等
We b文本挖 掘关 键实现技术做 了介绍 , 最后讨论 了 We 文 本挖掘 的价值及 其对 We b b发展 的重要性 。 关键词 :文本挖掘 。 文本分类 。 文本 聚类 , 特征 提取
1 引言
‘
2 特 征 提 取
在迅猛增加的海量的异构 的 We 信息资源 中, b 蕴含着具有 巨大潜在价值 的数据 。因而人们迫切 的 需要能从 We 上快速、 b 有效地发现资源和数据的工 具, 以提高在 We 上检索信息 、 b 利用信息 的效率 。 基于 We b的文本挖 掘是一项综合技术 ,涉及 We b数据挖掘、 计算语言学、 信息学等多个领域 。 不
文本 中 出现较 多 的名字 、术 语 、 日期 等都 为 区 分 文本 的类 型 提 供很 好 的线 索 ,由于篇 幅所 限 ,以
提取该文本 的特征 , 便成为 we 文本挖掘研究的重 b
点。
基 于 We 本 挖 掘 的 主要 处 理 过 程 是 对 We b文 b 上 大量 文 档 集 合 的 内容 进行 分 词 处 理 、特 征 提取 、 结 构 分 析 、 本摘 要 、 文 文本 分 类 、 本 聚类 、 文 关联 分 析 等 。 l 出 了基 于 We 图 给 b的文 本 挖 掘 的一 般处 理
理 及 理 处 _ {
维普资讯
20 0 2年 第 l 0期
5 l
基 于 We b的 文本 挖 掘 研 究
Re e r h o x i i g Ba e n s a c n Te tM n n s d O e b
苏 州 大学 计 算机 信息 处理 重点 实 验室
同研 究 者从 各 种 不 同 的角度 出发 ,对 文 本挖 掘 有着
对 We b文 本 中 出 现 的 词 条 T及 其 权 值 的选 取
称 为 特征 提 取 。 由于 We b文本 是 半结 构 化 的 甚至 是 无 结 构化 的 ,为 了能 够分 析 文 本 的 内容 ,弓 入 了 向 l 量 空 间 ( S 的概 念 , 文本 的 内容抽 取 出来 一 些 V M) 从
过程 。
分 征 J文本结 构
词 提 1分析器
处 取
特
文 本分类l
解
释 览 浏 界 果 结
用
白
下我们仅 以 日期型的数据为例 , 给出其 P O O R L G语 言的特征提取算法。其余 的算法将另文专述 :
d t( :一 a lx)d t ( ) a x) d t ( ; a 2 x . e e e d t1 x : e ( , ot ( , a ( . a ( ) 一ya X) m nh X)dy X) e r
用特征词条及其权值代表 目标信息 , 词条在不 同文档中所呈现出的频率分布是不同的 ,因此可 以 根 据 词 条 的频 率 特 性 进 行 特 征 提 取 和 权 值 评 价 。
We 本 中存 在 大 量 的 H ML格式的文 本 , 普通 b文 T 与
的文本相 比, T 文档中有 明显的标识符 , H ML 结构信 息更加明显 ,在计算特征词条权值时 ,可以充分考 虑 HM T L文档 的特点 , 对于标题和特征信息较多的 文本赋予较高权值 。 由于 We 文本的数据量信息非 b 常 巨大 ,往往提取出来的特征向量 的维数非常高 , 为 了提高运行 效率 ,需要对 特征 向量进行 降维处 理 ,仅 保 留权 值 较 高 的词 条作 为 文 档 的特 征项 ,从 而 形成 维 数 较 低 的 目标 特征 向量 。
不 同的理解 。我们从较一 般 的角 度出发 ,将 基于 We b的文本挖掘看成是从 大量 We b文本的集合 中 发现隐含的有效模式 。 基 于 We 文本 挖 掘是 从 数 据挖 掘 发 展而 来 , b的 但 是 它 同 传 统 的 数 据 挖 掘 相 比 又 有 许 多 独 特 之
能代表文本 内容的词条 ,通过分析这些特征词 ,达
到分 析 We 本 内容 的 目的 O 任何 的 We 本 都 b文 b文 可 以 用 从 中 抽 取 出来 的 特 征 向 量 :V() t W d =( 。
( ) …;lw ( ) …; w ( ) 来唯 一 的代 表 文 本 , d; t ; ; , d t d ) ,