文本挖掘与Web挖掘
基于weka的web文本挖掘的研究和实现的开题报告

基于weka的web文本挖掘的研究和实现的开题报告一、研究背景随着互联网的飞速发展,网络上日益涌现大量的文本数据,许多的信息都属于非结构化文本数据,这给人们的信息处理、分析和挖掘带来了一定的挑战。
因此,基于Web文本的挖掘方法成为了当前信息处理应用中的一个重要研究方向。
数据挖掘技术是一种从数据中提取有用信息的方法,它包括了分类、聚类、关联规则挖掘、文本挖掘等技术。
而文本挖掘技术的主要目的是从大规模的文本数据中提取出其中有用的知识,帮助人们更好地了解文本数据中蕴含的信息。
然而,文本挖掘技术的研究面临着许多挑战。
首先,文本数据的语言表达是非结构化的,很难进行统一的数据表示和分析。
其次,在处理大规模的文本数据时,传统的数据挖掘方法往往会面临着计算速度慢、内存消耗大等问题,限制了其实际应用的范围。
因此,建立一种可靠、高效的文本挖掘方法成为了研究人员的重点之一。
在这样的背景下,基于Weka的Web文本挖掘方法的研究和实现具有十分重要的理论和实践意义。
二、研究内容本研究旨在探索基于Weka的Web文本挖掘方法,并将其运用到实际问题中。
具体研究内容如下:1. 建立Web文本挖掘的理论模型框架,包括文本数据的预处理、特征提取、分类和聚类等模块。
2. 基于Weka平台,实现Web文本挖掘的相关算法并进行优化。
3. 针对不同应用场景,通过对比不同的分类、聚类算法的实验结果,选取最佳的算法。
4. 在Web数据集上进行实验验证,分析算法在不同数据集、不同参数设置下的性能表现,并对结果进行解释。
三、研究意义本研究将探索基于Weka的Web文本挖掘方法,将其作为Web数据分析的一种有效手段,具有以下的意义:1. 可以有效地提高Web数据的分析和挖掘速度,充分发挥Web数据的潜在价值。
2. 可以为相关领域研究提供一个可靠的文本数据分析的平台,便于对大规模非结构化文本数据进行挖掘和分析,深入了解文本数据背后隐藏的规律和知识。
3. 可以拓展数据挖掘的应用领域,并促进数据挖掘技术的创新和发展。
基于Web的文本挖掘研究

的 We b文本 。其次 , b We 在逻辑上是一个 由文档集
合 超链 接 构 成 的 图 ,因此 ,We b文 本挖 掘 所 得到 的 模 式 可 能 是 关 于 We b内 容 的 ,也可 能 是 关 于 We b
结构的。 由于 We b文本 是 一个 半 结 构化 或 无 结构 化 的 ,且 缺乏 机 器所 能 理解 的语 义 ,从 而使 有 些数 据 挖 掘 技 术 并 不适 用 于 we 掘 。 因而 ,开 发 新 的 b挖 We b文本 挖 掘技 术 以及 对 We b文本 进 行 预处 理 , 以
处 。首 先 , b 本挖 掘 的对 象是 海 量 、 构 、 布 we 文 异 分
其 中 t 词 条 项 , ; ) t在文 档 d中 的权 值 。基 ; 为 W( 为 ; d
于 We b的 文 本 挖 掘 的特 征 提 取 重 点 是 对 文 本 中 出
现 的词 汇 、 名字 、 术语 、日期 和短 语 的特征 提 取 ,目 标是 实 现 提 取过 程 的 自动 化 。事实 上 , 本 中词 汇 、 文 名字 和 日期 一般 在 文 中 出现很 多 ,因而特 征 提取 已 成 为基 于 we b文件 挖 掘 中 的一 项关 键 技 术 。
摘
崔 志 明 谢 春 丽 ( 苏州 2 5 0 ) 10 6
要 : 基于 We b的文本挖掘是 数据挖掘 的重 要组成部分 , 文章重点对 文本特征提取 、 文本分类 、 文本聚类等
We b文本挖 掘关 键实现技术做 了介绍 , 最后讨论 了 We 文 本挖掘 的价值及 其对 We b b发展 的重要性 。 关键词 :文本挖掘 。 文本分类 。 文本 聚类 , 特征 提取
1 引言
Web文本挖掘

近 年 来 , tre 正 以令 人 难 以置 信 的 速 度 在 飞 速 发 展 , 来 I ent n 越 越 多 的机 构 、 团体 、 人 在 Itre 上 发 布 信 息 、 找 信 息 !, 由 个 nent 查 但 于 We b是无 结 构 的 、 态 的 , 们 要 想 找 到 自己 想 要 的数 据 犹 如 动 人 大 海 捞 针 一 般 困难 。 决 问题 的 一 个 途 径 就 是 将 传 统 的 数 据挖 掘 解
类 等 。 最后 对 W e b文本 挖 掘 的 应 用领 域 作 了展 望 。 关键词 : e W b挖 掘 ; e W b文 本 挖 掘 ; 本 的 分 类 ; 文 文本 聚 类
中图分类号 :P 1 T 32
文献标识码 : A
文章编号 :0 9 34 (0 7 9 2 8 2— 2 10 — 042 0 ) — 0 2 0 0
K y wo d W e iig W e e t iig Te t tg rzt n Te tCls r g e rs: b M nn ; btx nn ; x e o a o ; x u ti M Ca i i en
面向Web的文本信息挖掘研究

张宏松 刘建辉 ( 宁工程技 术大学研 究生学院 阜新 130 ) 辽 2 00
摘要 : 万维 网是一个 巨大的、 分布 广泛的、 全球性 的信 息服务 中心 , 包含 了丰 富的信息资 源。We 它 b挖掘 可 以快速 有效地获取所 需要 的信息 。基 于 We b的文本挖掘是数据挖 掘 的重要 组成部 分 , 讨 了 We 探 b文本特征提 取 、 文本
分类、 文本 聚类等 We b文本挖掘关键 实现技 术 , 最后讨论 了 We b文本挖掘 的价值及其对 We 发展 的重要性 。 b
关键 词 : b挖 掘 文 本 挖掘 文 本 分 类 文 本 聚 类 We
1 We b文本挖掘技术
We b挖掘一 门交叉性学科 , 涉及 数据 挖掘、 器学 机 习、 模式识别、 人工 智能、 统计 学、 算机语 言学 、 计 计算 机 网络技术、 信息学 等多个领 域。We b挖 掘是 指从 大 量非 结构化 、 异构 的 We b信 息资源 中发现有效 的、 新
计 算 机 系 统 应 用
用户界 面主要都通过 We b实现。 由一个 R b t o o 程序 自
词、 词组和短语组成 文档的基本 元素 , 并且在 不同 内容的文档 中 , 各词条 出现频率 有一定 的规 律性 , 同 不 的特征 词条就可 以区分 不同内容的文 本 。因此 可 以抽 取 一些特 征词 条构成 特征矢 量 , 用这 个 特征矢 量来表 示 We b文本 , 一个 有效 的特征 词 条集 , 必须 具备 以下 三个特征 : 完全 性 , 征 词条 能够确 实 表示 目标 内容 ; 特
动通过 We b进 行 用 户主 题 信 息 的文 本 的 自动搜 集 。 为 了提高 数据挖掘 的效率 和有效性 , 将高速 缓存 中的
基于Web文本挖掘的研究的开题报告

基于Web文本挖掘的研究的开题报告一、选题目的随着互联网的普及,人们越来越依赖于互联网获取各种信息。
Web文本作为互联网上最主要的信息载体,其中蕴含着许多有用的信息和知识,如何从大量的Web文本中获取有效信息和知识成为了一个热门研究课题。
Web文本挖掘作为一种有效的文本分析手段,旨在通过计算机自动分析和挖掘大量的Web文本中的有用信息和知识,为用户提供更准确、更全面、更有用的信息和知识。
本文将基于Web文本挖掘,围绕Web文本数据的预处理、特征提取、分类、聚类等关键技术展开研究,以提高Web信息的质量和价值,为用户提供更好的信息服务体验,进而推动Web发展。
二、研究内容1. Web文本数据的预处理Web文本数据的预处理是文本挖掘的关键环节,主要包括HTML解析、文本过滤、分词、去停用词、词性标注等操作。
其中,HTML解析是将Web文本中的标记和标签提取出来,进行去重和归一化处理;文本过滤是去除无用信息,如广告、噪声等;分词是将文本按照一定规则进行切割,形成词语的序列;去停用词是去除文本中的无意义词,如“的”、“是”等;词性标注是对文本中的词进行词性识别和标注,为特征提取和分类提供基础。
2. 特征提取特征提取是Web文本挖掘的核心步骤,主要目的是将文本转化为机器能够处理的数值特征。
常用的特征提取方法包括词袋模型、TF-IDF模型、主题模型等。
词袋模型是将文本转化为词语的频率向量,用于描述文档的内容;TF-IDF模型是在词袋模型基础上加入词的重要程度权值,使得更具有区分度的词更受重视;主题模型是将文本表示为主题分布向量,用于揭示文本的隐含主题。
3. 分类分类是将不同的Web文本按照一定的规则划分到相应的类别中,主要方法包括朴素贝叶斯分类、支持向量机分类、决策树分类等。
其中,朴素贝叶斯分类是根据贝叶斯定理来计算每个类别出现的概率,以最大概率对未知样本进行分类;支持向量机分类是在样本空间中找到合适的超平面,将不同类别的样本分开;决策树分类是通过树形结构表达不同属性对分类目标的贡献,从而实现分类。
文本挖掘的应用场景

文本挖掘的应用场景一、什么是文本挖掘文本挖掘是指从大规模的非结构化文本数据中提取有用信息的过程,它结合了自然语言处理、机器学习、统计学等多个领域的知识,可以帮助人们更好地理解和利用文本数据。
二、文本挖掘的应用场景1. 情感分析情感分析是指通过对文本进行分析,判断其中所表达的情感倾向。
这种技术可以应用于社交媒体、新闻评论等领域,帮助企业了解公众对其品牌或产品的看法。
2. 舆情监测舆情监测是指通过对网络上的各种信息进行收集和分析,以了解公众对某个话题或事件的看法。
这种技术可以应用于政府、企业等机构,帮助他们更好地了解社会热点,并及时采取相应措施。
3. 文本分类文本分类是指将大量的无序文本数据按照一定规则进行分类。
这种技术可以应用于搜索引擎、电商平台等领域,帮助用户更快地找到自己需要的信息或商品。
4. 关键词提取关键词提取是指从文本中提取出最能代表文本主题的词语。
这种技术可以应用于信息检索、知识管理等领域,帮助用户更快地找到自己需要的信息。
5. 自动摘要自动摘要是指通过对文本进行分析,提取出其中最重要的信息,并生成一段简短的摘要。
这种技术可以应用于新闻报道、科技论文等领域,帮助读者更快地了解文章内容。
6. 垃圾邮件过滤垃圾邮件过滤是指利用文本挖掘技术对电子邮件进行分类,将垃圾邮件自动过滤掉。
这种技术可以应用于企业、个人等领域,帮助用户更好地管理自己的电子邮件。
三、文本挖掘的具体实现文本挖掘的实现通常包括以下几个步骤:1. 数据收集:收集大量的非结构化文本数据,如社交媒体上的评论、新闻报道等。
2. 数据预处理:对收集到的数据进行清洗和处理,如去除无意义字符、停用词等。
3. 特征提取:从预处理后的数据中提取出有意义的特征,如关键词、情感倾向等。
4. 模型训练:利用机器学习、统计学等方法,对提取出的特征进行训练,生成文本挖掘模型。
5. 模型应用:将训练好的模型应用于新的文本数据中,实现情感分析、舆情监测等功能。
数据挖掘的方法有哪些

数据挖掘的方法有哪些
数据挖掘的方法主要包括以下几种:
1.分类:用于将数据分为不同的类别或标签,包括决策树、逻辑回归、支持向量机等。
2.聚类:将数据分为不同的组或簇,根据数据的相似性进行分组,包括k均值聚类、层次聚类等。
3.关联规则:寻找数据中的相关联关系,包括频繁模式挖掘、关联规则挖掘等。
4.异常检测:寻找数据中与正常模式不符的异常值,包括离群点检测、异常检测等。
5.预测建模:利用历史数据进行模型建立,用于预测未来事件的可能性,包括回归模型、时间序列分析等。
6.文本挖掘:从非结构化文本数据中提取有用信息,如情感分析、主题建模等。
7.图像和视觉数据挖掘:从图像和视频数据中提取特征和模式,用于图像处理、目标识别等。
8.Web挖掘:从互联网上的大量数据中发现有价值的信息,包括网页内容挖掘、链接分析等。
9.时间序列分析:研究时间维度上数据的相关性和趋势,包括ARIMA模型、周期性分析等。
10.集成学习:通过结合多个单一模型获得更好的预测性能,如随机森林、Adaboost等。
这些方法常常结合使用,根据具体问题和数据来选择合适的方法。
Web文本数据挖掘关键技术及其在网络检索中的应用

Web文本数据挖掘关键技术及其在网络检索中的应用宋瑞祺(太原高新区新闻信息中心,山西太原030006) [摘 要]W eb挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。
本文在分析Web文本信息特征的基础上,揭示了W eb文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以G oog le为例讨论了该技术在网络信息检索中的应用。
[关键词]Web文本;数据挖掘;网络检索 数据挖掘(Date M ining)是指从大量的数据(结构化和非结构化)中提取有用信息和知识的过程。
数据挖掘起始于数据库知识发现(K now ledge Discovery in Database,简称K DD),这种技术的形成和完善缘于人们对从海量信息中全面、准确、有效获取有用信息的需要。
数据挖掘包括数据库挖掘、文本挖掘和W eb挖掘。
一、W eb文本信息的特征Web挖掘是采用数据挖掘信息处理技术,从W eb信息资源中挖掘用户所需信息的过程。
W eb文本信息是半结构化文本,其中的标签(T ag)为W eb挖掘带来便利。
如:<h tm l><head><title>G oogle桌面搜索<title><meta h ttp-equiv=“content-ty pe”content=“tex t/html;charset=ut f-8”><tr><td><a hre f=“/&s=S9Y-F077GG kiG9M pt JAZY9Pt-p I”><I MG b ord er=0height=110alt=“G o og le桌面搜索”src=“h p-log o.g if”width=276></a></td></tr></table><BR><FOR M name=f meth od=G ETaction=’/search&s=06C-qjY bHY6m6iPTE spcf d5s f G I’><T A BLE cellSpacing=0cellPadd ing=4b order=0><tr>color=#000000><B>桌面</B></fon t></font></td>……</tr></tab le></FORM><p>搜索您自己的计算机</p>……</b ody></htm l>在加了<html>、<title>和<meta>、<table>等标签后,W eb文件可提供一些附加信息,提高了数据挖掘的精度,增加了数据挖掘的知识含量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11.2.2 关联分析
在文本数据库中,每一文本被视为一个事务,文 本中的关键词组可视为事务中的一组事务项。即文本数 据库可表示为: {文本编号, 关键词集} 文本数据库中关键词关联挖掘的问题就变成事务 数据库中事务项的关联挖掘。
关联分析挖掘可以用于找出词或关键词间的 关联。
11.2.3 文本聚类
I(W,C)
(3) 对于该类中所有的词,依据上面计算的互信 息量排序。 (4)抽取互信息量大的词作为特征项。 (5)根据抽取的特征项进行向量压缩,精简向量 表示。
11.2 文本挖掘
11.2.1文本挖掘功能层次
11.2.2关联分析 11.2.3文本聚类 11.2.4文本分类
11.2.1文本挖掘功能层次
关键词 相似检索 词语关联分析 文本聚类 文本分类
自然语言处理
文本挖掘功能层次
(1)关键词检索 关键词建立倒排文件索引,与传统的 信息检索使用的技术类似。
(2)相似检索 找到相似内容的文本。
(3)词语关联分析 聚焦在词语(包括关键词)之间的关 联信息分析上。
(4)文本聚类和文本分类 实现文本的聚类和分类。 (5)自然语言处理 揭示自然语言处理技术的语义,进 行文本语义挖掘。
结 束
成熟度
11.1.2 文本特征的表示
文本特征指的是关于文本的元数据:
(1)描述性特征,例如文本的名称、日期、 大小、类型等;
(2)语义性特征,例如文本的作者、机构、 标题、内容等。
11.1.2 文本特征的表示
矢量空间模型(VSM)是效果较好的表示文本特 征的方法。每个文本d表示为其中的一个规范化 特征矢量:
Web内容挖掘的基本技术是文本挖掘。 1.信息检索
信息检索的目标是找到你想要找的,从两个方面来判 断 该 查 询 的 有 效 性 : “ 召 回 ( recall ) ” 和 “ 精 度 (precision)”。
“精度”回答了“在返回的网页中,正确的标题的比 例是多少” ; “召回” 回答了“返回了多少正确页面” 。
11.3.3 Web结构挖掘
1. 网页的引用 一篇文章的有用与否在于这篇文章出现在其他文章的 参考书目中的次数。特别是作者,会因为他的作品的重 复引用而在某个学科出名。 网页引用的Page-rank方法:
(1)一个页面被多次引用,则这个页面很可能是重要的; (2)一个页面尽管没有被多次引用,但被一个重要页面引 用,则这个页面很可能是重要的; (3)一个页面的重要性被传递到它所引用的页面。
1.层次聚类法 对于给定的文本集合D={d1,…,di,…,dn}: (1)将D中的每个文本di看作是一个具有单成员的类 ci={di},这些类构成了D的一个聚类: C={c1,…,ci,…,cn}; (2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj); (3)选取具有最大相似度的类对,并将ci和cj合并为一个 新的类ck=ci∪cj,从而构成了D的一个新的聚类C={c1,…, cn-1}; (4)重复上述步骤,直至C中剩下一个类为止。
11.1.3 文本特征的提取
特征提取主要是识别文本中代表 其特征的词项。
文本特征分为一般特征和数字特征,其中 一般特征主要包括动词和名词短语,如人 名、组织名等; 数字特征主要包括日期、时间、货币以及 单纯数字信息。
特征项抽取的判断算法
(1)该特征项集合包含所有该类中出现的词。 (2)对于每个词,计算词Wi和类别Cj的互信息量
11.3.2 Web内容挖掘
2.基于内容的分类
“k最近邻(简称k-NN)”,这种方法很好地适用于 在网页中利用关键词进行聚类。 在k-NN方法中,每个新的网页与在数据库中预先聚类 的例子进行对比。新网页将出现和一些现有的网页非常 类似,与另一些非常不同的情况。 通过使用k-NN可以对相同的网页进行聚类。相似度越 高,聚类的可信度也就越高。
11.3 Web挖掘
11.3.1 Web挖掘概述
11.3.2 Web内容挖掘 11.3.3 Web结构挖掘 11.3.4 Web应用挖掘
11.3.1 Web挖掘概述
1.Web信息特点
(1)Web信息特别庞大 (2)Web信息非常复杂 (3)Web信息是动态的 (4)Web信息使用者复杂 (5)Web信息中的“垃圾”非常多
结构挖掘可以告诉我们一些站点的受欢迎程度和它同 其他站点的距离(通过跳转次数来判定)。
万维网(www)是一个有向图G=(V,E),V是页面 的集合,E是页面之间的超链接集合。
页面抽象为图中的顶点,而页面之间的超链接抽象为 图中的有向边。顶点v的入边表示对v的引用,出边表示 v引用了其它的页面。
Web页面之间的超链接揭示了Web结构。
该过程构造出一棵生成树,其中包含了类的层次信息,以 及所有类内和类间的相似度。
11.2.4 文本分类
首先,把一组预先聚类过的文本作为训练集。 然后对训练集进行分析以便得出各类的分类模式。 对文本分类的有效方法是基于关联的分类: (1)提出关键词和词组。 (2)生成关键词和词组的概念层次,或类层 次结构。 (3)词关联挖掘方法用于发现关联词,它可 以最大化区分一类文本与另一类文本。这导致了 对每一类文本,有一组关联规则。
(1)对访问日志(Web Log)进行清洗、过滤和转换,从 中抽取感兴趣的数据。
(2)将资源的类型、大小、请求的时间、停留时间、请求 者的域名、用户、服务器状态作为数据立方体的维变量。 将对页面和文件请求次数、来自不同域请求次数、事 件、会话、错误次数分别作为在这些维变量下的度量变量,建 立数据立方体。 通过切块、切片分析可以回答:哪些成分或特色被经 常或偶尔使用,网络流量随时间的变化规律。 (3)利用数据挖掘技术进行Web流量分析、典型的事件序 列和用户行为模式分析。
点击流的分析始于网络日志。 当客户单击单独的网页时,点击也将通过各种指标予 以记录。
11.3.4 Web应用挖掘
3. 应用日志
要求从应用服务器上得到的数据是完整的点击流数据。 只有应用日志知道什么时候一些商品放在商店里,什么 时候该拿走,什么时候客户进来,什么时候客户出去。
4. 日志挖掘的基本流程
Kodratoff认为文本挖掘的目的是从文本 集合中,试图在一定的理解水平上尽可能 多地提取知识。
1. 概念
文本挖掘是一个从大量文本数据中提取 以前未知的、有用的、可理解的、可操 作的知识的过程。 文本数据包括:技术报告、文本集、新 闻、电子邮件、网页、用户手册等。
2.主要任务
(1)短语提取 提取文本集中所有相关的短语 。 (2)概念提取(聚类) 对这些短语之间的关系,建立一个该文本 集中的主要概念 。 (3)可视化显示和导航 从多个视角出发进行分析.
2.Web挖掘分类
Web挖掘
Web内容 挖掘 Web结构 挖掘 Web应用 挖掘
页面内容 挖掘
搜索结果 挖掘
使用模式 挖掘
个性使用 跟踪
Web挖掘分类
2.Web挖掘分类
(1)Web内容挖掘 提取文字、图片或其他组成网页内容成分的信息和知识。 (2)Web结构挖掘 提取网络的拓扑信息,即网页之间的链接信息。
11.3.3 Web结构挖掘
3. 导航页 导航页使他们能够很容易地找到他们想 要找的网页。 4 . 目标页
目标页给浏览者提供所有的内容。
11.3.4 Web应用挖掘
应用挖掘从单个客户在一次对话中的一系列的 单击到跨越了几个月或数年的客户群的购买模式 中,收集信息组成一个特性文件,依次提供当前 客户的快照。
11.3.2 Web内容挖掘
3.从纯文本中提取信息
通过将纯文本转化为结构化的数据,他们能够直接应 用数据挖掘技术做出预测。这种从非结构化数据中创建 结构化数据的过程叫做特征抽取。 通过以XML标记的形式向网站中添加更结构化的内容, 比通过提高从非结构化的文本中提取信息的技术来得更 加迅速一些。
11.3.3 Web结构挖掘
3.文本挖掘与数据挖掘
数据挖掘 研究对象 对象结构 目标 方法 用数字表示的、结构化的数据 关系数据库 获取知识,预测以后的状态 文本挖掘 无结构或者半结构化的文本 自由开放的文本 提取概念和知识
归纳学习、决策树、神经网络、 提取短语、形成概念、关联分析、 粗糙集、遗传算法等 聚类、分类 从1994年开始得到广泛应用 从2000年开始得到广泛应用
(3)Web应用挖掘 提取关于客户如何运用浏览器浏览和使用页面链接的信息。
(4)区别与联系
结构挖掘的表达方式是链接图,提示了哪些页面 通过当前页可以几步内到达。 内容挖掘的表达方式是一个网络索引,提示了网 页的主题。
应用挖掘集中于挖掘客户的行为,特别是随着时 间的变化。
11.3.2 Web内容挖掘
V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))
d中出现的所有单词作为ti,或所有短语。wi(d) 一般被定义为ti在d中出现频率tfi(d)的函数。
函数wi(d)=Ψ(tfi(d)) ,常用的Ψ有:
(1)平方根函数
tf i ( d )
(2)对数函数
log(tf i ( d ) 1 )
11.3.4 Web应用挖掘
1. 点击流分析 用于Web挖掘的有效的最简单的数据就是点击流—— 由一个站点的网络服务器来接受的网页请求。点击流的 定义是一个网站浏览者通过点击链接所明确要求的一系 列文件。 在网络世界里记录了所有客户的浏览器所请求的文件。
11.3.4 Web应用挖掘
2. 网络日志
第11章
文本挖掘与Web挖掘
目录
11.1 文本挖掘概述
11.2 文本挖掘 11.3 Web挖掘
11.1 文本挖掘概述
11.1.1 文本挖掘的基本概念