Web数据挖掘的研究现状及发展

合集下载

基于Hadoop电商大数据的挖掘与分析技术研究

技术平台基于Hadoop电商大数据的挖掘与分析技术研究陈娥祥（福州工商学院，福建福州 350715）摘要：随着社会经济水平的不断提高和互联网时代的不断发展，全球数据逐渐呈现出大规模增长的趋势，为了满足海量数据处理需求，大数据挖掘与分析技术应运而生。

Hadoop的出现和应用不仅能科学、高效地处理海量数据，还能可视化展现海量数据最终处理结果，为电商企业的健康、可持续发展提供重要的数据参考和支持。

基于以上情况，以福州地区美容行业的电商系统为例，在介绍相关理论与技术的基础上分析了数据挖掘算法，从系统的整体设计、数据准备、数据挖掘分析三个方面入手，研究了电商大数据挖掘系统的设计，从实验环境、实验数据准备和实验结果分析三方面入手，探讨了系统可视化实现与效果。

希望通过这次深度分析与研究，对公司的运营决策提供有力帮助，为电商平台各方参与者、相关领域技术人员提供有效的借鉴和参考。

关键词：Hadoop；电商大数据；挖掘分析；可视化技术随着社交媒体的不断发展，企业处理数据的途径日益增加、规模日益扩大，并形成了海量的数据流。

在这样的背景下，我国逐渐进入了大数据时代，大数据的生成速度呈现出指数爆炸形式，加上数据在处理的过程中无法分解为常用的数据库，这无疑增加了企业访问和处理数据的难度。

目前，在我国电商行业的迅猛发展下，数据规模递增，为了实现对消费者购买行为相关数据的深入、全面挖掘，进一步提高电商企业的销售业绩，在Hadoop框架的应用背景下，加大对大数据挖掘与分析技术的科学应用，实现数据挖掘技术与电商平台的有效融合，是相关领域技术人员必须思考和解决的问题。

1 相关理论与技术研究1.1 Hadoop平台相关技术研究Hadoop作为一种开源编程框架，被广泛应用于Apache基础项目中。

该框架的编写语言主要以Java语言为主，能够为海量数据集的分布处理提供重要支持。

同时，在部署的过程中，使用的服务器购买价格普遍较低，缩小了物力成本，这样一来，作为开发人员就可以投入较低的成本，实现Hadoop集群搭建，极大地提高了开发效率和效果。

第1章《数据挖掘》PPT绪论

Wisdom
Knowledge
Information
Data
3 of 43
1.1数据挖掘基本概念
第一章绪论
1.1.1 数据挖掘的概念
数据挖掘、数据库、人工智能
• 数据挖掘是从数据中发掘知识的过程，在这个过程中人工智能和数据库技术可以作为挖掘工具，数据可以被看作是土壤，云平台可以看作是承载数据和挖掘算法的基础设施。在挖掘数据的过程中需要用到一些挖掘工具和方法，如机器学习的方法。当挖掘完毕后，数据挖掘还需要对知识进行可视化和展现。
21 of 43
1.3数据挖掘常用工具
第一章绪论
1.3.2 开源工具
• WEKA WEKA 是一个基于JAVA 环境下免费开源的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。
22 of 43
1.3数据挖掘常用工具
•R • Weka • Mahout • RapidMiner • Python • Spark MLlib
第一章绪论
20 of 43
1.3数据挖掘常用工具
第一章绪论
1.3.2 开源工具
•R R是用于统计分析和图形化的计算机语言及分析工具，提供了丰富的统计分析和数据挖掘功能，其核心模块是用C、C++和Fortran编写的。
为了提高系统的决策支持能力，像ERP、SCM、HR等一些应用系统也逐渐与数据挖掘集成起来。多种理论与方法的合理整合是大多数研究者采用的有效技术。
12 of 43
1.2 数据挖掘起源及发展历史
第一章绪论
3 数据挖掘面临的新挑战
随着物联网、云计算和大数据时代的来临，在大数据背景下数据挖掘要面临的挑战，主要表现在以下几个方面：

Web3.0时代互联网发展研究

Web3.0时代互联网发展研究李湘媛【摘要】在基于Web2.0技术与思想的以网络为平台,借由个人到个人(P2P)的分享形成的网站和应用大行其道的互联网世界里,有一个新名词出现的频率越来越高-Web3.0.本文回顾了互联网技术的发展进程,并着重对Web3.0的定义、主要技术特征以及应用前景进行了细致的研究分析,最后讨论了在Web3.0的影响之下,互联网可能的发展趋势.【期刊名称】《中国传媒大学学报（自然科学版）》【年(卷),期】2010(017)004【总页数】4页(P54-56,62)【关键词】互联网;Web2.0;Web3.0【作者】李湘媛【作者单位】北京林业大学,北京,100083【正文语种】中文【中图分类】TP371 互联网的发展随着社会的发展和科学技术的进步,人们渴望更加开放、平等、自由的信息交流[1]。

诞生于上世纪六十年代的互联网,提供了一个可以突破时空局限、交流各种信息的互动平台,使得用户无论身在何处,都可以通过网络充分共享全社会的智慧。

最早的网络构想来源于 1980年由蒂姆◦伯纳斯 -李构建的 ENQUIRE项目,这是一个超文本在线编辑数据库。

尽管看上去与现在使用的互联网不太一样,但是在许多核心思想上却是一致的。

Web中最重要的“超文本”这一概念则起源于上世纪 60年代的几个项目,直到1992年www服务出现,这期间的Web可以被称为0.1版。

从 1992年到 1994年,互联网(Internet)成了主流,“冲浪”这个词汇被首次使用,这时候的互联网可以被称为是 Web0.5,这个时期随着 Netscape的发布而结束。

Web1.0时代开始于 1994年,其主要特征是大量使用静态的 HTML网页来发布信息,并开始使用浏览器来获取信息,这个时候主要是单向的信息传递。

1995年,跨平台应用软件的面向对象的设计语言 Java诞生了,同时服务器端脚本技术也被开发出来。

同年,微软发布了 Internet Explorer浏览器。

从WEB生态圈的应用开放环境看CNML的推广及发展

Science前沿中文新闻信息置标语言C N M L 以文档、信封-稿件、内容项三个层级，辅以元数据、稿件关系、内容项关系、受控词表等全面构建了中文新闻信息标准，为中文新闻信息相关应用系统的开发奠定了坚实的基础。

中文新闻信息置标语言CNML的意义无疑是巨大的，而从笔者的角度来看，其全面性最具特点，未来其他相关新闻信息的标准的制定，都可以以中文新闻信息置标语言CNML为根本，完善并细化目前未展开的部分，防止再做重复性的工作。

作为媒体数字化的传统研发公司，华光是参加“七四八工程”会战的主要单位之一，近30年来一直致力于中文信息处理技术及相关领域的研究和开发，为中文信息处理技术的发展做出了重要贡献，在整个发展过程中，借助华光电子出版系统，参与并推进了大量标准或第三方系统的实施和成熟过程，从计算机网络技术到苹果系统的率先使用及推广，汉字编码从新华码到国标码到GB18030的升级，五笔字型等输入法的推广流行，批处理语言到S2语言的页面描述语言的探索，以及CNML在各报刊新版采编系统及与其他系统接口的应用等等，大量的实践了各种标准的推广。

也有责任和义务对CNML的推广及发展提供一些建议。

和制定中文新闻信息置标语言CNML的大量工作对比，CNML的行业应用范围，目前还不是非常广泛。

其实，中文新闻信息置标语言CNML的很多成果，包括不断丰富的受控词表这样的具备行业级别的类似宏定义、全局定义的特色内容，都是非常有价值，值得全面展开，共同促进的。

相比而言，近几年，基于互联网的WEB系统的各种应用，大型的主流的互联网巨头，均高度重视开放平台的建设，推动围绕开放平台API的大量第三方开发商开发各种海量应用，显得非常富有活力，值得借鉴。

这方面比较有代表性的与基础设施相关的谷歌的GAE（GoogleApp Engine）开放平台、亚马逊AWS（Amazon Web Services）开放平台；国内公司，如淘宝、百度、新浪、腾讯均展开形形色色的开放平台计划，制定相关数据及API的标准，吸引开发者参与到其生态链中。

数据挖掘与分析心得体会

正如柏拉图所说：需要是发明之母。

随着信息时代的步伐不断迈进，大量数据日积月累。

我们迫切需要一种工具来满足从数据中发现知识的需求！而数据挖掘便应运而生了。

正如书中所说：数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。

1、数据挖掘数据挖掘应当更正确的命名为：“从数据中挖掘知识”，不过后者显得过长了些。

而“挖掘”一词确是生动形象的！人们把数据挖掘视为“数据中的知识发现（KDD）”的同义词，而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤！由此而产生数据挖掘的定义：从大量数据中挖掘有趣模式和知识的过程！数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

作为知识发现过程，它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。

数据挖掘处理数据之多，挖掘模式之有趣，使用技术之大量，应用范围之广泛都将会是前所未有的；而数据挖掘任务之重也一直并存。

这些问题将继续激励数据挖掘的进一步研究与改进！2、数据分析数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。

是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析有极广泛的应用范围。

典型的数据分析可能包含以下三个步：1、探索性数据分析：当数据刚取得时，可能杂乱无章，看不出规律，通过作图、造表、用各种形式的方程拟合，计算某些特征量等手段探索规律性的可能形式，即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。

2、模型选定分析，在探索性分析的基础上提出一类或几类可能的模型，然后通过进一步的分析从中挑选一定的模型。

3、推断分析：通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来，以找出所研究对象的内在规律。

在实用中，数据分析可帮助人们作出判断，以便采取适当行动。

基于Web的预测模型构建与优化

基于Web的预测模型构建与优化随着互联网技术的发展，Web应用程序越来越被广泛使用，给生活和工作带来很大的便利，而Web预测模型则为各种应用程序提供了更加智能的功能。

这些模型可以根据数据分析和算法实现对未来事件的预测，因此它被广泛应用于金融、交通、气象、医疗、营销等领域。

本文将介绍基于Web的预测模型构建与优化。

一、预测模型介绍Web预测模型是一种数据挖掘技术，它运用各种算法和技术对数据进行分析和处理，从而推测未来的结果。

这些算法和技术包括：线性回归、决策树、支持向量机、神经网络等。

根据数据的特点，我们可以选择不同的算法，来实现预测需求。

其中，线性回归算法以线性的方式预测因变量和自变量之间的关系。

决策树算法则是通过分类逻辑，预测出不同因素可能导致的不同结果。

支持向量机则是用一个超平面来区分不同类别的数据。

神经网络则通过神经元之间的连接和权重，建立复杂的非线性函数关系模型。

二、预测模型构建基于Web的预测模型通常由以下步骤构成：数据采集、数据清洗、特征提取、数据建模、模型评估和结果可视化。

1.数据采集数据采集是预测模型构建的第一步。

在此步骤中，我们需要收集大量的数据来建立模型，通常使用的数据来源包括：社交网络、新闻网站、传感器等。

2.数据清洗数据采集后，我们需要对数据进行清洗。

在此步骤中，我们将会处理一些无用变量和存在的异常值。

清洗后的数据有助于提高预测模型的精度和准确性。

3.特征提取特征提取是从大量数据中提取出有用信息的过程。

在此步骤中，我们利用专业的知识和经验从数据中提取出特征，然后用数学方法将其转化为数值。

特征提取后，我们可以根据数据的特征进行分类处理。

4.数据建模数据建模是利用算法对清洗后的数据进行建模分析，确定最终的预测结果。

在此步骤中，我们可以利用之前提到的算法进行预测分析。

模型建立后，我们可以对模型进行细节调整，以提高其预测精度。

5.模型评估在模型评估步骤中，我们利用测试数据集来评估模型的准确度和精度。

基于CiteSpace软件中医数据挖掘文献的可视化分析研究

基于CiteSpace软件中医数据挖掘文献的可视化分析研究一、本文概述随着信息技术的飞速发展，数据挖掘技术在各个领域得到了广泛的应用。

在中医领域，数据挖掘技术的引入为中医药的研究和发展提供了新的视角和工具。

本文旨在利用CiteSpace软件对中医数据挖掘文献进行可视化分析，以期更深入地理解中医数据挖掘的现状、发展趋势以及研究热点。

本文首先介绍了中医数据挖掘的重要性和必要性，阐述了数据挖掘技术在中医领域的应用现状。

随后，详细介绍了CiteSpace软件的功能特点及其在文献分析中的应用优势。

在此基础上，本文利用CiteSpace软件对中医数据挖掘相关文献进行了可视化分析，包括文献的时间分布、关键词共现网络、主题演化等方面。

通过可视化分析，本文揭示了中医数据挖掘领域的研究热点和发展趋势，为中医药研究者提供了有价值的参考信息。

本文也指出了当前中医数据挖掘研究中存在的问题和不足，为进一步的研究提供了方向和建议。

本文的研究不仅有助于深入了解中医数据挖掘的研究现状和发展趋势，同时也为中医药的现代化、国际化提供了有力的支持。

未来，随着数据挖掘技术的不断进步和应用领域的不断拓展，相信中医数据挖掘研究将会取得更加丰硕的成果。

二、理论基础与文献综述随着信息技术的快速发展，数据挖掘技术在各个领域的应用日益广泛。

在中医领域，数据挖掘技术也被逐渐引入，以期通过对中医文献的深度挖掘和分析，发现传统医学知识中的新规律和新见解。

本文旨在利用CiteSpace软件对中医数据挖掘文献进行可视化分析，以期系统地梳理和归纳中医数据挖掘领域的研究现状和发展趋势。

理论基础方面，数据挖掘是一门通过特定算法对大量数据进行处理和分析，以发现数据中的潜在规律和有价值信息的科学。

在中医领域，数据挖掘技术可以应用于中药方剂配伍、疾病证候分析、名医经验传承等多个方面。

通过数据挖掘技术，可以对中医古籍、现代中医文献等海量数据进行深度挖掘，揭示传统医学知识中的隐藏规律和关联规则，为中医临床和科研提供新的思路和方法。

大数据的常用算法（分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘）

⼤数据的常⽤算法（分类、回归分析、聚类、关联规则、神经⽹络⽅法、web数据挖掘）在⼤数据时代，数据挖掘是最关键的⼯作。

⼤数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的⼤型数据库中发现隐含在其中有价值的、潜在有⽤的信息和知识的过程，也是⼀种决策⽀持过程。

其主要基于，，模式学习，统计学等。

通过对⼤数据⾼度⾃动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、⽤户调整市场政策、减少风险、理性⾯对市场，并做出正确的决策。

⽬前，在很多领域尤其是在商业领域如、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、危机等。

⼤数据的挖掘常⽤的⽅法有分类、回归分析、聚类、关联规则、⽅法、Web 数据挖掘等。

这些⽅法从不同的⾓度对数据进⾏挖掘。

数据准备的重要性：没有⾼质量的挖掘结果，数据准备⼯作占⽤的时间往往在60%以上。

(1)分类分类是找出数据库中的⼀组数据对象的共同特点并按照分类模式将其划分为不同的类，其⽬的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。

可以应⽤到涉及到应⽤分类、趋势预测中，如淘宝商铺将⽤户在⼀段时间内的购买情况划分成不同的类，根据情况向⽤户推荐关联类的商品，从⽽增加商铺的销售量。

分类的⽅法：决策树——是最流⾏的分类⽅法特点：a、它的每次划分都是基于最显著的特征的；b、所分析的数据样本被称作树根，算法从所有特征中选出⼀个最重要的，⽤这个特征把样本分割成若⼲⼦集；c、重复这个过程，直到所有的分⽀下⾯的实例都是“纯”的，即⼦集中各个实例都属于同⼀个类别，这样的分⽀即可确定为⼀个叶⼦节点。

在所有⼦集变成“纯”的之后，树就停⽌⽣长了。

决策树的剪枝：a、如果决策树建的过深，容易导致过度拟合问题（即所有的分类结果数量基本⼀样，没有代表性）；b、剪枝通常采⽤⾃上⽽下的⽅式。

每次找出训练数据中对预测精度贡献最⼩的那个分⽀，剪掉它；c、简⾔之，先让决策树疯狂⽣长，然后再慢慢往回收缩。

引文网络的研究现状及其发展综述

收稿日期：２０１１一０４—１４。吴海峰，硕士生，主研领域：数据挖掘，商务智能。
引文网络是由文献间引用和被引用的关系构成的集合，这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式，其较好地描述了科学领域的发展、学科间的关系。随着现代信息技术的发展，文献著作数量迅速增加，引文网络已经形成了一个超大规模的复杂网络系统，并吸引了越来越多的关注。由于引文网络包含了多个领域的研究成果，代表了学术研究中重要的知识宝库，其已经成为研究的重要介质。引文网络被认为是社会网络的变型，该网络中的节点是文献，边代表了文献间的引用关系。引文网络的发展区别于一般的社会网络，它由文献的引用关系确定。不可随意添加或删除，其中的引用关系在时间上具有单向性，只能是后期的文献引用前期的文献。引文与被引文之间体现了文献内容的相关性以及知识的传递…。实际上，引文网络中隐含了由文献作者组成的研究群体，该群体具有相似的研究内容，并代表着某个领域的研究现状及未来发展趋势，对促进科研的发展及加快学术成果的流动起着重要的作用。目前引文网络的研究主要包括学术研究重要性评价技术的
第２９卷第２期２０１２年２月
计算机应用与软件
ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ
ＶｏＬ２９Ｎｏ．２Ｆｅｂ．２０１２
引文网络的研究现状及其发展综述
吴海峰孙一鸣
（复旦大学软件学院上海２０１２０３）
摘要
随着现代信息技术的发展，文献著作数量迅速增加，引文网络已经形成了一个超大规模的复杂网络系统，并吸引了越来
万方数据
第２期
吴海峰等：引文网络的研究现状及其发展综述
１６５
不同的学者之间也能够更好地实现科研成果的共享，使得科研成果的管理更加高效、更加灵活。

数据库技术发展简史

数据库技术发展简史数据库技术从诞生到现在，在不到半个世纪的时间里，形成了坚实的理论基础、成熟的商业产品和广泛的应用领域，吸引越来越多的研究者加入。

数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。

三十多年来，国内外已经开发建设了成千上万个数据库，它已成为企业、部门乃至个人日常工作、生产和生活的基础设施。

同时，随着应用的扩展与深入，数据库的数量和规模越来越大，数据库的研究领域也已经大大地拓广和深化了。

30年间数据库领域获得了三次计算机图灵奖（C.W. Bachman,E.F.Codd, J.Gray），更加充分地说明了数据库是一个充满活力和创新精神的领域。

就让我们沿着历史的轨迹，追溯一下数据库的发展历程。

数据库发展简史1. 数据管理的诞生数据库的历史可以追溯到五十年前，那时的数据管理非常简单。

通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理，其运行结果在纸上打印出来或者制成新的穿孔卡片。

而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。

然而，1 9 5 1 年雷明顿兰德公司（Remington Rand Inc.）的一种叫做Univac I 的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器，从而引发了数据管理的革命。

1956 年IBM生产出第一个磁盘驱动器——the Model305 RAMAC。

此驱动器有50 个盘片，每个盘片直径是2 英尺，可以储存5MB的数据。

使用磁盘最大的好处是可以随机地存取数据，而穿孔卡片和磁带只能顺序存取数据。

数据库系统的萌芽出现于60 年代。

当时计算机开始广泛地应用于数据管理，对数据的共享提出了越来越高的要求。

传统的文件系统已经不能满足人们的需要。

能够统一管理和共享数据的数据库管理系统（DBMS）应运而生。

数据模型是数据库系统的核心和基础，各种DBMS 软件都是基于某种数据模型的。

所以通常也按照数据模型的特点将传统数据库系统分成网状数据库、层次数据库和关系数据库三类。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Web数据挖掘的研究现状及发展 1．Web挖掘概述随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用，使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化，无法从表面上看出他们所蕴涵的有用信息，更不用说有效地指导进一步的工作。如何从大量的数据中找到真正有用的信息成为人们关注的焦点，数据挖掘技术也正是伴随着这种需求从研究走向应用。近年来，随着Internet/Web技术的快速普及和迅猛发展，使各种信息可以以非常低的成本在网络上获得，由于Internet/WWW在全球互连互通，可以从中取得的数据量难以计算，而且Internet/WWW的发展趋势继续看好，特别是电子商务的蓬勃发展为网络应用提供了强大支持，如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。 2．Web挖掘流程与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据处理。典型Web挖掘的处理流程如下[3]： 1．查找资源：任务是从目标Web文档中得到数据，值得注意的是有时信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组，或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。 2．信息选择和预处理：任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。 3．模式发现：自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。 4．模式分析：验证、解释上一步骤产生的模式。可以是机器自动完成，也可以是与分析人员进行交互来完成。 Web挖掘作为一个完整的技术体系，在进行挖掘之前的信息获得IR（Information Retrieval）和信息抽取IE(Information Extraction)相当重要。信息获得（IR）的目的在于找到相关Web文档，它只是把文档中的数据看成未经排序的词组的集合，而信息抽取(IE)的目的在于从文档中找到需要的数据项目，它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。信息获得（IR）和信息抽取(IE)技术的研究已近有很长时间，随着Web技术的发展，基于Web技术的IR、IE得到了更多的重视。由于Web 数据量非常大，而且可能动态变化，用原来手工方式进行信息收集早已经力不从心，目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。在Web环境下既要处理非结构化文档，又要处理半结构化的数据，最近几年在这两方面都有相应的研究成果和具体应用，特别是在大型搜索引擎中得到了很好的应用。 3．Web挖掘分类及各自的研究现状及发展根据对Web数据的感兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘（Web Content mining）、 Web结构挖掘（ Web structure mining）、 Web 用法挖掘（Web usage Mining） 3．1、Web内容挖掘：指从Web内容/数据/文档中发现有用信息，Web上的信息五花八门，传统的Internet由各种类型的服务和数据源组成，包括WWW、FTP、Telnet等，现在有更多的数据和端口可以使用，比如政府信息服务、数字图书馆、电子商务数据，以及其他各种通过Web可以访问的数据库。Web内容挖掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现（KDT）领域，也称文本数据挖掘或文本挖掘，是Web挖掘中比较重要的技术领域，也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。 Web内容挖掘一般从两个不同的观点来进行研究。从资源查找（IR）的观点来看，Web内容挖掘的任务是从用户的角度出发，怎样提高信息质量和帮助用户过滤信息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模，以支持对Web数据的复杂查询。 3．1．1从资源查找（Information Retrival）的观点挖掘非结构化文档：非结构化文档主要指Web上的自由文本，包括小说、新闻等。在这方面的研究相对比较多一些，大部分研究都是建立在词汇袋（bag of words）或称向量表示法（vector representation）的基础上，这种方法将单个的词汇看成文档集合中的属性，只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属性可以是布尔型，根据词汇是否在文档中出现而定，也可以有频度，即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富，词汇量非常大，处理起来很困难，为解决这个问题人们做了相应的研究，采取了不同技术，如信息增益，交叉熵、差异比等，其目的都是为了减少属性。另外，一个比较有意义的方法是潜在语义索引（Latent Semantic Indexing），它通过分析不同文档中相同主题的共享词汇，找到他们共同的根，用这个公共的根代替所有词汇，以此来减少维空间。例如：“informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示，这样可以减少属性集合的规模。其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等，目前还没有研究表明一种表示法明显优于另一种。用资源查找（Information Retrival）的观点挖掘半结构化文档：与非结构化数据相比，Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘，其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。 3．1．2从数据库（Database）的观点挖掘非结构化文档：数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类：Web信息的建模和查询；信息抽取与集成；Web站点建构和重构。从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成，以支持复杂查询，而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。数据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识（OID）和值，值可以是原子类型，如整型、字符串型、gif、html等，也可以是一个复合类型，以对象引用集合的形式表示。由于Web数据量非常庞大，从应用的角度考虑，很多研究只处理办结构化数据的一个常用自集。一些有意义的应用是建立多层数据库（MLDB），每一层是它下面层次的概化，这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。由于在数据库观点下数据的表示方法比较特殊，其中包含了关系层次和图形化的数据，所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用，目前已经有人针对多层数据库挖掘算法进行研究。 3．2、Web结构挖掘： Web结构挖掘的对象是Web本身的超连接，即对Web文档的结构进行挖掘。对于给定的Web文档集合，应该能够通过算法发现他们之间连接情况的有用信息，文档之间的超连接反映了文档之间的包含、引用或者从属关系，引用文档对被引用文档的说明往往更客观、更概括、更准确。 Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和outgoing连接，运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。他们的共同点是使用一定方法计算Web页面之间超连接的质量，从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。此外，Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘，包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性，在不同的Web数据仓库中检查副本以帮助定位镜像站点，通过发现针对某一特定领域超连接的层次属性去探索信息流动如何影响Web站点的设计。 3．3、Web用法挖掘（Web usage Mining）：即Web使用记录挖掘，在新兴的电子商务领域有重要意义，它通过挖掘相关的Web日志记录，来发现用户访问Web页面的模式，通过分析日志记录中的规律，可以识别用户的忠实度、喜好、满意度，可以发现潜在用户，增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的，而且数据类型也相当丰富。根据对数据源的不同处理方法，Web 用法挖掘可以分为两类，一类是将Web使用记录的数据转换并传递进传统的关系表里，再使用数据挖掘算法对关系表中的数据进行常规挖掘；另一类是将Web 使用记录的数据直接预处理再进行挖掘。Web 用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户，如何识别属于该用户的会话和使用记录，这个问题看起来不大，但却在很大程度上影响着挖掘质量，所以有人专门在这方面进行了研究。通常来讲，经典的数据挖掘算法都可以直接用到Web 用法挖掘上来，但为了提高挖掘质量，研究人员在扩展算法上进行了努力，包括复合关联规则算法、改进的序列发现算法等。在[4]中，根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web 用法挖掘分为五类： ●个性挖掘：针对单个用户的使用记录对该用户进行建模，结合该用户基本信息分析他的使用习惯、个人喜好，目的是在电子商务环境下为该用户提供与众不同的个性化服务。 ●系统改进：Web服务（数据库、网络等）的性能和其他服务质量是衡量用户满意度的关键指标，Web 用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈，以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外，可以通过分析网络的非法入侵数据找到系统弱点，提高站点安全性，这在电子商务环境下尤为重要。 ●站点修改：站点的结构和内容是吸引用户的关键。Web 用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依，比如页面连接情况应如何组织、那些页面应能够直接访问等。 ●智能商务：用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点，用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤，Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机，以帮助销售商合理安排销售策略。 ●Web特征描述：这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况，对用户访问情况进行特征描述。 4．结束语尽管Web挖掘的形式和研究方向层出不穷，但我认为随着电子商务的兴起和迅猛发展，未来Web挖掘的一个重要应用方向将是电子商务系统。而与电子商务关系最为密切的是用法挖掘（Usage Mining），也就是说在这个领域将会持续得到更多的重视。另外，在搜索引擎的研究方面，结构挖掘的研究已经相对成熟，基于文本的内容挖掘也已经有许多研究，下一步将会有更多的研究者