Web行情数据的抽取研究
web信息提取技术与应用的研究

web信息提取技术与应用的研究随着互联网的迅速发展,网页数量和内容越来越多,其中包含了大量有价值的信息。
但是,在大量信息中找到所需的有效信息是一项非常耗时的工作,因此需要一些自动化技术来解决这个问题。
Web信息提取技术就是一种能够从网页中提取出有价值信息的方法。
本文将介绍Web信息提取技术的相关知识、应用和未来发展方向。
一、Web信息提取技术的定义Web信息提取技术(Web Content Extraction,WCE)是指将网页中的有价值信息提取出来,并以统一的格式结构化输出的技术。
Web信息提取技术包括网页内容分析、信息提取、自然语言处理、机器学习等多个领域知识。
WCE技术不仅是对Web数据的索引处理、高效存储和检索的基础,更是探索网页间结构化数据交互的空间的基本工具。
二、Web信息提取技术的分类1. 基于模板的方法基于模板的方法是指利用固定的结构化模板去提取网页中的信息。
网页一般是由HTML代码构成,基于模板的方法会根据HTML的语义来定义具体的提取规则。
这种方法需要先手动标注一些网页的样本来生成模板,然后基于模板提取其他具有相同网页结构的信息。
2. 基于规则的方法基于规则的方法是指提取信息的规则基本上是由人工设定的,例如网页的标题、正文、时间等信息的抽取规则。
这种方法提取的结果没有固定的形式,需要手动加工处理。
3. 基于机器学习的方法基于机器学习的方法可以自动学习提取网页中的信息的规则。
例如,可以训练分类器来识别标签,文本块等等。
除了以上三种方法,还有一些其他的方法,例如自然语言处理方法和聚类方法。
三、Web信息提取技术的应用1. 电子商务电子商务网站需要从供应商的网站上采集商品信息,并在自己的网站上展示商品。
此时,Web信息提取技术能够从供应商的网站上提取各种商品信息,例如名称、价格、尺寸、颜色、照片等,从而帮助电子商务网站实现自动化采集。
2. 搜索引擎搜索引擎需要从大量的Web页面中抽取出有价值的信息,例如标题、正文、摘要、链接等。
基于领域特征的Web数据实体抽取的研究的开题报告

基于领域特征的Web数据实体抽取的研究的开题报告一、研究背景及意义Web已成为人们获取各类信息的重要渠道,其中包括大量的数据实体,如商品、公司、人物等。
实体抽取是对这些数据实体进行自动识别与提取的关键技术之一。
随着Web应用场景的多样化,实体抽取的应用也日益广泛,如信息组织、搜索引擎、知识图谱等领域。
然而,实体抽取面临着一些挑战。
首先,Web数据的特点决定了实体抽取需要考虑HTML标签、CSS样式等等多种信息,难以直接解析,需要借助文本提取、结构化信息提取等技术进行处理。
同时,Web数据在不同领域下的实体命名和描述存在差异,需要针对性地设计算法。
因此,本研究旨在基于领域特征开展Web数据实体抽取的研究,以提高实体抽取的精度和效率。
二、研究内容及方案1.研究内容:本研究将构建基于领域特征的Web实体抽取模型,主要包括以下内容:(1)领域知识预处理:根据用户需求,获取并处理领域知识,如领域词汇、知识图谱等,以便后续模型构建和实体抽取过程中使用。
(2)数据预处理:针对不同的Web数据源类型,预处理HTML标签、CSS样式等信息,提取文本和结构化信息,为实体抽取做好准备。
(3)实体抽取模型设计:针对不同领域的Web数据进行特征分析,设计基于领域特征的实体抽取模型。
在此过程中,可考虑使用机器学习算法,如支持向量机(SVM)、条件随机场(CRF)等。
(4)实体抽取效果评估:将设计的实体抽取模型应用于实际数据中,评估实体抽取的精度、召回率等效果指标,以反馈和改进实体抽取模型。
2.研究方案:(1)数据集的准备:收集多个领域的Web数据,建立适用于不同领域的Web实体抽取模型。
(2)数据处理:采用HTML DOM解析技术抽取HTML页面的文本和结构化信息。
预处理过程将提取的文本数据进行分词、去掉停用词等操作,挖掘实体内在的领域特征。
(3)特征选择与模型构建:选择适合不同领域的特征集合、算法和模型参数,建立基于领域特征的Web实体抽取模型。
基于大数据的网页内容自动抽取研究

基于大数据的网页内容自动抽取研究随着互联网的快速发展,信息爆炸的时代已经来临。
每天都有数以亿计的网页被创建,而其中大多数都含有对我们有用的信息。
然而,要从这些海量的网页中提取出有价值的内容并进行分析却是一项非常复杂的任务。
为了解决这个问题,基于大数据的网页内容自动抽取研究应运而生。
一、问题定义基于大数据的网页内容自动抽取是指通过分析海量的网页,从中提取出所需的有用信息的过程。
常见的需求包括提取新闻文章、产品信息、评论、论坛帖子等等。
具体而言,网页内容自动抽取需要解决以下几个关键问题:1. 网页结构识别:大多数网页都有相似的页面布局,自动识别这些布局模式是抽取过程的第一步。
2. 区块抽取:网页通常由多个区块组成,例如导航菜单、标题、内容等。
自动抽取需要区分这些区块,并从中选取目标信息。
3. 内容过滤:在网页中,噪声和无关信息可能会干扰抽取过程。
因此,需要进行内容过滤,只保留与目标信息相关的部分。
4. 数据清洗:从网页中抽取的内容通常包含错误和不完整的部分,需要进行数据清洗,确保最终结果的准确性和完整性。
二、研究方法目前,基于大数据的网页内容自动抽取主要通过机器学习和自然语言处理技术来实现。
1. 机器学习方法:利用机器学习算法可以训练模型,使其能够自动识别网页布局和区块。
一种常用的方法是基于规则的学习,即通过识别特定的HTML标签和属性来进行区块抽取。
另一种方法是基于神经网络的学习,通过训练神经网络模型来自动发现和提取关键信息。
2. 自然语言处理技术:对于内容过滤和数据清洗,自然语言处理技术是一种有效的工具。
通过分析文本的语法和语义信息,可以过滤掉无关的信息,并修复错误和不完整的内容。
常用的自然语言处理技术包括分词、词性标注、依存句法分析等。
三、应用场景基于大数据的网页内容自动抽取技术在众多领域中都有广泛的应用。
1. 新闻媒体:自动抽取技术可以帮助新闻机构从海量的新闻网页中抽取出具体新闻内容,实现快速浏览和分类,提供给读者更便捷的阅读体验。
基于Web的信息抽取技术探索研究

基于Web的信息抽取技术探索研究随着互联网的快速发展和信息爆炸式增长,人们需要从海量的网络数据中提取有用的信息。
为此,基于Web的信息抽取技术应运而生。
本文将探索这一技术的研究与应用,介绍其原理和方法,并讨论它在各个领域的应用前景。
一、基于Web的信息抽取技术原理与方法基于Web的信息抽取技术是指从Web页面中自动抽取有用信息的方法和工具。
其基本原理是通过自然语言处理和机器学习等技术,将HTML文档转化为结构化信息,实现精确的信息抽取。
1. HTML解析和标签识别首先,通过HTML解析器解析Web页面的源代码,识别出HTML标签和它们的属性。
然后,根据预定义的规则,识别出所需的信息所在的标签,为后续的信息抽取做准备。
2. 信息定位和模式匹配接下来,基于模式匹配的方法来定位所需的信息。
可以使用正则表达式、XPath或CSS选择器等技术,通过匹配特定的模式或规则,准确定位到目标信息的位置。
3. 实体识别和关系抽取在定位到目标信息的位置后,需要进行实体识别和关系抽取。
通过机器学习技术,训练模型来自动识别出实体,并提取它们之间的关系。
这些实体可以是人名、地名、时间、事件等。
4. 信息清洗和归纳最后,对抽取得到的信息进行清洗和归纳。
清洗过程主要是去除重复、无效或错误的信息,保证抽取结果的准确性。
归纳过程则是将抽取的信息按照一定的规则组织起来,形成结构化的数据。
二、基于Web的信息抽取技术的应用领域1. 商业情报和竞争分析基于Web的信息抽取技术可以帮助企业从竞争对手和市场环境中获取关键信息,用于商业情报和竞争分析。
例如,抓取竞争对手的产品信息和价格,分析市场趋势和消费者行为,为企业决策提供数据支持。
2. 新闻媒体和舆情监测在面对海量的新闻报道和社交媒体信息时,基于Web的信息抽取技术可以帮助新闻机构和舆情监测公司实时获取和分析关键信息。
它可以抽取新闻报道中的实体和事件,进行分析和整理,为媒体报道和舆情监测提供支持。
Web信息抽取技术研究

Web信息抽取技术研究Web信息抽取技术是当前互联网发展中的一个重要研究领域。
在人工智能、大数据时代的今天,信息抽取已经成为获取和处理信息的重要手段。
在众多的信息抽取技术中,Web信息抽取技术占据了十分重要的地位。
本文将围绕这一主题展开。
I. Web信息抽取技术简介Web信息抽取技术是一种自动化信息处理技术,通过网络爬虫、HTML解析、信息提取等技术手段,将Web上的非结构化信息转换为结构化的信息,从而实现对关键信息的提取、分析和应用。
Web信息抽取技术的应用涉及各个领域,如搜索引擎、电子商务、社交网络分析等等。
Web信息抽取技术并不是一个完整的技术体系,而是由多个技术模块组成的集合体。
其中,网络爬虫模块用于获取Web页面,HTML解析模块用于解析Web页面的HTML代码,信息提取模块用于提取目标信息并对其进行分析。
这些技术模块的协同工作,最终实现对Web页面信息的抽取和分析。
II. Web信息抽取技术的应用Web信息抽取技术在各个领域都有广泛的应用。
以下是一些常见的应用场景:1. 搜索引擎搜索引擎是Web信息抽取技术最常见的应用领域之一。
搜索引擎的核心就是对Web页面的信息进行抽取和分析,从而实现搜索引擎对关键词的匹配和检索。
2. 电子商务电子商务领域对Web信息抽取技术的应用非常广泛。
通过对电商网站的产品信息进行抽取和分析,可以实现商品信息的分类、推荐等功能,从而提高电商网站的用户体验。
3. 社交网络分析社交网络分析是近年来发展迅速的一个领域,其中Web信息抽取技术也发挥了重要的作用。
通过对社交网络上用户的信息进行抽取和分析,可以实现社交网络的用户聚类、社区发现等功能。
III. Web信息抽取技术的挑战Web信息抽取技术的应用具有广泛性和复杂性,在应用过程中,面临着一些挑战:1. Web页面结构多样性Web页面的结构十分复杂,有些页面可能包含多个嵌套的表格、DIV等元素,这些元素的层级关系和结构差异非常大,因此Web信息抽取技术需要能够适应各种类型的Web页面结构。
基于Web的信息抽取技术研究的开题报告

基于Web的信息抽取技术研究的开题报告一、研究背景随着互联网的发展,网络信息已经成为人们获取信息的主要渠道之一。
但是,由于互联网上信息量极大,难以人工处理,因此需要利用计算机技术进行自动化处理。
信息抽取技术是实现自动化处理的重要手段之一,通过信息抽取技术,可以从海量的文本数据中抽取出有用的信息。
现有的信息抽取技术大都是基于规则或者统计学方法,这些方法需要大量的人工构建规则或者收集大量的训练数据。
这些方法在某些领域表现较好,但是对于多样性、复杂性较高的文本数据,效果不尽人意。
近年来,随着深度学习技术的发展,基于深度学习的信息抽取技术得到了广泛关注。
二、研究内容和目标本研究旨在探究基于Web的信息抽取技术,利用深度学习技术构建一个基于Web的信息抽取模型。
具体内容包括:1.深入研究Web页面结构,了解Web页面中的数据结构及其关系。
2.针对Web页面中的文本、图片、视频等不同类型的信息,选择合适的深度学习技术进行处理,以实现对信息的抽取。
3.构建一个基于Web的信息抽取模型,包括数据预处理、模型训练、模型优化等步骤。
4.通过实验验证模型的效果,并与现有方法进行对比分析,探讨基于Web的信息抽取技术的优势和不足之处。
三、研究方法和技术本研究采用深度学习技术进行信息抽取,具体包括:1.文本信息抽取:使用神经网络模型,如卷积神经网络、循环神经网络等进行文本特征提取和分类。
2.图片信息抽取:使用卷积神经网络进行图片特征提取。
3.视频信息抽取:使用循环神经网络等模型结合卷积神经网络进行视频特征提取。
四、研究意义与预期结果本研究的意义在于:1.提高Web信息抽取的效率和准确度。
2.减少人工干预,降低信息抽取成本。
3.对深度学习技术在信息抽取领域中的应用进行探索。
本研究预期结果为:1.构建一个基于Web的信息抽取模型。
2.通过实验验证模型的效果,对比现有方法的优缺点。
3.总结深度学习技术在信息抽取领域中的应用方法和经验。
Web信息抽取技术研究

慨 b信 息抽取技 术研究
戴 慧敏 。 朱艳辉 唐 杰
( 1 . 湖南工业大学计算机与通信 学院 2 . 湖南工学院计算机 与信息科学学院)
[ 摘 要] 随 着互联 网技 术的快速发展 , We b 信 息呈现爆 炸性增长 , 人 们发现 用信 息检 索的方法不能及 时的得到想要 的信 息 , 于是 出
现 了信 息抽 取 , We b 信 息抽取是-  ̄Y XW e , b 文 档 中 自动 抽 取 感 兴趣 信 息 的 过 程 。 本 文 主 要 介 绍 W e b 信 息 抽 取 的研 究 现 状 及 抽 取 工 具
和抽取 方法。
[ 关键词 ]Leabharlann We b 信息抽取抽取 工具
抽取 方法
We b 信息抽取就是从 We b 页面所 包含的无结构或半 结构的信息 中 展性 不强。 识别 用户 感兴趣 的数 据 , 并将 其转 化 为结 构 和语义更 为清 晰 的格 式 。 现阶段的 we b 信息抽取方法 , 分类 的角度有 多种 。 信息抽取技 术其实是一种文本处 理技术 , 其 目的是根 据预定义 的信息 , 根据 We b 信息抽 取对象划分 , 可以分为三种类 型 。从 自由格式 的 从 自然语言文本 中抽取 出特定 的信息 , 并将 其 以结 构化 的形式 存储在 文本 中抽取 出所需要 的信息 内容 : 基 于 自然语 言处 理( N P L ) 的方 式 , 基 数据库 中供用户查 询使 用。 于规则 的方式 , 基 于统计学 习的方式 ; 从半结 构化的文 本中 , 抽 取出所 在 国外 , 从2 O 世纪8 0 年 代开始 , 信息抽 取研究 蓬勃 开展起 来 。随 需要的信息 内容 ; 从结构化 的文本 中抽取出所需要的信息 内容 。 着信 息抽 取技术的发展 , 出现了一些典型 的信 息抽取系统 , 如基 于 自然 根据 自 动化 程度可 以分为 : 人 工方式的信息抽取 、 半 自动方式 的信 语 言处 理方 式 的信息 抽取 系统 有 R A P I E R, S R V, WN I S K ; 基 于包 装 器 息抽取和全 自 动方式 的信息 抽取三大类。 ( Wr a p p e r ) 归纳方式的信息抽取系统有 T A L K — E R, S O H T ME AL Y, WI E N; 根据 抽取 工具 采用 的原理 不 同对 信息 抽取 方法进 行 的分类 主要 基于H T M L 结构的信息抽 取系统有 L I X T O等 。各种信息 抽取工具 的分 有 : 基于 自 然语 言处理方式 的信息抽 取 ; 基于包装器归 纳方式的信息抽 类方 式并不 是一成不变 的 , 有些 工具可 以同时 属于其 中的两种或 多种 取 ; 基于 O n t o l o g y 方式 的信 息抽取 ; 基于 We b 查 询的信息抽取 。 类 型。 We b 信息抽取虽 然在不断 的向前 发展 , 但是也存 在很 多不足 , 并且 抽取 工具方面 , 随着许 多新技术的发展 , 也开发 了许多信息抽 取工 面 l 临 很 多挑 战。首先 , 现有信息 抽取 的抽取 来源大 多数都是从 半结构 具 。南加州 大学信息科 学研究 所研制开 发 了一个 信息集成 系统 , 应 用 化 的 H T M L 文本 中抽 取 , 那 么对那些 含有新 技术 的动态 网页 的信息抽 多 种人工智 能技术 , 构造 了一个 智能 的动态接 口。该系统 采用带 有明 取是否 能达到很 好 的召回率和查 准率?其次 , 信息抽 取 的 自动化程度 确 的分 隔符 以区分 不 同元 素 的元组列 表 的形式来 表 达半结构 化 的信 还没有 达到完全 自动 , 大 多数时候还是需要用 户的参 与。还有 , 对 中文 息; 美 国斯坦 福大 学计算 机科 学系 的 H a m m e r 等 人开 发 了一 个用 于从 网页的信 息抽取 也是一个难点 。 We b 上抽取 相关信息 的工具 , 利用 网页 的结构 特点来构造抽取 规则 , 其 总之 , We b 信 息抽取是一个 十分活跃的领域 , 虽然 现在得到 了一定 准确率较高 , 但是针对 不同的网页结构该 工具 需要定义不 同的规则 , 通 的发展 , 但 也存在很多 的不 足之 处 , 随着信息抽取 的运 用 已变得越来越 广泛 , 需要更 多这个 领域的研究 , 从而使抽取技术变得更 加 自动化。 用性 较差。 国内在 信息抽取 方面 的研 究起步较 晚 , 中文信息抽 取系统 的完整 实现还 处于探 索 阶段 。I n t e l 中国研究 中心 的 Z h a n g Y i m i n 等人在 计算 参 考文献 语 言学协 会第 3 8 届 年度会议 ( A C L 一 2 0 0 0 ) 上演 示 了他们 开发 的一个信 [ 1 ] 崔春. We b 信 息抽 取 研 究综 述 [ I ] . 电脑 知 识 与技 术 , 2 0 1 l ( 4 ) : 息抽取 系统 , 该 系统用于抽 取以 中文 命名 的实体及其相 互关系 。国 内 7- 1O 比较著名 的研究 是中国人 民大学数据 与知识研究所提 出的基于预定义 [ 2 ] 石宇. 基 于X ML 的We b 信 息抽 取与集 成技 术的研 究[ D] . 大连 : 模式 的包装器 、 中 国科技 大学提 出的基于 多层模式 的多记 录网页信息 大连海事 大学硕士 学位论 文, 2 0 0 6 抽取 方法 、 中国科学 院软件研 究所提 出的基 于 D O M的 We b 信 息抽取 、 l 3 j Ha mme r J . Te mp l a t e — b a s e d wr a p p e r s i n t h e T S I MM I S s y s t e m. I n o c e e d i ng s o f t h e 1 9 9 7 ACM S I GM OD i n t e na r t i o n a l c o nf e r e n c e o n 浙江大学人工智 能研究所提 出的基 于本体论 的 We b 信息抽取等 。这些 Pr 信息 抽取技 术 的提 出对 解决 We b 信息抽 取 中存在 的问题 有一定 的帮 M a n a g e me nt o fd a t a , 1 9 9 7: 5 3 2 —5 3 5 助, 推 动了抽 取技术 的发展 , 但 这些 抽取方法有其局 限性。如大部分信 [ 4 ] 蒲 筱 哥. 基于We b 的信息抽取技术研究综述[ I ] . 现 代 情 报, 息抽取 系统 采用 自定义 的语 言描述 抽取规则 , 导致抽 取模式不统一 , 扩 2 0 0 7 . 2 7 ( 1 0 )
Python中的Web数据抓取与分析

Python中的Web数据抓取与分析一、Web数据抓取的背景和意义近年来,随着互联网技术的不断发展和普及,网络数据的规模和复杂性呈现出爆炸式增长。
这些海量的网络数据包含了丰富的信息资源,对于企业决策、市场调研、竞争情报等都具有重要的价值。
然而,要提取和利用这些网络数据并不容易,而Python作为一种广泛应用的脚本语言,在Web数据抓取和分析中发挥了重要作用。
二、Web数据抓取的基础知识在进行Web数据抓取之前,我们需要了解一些基础知识。
首先,我们要了解HTTP协议和HTML标记语言。
HTTP是超文本传输协议的英文缩写,也是Web数据传输的基础协议,它定义了客户端和服务器之间的通信规则。
而HTML是一种标记语言,用于描述网页的结构和内容。
通过了解HTTP和HTML,我们能够理解网络数据是如何传输和展示的。
三、Python中的Web数据抓取库Python提供了许多强大的第三方库来帮助我们进行Web数据抓取。
其中最常用的库包括requests、urllib和BeautifulSoup等。
requests库是HTTP请求库,它简化了HTTP请求的过程,并提供了更加友好的API。
而urllib库则是Python标准库中的一个模块,它提供了一系列的模块和函数来处理URL。
另外,BeautifulSoup库是一个HTML解析库,它可以将HTML文档转化为一个可以操作的树形结构,方便我们提取和分析所需的数据。
四、Web数据抓取的方法和技巧在进行Web数据抓取时,我们常常会遇到一些问题和挑战。
其中一个常见的问题是如何处理登录页面和验证码。
针对这个问题,我们可以使用模拟登录的方式来解决。
具体而言,我们可以使用requests库发送登录请求,并保存登录状态,然后在后续的请求中携带该状态信息。
对于验证码问题,我们可以使用机器学习的方法来自动识别和处理。
另一个常见的问题是如何有效地爬取大规模的数据。
针对这个问题,我们可以使用多线程或者异步IO的方式来提高并发性能,从而加快数据爬取的速度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处 理方 法进 行 抽 取 。 自然 语 言处 理 方 法 要 求 大 量 例 子 的 训 练 , 处 理 速 度 比较 慢 . 表 格 数 据 抽 取 中应 用 尚 不 多 见 且 在 f1 于 本 体 的抽 取 方法 基 于本 体 的方 法 实 现 了与 待 4基 抽 取 We b页 面格 式 无 关 . 至在 领 域 改 变 时 也 只 要 改 变 应 甚 用 本 体 即可 , 应 用 效 果 较 好 。然 而 . 体 构 造 中 的 数 据 框 其 本
摘 要 : 据 “ 情 数 据 常 表 现 为 最 大的 表 格 区域 ” 规 律 , 出 了先 识 别 最 大 表 格 再 自动 抽 取 行 情 数 据 的 抽 取 算 法 . 根 行 等 提 该 算 法 无 需 用 户 定 义 目标 区域 即 可 自动抽 取 并存 储 数 据
关 键 词 : 据 抽 取 ; e 内容 挖 掘 ; 情 数 据 抽 取 ; 格 数 据 抽 取 数 W b 行 表
1引 言
一
We b技 术 的广 泛 应 用 . 使 各 类 网 站 大 量 出 现 越 来 促 越 多 的行 业 建 成 了网 站 .并 将 行 情 信 息 发 布 在 网站 中 . .例 如 . 产 品销 售 网站 发 布 了农 产 品每 日交 易 的价 格 : 气 预 农 天 报 网站 发 布 天 气 变 化 的数 据 :导 购 网站 提 供 商 品 的报 价 等 等 。这 些 行情 多表 现 为 数 据 表 格 形 式 获取 We b上 的这 些 行情数 据 , 而进行关联 、 测 , 有理 论和实 际意义 。 目 进 预 具
架 设 计 非 常 困难 .
2行 情 数 据 的抽 取 算 法
表 格 本 身 是 一 种 结 构 化 的 数 据 . 似 关 系 数 据 表 在 类 . 但 网页 中 , 格 既 作 为数 据 列 表 . 大 量 用 于 网 页 内 容 布 局 表 也
前 , 取 We 中 表格 数 据 的方 法 主 要 有 以下 几 种 : 抽 b页 f1分 析 HT 1 ML标 记 构 造 包 装 器 抽 取 数 据 包 装 器 frp e)负 责将 隐 含 在 HT wapr ML文 档 中 的 信 息 提 取 出 来 , 并 且 转 换 成 能 被进 一步 处 理 的 、以 某 种 数 据 结构 存 储 的 数 据
2De a me t f mp tr ce c n c n l g , u h u Un v r t , u h u 2 9 0 , i a . p  ̄ n o Co u e in e a d Te h oo yCh z o i es yCh z o 3 0 0Ch n ) S i
d t uo t al n o sn t e dad t xrcinrgo es e ie yteu es aaa tmai l a dd e o n e aaetat eint b p cf db h sr. c y o o i
Ke y wor :a ae ta t nW e o tn n n ; ak td t xr cintb e e ta to ds d t x r ci ; b c n e tmi i gm r e aae ta t ; l xr cin o o a
l ipa e n t e lr e ttb eo e a e . e ag rt m rtd t cst e lr ett b eo e g n h n e ta t h yd s ly di h a g s a l n a W b p g ” Th lo h f s e e t h a g s a l n a W b pa e a d t e xr cst e i i
维普资讯
本 目任 辑 闻军 栏 责编 :翔
。
数 据 库 及 信 息 管 理
We b行 情 数 据 的抽 取研 究
.
于春 燕
(. 工业 大学 计算机 与信 息学院, 1 合肥 安徽 合肥 200 ;. 9学院 计算机科学与技 术 系, 3092 滁 - 1 , 1 安徽 滁 州 291) 302
中图分类号 : P 1 T 31
文献标识码 : A
文章编号 :0 9 3 4 (0 72 — 0 9 — 2 1 0 — 0 42 0 )1 4 5 9 0
Y U u Ch n—y n , a 。
Res ar h o e c n Mar e a ta t h EB k tDat Ex r c i on t e W on
(.c o l f mp trSin ea d Ifr t n E gn eigHee iesy o e h oo yHee 2 0 0 , ia 1Sh o o Co ue ce c n nomai n ie r , fi o n Unv r t f c n lg , fi 3 0 9Chn ; i T
Abs r c : ma k td t x rc in ag r h i r p s d i h sp p r ta t A r e aa e ta to lo i m sp o o e n t i a e ,wh c sb s d o h u eo ma k td t r s a t ih i a e n t e r l f” r e aa a e u u l
【】 1。 该 方 式 依 赖 于 We b页 面 的 布 局 、 式 等 , 旦 页 面 格 格 一 式 改 变 . 往 要 重 新 编 写 包 装 器 近 年 来 的一 些 研 究 通 过 机 往 器 学 习 方 法 自动识 别 表 格 和 视 觉 线 索识 别并 抽 取 表 格 . 改