基于文字密度提取网页正文

合集下载

基于网页分块的正文信息提取方法

基于网页分块的正文信息提取方法

收稿日期:2008-07-27;修回日期:2008-09-15。

基金项目:重庆市自然科学基金资助项目(2007BB2454)。

作者简介:黄玲(1983-),女,江西赣州人,硕士研究生,主要研究方向:智能信息处理; 陈龙(1970-),男,重庆人,副教授,博士,主要研究方向:智能信息处理、信息安全。

文章编号:1001-9081(2008)S2-0326-03基于网页分块的正文信息提取方法黄 玲,陈 龙(重庆邮电大学计算机科学与技术研究所,重庆400065)(shanlu316@ )摘 要:网页主题信息通常湮没在大量的无关文字和HT ML 标记中,给应用程序迅速获取主题信息增加的难度。

提出了一种基于网页分块的正文信息抽取方法。

该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HT ML 标记和无关文字。

实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。

关键词:W eb 信息抽取;主题内容块;网页正文信息中图分类号:TP391 文献标志码:AW eb i n forma ti on extracti on ba sed on v isua l block segm en ta ti onHUANG L ing,CHEN Long(Institute of Co m puter Science and Technology,Chongqing U niversity of Posts and Teleco mm unication,Chongqing 400065,China )Abstract:W eb pages al w ays contain large nu mbers of irrelevant words and HT ML tags excep t f or inf or mative inf or mati on .This enhances the difficulties of extracting inf or mative inf or mati on fr om W eb pages quickly .A method of extract inf or mative inf or mati on based on user πs interest is p r oposed .The experi m ental results p r ove that this method is gooduniversality and can obtain infor mative message accurately,s o our app r oach is easy t o realize .Key words:W eb infor mati on extracti on;inf or mative content bl ock;main text of W eb page0 引言I nternet 及其应用技术的迅猛发展,产生了海量的W eb数据[1]。

使用特征文本密度的网页正文提取

使用特征文本密度的网页正文提取

tx r p rin a d d n i , u d ni e h o tn n o main a c rtl.h to a ah r lw i e a d s a e o - e tp o o t n e s t s ie t s te c ne tifr t c u aeyT e meh d h s rte o t n p c c r o y t h i f o m n pe i . p r ns h w h t i cn e ta tc ne t ifr ain e e t ey fo lxt Ex ei t y me s o ta t a x c o tn n o r m t f ci l rm c mpe d mut tpc we a e d h s o v o lx a l—o i b p g s a a n i n a wie a p ia it. d p l bl c i y Ke r s tx e st ;e tfaue; fr t n e ta t n; b p g y wo d : e td n i tx e tr i omai xrci we a e y n o o
关键词 : 文本 密度 ; 本特 征 ; 息抽 取 ; 文 信 网页 D 0 7 8 . s. 0 —3 1 0 02 .0 文 章编 号 :028 3 (0 0 2 -0 10 文 献 标 识 码 : Oh1. 7 /i n1 28 3 . 1.0 1 3 js 0 2 0 10 —3 12 1 ) 00 0 —3 A 中 图 分 类 号 : P 9 T 33
C m ue n i ei n A p i t n  ̄ 算机工程与应用 o p t E gn r ga d p l ai s f r e n c o
2 1 ,6 2 ) 0 04 ( 0

我为开源做贡献,网页正文提取——Html2Article

我为开源做贡献,网页正文提取——Html2Article

我为开源做贡献,⽹页正⽂提取——Html2Article为什么要做正⽂提取⼀般做舆情分析,都会涉及到⽹页正⽂内容提取。

对于分析⽽⾔,有价值的信息是正⽂部分,⼤多数情况下,为了便于分析,需要将⽹页中和正⽂不相⼲的部分给剔除。

可以说正⽂提取的好坏,直接影响了分析结果的好坏。

对于特定的⽹站,我们可以分析其html结构,根据其结构来获取正⽂信息。

先看⼀下下⾯这张图:正⽂部分,不同的⽹站,正⽂所在的位置不同,并且Html的结构也不同,对于爬⾍⽽⾔,抓取的页⾯是各种各样的,不可能针对所有的页⾯去写抓取规则来提取正⽂内容,因此需要⼀种通⽤的算法将正⽂提取出来。

现有的⽹页正⽂提取算法基于标签⽤途的正⽂提取算法(⽐如title或h1,h2标签⼀般⽤作标题,p⼀般表⽰正⽂段落,根据标签的含义去提取正⽂)基于标签密度判定(这个简单,说⽩了就是字符统计,正⽂部分html标签的密度⽐较低,确定⼀个阈值,按照标签密度提取正⽂部分)基于数据挖掘思想的⽹页正⽂抽取⽅法(这⾥会涉及到统计学和概率论的⼀些知识,在⾼深点就成了机器学习了,没有深⼊研究)基于视觉⽹页块分析技术的正⽂抽取(CV这种⾼端⼤⽓上档次的东西,岂是我等这么容易就能研究明⽩的。

虽然实现上复杂,但就提取效果⽽⾔,这种⽅法提取的精度还是不错的)前2中⽅法还是⽐较容易实现的,主要是处理简单,先前我把标签密度的提取算法实现了,但实际⽤起来错误率还是蛮⾼的;后2种⽅法在实现上就略复杂了,从算法效率上讲应该也⾼不了哪去。

我们需要的是⼀种简单易实现的,既能保证处理速度,提取的准确率也不错的算法。

于是结合前两种算法,研究⽹页html页⾯结构,有了⼀种⽐较好的处理思路,权且叫做基于⽂本密度的正⽂提取算法吧。

后来从⽹上找了⼀下类似的算法,发现也有使⽤类似的处理⽅法来处理正⽂提取的,不过还是有些不同。

接下来跟⼤家分享⼀下这个算法的⼀些处理思想。

⽹页分析我任意取了百度,搜狐,⽹易的⼀篇新闻类⽹页,拿来作分析。

从html中提取正文的方法

从html中提取正文的方法

从html中提取正文的方法从HTML中提取正文的方法随着互联网的发展,网页内容呈现多样化的趋势,其中HTML是最常见的网页编程语言之一。

但是在浏览网页的过程中,我们往往只关注页面的主要内容,即正文部分。

如何从HTML中提取出正文内容,成为了一个非常重要的问题。

本文将介绍几种常用的方法来实现这一目标。

一、基于标签的提取方法HTML文档通常由一系列的标签组成,不同的标签有不同的作用和语义。

在提取正文时,我们可以根据标签的特点来进行筛选。

常用的标签有p、div、span等,这些标签通常用来包裹正文内容。

我们可以通过解析HTML文档,找到这些标签,并提取出其中的文本内容。

同时,我们还可以根据标签的属性进行筛选,比如class属性、id 属性等。

通过这种方法,我们可以较为准确地提取出正文内容。

二、基于文本密度的提取方法正文通常具有较高的文本密度,即正文部分的文字数量较多。

而其他非正文的内容,比如导航栏、广告等,通常具有较低的文本密度。

基于这个特点,我们可以通过计算页面中每个标签的文本密度,来判断其是否属于正文内容。

具体的方法可以是统计标签内文本的字符数或词数,然后除以标签的总字符数或词数,得到文本密度的比值。

根据这个比值的大小,我们可以判断标签是否为正文内容。

通过这种方法,我们可以较为准确地提取出正文内容。

三、基于机器学习的提取方法除了基于标签和文本密度的方法,还可以利用机器学习的方法来提取正文内容。

通过训练模型,我们可以将HTML文档中的各个标签和属性作为特征,将其对应的正文内容作为标签,然后利用已有的正文和非正文数据进行训练。

训练完成后,我们可以使用这个模型来预测新的HTML文档中的正文内容。

这种方法的优势在于可以适应不同的网页结构和样式,提取效果较为准确。

从HTML中提取正文内容是一个比较复杂的问题,但是通过合理的方法和技术手段,我们可以实现较为准确地提取。

基于标签、文本密度和机器学习的方法都具有一定的优势和适用场景,可以根据实际需求选择合适的方法。

基于文本密度模型的Web正文抽取

基于文本密度模型的Web正文抽取

基于文本密度模型的Web正文抽取朱泽德;李淼;张健;陈雷;曾新华【期刊名称】《模式识别与人工智能》【年(卷),期】2013(000)007【摘要】为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分。

文中提出一种基于文本密度模型的新闻网页正文抽取方法。

主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容。

该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练。

实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型。

%In order to obtain useful content encompassed by a large number of irrelevant information, the content extraction becomes indispensable for web data application. An approach of web content extraction based on the text density model is proposed, which integrates page structure features with language features to convert text lines of page document into a positive or negative density sequence. Additionally, the Gaussian smoothing technique is used to revise the density sequence, which takes the content continuity of adjacent lines into consideration. Finally, the improved maximum sequence segmentation is adopted to split the sequence and extract web content. Without any human intervention or repeated trainings, this approach maintains the integrity of content and eliminatesnoise disturbance. The experimental results indicate that the web content extraction based on the text density model is widely adapted to different data sources, and both accuracy and recall rate of the proposed approach are better than those existing statistical models.【总页数】6页(P667-672)【作者】朱泽德;李淼;张健;陈雷;曾新华【作者单位】中国科学技术大学自动化系合肥230026; 中国科学院合肥智能机械研究所合肥230031;中国科学院合肥智能机械研究所合肥230031;中国科学院合肥智能机械研究所合肥230031;中国科学院合肥智能机械研究所合肥230031;中国科学院合肥智能机械研究所合肥230031【正文语种】中文【中图分类】TP391【相关文献】1.基于文本特征值的正文抽取方法 [J], 孟川;武小年2.基于文本块密度和标签路径覆盖率的网页正文抽取 [J], 刘鹏程;胡骏;吴共庆3.基于文本行特征的网页正文信息抽取方法研究 [J], 刘志杰;潘洋4.基于标签路径覆盖率和多文本特征的正文抽取算法 [J], 郑野; 宋旭东; 于林林; 陈鑫影5.基于文本标点密度连续和的网页正文抽取 [J], 汤佳杰; 曹永忠; 顾浩因版权原因,仅展示原文概要,查看原文内容请购买。

基于文本及符号密度的网页正文提取方法

基于文本及符号密度的网页正文提取方法

电子设计工程Electronic Design Engineering第27卷Vol.27第8期No.82019年4月Apr.2019收稿日期:2018-07-20稿件编号:201807113作者简介:洪鸿辉(1992—),男,广东揭阳人,硕士研究生。

研究方向:大数据处理。

自互联网问世以来,经过多年的发展,互联网站点的数量在不断的增长,互联网上的信息也在不断的增加,然而,由于商业因素的问题,这些网站在为我们提供有价值的信息的同时,还会包含其他信息,例如广告或其他网站的链接。

链接可能是图片,文字。

这些相对于正文内容无用的信息会降低我们的阅读效率,而且这些无用的文字可能会被搜索引擎作为索引关键词,不仅降低了搜索的效率还影响了用户的体验。

很多互联网公司也发现了这一问题,所以现在越来越多的网页都会支持RSS 。

若一个网页支持RSS ,我们就可以很轻易的提取网页的正文内容,但大多数网页还是不支持RSS ,所以关于正文提取这一方面的研究工作一直没有停止。

网页的类型有很多种,比如新闻网站,博客网站,论坛等。

新闻类网站的正文提取一直是研究的主要方向,新闻类的文章通常要提取正文内容,标题,时间,作者等。

文章通常要提取正文内容,标题,时间,作者等。

一方面,网页正文提取结果的好坏会影响着文本聚类,去重,语义指纹等结果。

另一方面,网页正文提取在大数据时代也是一项不可或缺的环节。

1相关工作1.1VIPS2003年,微软公司亚洲研究所提出了一种网页进行视觉分块[1]算法—VIPS [2]算法。

该算法的思想是模仿人类看网页的动作,基于网页视觉内容结构信息结合Dom 树对网页进行处理。

简单的说就是把页面切割不同大小的块,在每一块中又根据块网页的内容和CSS 的样式渲染成的视觉特征把其分成小块,最后建立一棵树[3]。

但是,VIPS 必须完全渲染一个页面才能对其进基于文本及符号密度的网页正文提取方法洪鸿辉,丁世涛,黄傲,郭致远(武汉邮电科学研究院湖北武汉430000)摘要:大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。

基于相似度的中文网页正文提取算法

基于相似度的中文网页正文提取算法

Ke r s e ts lr ;T g s lr ;B o kn T x nn y wo d :T x i a t mi i y a i ai mi t y lc ig; e tMiig
随着互联网的发展, 网络资源及数据呈现海量特征 , 网络信息的急剧增加带来 的一个问题就是网络拥 塞。为了有效地过滤无用信息 , 节省网络带宽, 需要对信息的内容进行处理 , 网页正文提取是这个处理过程
中比较 重要 的一 环 。
由于信息的复杂多样以及网页制作工具的差异 , 使得 网页结构也 日趋复杂化。而且因为网页中的信息
含量杂 乱 , 纯利 用 网页结构来 读取 有用 信息 已经变 得越 来 越 困难 。如 何 过 滤掉 这 些信 息 来提 取 网 页主题 单 已成为 WE B服务 中很重 要 的一个部 分 。 现 有 的提 取 网页主题 的方法 一般 过程 如下 :1 利 用 H ML标 签 对 网页进 行 区域 分 割—— 分 块 ;2 根 () T () 据 不 同规 则 , 取 网页主题 。 提 分块 方法 一般分 为两类 : 于 D M( ou n bet oe) 基 O D cmet jc M d1的方法 L 和基 于视 觉 特征 ( io O 】 Vs n—bsd i ae )
XI ONG — i Ziq ,ZHANG i Hu ,LI Ma —o g N o s n ( colfCm u rSi c n ehooy Su ws U irt o cnea e nl y Sho o o p t cneadTcnl , ot e nv sy fSi n Tco o , e e g h t e i e c d h g
第2 5卷 第 1 期 21 0 0年 3月
西

基于文本块密度和标签路径覆盖率的网页正文抽取

基于文本块密度和标签路径覆盖率的网页正文抽取
Web网页中除 了 主 要 内 容 外,还 包 括 大 量 与 主 题 内 容 无 关的噪声信息,如导航信息、广告文字、推荐链接、版权申明等。 Gibson等人[3]研究表明 噪 声 数 据 占 网 页 整 体 数 据 的 40% ~ 50%的规模,且预测仍在持续增长中。由此可见,网页中的这
些噪声对 Web信息检索、Web内容的管理和分析、Web信息聚 合和推送等研究带来了巨大的挑战。因此,过滤网页中的噪声 信息,抽取网页的正文内容息 时 代 的 标 志,Web逐 渐 成 为 很 多 应 用 的 重要信 息 来 源。《2016年 互 联 网 趋 势 报 告 》(2016Internet trends)[1]指出,全球互联网用户已达 30亿,比上年增长 9%, 互联网 全 球 渗 透 率 达 到 42%。根 据 中 国 互 联 网 信 息 中 心 (CNNIC)的调查 显 示 [2],互 联 网 用 户 的 主 要 行 为 之 一 就 是 阅 读网络新闻,同时中国互联网用户阅读互联网新闻的普及率为 81.6%,其中移动互联网用户比率达到 78.9%。移动互联网 的快 速 发 展,对 新 闻 媒 体 质 量 有 着 更 高 的 要 求,各 种 各 样 的 Web新闻替代传统报纸,成为人们获取最新信息的重要载体。
第 35卷第 6期 2018年 6月
计算机应用研究 ApplicationResearchofComputers
Vol35No6 Jun.2018
基于文本块密度和标签路径 覆盖率的网页正文抽取
刘鹏程,胡 骏,吴共庆
(合肥工业大学 计算机与信息学院,合肥 230009)
摘 要:大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准 确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETDTPC)。结合网页文本块密度特征和标 签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块 中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工 处理。在 CleanEval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETDTPC方法在不 同数据源上均具有很好的适用性,抽取性能优于 CETR、CETD和 CEPR算法。 关键词:正文抽取;文本块密度;标签路径覆盖率;特征融合 中图分类号:TP391.1 文献标志码:A 文章编号:10013695(2018)06164506 doi:10.3969/j.issn.10013695.2018.06.010
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网页的, 不 够优 秀 的 网页 正 文 提取 技 术 会 拖 累整 个 系 统 , 本文 提 出 的基 于 文 字 密 度I V ] 的算 法会 在 一 定 程 度 上 完善 这 些 缺 陷 。 2 . 本 文 算 法 描 述 首 先 对 网页 进 行 预 处 理 [ 8 1 , 即去除网页的 H T ML标签 , 留 下
有较 高的准确性 , 网页正文提取 的准确度 高达 9 4 %。
【 关键 词 】 网页正文提取 ; 文字密度 函数 ; 网页噪 声; 舆情分析
0. 引言
随着互联 网的快速 发展 , 网页 的数量增长迅 速 , 并且 网页 的内容和格式不再是像 以前那么单一 , 这代表着科技 的进步但 同时也带来 了很 多的问题 。比如在做舆情分析l 1 l 的时候 , 需要尽 快地 从网页中找到有价值的信息 , 网页 中的噪声和无关 的链 接
二 = 土 二 = 二 二 二 二
( 正 文部 分 : 5 7 2 — 6 3 0 )
的密度 比较低 , 而 众多广 告链接 的标签密度 很高 , 可 以利用 标
签 密 度 的差 异 来 分 辨 正 文 。 缺 点: 正 文 提 取 的 精 确 性 十 分 依 赖 阂 值 的确 定 , 虽 然 算 法 在 后 来 得 到 了改 进 , 但 是 实 际 使 用 时 错 误 率 比较 高 。 1 - 3基 于数 据 挖 掘 或 机 器 学 习_ 5 l :
程序 员在设计 网页 的时候 , 通常会遵 守一些规 则 , 通 过 这
些 规 则 可 以提 取 网页 的正 文 。

1 O OO


) 1 00 0
Байду номын сангаас

2 0 0 0

3 0
1 0 O 0
图 2 凤 凰 资讯
h t t p: / / n e ws . i f e n g . c o n/ r a / 2 0 1 7 0 3 2 2 / 5 0 8 1 2 4 7 9 0 . s h t ml
4 0 0
2 O O


缺 点: D o m树 的 建 立 对 网页 的完 整 度 要 求 比较 高 ,而 且 建
立和遍历 D o m树 的时间和空 间复杂度 比较高; 识别网页噪声需
要建立广告服务器列表 , 并 且列 表 需 要 经 常 更 新 。 1 . 2基 于 标签 密度 判 定 :
将筛选 出来 的正文行 加入 到集合中, 这个 集合到最后就 是
正 文 部 分
缺 点: 仍 然 要依 靠 HT ML标签 做 判 断 , 有 些 例 外 情 况 会被 错 误 的 归入 到 正 文 部 分 , 比如 标题 很 长 的链 接 群和 较 长 的评 论 。
以上这些方法都存在一些错误率 比较高、实现起来十分复 杂、 效 率 低 下 的缺 陷 , 而 网页 正 文 提 取 这 项 技 术 一 般 是 面 向海 量
一 … …~
D O I : 1 0 . 1 6 7 0 7  ̄ . e n k i . f j p c . 2 0 1 7 . 0 4 . 0 5 6
一 子

基 于 文 字 密 度 提 取 网 页 正 文
石 锦涛
( 四川大学计 算机 学院 四川 成都 6 1 0 0 6 5 )
_
首 先 对 网 页源 代 码 做 预 处 理 , 去 除< b o d y > 之 前的文本 ( 网
【 摘 要】 本 文提 出了一种基 于文字密度的网页正文提取 算法。该 方法包括 了 3 个步骤 : 首先对 网页进行预处理 . 然
后基 于处理后的部分做 出该 网页的文字密度函数 , 最后 引入 一种 分析机制将 正文部 分提取 出来。 本文提 出的算法不依 赖 DOM 树的建立、 不依赖机 器学习和数据挖掘 , 而是根据 网页正文的特性进行 正文提取 。 实验表 明本方法切 实可行并且具
c n/ b a s k e t b a l l / n b a / 2 01 7 —0 3— 2 0/ d o c —i f yc n p i u 9 1 3 3 8 5 0. s h t ml
将 网页源代 码进行线性化重构 , 经过文本分类和聚类得 到 网页正文 的脉络段落, 最后通过吸收伪噪声段落生成网页正文 。 缺 点: 简单问题 复杂化 , 时间和空问复杂度很 高。 1 . 4基于逻辑行和最大接纳距离 的网页正文提取 :
对 于网页正文的提取, 目前 比较 流 行 的 相 关 技 术 有 以 下 几 类:
1 . 1 基于 D o m树 【 :
为待提取 的网页建立 D o m树并遍历该树, 在遍历过程中识 别 并移 除各种网页噪声 ,当这些工作做完之后 , D o m树 中剩下
的就 是 正 文 信 息 。
会 对 信 息提 取 造 成 很 大 的 阻 碍 , 这 个 时 候 就 需 要 对 网页 进 行 正 文 提取 , 可 以说正文提取 的结果 如何 , 会 直 接 影 响 到 分 析 结 果
的好 坏 。 1 . 相 关 工 作
3 ) 正文 代 码 的一 行 中 非 H T ML标 签 的 文 字 数 量 比 较 多 4 ) 超链 接 长 度 占比 不 会 很 大

般的H t m l 网页 中会 有 众 多 标 签 ,在 正 文 部 分 h t ml 标 签
2 0 O
五 … … …~ s 0 0 ~一 0 o o 一 … 一 1 s o o … 一 ~ 2 0 0 0
图 1 新 浪 新 闻
ht t p : / / s po r t s . s i n a . c o n r
来 的就 是文字部分 。假 定去除 H T ML标签之 后 的正文部分 为 T E X T , 那么使用 T E X T的每一行 的行号作为 x轴 , 该行 的文 字 量 为 Y轴 。 本 文 挑 选 了中 国互 联 网 比较 主 流 的 几个 媒 体 网站 的
新闻, 这些新闻的文字密度分布函数如下所示:
相关文档
最新文档