移动互联网搜索中的信息过滤技术研究及实现方案

合集下载

互联网平台如何加强不良信息的过滤与清除策略

互联网平台如何加强不良信息的过滤与清除策略

互联网平台如何加强不良信息的过滤与清除策略随着互联网的不断发展和普及,越来越多的人开始利用互联网平台获取信息、进行交流和分享。

然而,随之而来的是不良信息的泛滥,诸如虚假广告、谣言、淫秽色情等不良内容满天飞。

这给广大网民的信息获取和网络环境带来了不小的困扰和威胁。

为了构建一个绿色、健康的网络环境,各大互联网平台必须加强对不良信息的过滤与清除策略,以保障用户的安全感和信息获取的质量。

一、建立完善的不良信息识别系统互联网平台应该建立起精准、快速的不良信息识别系统。

首先,通过人工智能等技术,对上传到平台的信息进行扫描和识别,筛选出其中存在虚假、谣言、色情、暴力等不良信息;其次,建立完善的关键词库和敏感词库,对信息的标题、内容、评论等进行监测,及时发现异常内容;最后,引入用户举报机制,鼓励广大用户积极参与不良信息的识别工作,提供有效反馈。

二、制定严格的内容规范和审核机制互联网平台应该设立清晰明确的内容规范和审核机制,并加强对上传内容的审核和监管。

平台需要明确不允许发布的内容范围,包括但不限于色情、暴力、恶意诋毁等违法违规内容,并与法律法规保持一致。

同时,建立专业的审核团队,加强对内容的监管,确保违规信息不得通过审核上架。

对于存在争议的信息,应对进一步核实,直至清楚其真伪。

三、加强与相关机构的合作与沟通互联网平台应积极主动地与相关机构合作与沟通,共同打击不良信息的传播。

首先,与公安机关、通信管理局等机构建立稳定的合作关系,加强信息的共享,及时向相关部门报告和配合处置违法违规信息。

其次,与社会机构、媒体等建立合作伙伴关系,共同开展宣传教育活动,引导用户正确使用网络,提高网络素养。

四、建立违规信息处理机制和惩罚措施互联网平台应建立健全的违规信息处理机制和相应的惩罚措施。

一方面,对于违规信息的发布者,平台应严肃处理,包括但不限于屏蔽账号、停用服务、申报有关部门等;另一方面,对于故意传播、散布不良信息,导致恶劣影响的,平台应采取更加严厉的措施,如追究法律责任、永久封禁账号等,以起到儆效果,维护互联网环境的秩序和稳定。

网络爬虫中的数据过滤与筛选方法

网络爬虫中的数据过滤与筛选方法

网络爬虫中的数据过滤与筛选方法近年来,随着互联网的快速发展,大量的数据被生成和存储,这为数据分析和应用提供了丰富的资源。

然而,要从庞杂的数据中提取出有价值的信息并不容易。

网络爬虫作为一种自动化获取网络数据的技术,已经成为了数据挖掘和信息抓取的重要工具。

在进行数据爬取的过程中,数据的过滤与筛选是非常重要的一步,本文将介绍几种常用的数据过滤与筛选方法。

1. HTML解析器HTML解析器是一种能够解析HTML文档并提取其中数据的工具。

它可以将整个HTML文档解析成一棵树状结构,然后根据特定的选择器来定位所需的数据。

常用的HTML解析器有BeautifulSoup、PyQuery等。

通过使用HTML解析器,我们可以根据标签、类名、ID等属性来过滤和筛选数据,从而提取出我们所需要的信息。

2. 正则表达式正则表达式是一种用于匹配和查找特定模式的工具。

在网络爬虫中,我们可以利用正则表达式来过滤和筛选出符合我们需求的数据。

例如,我们可以使用正则表达式匹配字符串中的电话号码、邮箱地址等信息,并将其提取出来。

通过正则表达式,我们可以对数据进行更加精确的过滤,并将其转化为我们需要的格式。

3. XpathXpath是一种用于在XML文档中进行导航的语言。

在网络爬虫中,我们经常会遇到XML格式的数据,这时就可以使用Xpath来提取我们需要的信息。

通过指定路径和条件,Xpath可以准确地定位和提取出我们感兴趣的数据。

相比于使用正则表达式,Xpath具有更加强大的定位和筛选功能,能够实现更加复杂的数据提取操作。

4. CSS选择器CSS选择器是一种用于定位和选择HTML元素的语法。

在网络爬虫中,我们可以使用CSS选择器来过滤和筛选数据。

通过指定元素的标签名、类名、ID等属性,我们可以精确地选择出我们所需的数据。

与Xpath相比,CSS选择器语法简洁明了,容易理解和使用。

5. 自然语言处理自然语言处理是一种用于处理和分析人类语言的技术。

信息技术教案网络搜索与信息筛选

信息技术教案网络搜索与信息筛选

信息技术教案网络搜索与信息筛选信息技术教案——网络搜索与信息筛选一、引言如今,互联网的快速发展为我们获取信息提供了更广阔的平台。

然而,在海量的信息中找到有用的并不容易,这就需要我们学会网络搜索与信息筛选的技巧。

本教案将通过教学活动帮助学生掌握如何利用搜索引擎进行高效搜索,并筛选出真正可信且相关的信息。

二、教学目标1.了解网络搜索的基本概念和搜索引擎的分类。

2.学会选择正确的搜索词语和使用搜索引擎进行高效搜索。

3.掌握简单的信息筛选技巧,准确获取需要的信息。

4.培养学生辨别信息真实性和可信度的能力。

三、教学内容1.网络搜索的基本概念网络搜索是指利用搜索引擎在互联网上查找相关信息的行为。

相关概念包括搜索词语、搜索引擎、搜索结果等。

2.搜索引擎的分类搜索引擎根据工作原理和检索内容的不同可以分为全文搜索引擎、目录搜索引擎和混合搜索引擎。

3.选择正确的搜索词语通过学习如何选择正确的搜索词语,学生能够提高搜索效果。

例如,可以使用具体的关键词、加上限定词语或运用引号等方式来精确描述所需信息。

4.使用搜索引擎进行高效搜索学生将学会使用常见的搜索引擎如Google、百度等进行高效搜索,例如,利用搜索引擎自带的高级搜索功能、使用图片搜索等。

5.信息筛选技巧了解如何筛选出可信、真实、相关的信息是十分重要的。

学生将学会通过查看来源、评估可信度和关注更新等方面来进行信息筛选。

四、教学流程1.导入与激发兴趣通过给学生提出一个信息查询问题,引导学生思考网络搜索的作用和意义。

2.学习网络搜索基本概念通过教师讲解和讨论,引导学生了解网络搜索、搜索词语、搜索引擎等相关概念,并学会如何使用搜索引擎进行搜索。

3.搜索引擎分类与选择介绍搜索引擎的分类,并为学生提供一些常见搜索引擎的优缺点。

让学生自行选择适合自己的搜索引擎。

4.提高搜索效果的技巧教授一些提高搜索效果的技巧,如使用引号搜索、加上限定词语、使用高级搜索功能等。

通过实例演示和练习让学生掌握这些技巧。

网络时代的信息筛选技巧

网络时代的信息筛选技巧

网络时代的信息筛选技巧
在网络时代,信息如潮水般涌来,我们需要有效的筛选技巧来处理这些海量信息,以便获取有价值的内容并避免被无关或低质量信息淹没。

以下是几项帮助您进行信息筛选的技巧:
首先,了解信息来源的可信度是至关重要的。

在浏览网页或阅读文章时,查看作者的资质、网站的信誉以及内容的原始来源。

可信的信息来源往往具有权威性,并且有助于确保信息的准确性和可靠性。

其次,学会使用搜索引擎的高级搜索技巧。

搜索引擎如Google提供了丰富的搜索过滤选项,如时间范围、网站域名、文件类型等,这些选项可以帮助您更精确地找到所需的信息,避免混杂在大量无关内容中。

第三,培养批判性思维和信息辨识能力。

网络上存在大量的误导性信息和假新闻,因此对信息进行批判性分析是必不可少的能力。

审视信息背后的逻辑、证据支持以及潜在的立场偏见,有助于您辨别真实与虚假的内容。

另外,及时更新和调整您的信息订阅和社交媒体设置也是有效筛选信息的重要手段。

通过取消关注不相关的账号、订阅主题相关的邮件列表,可以减少信息噪音,使您更专注于您感兴趣的内容领域。

最后,定期审视和清理您的信息收集和阅读习惯也是保持信息筛选效率的关键。

删除不必要的书签和订阅,保持工作区域的整洁和高效,有助于您更有条理地管理和获取信息。

综上所述,网络时代的信息筛选不仅是技术问题,更是一种重要的认知能力和生活习惯。

通过以上几项技巧的运用,我们可以更加高效地处理和利用大数据时代所带来的信息资源,从而更好地服务于个人学习、工作和生活的需要。

网络信息内容过滤技术研究与实现

网络信息内容过滤技术研究与实现

网络信息内容过滤技术研究与实现随着互联网的快速发展和普及,网络信息的内容也变得越来越庞大和多样化。

然而,互联网上也存在着大量不健康、不负责任和有害的信息内容,例如淫秽色情、暴力恐怖、虚假谣言等,给广大网民的身心健康带来了一定的威胁和影响。

为了保护网络环境的健康和秩序,开展网络信息内容过滤技术的研究与实现势在必行。

网络信息内容过滤技术旨在通过使用各种技术手段和算法,对网络信息进行准确和智能的分类、识别和过滤。

这种技术可以在一定程度上阻止恶意信息的传播,保护用户免受不良信息的侵害,让用户能够更加安全地使用互联网。

首先,网络信息内容过滤技术需要借助于机器学习算法和自然语言处理技术。

通过构建庞大的标注数据集,利用机器学习算法训练出分类模型,能够对网络信息进行自动分类和过滤。

而自然语言处理技术则可以将网络信息转换为计算机能够理解和处理的形式,从而更好地进行分类和过滤。

其次,网络信息内容过滤技术还需要结合人工审核和人工智能。

尽管机器学习算法和自然语言处理技术能够自动识别和过滤大量的网络信息,但是对于一些复杂或模糊的内容,仍需要人工审核进行判断。

通过与人工智能的结合,可以增强系统的智能化和自动化水平,提高对网络信息的准确识别和过滤能力。

此外,网络信息内容过滤技术还要具备适应性和实时性。

互联网上的信息更新速度非常快,恶意信息的传播速度更是惊人。

为了应对这种快速变化的情况,网络信息内容过滤技术需要具备适应性,能够根据新出现的信息内容进行调整和更新。

同时,网络信息内容过滤技术还应具备实时性,能够快速识别和过滤恶意信息,以确保用户能够及时获得准确和安全的网络信息。

最后,网络信息内容过滤技术需要遵循法律法规和伦理规范。

在过滤网络信息时,需要保证对合法和合理内容的尊重和保护,避免对合规信息的错误过滤和屏蔽。

同时,过滤技术也不能侵犯用户的隐私权,需要保障用户的合法权益。

综上所述,网络信息内容过滤技术的研究与实现是保护网络环境的重要措施。

人工智能网络过滤算法

人工智能网络过滤算法

人工智能网络过滤算法人工智能(AI)在许多领域都有着广泛的应用。

在互联网安全领域中,最近几年来AI在过滤网络垃圾邮件、网络钓鱼攻击和有害内容中也发挥着越来越重要的作用。

这些都可以通过人工智能网络过滤算法实现。

一、什么是人工智能网络过滤算法是一种自动化技术,它使用机器学习和自然语言处理技术,以识别和过滤有害的信息或内容。

这种算法可以应用于许多不同的网络应用程序,例如社交媒体、电子邮件、搜索引擎和聊天室等。

人工智能网络过滤算法使用预定义的规则和模式来确定何时拒绝或接受信息。

二、如何运作人工智能网络过滤算法一般采用以下几个步骤:1. 收集数据:网络过滤需要大量数据,这些数据可以是来自以前的人工分类,也可以是采用机器学习技术。

如果使用后者,则需要大量数据才能训练算法。

2. 数据预处理:该步骤可能包括数据清洗,即去除无用的信息,标准化数据格式,去除冗余数据等。

这可以使算法更加精确和高效运作。

3. 特征提取:该算法会提取和标记数据中的有用信息。

这可以使用不同的技术,例如词频、语法和标记。

这可以帮助算法区分有用数据和垃圾数据。

4. 训练模型:该算法使用大量数据来构建预测模型。

这些模型学习标记数据中的因素,并根据这些信息预测以前没有标记的数据的类别。

5. 验证模型:这一步骤通常使用未标记数据来验证算法的准确性。

这样可以检查模型的性能并确定其需要改进的地方。

6. 部署算法:这一步骤实际上是在生产环境中运行算法,通常实现为一个API。

API可以接收文本或其他信息,并返回识别该信息是否是垃圾信息的结果。

三、人工智能网络过滤算法的优势和劣势人工智能网络过滤算法的优势如下:1. 精度高:人工智能网络过滤算法使用大量数据进行训练,可以识别复杂的模式,并作出相应的判断。

因此,准确性非常高,并且可以很好地处理大量数据。

2. 自动化:自动化算法可以减少工作量,可以从繁重的任务中解放出人力,降低成本。

3. 实时性:实时性是网络过滤算法的一个关键要素。

敏感信息检测与过滤系统设计与实现

敏感信息检测与过滤系统设计与实现

敏感信息检测与过滤系统设计与实现随着互联网的快速发展和普及,人们在网络上的活动也越来越频繁,但同时也带来了一些问题。

其中之一就是敏感信息的泛滥和传播,这些敏感信息可能包括违法、违规、不良、虚假等内容,严重影响了网络环境的健康和安全。

为了解决这个问题,敏感信息检测与过滤系统应运而生。

敏感信息检测与过滤系统是一种基于人工智能技术和自然语言处理技术的系统,用于自动识别和过滤敏感信息。

它的主要功能是对用户在互联网上发表的言论、评论、图片、视频等进行实时监测和检测,根据预设的规则和算法,判断其是否包含敏感信息,并及时进行过滤和阻止。

通过使用敏感信息检测与过滤系统,可以有效地减少敏感信息的传播和影响,保护网络环境的安全和健康。

敏感信息检测与过滤系统的设计与实现有以下几个关键步骤:一、数据收集与处理:系统首先需要收集大量的训练数据,包括已标注的敏感信息和非敏感信息。

这些数据可以从互联网上抓取或者通过用户提交获得。

收集到的数据需要经过预处理,包括分词、去除停用词、词性标注等,以方便后续的训练和处理。

二、特征提取与选择:在进行敏感信息的检测和过滤之前,需要先将文本数据转换成计算机能够处理的向量表示。

常用的特征提取方法包括词袋模型、TF-IDF模型、词嵌入等。

在选择特征的过程中,需要考虑特征的区分度和有效性,选择能够区分敏感信息和非敏感信息的特征子集。

三、模型训练与优化:敏感信息检测与过滤系统需要建立一个分类模型,用于判断文本是否包含敏感信息。

常用的分类模型包括朴素贝叶斯、支持向量机、深度学习等。

在训练模型时,需要将已标注的训练数据分成训练集和验证集,通过调整模型参数和进行交叉验证等方法,优化模型的性能。

四、实时监测与过滤:设计好的敏感信息检测与过滤系统需要能够实时监测用户发布的文本,并对其进行快速的判断和处理。

系统可以使用多线程或者分布式计算的方法,对大量的文本数据进行并行处理,以提高系统的处理速度和性能。

在监测过程中,可以使用一些规则和策略,如关键词过滤、情感分析、文本分类等,以提高敏感信息的检测准确率和效果。

移动互联网环境下的新闻事件自动标引与分类研究

移动互联网环境下的新闻事件自动标引与分类研究

移动互联网环境下的新闻事件自动标引与分类研究随着移动互联网的迅猛发展,大量的新闻事件以高速度涌入网络,给人们获取信息带来了极大的便利。

然而,如何高效地对这些海量新闻事件进行自动标引与分类成为一项迫切需要解决的问题。

本文将探讨移动互联网环境下的新闻事件自动标引与分类的研究现状和挑战,并提出一些解决方案。

一、新闻事件自动标引与分类的重要性新闻事件自动标引与分类是指利用自然语言处理和机器学习等技术手段,对新闻事件进行自动化的关键词提取和文章分类。

它的重要性主要表现在以下几个方面:1. 信息过滤:移动互联网时代,新闻事件数量庞大,用户需要从中筛选出自己感兴趣的内容。

通过自动标引与分类技术,能够自动将新闻事件进行分类,使用户更容易找到所需信息。

2. 知识发现:通过对新闻事件进行自动标引与分类,可以挖掘出不同主题和领域的关键词,并对事件进行聚类和归纳,从而发现隐藏在庞杂信息中的知识。

3. 舆情分析:新闻事件通常是公众议题的集中体现,对事件进行自动标引与分类可以实现对公众情绪的分析和监测,为决策提供参考。

二、新闻事件自动标引与分类的研究现状目前,关于移动互联网环境下的新闻事件自动标引与分类的研究已经取得了一些进展。

以下是一些典型的研究方法和技术:1. 关键词提取:通过自然语言处理和文本挖掘技术,提取新闻事件中的关键词和关键短语,并根据关键词的频率、重要性等进行排序和设定权重。

2. 文章分类:利用机器学习和数据挖掘的方法,对新闻事件进行分类。

常用的分类算法包括支持向量机、朴素贝叶斯分类器等。

分类的特征主要包括词频、文本情感倾向等。

3. 主题模型:采用主题模型(如Latent Dirichlet Allocation,LDA)对新闻事件进行主题建模和话题提取。

通过发现主题之间的关联和新闻事件内部的话题分布,实现对新闻事件的自动标引和分类。

三、面临的挑战与解决方案尽管已经有了一些研究成果,但新闻事件自动标引与分类仍然面临以下挑战:1. 大数据处理:移动互联网环境下,新闻事件的数量庞大,需要处理海量数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

移动互联网搜索中的信息过滤技术研究及实现方案李明凯,薛伟冬,孟仁兴北京邮电大学PCN&CAD中心,北京(100876)E-mail:onlylmkyou@摘要:目前,继传统互联网搜索的快速发展和广为接受之后,移动互联网搜索以其更大的便捷性成了人们关注的一个新热点。

然而,由于移动终端的能力限制等因素,移动互联网搜索在实际应用中上还存在着一些问题,特别是繁冗复杂的普通互联网内容在移动终端屏幕上的呈现问题。

本文作者通过分析移动终端的特点,参考传统搜索引擎的原理,对页面主体内容提取,智能用户兴趣代理和标记语言转换等相关技术进行了研究和比较,提出了一种基于信息过滤技术的移动互联网搜索内容呈现的解决方案,并对方案进行了初步的试验验证。

关键词:移动互联网搜索,信息过滤,主体内容提取,智能用户兴趣代理,标记语言转换1.引言互联网信息的迅速膨胀催生了搜索技术的快速发展,而移动终端的普及使用和终端功能的不断增强使移动搜索成为新的研究和应用热点。

现在一般把移动搜索分为两大类:垂直搜索和综合搜索。

垂直搜索一般是分类搜索,针对性强,准确度高。

综合搜索沿袭了以往互联网搜索的模式,通过移动通信网络或无线互联网络对WAP或WEB页面进行全面搜索,且主要为基于关键字的查找方式。

用户在体验到互联网搜索的好处后,也对能通过移动终端进行类似的内容搜索表现了极大的兴趣和期望。

而考虑移动终端的显示局限等特点,为了给移动终端用户提供更有针对性和个性化的搜索结果,需要对搜索到的互联网信息进行过滤和筛选。

本文针对这一问题进行了一系列的研究和阐述,并提出了一套信息过滤解决方案。

2.移动互联网搜索概述2.1 移动搜索与移动互联网搜索搜索引擎提供的服务已经成为互联网非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。

而时至今日,人们的信息需求正在变得无处不在,无时不有,这就要求搜索服务拥有较强的移动性和便携性,同时又能充分保证搜索内容的有效呈现。

基于PC的搜索在移动性和便携性都已满足不了新形势的要求,搜索引擎已经延伸向了移动互联网,移动搜索应运而生。

移动搜索是基于移动通信网络的搜索技术总称。

一般的,依据搜索内容可将移动搜索分为综合搜索和垂直搜索两类。

表1 移动搜索分类搜索分类搜索内容搜索特点综合搜索搜索WAP以及WEB站点内容信息量大,针对性差,(类似有线互联网搜索在移动设备上的延伸)垂直搜索分类型内容服务,如媒体类型(音频、视频、图片等)、领域内容(科技、体育、娱乐等)及本地信息搜索等准确度高、针对性强、可实现个性化结果定制,更符合移动终端技术特点对于垂直搜索,如本地信息搜索(酒店,学校等)等业务已经有不少的业务开展,其数据内容多是通过数据库搜索等方式得到,和普通互联网的网页内容搜索有所不同。

而对于综合搜索,类似互联网搜索,搜索引擎进入WAP网络或通过网关转换由WAP接入WEB网络,对WAP或WEB网络上的站点内容进行搜索,根据一定规则将链接和内容做索引存储。

用户通过编辑短信或键入关键词提交搜索请求,搜索引擎通过移动通信网络将结果反馈给用户终端。

以Google、Baidu为代表的搜索引擎门户已相继推出了这种服务,让用户可以通过手机进入WAP或WEB进行网页搜索。

本文所讲的移动互联网搜索即指这种综合搜索。

2.2移动互联网搜索的信息过滤问题从以下几个角度考虑,由移动终端的特点决定,必须对移动互联网搜索的结果进行信息过滤:z移动终端屏幕较小,无法像PC终端屏幕那样显示过于冗余复杂的页面。

z用户使用移动终端习惯于较少的操作次数,因此数量过多的结果分页显示会大大降低用户操作的便利性,不易被用户接受。

z移动终端处理器能力和内存量一般较低,不宜承受过于复杂的数据内容的下载和显示。

z移动终端电量有限,过大的数据传输和显示会急剧加速电量消耗,影响正常使用。

3.移动互联网搜索信息过滤方案3.1 信息过滤技术方案概述参考比较成熟的互联网搜索引擎的体系结构[2],作者提出了基于移动互联网的搜索引擎的简单体系结构,其基本原理示意如下。

图1 移动互联网搜索的基本原理示意图信息收集和预处理主要包括网络爬虫,索引排序,数据存储等搜索处理的前期过程。

鉴于篇幅有限,在此不赘述信息收集和预处理的详细内容。

本文重点阐述的信息过滤显示部分属于信息查询过程。

在用户提交搜索查询请求后,服务端将已经进行主要内容提取后的精简页面,再根据用户个性化要求进行筛选,并经过WEB页面到WAP页面的标记语言转换,将内容返回用户[1]。

整个信息过滤过程分为三个阶段:1.网页主体内容提取。

由于大部分WEB页面内容冗余复杂,在移动互联网搜索引擎将WEB页面内容进行快照下载后,为了满足移动终端的要求,要对网页内容进行主体过滤提取。

提取出网页内容的正文部分,并区分出链接部分,过滤掉冗余的图片和广告等。

2.基于用户兴趣代理的信息过滤。

移动用户进行移动互联网搜索的主要目的是得到适合自身个性化需求的信息。

对于通过关键词进行查询得到的大量搜索结果,系统会根据表征用户兴趣的用户模版信息进行过滤,将已经经过前一阶段主体内容提取的页面内容根据用户兴趣进行结果显示的优先级排序。

3.标记语言转换。

在经过主体内容提取和用户个性化信息过滤后,该页面内容已经基本符合用户的期望。

此时将以HTML等标记语言显示的WEB页面转换成以WML等语言显示的WAP 页面,以便通过移动通信网络传输和移动终端接收显示,将查询结果最终送达用户。

图2 移动互联网搜索的信息过滤解决方案3.2页面主体内容提取3.2.1 HTML 解析HTML 文档属于半结构化数据[3],半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。

给定一篇HTML 网页,顺序整理出容器标签就得到了对应的标签树的框架。

而后,整理每个内容块(对应标签树的一个结点)中的超链标签、图片标签和重要信息标签,并在标签树中对应的结点记录下来。

这样就构造了一棵基本的标签树。

对上述基本标签树信息作适当的分析、整理就可以得到内容分析过程中需要的一些描述信息。

图3 标签树示例3.2.2 HTML 页面主体内容提取要想进行对HTML 文档内某一部分或某一种内容的提取,首先需要对整篇文档进行解析,根据一般性的规律,将任何可能包含该种内容的容器标签进行全文扫描。

经过技术调研分析,作者考虑采用Java 开源项目htmlparser 进行Web 页面内容的解析和提取。

在作者的试验程序中,主要针对新浪网的新闻类和科技类网页进行了实验,实验效果良好。

以下两张图片显示了网页内容提取前后的网页对比情况。

提取前的网页:图4 提取前网页提取后效果演示:图5 提取后网页3.3 基于智能用户兴趣代理的信息过滤3.3.1 信息过滤系统结构设计图6 信息过滤系统结构按照该结构图,其工作流程为:1.用户首次进入搜索门户,进行第一次查询服务之前,门户提示用户可以选择填写一份兴趣注册信息,用以记录用户的兴趣信息。

2.系统根据用户填写的兴趣信息为用户创建一个用户模板,该用户模板采用向量空间模型把与用户兴趣信息相关的关键词构成一个用户兴趣关键词集合,用户模板建模初始化工作完成,模版信息保存在客户端本地[5],(Cookie方式)。

3.用户进行查询服务,像普通搜索引擎一样输入自己的查询词。

客户端将查询请求及之前预存的模版信息发送给服务器,由服务器用户兴趣代理缓存模版信息(查询结果返回用户后释放缓存,以减轻服务器压力)。

系统进行分词处理,进行一般搜索引擎的检索工作,但返回结果列表并不直接返回给浏览器,而是交给服务器的用户兴趣代理。

4.将返回列表里的Web文档做分词处理,进行特征向量的抽取,采用某种算法计算特征向量各项的权值,并且形成特征向量。

5.以用户模板向量为二次查询的匹配的条件,对步骤4形成的特征向量进行匹配,计算两者的相似度,并以一个初始阈值作为是否保留该文档的门限。

6.以文档和用户模板的相似性作为结果排序的依据,将高于阈值的项作为新的结果返回给浏览器供用户浏览。

7.用户选择结果列表中的某些文档浏览,在浏览结束后请用户选择对该文档打分,作为用户重要的兴趣信息保存到用户模板中,用户对某篇文档的打分归结为对某些关键词的重视程度,并相应的在用户模板的向量表中更新该关键词的权重;以此策略来更新用户模板。

另外,将本次用户输入的检索词也作为一个用户兴趣的反馈信息与文档内的关键词一并作为新的用户模板参考信息。

至此,用户的一次查询结束。

8.如果用户发现一段时间后,返回结果不能代表自己的兴趣方向或者自己最初定制的兴趣信息已经发生了改变,那么此时用户可以重新要求填写用户兴趣表单提交,形成新的用户模板。

以上为基于智能用户兴趣代理的信息过滤系统结构设计综述,其中智能用户兴趣代理和信息过滤算法为设计中的两个关键,下面将重点阐述这两部分内容。

3.3.2 智能用户兴趣代理实现方案用户兴趣代理的模版部分可以是运行于移动设备上的客户端浏览器内支持的一种数据结构,浏览器可以选择是否支持该种服务,因此可以作为一个插件程序,而且这是比较合理的做法。

用户是否订购这样的高级服务是自愿的。

可以通过网络下载或终端捆绑安装方式提供这个插件程序。

对搜索结果的匹配过滤是需要很大的计算量的,因此,匹配过滤模块适宜于在服务器端实现,也就是还需要匹配过滤运算程序的支持。

在服务器端,匹配程序将用户的模版缓存在服务器上,在匹配后将过滤结果返回给用户,并释放缓存。

在客户端可以提供用户对过滤结果的评价途径,并可以捕捉用户的网络浏览喜好,统计历史查询关键词等,利用更新算法形成新的兴趣模版并记录在客户端Cookie中。

这样就完成了用户兴趣模版的智能化更新过程。

下次查询将新的用户模版发给服务器来进行信息过滤匹配。

图7 用户模版的智能化更新3.3.3 信息过滤匹配算法信息过滤中的一个关键步骤是依关键词所得搜索结果与用户模板的匹配,用户模板与信息匹配常用的模型有布尔模型、向量空间模型、潜在语义索引模型、概率模型、神经网络模型等。

每种模型首先要解决用户模板和信息的表示问题,然后在某种表示的基础上才能进行用户模板和信息的相似性比较,从而根据相似性的大小选出和用户模板匹配的信息推荐给用户。

信息有多种格式:文本、超文本、声音、图像和视频等。

为了方便计算机处理,布尔模型和向量空间模型用索引项描述信息的内容。

一个索引项可以是一个单词或一个短语。

同样把不同形式的一条信息统称叫一个信息项,这样一个信息项就可以表示成索引项的集合D={T1, …, Tn}。

对一个信息项建立索引的过程叫做标引(indexing)或索引,标引有人工标引和自动标引两种方法。

人工标引适合于声音、图像和视频等非文本格式的信息。

相关文档
最新文档