小型搜索引擎设计及实现v1.1
一个网络搜索引擎的设计与实现

主 页 出发 , 就 可 以抓 取 到 网络 上 所 有 的 网页 , 被 抓 取
的 网页 被称 之 为 网页快 照 。
处 理 网页 : 搜 索 引擎抓 到 网页后 , 需 要对 网页进 行
大 量 的处 理 工 作 ,然后 把 处理 好 的 网页 送 往 数 据 库
…
…
…
…
…
.
一
…
…
…
…
…
…
…
…
…
…
…
一
…
r - . 蔼一 … 建… … 皇… … 脑 糕 UJl AN e O . { T醴
一
个 网络搜 索 引擎 的设计 与实现
白晋伟
( 苏 州大 学图 书馆 数 字化 部 苏 州 江苏 2 1 5 0 0 6 )
【 摘 要】 : 网络搜索引擎是指 自动地从 网络搜集信 息, 经过处理后提供给用户查询的系统。 设计 了
没有 冲浪 板 , 面对 滔 天 海水 , 只 能 望 洋兴 叹 , 没 有 搜索
检索器 : 根 据 用 户 输 入 的查 询 请 求 , 在 索 引数 据
进 行 相 关 度评 价 , 对 将 要输 出 的 引擎 面对 浩 如烟 海 的 网上 信 息我 们将 无 从 下手 , 找不 库 中快 速 检 索 文 档 , 并 按用 户 的查 询 需求 合 理返 回 让用 户满 意 到我们希望得到的信息。 网络搜索引擎是对 网络上网 结 果排 序 ,
网络 爬 虫 : 又被 称 为 网络 蜘 蛛 , 网络机 器 人 , 是 一 中 , 以便 检索 器在 数 据 库 中进 行检 索 。其 中包括 提 取
种 按 照一 定 的规 则 , 自动 的抓 取 万维 网信 息 的程 序或 关 键 词 , 建 立 索 引文 件 数 据 库 、 对 重 复 网页 网页 的 处 者脚本 。从 一个 或若 干初 始 网页 的 U R L开 始 , 获得初 理 、 中文 分 词 的 处 理 、 判 断 网页 类 型 、 解 析 得 出超 链 计算 网页 的页面 排名 等 。 始 网页 上 的 U R L , 在 抓 取 网 页 的过 程 中 , 不 断 从 当前 接 、
搜索引擎的设计与实现毕业设计论文

毕业设计说明书搜索引擎的设计与实现搜索引擎的设计与实现摘要:我们处在一个大数据的时代,伴随着网络信息资源的庞大,人们越来越多地注重怎样才能快速有效地从海量的网络信息中,检索出自己需要的、潜在的、有价值的信息,从而可以有效地在日常工作和生活中发挥作用。
因为搜索引擎这一技术很好的解决了用户搜索网上大量信息的难题,所以在当今的社会,无论是发展迅猛的计算机行业,还是作为后起之秀的信息产业界,都把Web搜索引擎的技术作为了争相探讨与专研的方向。
搜索引擎的定义就是指按照既定的策略与方法,采取相关的计算机程序,通过在互联网中进行寻找信息,并显示信息,最后把找到的信息进行整理和筛选,为搜索引擎的使用者提供检索信息的服务,终极目标是为了提供给使用者,他所搜索信息相关的资料的计算机系统。
搜索引擎的种类繁多,既可以进行全文的索引,还可以进行目录的索引,不仅有集合式的搜索引擎,还有垂直搜索的引擎以及元搜索引擎。
除此之外,还有门户搜索引擎和免费链接列表等等。
本文首先介绍了搜索引擎出现的必要性,以及什么是搜索引擎、搜索引擎的分类、处理流程、核心技术,同时也对如何才能提高搜索引擎的精准度以及关联度进行了更加深入的研究。
关键词:Web搜索引擎、信息检索、人机交互、Lucene全文检索引擎Development and implementation of search engineAbstract:We are in an era of big data, with the network information resources is huge, more and more people pay attention to how to quickly and efficiently from the massive network information, searching for their own needs, potential, valuable information, which can effectively play a role in the daily work and life. Because the search the engine of this technology is a good solution to the problem of Internet users to search a large amount of information, so in today's society, whether it is the rapid development of computer industry, information industry as the bright younger generation, the Web search engine technology as the direction to explore and research.The search engine (Search Engine) refers to the strategy and methods established, take computer related procedures, through the Internet search and display information, then the information sorting and filtering, provide information retrieval services for users of search engines, the ultimate goal is to provide to the user, the computer system of his search data information related to the type of search engine. There can be the index, can also be a directory index, not only has the integrated search engine, and the vertical search engine and meta search engine. In addition, there is the portal searchengine and free chain Access list and so onThis paper first introduces the necessity of the search engine, and what is the search engine, search engine classification, treatment process, the core technology, but also on how to improve the search accuracy and relevance of a more in-depth study.Keywords: Web search engine、information retrieval、human-computer interaction,、Lucene full text search engine目录目录 ....................................................................................................................... I V 1 绪论 (1)1.1 项目背景 (1)1.2 国内外发展现状及分类 (2)1.3 本论文组织结构介绍 (3)2 相关技术介绍 (5)2.1什么是搜索引擎 (5)2.2 sqlserver数据库 (6)2.3 Tomcat服务器 (7)3 搜索引擎的基本原理 (8)3.1搜索引擎的基本组成及其功能 (8)3.2搜索引擎的详细工作流程 (11)4 系统分析与设计 (14)4.1系统分析 (14)4.2系统概要设计 (14)4.2系统实现目标 (15)5 系统详细实现 (16)5.1实现环境配置 (16)5.2功能实现 (16)5.2.1 建立索引 (16)5.2.2 文件搜索实现 (18)5.2.3 数据库的连接配置 (20)5.2.4 数据库搜索实现 (20)5.2.5 后台数据编辑实现 (22)6 系统测试 (24)6.1测试重要性 (24)6.2测试用例 (25)。
站点搜索引擎的设计与实现

站点搜索引擎的设计与实现一、引言现在互联网上的网站数不计其数,每个网站都拥有大量的信息和数据,为方便用户查找所需信息,站点搜索引擎得到了广泛应用。
本文将介绍站点搜索引擎的设计与实现,主要包含以下几个方面:索引、搜索算法、搜索结果展示和性能优化。
二、索引站点搜索引擎的核心是索引,它是搜索引擎用来存储网站信息和数据的数据结构。
索引采用倒排索引(Inverted Index)的方式,将网站内容中的关键词和对应的网页建立关联。
倒排索引可以通俗地理解为将关键词映射到包含该关键词的网页进行索引,并将该关键词在每个网页中的出现位置记录下来。
这种方式极大地节省了存储空间,能够快速定位相关网页。
在建立索引时,需要注意以下几个问题:1. 关键词选择:需要选取能够反映网站内容的关键词,并进行合理的分词处理。
2. 同义词处理:对于同义词需要进行处理,使得用户输入不同的词汇依然能够搜到相关的网页。
3. 词频处理:词频即关键词在网页中出现的频次,需要进行合理的处理以保证搜索结果的准确性。
三、搜索算法当搜索引擎接收到用户输入的关键词后,需要通过算法计算文本与索引之间的相关性,并给出相关度高的搜索结果。
搜索算法通常采用向量空间模型(Vector Space Model)或者概率检索模型(Probabilistic Retrieval Model)等方法,计算文本与索引之间的相似度。
在应用向量空间模型时,需要先将文本和索引转化为向量,在向量空间中计算向量之间的相似度,最终返回与搜索词语相关度最高的搜索结果。
而在应用概率检索模型时,需要利用贝叶斯公式计算文本与索引之间的相关概率,并得出搜索结果。
四、搜索结果展示搜索结果的展示是站点搜索引擎应用最为重要的部分。
好的搜索结果展示能够让用户更快地找到所需信息,提高用户满意度。
搜索结果需要展示以下几个方面的信息:1. 包含搜索关键词的网页标题、链接和描述信息。
2. 对搜索结果的排序,一般采用综合权重、匹配度等指标进行排序。
浅析图书馆如何搭建小型搜索引擎

引 言 随着 网络 的兴起 ,搜索 引擎逐渐 被广泛 使用 。 索引擎 技术是 搜 网络 与计算机 技术结 合的产物 ,它 的发展决 定于 网络 技术 的发展 。 对 于 图书馆来 说 ,用户 的文献 检索 需求 越来 越 强 ,专业 覆盖 面 广而 专业 性细 分 ,所 购专 业 性数 据库 越来 越 多 ,信 息量 也越 来 越 大 ,为 了给 读 者提供 快速 、方便 的检 索 ,使读 者 能够 自网上 即 时获 取所 需要 的文 献资 料 ,更好 的整 合 相关 的课题 、科研 研究 信 息等 , 图书馆 可 以考虑 建设 覆盖 某些 行业 领 域或 者某 些专 业 的小 型搜 索 引擎 。 本文 尝试 着从 基本 技术 的 角度来 阐述 如何 搭 建搜 索 引擎 ,大 致可 以从 :信 息搜 集 、构建 索 引、检 索三 个 部分 来 了解 现 有开 发
一
爬 虫所抓 取 的页 面都 存放 在 网页库 中 ,为 了减 少所 需 的存 储 空 间 ,经 常 需要 对页 面进 行压 缩存 储 。页 面通 常都存 放 在数 据库 中,但是 对 于小 型 的搜索 系统 来 说可 以简 单地 把页 面存 成文 件 的 形式 。索 引处 理下 载 的 网页并 为搜 索提 供服 务 。索 引把每 一个 文 档记 录成 词组 和词 组在 文档 中出现 的位 置 , 同时通过 词 组出现 频 率等 计算 文档 得分 , 以便用 于 查询 结果 的排 序或 者更 进 一步 的处
Li r r w oBu l ma l e r h En i e b a y Ho t i a S d l S a c gn
基于网络爬虫的搜索引擎的设计与实现

7、性能优化与维护:在实现基本功能的基础上,进行性能优化和维护,提 高系统的稳定性和可靠性。
四、总结
基于网络爬虫的垂直搜索引擎设计和实现具有很大的现实意义和市场价值。 通过合理的设计和实现方法,可以高效地获取特定领域或主题的信息,提供精准 和深入的搜索结果,满足用户的个性化需求。然而,在实际应用中还需考虑诸多 因素,如法律合规性、用户体验等。因此,在设计和实现垂直搜索引擎时,需要 综合考虑各种因素,确保系统的稳定性和可靠性。
感谢观看
一、网络爬虫
网络爬虫(Web Crawler)是一种自动化的网页抓取工具,能够根据一定的 规则和算法,遍历互联网上的网页,并抓取所需要的信息。网络爬虫是垂直搜索 引擎的基础,通过它,我们可以获取到特定领域或主题的大量数据。
在设计网络爬虫时,我们需要考虑以下几个方面: 1、爬取策略:如何有效地遍历和爬取网页,避免重复和遗漏。
二、网络爬虫的设计原则
1、有效性:网络爬虫必须能够有效地找到目标信息。为了提高爬虫的有效 性,可以采用诸如分布式爬取、使用HTTP缓存等技术手段。
2、可用性:网络爬虫在爬取过程中不应给目标网站带来过大的负担。因此, 需要设计高效的爬取策略,避免对目标网站造成过大压力。
3、可扩展性:网络爬虫应当能够处理大规模的数据和复杂的网络结构。为 实现可扩展性,可以使用分布式计算和存储等技术。
连接人与万物的智能中间下未来的搜索引擎将会变得更为智能 化会更好地满足用户需求并能够根据用户需求为用户提供个性化的服务而实现人 机交互;从这一点上来看未来搜索引擎将会变成一个机器人的角色并且越来越为 智能化可以更好地理解人的语言与人进行对话与交流为用户提
3、Yahoo
Yahoo是另一个流行的搜索引擎,它提供基于Bing的搜索结果。Yahoo搜索结 果的质量和广告数量略低于Google和Bing。此外,Yahoo还提供一些有用的功能, 例如天气预报、新闻摘要、电影评分等。Yahoo还提供许多实用的工具,例如 Yahoo Mail、Yahoo Finance等。
搜索引擎设计(精品)

---------------------------------------------------------------最新资料推荐------------------------------------------------------搜索引擎设计(精品)搜索引擎设计学号:姓名:专业:搜索引擎设计1. 研究思路当前主流的搜索引擎使用全文检索技术,收集因特网上几千万到几亿个网页,并对网页中的每一个词进行索引。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被提交出来,在经过复杂的算法排序后展现给用户。
这种基于网页的全文检索系统能够适应大信息量查询的需要,具有很强的实用性。
模拟百度、 Google 等搜索引擎的运行模式,对此类搜索引擎的结构组成、关键算法、技术改进目标进行探讨。
2. 搜索引擎的构成一个搜索引擎由搜索器(Spider) 、索引器(Indexer)、检索器(Sercher)和用户接口(UI) 等四个部分组成。
系统首先由 Spider 即自动的收集程序收集网页的内容;然后由Indexer 将收集回来的内容进行分析,建立一个索引;再由Sercher 响应用户的检索请示,用户输入关键字后,搜索器要用这个检索词与建立的索引器匹配,匹配后作相关性排序;最后通过 UI1/ 8将排序结果送给用户。
系统结构如图 1 所示图 1 搜索引擎系统结构互联网数据库文件搜索器FullText文件索引器用户输入用户接口检索器Index文件2. 1 搜索器搜索器俗称蜘蛛,其功能是日夜不停地在互联网中漫游,耙回信息。
它要尽可能多、尽可能快地搜集各种类型的新信息,还要定期更新已经搜集过的旧信息,以避免死链。
目前有两种搜集信息的策略:(1) 从一个起始 URL 集合开始,顺着这些 URL 中的超链( Hyper link) ,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。
设计搜索引擎

设计搜索引擎是一项富有挑战性的工作。
搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。
而且每天要回答成千上万个查询。
在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。
此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。
本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。
除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。
本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。
任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。
关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。
Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。
人们喜欢用超级链接来网上冲浪,通常都以象 Yahoo这样重要的网页或搜索引擎开始。
大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。
基于关键词的自动搜索引擎通常返回太多的低质量的匹配。
使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。
我们建立了一个大型搜索引擎解决了现有系统中的很多问题。
应用超文本结构,大大提高了查询质量。
我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。
1.1 网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。
1994年,第一个Web搜索引擎,WorldWide Web Worm(WWWW)[McBryan94]可以检索到110,000个网页和Web的文件。
搜索引擎设计(精品)

---------------------------------------------------------------最新资料推荐------------------------------------------------------搜索引擎设计(精品)搜索引擎设计学号:姓名:专业:搜索引擎设计1. 研究思路当前主流的搜索引擎使用全文检索技术,收集因特网上几千万到几亿个网页,并对网页中的每一个词进行索引。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被提交出来,在经过复杂的算法排序后展现给用户。
这种基于网页的全文检索系统能够适应大信息量查询的需要,具有很强的实用性。
模拟百度、 Google 等搜索引擎的运行模式,对此类搜索引擎的结构组成、关键算法、技术改进目标进行探讨。
2. 搜索引擎的构成一个搜索引擎由搜索器(Spider) 、索引器(Indexer)、检索器(Sercher)和用户接口(UI) 等四个部分组成。
系统首先由 Spider 即自动的收集程序收集网页的内容;然后由Indexer 将收集回来的内容进行分析,建立一个索引;再由Sercher 响应用户的检索请示,用户输入关键字后,搜索器要用这个检索词与建立的索引器匹配,匹配后作相关性排序;最后通过 UI1/ 8将排序结果送给用户。
系统结构如图 1 所示图 1 搜索引擎系统结构互联网数据库文件搜索器FullText文件索引器用户输入用户接口检索器Index文件2. 1 搜索器搜索器俗称蜘蛛,其功能是日夜不停地在互联网中漫游,耙回信息。
它要尽可能多、尽可能快地搜集各种类型的新信息,还要定期更新已经搜集过的旧信息,以避免死链。
目前有两种搜集信息的策略:(1) 从一个起始 URL 集合开始,顺着这些 URL 中的超链( Hyper link) ,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.4 网页排序
最早的搜索引擎采用分类目录的方法,通过人工进行网页分类并整理出 高质量的网站。 随着网页越来越多,进入了文本检索时代,通过计算用户查询关键词与网页内容的相关 程度来返回搜索结果,但效果不好。 谷歌创始人,当时还是美国斯坦福大学 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。他们借鉴了学术界评判学 术论文重要性的通用方法, 那就是看论文的引用次数。由此想到网页的重要性也可以根
采用PageRank算法、HITS算法、SALSA算法或其他你认为合适的算法,实现搜索结果的排序; 支持自然语言的模糊检索; 可实现搜索结果的可视化呈现。 系统实现与 可以在线记录每次检索的日志,并可对日志数据进行统计分析和关联挖掘。 可视化
项目具体分工
组长:卫罡,系统前端
组员:薛鲁国,系统后台:数据采集及预处理,话题发现
Scrapy基本框架
1.1 构建数据采集模型
数据采集两种方式 累积式采集:从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所 有网页。经过足够时间,该策略可以保证抓取到相当规模的网页集合。由于web数据的
动态性,累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。
2.3 Elasticsearch全文检索引擎
加上“出现频率”和“出现位置”信息后,我们的索引结构变为:
关键词 guangzhou He I Live Shanghai Tom 文章号 1 2 1 1,2 2 1 出现频率 [2] [1] [1] [2] [1] [1] 出现位置 3,6 1 4 2,5,2 3 1
2.5 话题发现词性过滤
话题
LDA主题模型
计算词向量(TFIDF)
2.5 话题发现
LDA简介
单篇文档的概率分布:
p(W | , ) p( | )( p( zn | ) p( wn | zn , ))d
n 1 zn N
2.4 网页排序
根据每个网页的超链接信息计算网页的权值,一个页面的得分情况由 所有链向它的页面的重要性经过加权计算得到的。 PageRank计算 初始值相同
3.3 可视化之 PageRank
2.4 网页排序
利用PageRank链接增强思想,计算新闻网 页权值。 所有节点初始rank值为1,迭代10次后网 页结果
现实时分析;可扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
中文分词器一般使用第三方的ik分词器、mmsegf分词器和paoding分词器。本系统选择 ik分词器。 Elasticsearch使用lucene倒排索引,相比关系型数据库的B-Tree索引快。并支持模糊检 索。
2.3 Elasticsearch全文检索引擎
2.1 网页文本分类
TextGrocery分类工具 基于LibLinear和结巴分词的短文本分类工具,特点是高效易用,同时支持中文和英文语 料。
API:Grocery,GroceryPredictResult,GroceryTestResult
性能,训练集:来自32个类别的4.8万条中文新闻标题;测试集:来自32个类别的41.6万
教育新闻
体育新闻 文化新闻
1.2 设计数据存储格式
爬取字段名称 Title URL 爬取字段含义 新闻标题 新闻链接
Website
Type Content Releasing Crawling Image Links
新闻站点
新闻类别 新闻文本 发布时间 抓取时间 新闻图片 网页包含的其它URL
1.3 数据预处理并存储
Web网页
URL选取系统 选取出URL
爬取系统
DNS解析服务系统 抓取调度系统 网页分析系统 URL提取系统 URL分析系统
URL库
抓取回网页 解析
数据存储
合并更新URL
新提取出的 URL
网页存储系统
1.1 构建数据采集模型
1. Scrapy Engine 从Scheduler中取出一
• Lucene倒排索引,通过由属性值来确定记录的位置。是实现“单词-文档矩阵”的一 种具体存储形式,可以根据单词快速获取包含这个单词的文档列表。主要由“单词词 典” 和“倒排文件”组成。
lucene框架
2.3 Elasticsearch全文检索引擎
(0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too 文章2的内容为:He once lived in Shanghai. (1)获取关键字 全文分析:由于lucene是基于关键词索引和查询的,首先取得这两篇文章的关键词,通常需要 如下处理措施: a. 先要找出字符串中的所有单词,即分词。 英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。 b.文章中的”in”, “once” “too”等词没有什么实际意义,中文中的“的”“是”等字通常也无具 体含义, 这些不代表概念的词可以过滤掉 c.用户通常希望查“He”时能把含“he”,“HE”的文章也找出来,所以所有单词需要统一大小 写。 d.用户通常希望查“live”时能把含“lives”,“lived”的文章也找出来,所以需要把“lives”, “lived”还原成“live” e.文章中的标点符号通常不表示某种概念,也可以过滤掉
Step 5 SVM分类器 Step 4 TF-IDF策略 特定空间上
间隔最大的 线性分类器 二类分模型,
结构化表示
Step 6 TextGrocery 分类工具
基于 LibLinear和 结巴分词
1
构建TFIDF词向量 空间
3
生成权重矩 阵
5 6
2 4
2.1 网页文本分类
2.1 网页文本分类
SVM 支持向量机 是一个二分类的分类模型,定义为特征空间上的间隔最大的线性分类器。给定一个包含 正例和反例的样本集合,根据正例和反例寻找一个超平面对样本进行分割。
经过上面处理后: 文章1的所有关键词为:[tom] [live] [guangzhou] [i] [live] [guangzhou] 文章2的所有关键词为:[he] [live] [shanghai]
2.3 Elasticsearch全文检索引擎
(2) 建立倒排索引 有了关键词后,就可以建立倒排索引了。 上面的对应关系是:“文章号”对“文章中所有关键词”。 倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。 文章1,2经过倒排后变成:
关键词 guangzhou he I Live Shanghai tom 文章号 1 2 1 1,2 2 1
通常仅知道关键词在哪些文章中出现还不够,还需要知道关键词在文章中出现次数和出现的位 置,通常有两种位置: a)字符位置,即记录该词是文章中第几个字符(优点是关键词亮显时定位快); b)关键词位置,即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase) 查询快),lucene中记录的就是这种位置。
增量式采集:在一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集 合中的过时网页进行抓取,保证所抓取到的数据与真实网络数据足够接近。 • 累积式爬取一般用于数据集合的整体建立或大规模更新,增量式采集则主要针对数据集 合的日常维护与及时更新。
1.1 构建数据采集模型
增量式数据采集 使用MongoDB数据库记录每个爬虫爬取到的新闻的最大时间 根据每个新闻网站的更新频率设置爬虫爬取时间间隔,爬取更新的新闻 后台持续运行爬虫程序 使用布隆过滤器(Bloom Filter)去掉重复的URL( Bloom Filter 保存上一次爬取的数 据,根据增量规则对保存的状态数据进行约束,从时间和空间上提升性能)
1.1 构建数据采集模型
十大站点
爬取网页数据量: 3 万+
1.1 构建数据采集模型
九大类别
ID 1 类别 politics 含义 政治新闻
2
3 4 5 6
world
finance tw military society
国际新闻
财经新闻 台湾新闻 军事新闻 社会新闻
7
8 9
edu
sports culture
系统模型设计及构建
网页文本分类 TF-IDF TextGrocery分类工具 网页去重过滤
Elasticsearch全文检索
PageRank网页排序 模糊检索
话题发现
2.1 网页文本分类
Step 1 预处理
得到训练集 语料库
得到测试集 语料库
Step 3 Step 2 中文分词
基于概率图 模型的条件 随机场 (CRF) Jieba分词 法 构建词向量 空间模型
以live这行为例我们说明一下该结构: live在文章1中出现了2次,文章2中出现了一次,它的出现位置为“2,5,2”这表示: 文章1中出现了2次,那么“2,5”就表示live在文章1的关键词中出现的两个位置, 文章2中出现了1次,剩下的“2”就表示live是文章2的关键词中第2个关键字。 以上就是lucene索引结构中最核心的部分。 我们注意到关键字是按字符顺序排列的(lucene没有使用B树结构), 因此lucene可以用二元搜索算法(或叫二分查找/折半查找)快速定位关键词。
据这种方法来评价。于是PageRank的核心思想就诞生了。
2.4 网页排序
PageRank排序,如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就 是PageRank值会相对较高;如果一个PageRank值很高的网页链接到一个其他的网页, 那么被链接到的网页的PageRank值会相应地因此而提高。