网络爬虫的设计与实现毕业设计(论文)

网络爬虫的设计与实现毕业设计(论文)
网络爬虫的设计与实现毕业设计(论文)

毕业设计(论文)说明书

题目:网络爬虫设计与实现

毕业设计(论文)任务书题目:网络爬虫设计与实现

独创声明

本人郑重声明:所呈交的毕业设计(论文),是本人在指导老师的指导下,独立进行研究工作所取得的成果,成果不存在知识产权争议。尽我所知,除文中已经注明引用的内容外,本设计(论文)不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。

本声明的法律后果由本人承担。

作者签名:

二〇一〇年九月二十日

毕业设计(论文)使用授权声明

本人完全了解滨州学院关于收集、保存、使用毕业设计(论文)的规定。

本人愿意按照学校要求提交学位论文的印刷本和电子版,同意学校保存学位论文的印刷本和电子版,或采用影印、数字化或其它复制手段保存设计(论文);同意学校在不以营利为目的的前提下,建立目录检索与阅览服务系统,公布设计(论文)的部分或全部内容,允许他人依法合理使用。

(保密论文在解密后遵守此规定)

作者签名:

二〇一〇年九月二十日

一、原始依据(包括设计或论文的工作基础、研究条件、应用环境、工作目的等。)

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。所以需要一个能基于主题搜索的满足特定需求的网络爬虫。

为了解决上述问题,参照成功的网络爬虫模式,对网络爬虫进行研究,从而能够为网络爬虫实现更深入的主题相关性,提供满足特定搜索需求的网络爬虫。

二、参考文献

[1]Winter.中文搜索引擎技术解密:网络蜘蛛 [M].北京:人民邮电出版社,2004年.

[2]Sergey等.The Anatomy of a Large-Scale Hypertextual Web Search Engine [M].北京:清华大学出版社,1998年.

[3]Wisenut.WiseNut Search Engine white paper [M].北京:中国电力出版社,2001年.

[4]Gary R.Wright W.Richard Stevens.TCP-IP协议详解卷3:TCP事务协议,HTTP,NNTP和UNIX域协议 [M].北京:机械工业出版社,2002 年1月.

[5]罗刚王振东.自己动手写网络爬虫[M].北京:清华大学出版社,2010年10月.

[6]李晓明,闫宏飞,王继民.搜索引擎:原理、技术与系统——华夏英才基金学术文库[M].北京:科学出版社,2005年04月.

三、设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。)

本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。

网络爬虫应用宽度搜索技术。对url进行分析,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。

最终实现的网络爬虫应该能根据设定的主题,从设定的url进行一定深度的搜索,并最终得到需要的数据。

指导教师(签字)

年月日

审题小组组长(签字)

年月日

天津大学本科生毕业设计(论文)开题报告

课题名称网络爬虫设计与实现

学院名称软件学院专业名称软件工程

学生姓名张凤龙指导教师陈锦言

(内容包括:课题的来源及意义,国内外发展状况,本课题的研究目标、研究内容、研究方法、研究手段和进度安排,实验方案的可行性分析和已具备的实验条件以及主要参考文献等。)

一.课题的来源及意义

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。

二.国内外发展状况

对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。

三.研究目标

本论文主要研究搜索引擎的搜索器(网络爬虫程序)的设计与实现,实现简单的可在后台自动运行的爬虫程序。

1.可以多线程进行抓取。

2.可以进行面向主题的抓取。

四.研究内容

本课题研究的内容是如何使网络爬虫灵活高效。

1.如何具备更强的抓取能力。

2.如何分辨重复的网页内容。

3.如何确定主题相关性。

4.对于网络时延等的处理。

五.研究方法

网络爬虫应用宽度搜索技术。对url进行分析,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来新闻等信息。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。

六.研究手段

参考网上开源的网络爬虫和各种网络爬虫相关的书籍,在windows系统环境下开发。

五.本课题进度安排:

2010.12.20—2011.03.10 查阅资料完成任务书,完成开题报告

2011.03.11—2011.03.12 开题报告会

2011.03.13—2011.04.24 查阅资料,进行论文基本章节的写作,完成初稿,并完成进行代码编写

2011.04.25—2011.04.30 毕业设计中期报告会

2011.05.01—2011.05.22 系统设计结束并再次检查系统的可靠性。

2011.05.23—2011.06.22 完成论文及答辩

六.本课题可行性分析

网络爬虫目前已经比较普遍,国内外有众多对网络爬虫的研究成果,大部分的技术难题已经有解决方案。所以本课题的可行性较高。

八.实验条件

Windows 操作系统;互联网

九.主要参考文献

[1]Winter.中文搜索引擎技术解密:网络蜘蛛 [M].北京:人民邮电出版社,2004年.

[2]Sergey等.The Anatomy of a Large-Scale Hypertextual Web Search Engine [M].北京:清华大学出版社,1998年.

[3]Wisenut.WiseNut Search Engine white paper [M].北京:中国电力出版社,2001年.

[4]Gary R.Wright W.Richard Stevens.TCP-IP协议详解卷3:TCP事务协议,HTTP,NNTP和UNIX域协议 [M].北京:机械工业出版社,2002 年1月.

[5]罗刚王振东.自己动手写网络爬虫[M].北京:清华大学出版社,2010年10月.

[6]李晓明,闫宏飞,王继民.搜索引擎:原理、技术与系统——华夏英才基金学术文库[M].北京:科学出版社,2005年04月.

选题是否合适:是□否□

课题能否实现:能□不能□

指导教师(签字)

年月日

选题是否合适:是□否□

课题能否实现:能□不能□

审题小组组长(签字)

年月日

摘要

本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,考虑到网络爬虫的各种需求。

网络爬虫应用宽度搜索技术。对url进行分析,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能。

关键词:网络爬虫;面向主题;多线程

ABSTRACT

The main purpose of this project is to design subject-oriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers.

Web Crawler uses the technology. of Breadth-first search.Web crawler uses multi-threaded technology, so that spiders crawl can have more powerful capabilities.Set connection time and read time of the web connection of the Web crawler , to avoid unlimited waiting.In order to meet different needs, so that crawlers can achieve pre-set theme crawling a specific topic.Research the principle web crawler and and realize the related functions.

Key words:Web crawler; subject-oriented; multi-threading

目录

第一章概述 (1)

1.1 课题背景 (1)

1.2 网络爬虫的历史和分类 (1)

1.2.1 网络爬虫的历史 (1)

1.2.2 网络爬虫的分类 (2)

1.3 网络爬虫的发展趋势 (3)

第二章相关技术背景 (5)

2.1 网络爬虫的定义 (5)

2.2 网页搜索策略介绍 (5)

2.2.1 广度优先搜索策略 (5)

2.2.2 最佳优先搜索策略 (6)

2.3 判断相关度算法 (6)

第三章网络爬虫模型的分析和概要设计 (8)

3.1 网络爬虫的模型分析 (8)

3.2 网络爬虫的搜索策略 (8)

3.3 网络爬虫的主题相关度判断 (9)

3.4 网络爬虫的概要设计 (11)

第四章网络爬虫模型的设计和实现 (14)

4.1 网络爬虫总体设计 (14)

4.2 网络爬虫具体设计 (14)

4.2.1 爬取网页 (14)

4.2.2 分析网页 (15)

4.2.3 判断相关度 (16)

4.2.4 保存网页信息 (17)

4.2.5 数据库设计和存储 (17)

4.2.6 多线程的实现 (17)

4.2.7 附加功能 (18)

4.2.8 整体流程 (18)

第五章测试 (20)

第六章总结和展望 (24)

第一章概述

1.1 课题背景

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。最初的检索功能通过索引站的方式实现,而有了网络机器人,即网络爬虫这个技术之后,搜索引擎的时代便开始一发不可收拾了。

1.2 网络爬虫的历史和分类

1.2.1 网络爬虫的历史

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。

现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage 发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于 Archie深受用户欢迎,受其启发,美国内华达System Computing Services 大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。

当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚

开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。

随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm (Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。

然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨。

随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo)、 LookSmart、MSN、HotBot 等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类(注),搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。

1.2.2 网络爬虫的分类

网络爬虫种类繁多,如果按照部署在哪里分,可以分成:

1,服务器侧:一般是一个多线程程序,同时下载多个目标HTML,可以用PHP,

Java, Python等做,一般综合搜索引擎的爬虫这样做。但是,如果对方讨厌爬虫,很可能封掉服务器的IP,服务器IP又不容易改,另外耗用的带宽也是较贵。

2,客户端:很适合部署定题爬虫,或者叫聚焦爬虫。做一个与Google,百度等竞争的综合搜索引擎成功的机会微乎其微,而垂直搜诉或者比价服务或者推荐引擎,机会要多得多,这类爬虫不是什么页面都取的,而是只取关心的页面,而且只取页面上关心的内容,例如提取黄页信息,商品价格信息,还有提取竞争对手广告信息的。这类爬虫可以部署很多,而且可以很有侵略性。可以低成本大量部署,由于客户端IP地址是动态的,所以很难被目标网站封锁。

1.3 网络爬虫的发展趋势

目前,大多数的搜索引擎都是基于关键词的搜索引擎。基于关键字匹配的搜索技术有较大的局限性:首先,它不能区分同形异义。其次,不能联想到关键字的同义词。

Web商业化至今,搜索引擎始终保持着网络上被使用最多的服务项目的地位,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。

搜索引擎的发展面临着两大难题:一是如何跟上Internet的发展速度,二是如何为用户提供更精确的查询结果。所以,传统的引擎不能适应信息技术的高速发展,新一代智能搜索引擎作为一种高效搜索引擎技术的在当今的网络信息时代日益引起业界人士的关注。搜索引擎己成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。

目前传统搜索引擎下,百度、谷歌等大厂商垄断了网络索引市场,因为它们的存在,日益庞大的互联网内容才能突破网络黑暗状态,变成可知的一个世界。然而,传统搜索引擎并不能支持定制搜索和信息处理、挖掘,只能以WEB1.0的形式存在。

可以预见将来互联网信息抓取、挖掘和再处理,将成为人们越来越多的需求,而满足这种需求的,就是各种各样的爬虫与相关的信息处理工具。现在网络上流行的信息采集工具、网站聚合工具,都是未来新一代爬虫的先驱,甚至已经具备其特点。但是互联网本身,不管1.0还是2.0,还没有为爬虫时代的到来做好充分

准备。现在游行的SEO,就是强势搜索引擎条件下对网站结构产生的影响。爬虫时代到来之后,互联网上会出现专门的信息站点,就是提供给爬虫看的站点。

传统的网络爬虫技术主要应用于抓取静态Web 网页,随着AJAX/Web2.0的流行,如何抓取AJAX 等动态页面成了搜索引擎急需解决的问题,因为AJAX颠覆了传统的纯HTTP 请求/响应协议机制,如果搜索引擎依旧采用“爬”的机制,是无法抓取到AJAX 页面的有效数据的。

AJAX 采用了JavaScript 驱动的异步请求/响应机制,以往的爬虫们缺乏JavaScript语义上的理解,基本上无法模拟触发JavaScript的异步调用并解析返回的异步回调逻辑和内容。

另外,在AJAX的应用中,JavaScript 会对DOM结构进行大量变动,甚至页面所有内容都通过JavaScript 直接从服务器端读取并动态绘制出来。这对习惯了DOM 结构相对不变的静态页面简直是无法理解的。由此可以看出,以往的爬虫是基于协议驱动的,而对于AJAX 这样的技术,所需要的爬虫引擎必须是基于事件驱动的。

第二章相关技术背景

2.1 网络爬虫的定义

定义1:网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件。

定义2:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。

定义3:如果网页p中包含超链接l,则p称为链接l的父网页。

定义4:如果超链接l指向网页t,则网页t称为子网页,又称为目标网页。主题网络爬虫的基本思路就是按照事先给出的主题,分超链接和已经下载的网页内容,预测下一个待抓取的URL及当前网页的主题相关度,保证尽可能多地爬行、下载与主相关的网页,尽可能少地下载无关网页。

2.2 网页搜索策略介绍

网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。

2.2.1 广度优先搜索策略

广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着

抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。

2.2.2 最佳优先搜索策略

最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。将在第4节中结合网页分析算法作具体的讨论。研究表明,这样的闭环调整可以将无关网页数量降低30%~90%。

2.3 判断相关度算法

主题爬虫的系统组成最初考虑是对页面的过滤,不像普通爬虫对所有页面的链接进行处理,先对页面与受限领域的主题相关度进行分析,只有当其主题相关度符合要求时才处理该页面中的链接,因为如果该页面和本领域比较相关,它所包含的链接和领域相关的几率也较大,这样提高了爬行精度,虽然会遗漏少数页面,但综合效果是令人满意的。因此,主题相关度的分析是主题爬虫设计的关键。(一)主题相关度计算模型

垂直搜索引擎与通用搜索引擎最大的区别在于垂直搜索引擎是面向某个领域的,因而垂直搜索引擎的网络蜘蛛只采集与主题相关的网页,与主题无关的网页将被丢弃,将此类网络蜘蛛称为主题蜘蛛[6-8]。主题蜘蛛将网页下载到本地后,需要使用基于内容的主题判别方法计算该网页的主题相关度值,主题相关度低于某一阈值的网页被丢弃。主题相关度的计算方法有布尔模型和向量空间模型两种模型算法[10]。

1.布尔模型。在主题判别时,布尔模型是很容易实现的。在布尔模型[9]中,一个文档通过一个关键词集合来表示。同时,某个主题也以关键词集合的形式来表示。在判断文档与某主题的相关度的过程中,相当于是计算两个关键词集合的交集。对基于布尔模型的主题判别模型来说,交集中含有的元素越多,则认为与主题的相关度就越高。

2.空间向量模型。向量空间模型[11](Vector Space Model)由Salton等人于20世纪60年代末提出,是一种简便、高效的文本表示模型,其理论基础是代数学。与布尔模型不同,向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点(向量),而通过计算向量之间的距离来判定文档和查询之间的相似程度(例如,用它们之间夹角的余弦作为相似性度量)。

然后,根据相似程度排列查询结果。在向量空间模型中,文档被形式化为n维空间中的向量,把关键词的个数n作为空间向量的维数,每个关键词的权值作为每一维分量的大小,则主题用向量表示为:

A=(a1,a2,…,an),i=1,2,…,n,ai=wi

对于页面进行分析,统计关键词出现的频率,并求出频率之比,以出现的频率最高的关键词作为基准,其频率用xi=1表示,通过频率比,求出其他关键词的频率,则该页面对应向量的每一维分量为xiwi。指定一个阈值r,当cos<α,β>=r时就可以认为该页面和主题是比较相关的,r的取值需要根据经验和实际要求确定,如果想获得较多的页面,可以把r设小一点,要获得较少的页面可以把r设的大一点。

(二)布尔模型与空间向量模型分析

布尔模型的主要缺陷在于每个关键词的权重都是一样的,它不支持设定关键词的相对重要性,但是其优点也较为明显,它易于实现,计算代价较小。

向量空间模型最大优点在于它在知识表示方法上的巨大优势。在该模型中,文档的内容被形式化为多维空间中的一个点,以向量的形式给出。也正是因为把文档以向量的形式定义到实数域中,才使得模式识别和其他领域中各种成熟的算法和计算方法得以采用,极大地提高了自然语言文档的可计算性和可操作性。

通过对空间向量模型和布尔模型的介绍,我们知道现在垂直搜索引擎大多采用空间向量模型计算主题相关性。这样极大的提高到主题爬虫的效率,也极大的提高了垂直搜索引擎的应用效率,给客户带来了高效的查询效果。与在进行页面的主题相关度分析后,当其主题相关度符合要求时将处理该页面中的所有链接,但其中的链接指向的页面也可能有许多偏离了主题,这一点在网页的标题上就可以看出,现在大多数网页的标题已经很明显的给出了文本的主要描述对象,所以传统的空间模型策略没有注意到网页标题这个重要的角色。针对此提出了一种基于网页标题的空间向量模型主题相关度计算方法。

第三章网络爬虫模型的分析和概要设计

3.1 网络爬虫的模型分析

首先建立URL任务列表,即开始要爬取的URL。由URL任务列表开始,根据预先设定的深度爬取网页,同时判断URL是否重复,按照一定算法和排序方式搜索页面,然后对页面按照一定算法进行分析,并提取相关URL,最后将所得URL 返回任务列表。之后将任务列表中URL重新开始爬取,从而使网络爬虫进行循环运行。

3.2 网络爬虫的搜索策略

本文的搜索策略为广度优先搜索策略。如下图3-1所示。

图3-1 广度优先搜索策略示意图

1)定义一个状态结点

采用广度优先搜索算法解答问题时,需要构造一个表明状态特征和不同状态之间关系的数据结构,这种数据结构称为结点。不同的问题需要用不同的数据结构描述。

2)确定结点的扩展规则

根据问题所给定的条件,从一个结点出发,可以生成一个或多个新的结点,这个

中小型企业网络规划设计方案

湖南工业职业技术学院 工程项目实践报告 项目名称:企业网络规划与设计 院(系):信息工程系 专业:计算机网络 班级:s2011-2-22 学生姓名:朱佳才 指导教师:黄晗文 完成时间:2014.3.23

目录 No table of contents entries found. 一.工程概况 公司有一栋独立大楼,高4层,每层面积2000平方米。由研发技术部(成员60人,分成硬件(25)和软件(35)2大部门)、生产部(主要产品是手持电子产品,110人,管理人员10人)和市场部(30个销售,10个工程师)组成。还有一般企业都有的后勤部门和财务部门等。公司管理层组成:董事会,1个总经理,3个副总经理。3个总监。

二.需求分析 1. 用户需求 公司网络需求主要有以下几点: (1).1层为市场部和后勤部; 2层为生产部; 3层为研发技术部; 4层为公司内部管理人员办公室和财务部。 (2). 各部门都有各自独立的文件服务器,且文件服务器通常不允许跨部门访问。.但管理层办公室可以访问四个部门的文件服务器。 (3). 公司内部的计算机间采用公司内部的电子邮件系统和IM(即时通讯)系统联系。 (4). 公司内部网络与Interner之间采用10M光纤接入。 (5). 公司内部架设Web服务器,对Internet提供公司的形象和电子商务服务。 (6). 财务部可以访问财务数据服务器,其他部门不能访问财务数据服务器。 (7). 为保证安全,Internet与公司内部网络间应该采用防护措施,防止外界对内部网络未经授权的访问。 (8). 具体要求: WWW服务

E-mail、FTP服务 集团内行政管理 拨号上网服务 文件服务管理系统 数据库服务 防火墙系统 邮件服务 视频会议系统 2.稳定可靠需求 现代企业的网络应具有更全面的可靠性设计,以实现网络通信的实时畅通,保障企业生产运营的正常进行。随着企业各种业务应用逐渐转移到计算机网络上来,网络通信的无中断运行已经成为保证企业正常生产运营的关键。现代大型企业网络在可靠性设计方面主要应从以下3个方面考虑。 (1)、设备的可靠性设计:不仅要考察网络设备是否实现了关键部件的冗余备份,还要从网络设备整体设计架构、处理引擎种类等多方面去考察。 (2)、业务的可靠性设计:网络设备在故障倒换过程中,是否对业务的正常运行有影响。 (3)、链路的可靠性设计:以太网的链路安全来自于多路径选择,所以在企业网络建设时,要考虑网络设备是否能够提供有效的链路自愈手段,以及快速重路由协议的支持。

毕设开题报告-及开题报告分析

开题报告如何写 注意点 1.一、对指导教师下达的课题任务的学习与理解 这部分主要是阐述做本课题的重要意义 2.二、阅读文献资料进行调研的综述 这部分就是对课题相关的研究的综述落脚于本课题解决了那些关键问题 3.三、根据任务书的任务及文件调研结果,初步拟定执行实施的方案(含具体进度计划) 这部分重点写具体实现的技术路线方案的具体实施方法和步骤了,具体进度计划只是附在后面的东西不是重点

南京邮电大学通达学院毕业设计(论文)开题报告

文献[5] 基于信息数据分析的微博研究综述[J];研究微博信息数据的分析,在这类研究中,大多数以微博消息传播的三大构件---微博消息、用户、用户关系为研究对象。以微博消息传播和微博成员组织为主要研究内容,目的在于发祥微博中用户、消息传博、热点话题、用户关系网络等的规律。基于微博信息数据分析的研究近年来在国内外都取得了很多成果,掌握了微博中的大量特征。该文献从微博消息传播三大构件的角度,对当前基于信息数据分析的微博研究进行系统梳理,提出微博信息传播三大构件的概念,归纳了此类研究的主要研究内容及方法。 对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。文献[6]综述了聚焦爬虫技术的研究。其中介绍并分析了聚焦爬虫中的关键技术:抓取目标定义与描述,网页分析算法和网页分析策略,并根据网络拓扑、网页数据内容、用户行为等方面将各种网页分析算法做了分类和比较。聚焦爬虫能够克服通用爬虫的不足之处。 文献[7]首先介绍了网络爬虫工作原理,传统网络爬虫的实现过程,并对网络爬虫中使用的关键技术进行了研究,包括网页搜索策略、URL去重算法、网页分析技术、更新策略等。然后针对微博的特点和Ajax技术的实现方法,指出传统网络爬虫的不足,以及信息抓取的技术难点,深入分析了现有的基于Ajax的网络爬虫的最新技术——通过模拟浏览器行为,触发JavaScript事件(如click, onmouseo ver等),解析JavaScript脚本,动态更新网页DOM树,抽取网页中的有效信息。最后,详细论述了面向SNS网络爬虫系统的设计方案,整体构架,以及各功能模块的具体实现。面向微博的网络爬虫系统的实现是以新浪微博作为抓取的目标网站。结合新浪微博网页的特点,通过模拟用户行为,解析JavaSc ript,建立DOM树来获取网页动态信息,并按照一定的规则提取出网页中的URL和有效信息,并将有效信息存入数据库。本系统成功的实现了基于Ajax技术的网页信息的提取。 文献[8]引入网页页面分析技术和主题相关性分析技术,解决各大网站微博相继提供了抓取微博的API,这些API都有访问次数的限制,无法满足获取大量微博数据的要求,同时抓取的数据往往很杂乱的问题。展开基于主题的微博网页爬虫的研究与设计。本文的主要工作有研究分析网页页面分析技术,根据微博页面特点选择微博页面信息获取方法;重点描述基于“剪枝”的广度优先搜索策略的思考以及设计的详细过程,着重解决URL的去重、URL地址集合动态变化等问题;研究分析短文本主题抽取技术以及多关键匹配技术,确定微博主题相关性分析的设计方案;最后设计实现基于主题的微博网页爬虫的原型系统,实时抓取和存储微博数据。本文研究的核心问题是,根据微博数据的特点设计一种基于“剪枝”的广度优先搜索策略,并将其应用到微博爬虫中;同时使用微博页面分析技术使得爬虫不受微博平台API限制,从而让用户尽可能准确地抓取主题相关的微博数据。通过多次反复实验获取原型系统实验结果,将实验结果同基于API微博爬虫和基于网页微博爬虫的抓取效果进行对比分析得出结论:本文提出的爬行策略能够抓取主题相关的微博数据,虽然在效率上有所降低,但在抓取的微博数据具有较好的主题相关性。这实验结果证明本论文研究的实现方案是可行的。 文献[9]阐述了基于ajax的web应用程序的爬虫和用户界面状态改变的动态分析的过程和思路。文献[10]对于全球社交网络Twitter,设计并实现了,一个爬虫系统,从另一个角度阐明了Python在编写爬虫这个方面的强大和快速。仅仅用少量的代码就能实现爬虫系统,并且再强大的社交网站也可

网络推广毕业设计

目录 1.引言 (1) 2.企业网站推广的目的 (1) 3.网络推广对于企业的意义 (2) 4.网络推广比传统媒体的优势 (2) 4.1传播范围广 (2) 4.2交互性强 (2) 4.3针对性明确 (2) 4.4受众数量可准确统计 (3) 4.5灵活、成本低 (3) 4.6感官性强 (3) 5.网络推广的重要性 (3) 5.1网络推广为网站打造更高的知名度 (4) 5.2网络推广为网站信息以及服务牵线搭桥 (4) 5.3网络推广为网站树立品牌价值 (4) 6.如何进行网络推广 (5) 7.网络推广的前景 (9) 毕业总结 (9) 参考文献: (10)

1.引言 网络推广就是利用互联网进行宣传推广活动。被推广对象可以是企业、产品、政府以及个人等等。根据有关数据显示2009调查中国93%的企业没有尝试过网络推广,而在国外发达国家只有16%的企业。这一调查研究表示中国互联网还处于萌芽阶段。 广义上讲,企业从开始申请域名、租用空间、建立网站开始就算是介入了网络推广活动,而通常我们所指的网络推广是指通过互联网手段进行的宣传推广等活动。 狭义地说,网络推广的载体是互联网,离开了互联网的推广就不能算是网络推广。而且利用互联网必须是进行推广,而不是做其他的事情。 另外一个容易模糊的概念是网站推广。网站推广为网络营销极其重要的一部分,因为网站是网络的主体。因此很多网络推广都包含着网站推广。当然网络推广也还进行非网站的推广,例如线下的产品、公司等等。这两个概念容易混淆是因为网络推广活动贯穿于网站的生命周期,从网站策划、建设、推广、反馈等网站存在的一系列环节中都涉及到了网络推广活动。 网络广告则是网络推广所采用的一种手段。除了网络广告以外,网络推广还可以利用搜索引擎、友情链接、网络新闻炒作等方法来进行推广。 随着互联网的迅速发展,网民将会越来越多,因此网络的影响力也将会越来越大。 如果不希望在互联网上做一个信息孤岛,就需要有效实现网络宣传。对企业而言,做好网络推广,可以带来经济效益;对个人而言,可以让更多人了解自己,认识更多的朋友。 2企业网站推广的目的 网站推广的目的在于让尽可能多的潜在用户了解并访问网站,通过网站获得有关产品和服务等信息,为最终形成购买决策提供支持。网站推广需要借助于一定的网络工具和资源,常用的网站推广工具和资源包括搜索引擎、分类目录、电子邮件、网站链接、在线黄页和分类广告、电子书、免费软件、网络广告媒体、传统推广渠道等。所有的网站推广方法实际上都是对某种网站推广手段和工具的合理利用,因此制定和实施有效的网站推广方法的基础是对各种网站推广工具和

中小型园区网的设计与实现-毕业论文-终稿

目录 第一章企业网建设综述 (4) 1.1 项目建设目标 (4) 1.2 项目建设原则 (4) 1.3 基本建设描述 (5) 第二章需求分析 (5) 2.1 企业背景 (5) 2.2 网络规划 (6) 2.3 计算机网络综合布线 (7) 2.4 网络拓扑结构 (7) 2.4.1网络拓扑结构示意图 (7) 2.4.2网络中心组建 (8) 2.4.3生产车间网络组建 (9) 2.4.4企业各部门IP分配表 (9) 第三章网络设备的配置和管理 (11) 3.1 划分子网 (12) 3.2 划分VLAN的方法 (13) 3.2.1什么是VLAN (13)

3.2.2 VLAN划分的几点好处 (14) 3.2.3设置VLAN的常用方法 (14) 3.3 端口配置及划分VLAN (15) 3.3.1汇聚层交换机FLOOR1_HJ连接及配置说明 (15) 3.3.2汇聚层交换机FLOOR2_HJ连接及配置说明 (17) 3.3.3汇聚层交换机FLOOR3_HJ连接及配置说明 (19) 3.3.4汇聚层交换机FLOOR4_HJ连接及配置说明 (21) 3.3.5汇聚层交换机FLOOR5_HJ连接及配置说明 (22) 3.3.6核心层交换机CORE连接及配置说明 (24) 3.5 配置静态路由 (25) 3.6 连接广域网 (27) 3.7 网络安全控制及管理 (30) 第四章企业网组建方案总结 (30) 参考文献 (32)

中小型园区网的设计与实现 前言 计算机网络特别是INTERNET的产生和发展在现代科技技术史上具有划时代的意义和影响,计算机网络的飞速发展日新月异,计算机网络彻底改变了人们的工作方式和生活方式,改变了企事业单位的运营和管理模式。 在现今的网络建设中,中小型园区网的建设是非常重要和普遍的,如:校园网和企业网。园区网经历了从早期简单的数据共享到现在园区网内部全方位、高速度、多种类应用的共享及服务的转变。下面就以某企业的实际情况,设计一个可以正常运行的园区网,并对建成的网络进行优化,采用多种手段对网络进行优化是网络组建成果的重要组成部分,缺少优化的网络就算硬件配置在高,还是不能把网络资源充分利用。安全和稳定的运行是企业网追求的终极目标。 第一章企业网建设综述 1.1 项目建设目标 建设分层的交换式以太网络,对建成企业网络进行优化,使其得到充分的利用。

计算机网络安全管理本科毕业设计(论文)

佛山科学技术学院成人高等教育 毕业设计(论文)题目:计算机网络安全管理 摘要 计算机网络安全问题,直接关系到一个国家的政治、军事、经济等领域的安全和稳定。目前黑客猖獗,平均每18秒钟世界上就有一次黑客事件发生。因此,提高对网络安全重要性的认识,增强防范意识,强化防范措施,是保证信息产业持续稳定发展的重要保证和前提条件。 文中首先论述了信息网络安全内涵发生的根本变化,阐述了我国发展民族信息安全体系的重要性及建立有中国特色的网络安全体系的必要性,以及网络的安全管理。进一步阐述了

网络拓扑结构的安全设计,包括对网络拓扑结构的分析和对网络安全的浅析。然后具体讲述了网络防火墙安全技术的分类及其主要技术特征,防火墙部署原则,并从防火墙部署的位置详细阐述了防火墙的选择标准。同时就信息交换加密技术的分类及RSA算法作了简要的分析,论述了其安全体系的构成。最后分析网络安全技术的研究现状和动向。 关键词:网络安全;防火墙;安全技术 Computer Network Security MinJi-eng Abstract Abstract:The computer network security problem, directly relates to domain the and so on a national politics, military, economy security and the stability. At present the hacker is rampant, in the average every 18seconds worlds has a time of hacker attack to occur. Therefore, enhances to

网络爬虫外文翻译

外文资料 ABSTRACT Crawling the web is deceptively simple: the basic algorithm is (a)Fetch a page (b) Parse it to extract all linked URLs (c) For all the URLs not seen before, repeat (a)–(c). However, the size of the web (estimated at over 4 billion pages) and its rate of change (estimated at 7% per week) move this plan from a trivial programming exercise to a serious algorithmic and system design challenge. Indeed, these two factors alone imply that for a reasonably fresh and complete crawl of the web, step (a) must be executed about a thousand times per second, and thus the membership test (c) must be done well over ten thousand times per second against a set too large to store in main memory. This requires a distributed architecture, which further complicates the membership test. A crucial way to speed up the test is to cache, that is, to store in main memory a (dynamic) subset of the “seen” URLs. The main goal of this paper is to carefully investigate several URL caching techniques for web crawling. We consider both practical algorithms: random replacement, static cache, LRU, and CLOCK, and theoretical limits: clairvoyant caching and infinite cache. We performed about 1,800 simulations using these algorithms with various cache sizes, using actual log data extracted from a massive 33 day web crawl that issued over one billion HTTP requests. Our main conclusion is that caching is very effective – in our setup, a cache of roughly 50,000 entries can achieve a hit rate of almost 80%. Interestingly, this cache size falls at a critical point: a substantially smaller cache is much less effective while a substantially larger cache brings little additional benefit. We conjecture that such critical points are inherent to our problem and venture an explanation for this phenomenon. 1. INTRODUCTION A recent Pew Foundation study [31] states that “Search eng ines have become an indispensable utility for Internet users” and estimates that as of mid-2002, slightly

毕业论文(某某公司的网络规划和设计方案)

目录 论文摘要 (2) 一、需求分析 (3) (一)**公司简介 (3) (二)网络要求 (4) (三)系统要求 (4) (四)设备要求 (4) 二、网络系统设计规划 (5) (一)网络设计总体目标 (5) (二)网络IP地址规划 (5) (三)网络技术方案设计 (6) (四)网络应用系统选择 (14) (五)网络安全系统设计 (14) 三、网络布线系统设计 (14) (一)布线系统总体结构设计 (14) (二)工作区子系统设计 (15) (三)水平子系统设计 (15) (四)干线子系统设计 (15) 四、测试 (15) 五、总结 (17) 六、参考文献 (19)

七、致谢 (20) 论文摘要 对现实的中的公司的网络构建与规划有了一定的了解。随着近年来企业信息化建设的深入,企业的运作越来越融入计算机网络,企业的沟通、应用、财务、会议等等都在企业网络上传输,构建一个大型企业网络已经成为企业信息化建设成功的关键基石。在这里对一个月实习的成果做一个总结。 整个项目主要讲述网络的构建,构建的内容主要讲述的以**公司为原型,按照公司的网络构建要求施行,采用基于树型的星型结构,其中涉及交换机的基本配置、三层交换的VLAN的划分、路由器的基本配置、单臂路由、路由协议RIP、VTP、DHCP等。 一个公司的网络作为一公司交流的平台与载体,需要具有一定的实用性和可靠性,结合**公司的需求构建这个网络,通过了解**公司的结构、特点,结合实际提出了这个基于树型的星型结构的网络结构方案。

关键词:网络交换RIP VTP 单臂路由DHCP VLAN **公司的网络规划和设计方案 (开封大学软件学院10级网络系统管理班) 一、需求分析 (一)**公司简介 我做的这个毕业设计项目是一个以网络构建为主的毕业设计,其中主要涉及到有网络的构建、交换级与路由器的配置等。 **公司现在需要构建一个网络,总公司与两个分公司处于不同的城市,公司分内网与外网,内网设有服务器,仅供内部使用。公司员工都可以上外网。总公司与两个分公司通过专线互联,达到相互通信的目的,总公司和两个分公司通过总部路由器R1配置NAT上网,第一、二分公司按照各自的规模进行网络规划。

计算机专业毕业设计题目大全

计算机毕业设计题目大全安卓/Android题目大全: 安卓001个人事务管理系统 安卓002手机订餐系统 安卓003无线点菜 安卓004酒店房间预定系统? 安卓005个人相册管理系统 安卓006计算器 安卓007英语学习 安卓008绘图软件 安卓009医疗健康查询系统 安卓010健身信息管理系统 安卓011课程表 安卓012音乐播放器 安卓013便民自行车管理 安卓014点餐系统SQL版 安卓015二手图书交易系统 安卓016公交查询线路 安卓017订餐管理系统 安卓018校园闲置物品交易平台 安卓019电子书阅读器 安卓020蔬菜水果销售系统 安卓021网上商店系统 安卓022消费导航系统 安卓023GPS移动定位及运行轨迹管理系统 安卓024基于安卓系统的数据传输wifi 安卓025基于蓝牙的手机好友发现系统 安卓026学英语智力游戏 安卓027电子书阅读器(两个版本) 安卓028短信管理 安卓029音乐播放器 安卓030旅游记忆系统

安卓031教师教学信息查询系统 安卓032个人信息管理系统 安卓033基于Android的公路客运售票管理系统安卓034基于Android的英文词典的设计与实现安卓035同学通讯录 安卓036安卓仓库管理系统(单机) 安卓037电子词典的设计与实现 安卓038二维码识别系统的研究与实现 安卓039任务管理器的设计与实现 安卓040手机防火墙 安卓041邮件收发Email 安卓042计算器 安卓043绘图软件设计与实现 安卓044俄罗斯方块系统 安卓045网上商店系统设计与开发 安卓046消费导航系统设计与实现 安卓047记事本 安卓048拼图游戏的设计与实现 安卓049南京旅游 安卓050公交查询线路 安卓051打飞机游戏 安卓052建筑连连看 安卓053扫雷程序 安卓054视频播放器 安卓055多功能日历 安卓056图书借阅系统 安卓057天气预报 安卓058人体健康监测软件 安卓059天气预报 安卓060实习登记系统 安卓061五子棋 安卓062餐厅点餐订餐系统 安卓063心理测试 安卓064手机理财软件 安卓065音频编辑器 安卓066相册图片浏览器 安卓067手机校园信息系统

企业网络规划与设计(H3C)

毕业设计(论文) 企业网络规划与设计 系别:计算机信息工程系 专业名称:计算机网络技术 学生姓名: 指导教师姓名: 完成日期 xxxx年xx月 xx 日

毕业设计论文摘要 随着Internet技术的日益普及,网络技术的飞速发展,企业信息化工作越来越受到重视,进入二十一世纪后,企业信息化不再满足于个人或单个部门的少量计算机应用,而逐步过渡到多部门、整个企业甚至跨企业跨地域的大量计算机的协同工作,因此我们需要把这些计算机用网络联系起来,这也就是我们所说的企业网。本文是对某IT企业的一个企业网络规划设计的解决方案,文章首先分析了企业网络的设计需求,根据需求提出了设计原则与设计目标,制定了总体的规划设计方案,然后再分层次具体地对该企业的局域网和广域网进行设计,在该方案中,我们采用了VLAN、三层交换、千兆交换等先进网络技术,基本满足了该企业的需求,并留有足够的扩充空间,以适应今后发展。 关键词企业网络规划设计 VLAN

目录 1 引言 (2) 2 概述 (4) 2.1企业概况分析 (5) 2.2企业网络设计需求分析 (5) 3网络总体规划 (6) 3.1企业网络设计目标 (6) 3.2企业网络设计原则 (6) 3.3网络设计相关协议说明 (7) 4网络具体规划与设计 (9) 4.1企业网络拓扑结构设计 (9) 4.2 应用到的五个技术 (10) 4.3设备选型 (16) 致谢 (19) 参考文献 (20)

1 引言 目前,对于国内的部分企业而言,计算机技术的应用很大程度上还只是停留在单机应用的水平上,应用软件也只是办公软件和简单的数据库应用。但是,随着计算机网络技术不断发展与普及、企业信息化的逐步深入和企业自身发展需求日益增大,在充分利用现有资源、不需要很大投资的基础上,构建适合自身情况、满足实际需求的网络系统是非常必要的,也是切实可行的 社会进入信息时代后,要求企业用信息技术来强化企业的管理、生产和经营,而企业要创造更多的经济效益就必须借助信息技术来提高企业的生产效率和管理水平,这不但适用于大型企业,对占相当比重的中小企业同样适用。网络技术的发展使得网络建设从基础架构到维护和管理都变得十分简单和智能,丰富的网络产品线和不断降低的价格,可以让中小企业根据自身的情况,按照实际的经济条件来构建自己的网络,用于网络建设的投资对于企业而言不再成为一个负担。各自为战的单机应用逐步暴露出现有资源利用率低、信息冗余大等问题,而解决这些问题的惟一途径就是建设一个满足应用需求的网络系统来实现资源的共享。一个成功的企业不仅要了解世界,还要让世界知道自己。实现这个目标的最佳途径就是要利用Internet。通过Internet,企业不仅可以获得大量的有价值的信息,同时也可以将企业的信息通过Internet发布到世界各地。 因此,企业进行计算机网络的建设,不仅是信息社会发展的要求,也是自身发展所必须的。 2 概述 企业网络指的是具有一定规模的网络系统,它可以是单座建筑物内的局域网,可以是覆盖一个园区的园区网,还可以是跨地区的广域网,其覆盖范围可以是几公里、几十公里、几百公里,甚至更广。狭义的企业网主要指大型的工业、商业、金融、交通企业等各类公司和企业的计算机网络;广义的企业网则包括各种科研、教育部门和政府部门专有的信息网络。 我国的企业网络建设经过了单机应用阶段,目前正处在Internet应用热潮中。但从目前情况看国内相当多的企业还处于网络初步应用阶段,其具有以下特点:1应用水平较低,分散且不一致。企业网络缺乏整体性的设计,没有统一的标准,在业务互相衔接的应用系统之间缺乏一致性;2应用者的整体水平比较低,缺乏对计算机和

计算机网络技术毕业论文63033751

计算机网络技术毕业论文63033751 天津电子信息职业技术学院(软件学院) 毕业论文 题目湖南曙光电子信息学院局域网的组建 姓名郭奕杰 专业班级网络S09-4班 指导教师许晓华 完成时间 2012年6月 天津电子信息职业技术学院(软件学院)制 2012.6 摘要: 随着网络建设的逐步普及,大学高校局域网络的建设是高校向高水平、研究性大学跨进的必然选择,高校校园网网络系统是一个非常庞大而复杂的系统,它不仅为高校的发展、综合信息管理和办公自动化等一系列应用提供基本操作平台,而且,能够使教育、教学、科研三位一体,提高教育教学质量。而校园网网络建设中主要应用了网络技术中的重要分支局域网技术来建设与管理的,因此本毕业设计课题将主要以校园局域网络建设过程可能用到的各种技术及实施方案为设计方向,为校园网的建设提供理论依据和实践指导。高校校园网的网络建设与网络技术发展几乎是同步进行的。高校不仅承担着教书育人的工作,更承担着部分国家级的科研任务,同时考虑未来几年网络平台的发展趋势, 为了充分满足高校骨干网对高速,智能,安全,认证计费等的需求,可以利用万兆以太网的校园网组网技术。构建校园网骨干网,实现各个分校区和本部之间的连接,以及实现端到端的以太网访问,提高了传输的效率,有效地保证了远程多媒体教学、数字图书馆等业务的开展。

关键词: 校园网;网络设备;服务器;网络管理;网络安全 目录 一、引 言 ..................................................................... .. (1) (一) 背景及意 义 ..................................................................... ........ 1 (二) 目前校园网络现 状 (2) (三) 校园网建设的原 则 (2) 二、校园网需求分 析 ..................................................................... . (3) (一) 学校建筑现状分 析 (3) (二) 学校子网需求划 分 (4) (三) 学校VLAN需求划 分 ............................................................ 5 三、校园网络设备配 置 ..................................................................... (8)

简析网络语言的文献综述

浅析网络语言的文献综述 摘要 语言是一种文化,一个民族要有文化前途,靠的是创新。从这个意义上说,新词语用过了些并不可怕,如果语言僵化,词汇贫乏,那才是真正的可悲。语汇系统如果只有基本词,永远稳稳当当,语言就没有生命力可言,因此,在规定一定的规范的同时,要允许歧疑的存在,但更要积极吸收那些脱离当时的规范而能促进语言的丰富和发展的成分。正确看待网络语言。 关键字 网络语言;因素;发展趋势; 一、关于“网络语言”涵义及现状的研究 1.网络语言的涵义研究 网络语言是一个有着多种理解的概念,既可以指称网络特有的言语表达方式,也可以指网络中使用的自然语言,还可以把网络中使用的所有符号全部包括在内。网络语言起初多指网络语言的研究现状(网络的计算机语言,又指网络上使用的有自己特点的自然语言。于根元,2001)。 较早开展网络语言研究的劲松、麒可(2000)认为,广义的网络语言是与网络时代、e时代出现的与网络和电子技术有关的“另类语言”;狭义的网络语言指自称网民、特称网虫的语言。 周洪波(2001)则认为,网络语言是指人们在网络交流中所使用的语言形式,大体上可分为三类:一是与网络有关的专业术语;二是与网络有关的特别用语;三是网民在聊天室和BBS上的常用词语。 于根元(2003)指出,“网络语言”本身也是一个网络用语。起初多指网络的计算机语言,也指网络上使用的有自己特点的自然语言。现在一般指后者。狭义的网络语言指论坛和聊天室的具有特点的用语。 何洪峰(2003)进一步指出,网络语言是指媒体所使用的语言,其基本词汇及语法结构形式还是全民使用的现代汉语,这是它的主体形式;二是指IT领域的专业用语,或是指与电子计算机联网或网络活动相关的名词术语;其三,狭义上是指网民所创造的一些特殊的信息符号。总的看来,研究者基本认为网络语言有广义、狭义两种含义,广义的网络语言主要指与网络有关的专业术语,狭义的网络语言主要指在聊天室和BBS上常用的词语和符号。 2. 网络语言的研究现状 如:国人大常委会委员原国家教委副主任柳斌表示,网络语言的混乱,是对汉语纯洁性的破坏,语言文字工作者应对此类现象加以引导和批评。国家网络工程委会副秘书史自文表示,老师要引导学生使用网络语言。比如说在写出作文的时候,可以针对彩简单的网络语言还是用含义更有韵味的唐诗更好做一个主题研讨会,和学生一起探讨。这样就可以在理解、尊重学生的基础上进行引导。经过这样的过程,学生对于用何种语言形式多了一个选择,又加深了对传统文化的理解。 如:北京教科院基教所研究员王晓春表示,在网络世界里用网络语言无可厚非。但在正式场合要引导学生不使用网络语言。在教学中老师要引导学生如何正

JAVA基于网络爬虫的搜索引擎设计与实现

本科毕业设计 题目:基于网络爬虫的搜索引擎设计与实现 系别: 专业:计算机科学与技术 班级: 学号: 姓名: 同组人: 指导教师:教师职称:协助指导教师:教师职称:

摘要 本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。 关键字:爬虫、搜索引擎

Abstract The paper,discussing from the application of the search engine,searches the importance and function of Web spider in the search engine.and puts forward its demand of function and design.On the base of analyzing Web Spider’s system strtucture and working elements.this paper also researches the method and strategy of multithreading scheduler,Web page crawling and HTML parsing.And then.a program of web page crawling based on Java is applied and analyzed. Keyword: spider, search engine

毕业论文的设计计算机科学与技术

计算机科学与技术 毕业论文的设计 课题名称:学生宿舍局域网建设 专业: 班级: 姓名: 学号: 起迄日期: 指导教师:

学生宿舍局域网建设 摘要: 当今时代是一个以信息技术(Information Technology, 简称IT )为代表的知识经济时代,各种先进的科学技术迅猛发展,给人们的生活带来了深远的影响,它极大的改善我们的生活方式。以计算机技术和网络通信技术为代表的信息科技 改变着我们的生活,从手机通信到3G技术,从互联网普及到电子商务的广泛应用,而其中的计算机网络技术的发展更为迅速,从有线网络普及入户,到无线网络遍及生活中的各种场所,人们的生活已经离不开计算机网络,并且随着因特网的普及与发展,给我们的学习与生活带来极大的方便。 随着人们对于信息资源共享以及信息交流的迫切需求,促使网络技术快速发展。在人类信息文明的发展过程中,计算机网络的作用越来越明显。随着计算机网络管理功能的强化,计算机硬件技术和软件技术都与网络技术融合到一起。人们越来越意识到网络的重要性,通过网络,人们拉近了彼此之间的距离。本来分散在各处的计算机被网络紧紧的联系在了一起。计算机局域网作为网络的一个常见类型,发挥了不可忽视的作用。在这个局域网中,我们可以在它们之间共享程序、文档等各种资源。随着网络应用的发展计算机病毒形式及传播途径日趋多样化,安全问题日益复杂化,网络安全建设已不再像单台计算安全防护那样简单。计算机网络安全需要建立多层次的、立体的防护体系,要具备完善的管理系统来设置和维护对安全的防护策略。学生宿舍局域网作为学校中最小的网络个体, 文章将从网络组建、网络设置及网络安全等方面进行分析。 关键词:局域网、Internet 、计算机网络、网络安全

搜索引擎爬虫外文翻译文献

搜索引擎爬虫外文翻译文献 (文档含中英文对照即英文原文和中文翻译) 译文: 探索搜索引擎爬虫 随着网络难以想象的急剧扩张,从Web中提取知识逐渐成为一种受欢迎的途径。这是由于网络的便利和丰富的信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网络爬虫之间的联系。 关键词:爬行,集中爬行,网络爬虫 1.导言 在网络上WWW是一种服务,驻留在链接到互联网的电脑上,并允许最终用户访问是用标准的接口软件的计算机中的存储数据。万维网是获取访问网络信息的宇

宙,是人类知识的体现。 搜索引擎是一个计算机程序,它能够从网上搜索并扫描特定的关键字,尤其是商业服务,返回的它们发现的资料清单,抓取搜索引擎数据库的信息主要通过接收想要发表自己作品的作家的清单或者通过“网络爬虫”、“蜘蛛”或“机器人”漫游互联网捕捉他们访问过的页面的相关链接和信息。 网络爬虫是一个能够自动获取万维网的信息程序。网页检索是一个重要的研究课题。爬虫是软件组件,它访问网络中的树结构,按照一定的策略,搜索并收集当地库中检索对象。 本文的其余部分组织如下:第二节中,我们解释了Web爬虫背景细节。在第3节中,我们讨论爬虫的类型,在第4节中我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的问题。 2.调查网络爬虫 网络爬虫几乎同网络本身一样古老。第一个网络爬虫,马修格雷浏览者,写于1993年春天,大约正好与首次发布的OCSA Mosaic网络同时发布。在最初的两次万维网会议上发表了许多关于网络爬虫的文章。然而,在当时,网络i现在要小到三到四个数量级,所以这些系统没有处理好当今网络中一次爬网固有的缩放问题。 显然,所有常用的搜索引擎使用的爬网程序必须扩展到网络的实质性部分。但是,由于搜索引擎是一项竞争性质的业务,这些抓取的设计并没有公开描述。有两个明显的例外:股沟履带式和网络档案履带式。不幸的是,说明这些文献中的爬虫程序是太简洁以至于能够进行重复。 原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。服务器进程读取一个URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I/O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些页面由一个索引进程进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下,因

(完整版)企业网络规划与设计毕业设计论文

摘要 1.综合布线系统是一套用于建筑物内或建筑群之间为计算机、通信设 施与监控系统预先设置的信息传输通道。本文就综合布线的发展历 程、经济性能的浅析、工程设计原理、综合布线中电磁干扰问题以 及我国的相关验收标准做出了简要的阐述,并以一个工程实例,给 出了一个综合布线系统工程设计的方案。 关键字:局域网设计规划拓扑结构网络设备清单局域网管理

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: - 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日

定向网络爬虫 开题报告

山东科技大学 本科毕业设计(论文)开题报告 题目网络爬虫 定向爬取?脚本之家?文本信息 学院名称信息科学与工程学院 专业班级计算机科学与技术2012级2班 学生姓名包志英 学号 201201050201 指导教师赵中英 填表时间:二0一六年三月二十八日

下,并不能很稳定的工作,内存消耗随着程序的运行而不断增大,直到达到jvm 分配的上限而崩溃。很多时候,你只能做个权衡,每个webclient使用若干次后就把它回收,然后重新启动一个,这非常影响性能。Rhino对于javascript的支持并不好,实际使用中,会发现各种Exception,很多时候会导致无法渲染出想要的结果,这个htmlunit的又一大缺陷。随着版本的更新,能够渐次解决一些问题,但是好的程序员,还是应该自己读源码来尝试解决问题。 Phantomjs相比于htmlunit,对于js的支持更接近真实的浏览器,但是并发性能差,通过java的exec调用系统命令来启动,更加降低了性能。 此外主流的浏览器都提供了相应的抓取支持,selenium可谓是一个集大成者,包含了上述的所有组件,以WebDriver的形式,适配各种爬虫组件,你可以用它操控浏览器自动抓取,当然,并发和性能的问题依然存在。 爬虫开发的主要问题是性能和反封锁。很多时候,采用高并发高频率抓取数据是可行的,前提是目标站点没有采用任何反爬措施(访问频率限制、防火墙、验证码……);更多时候,有价值的信息,一定伴随着严格的反爬措施,一旦ip 被封,什么组件都没戏了。你不得不维护一个代理IP池来解决这个问题,当然,这也带来了代理ip稳定性和速度的问题,这些问题都是无法回避的问题,我们需要针对具体的情况,采用对应的措施,以最大限度的完成爬虫爬取任务。 目前,爬虫的需求呈爆炸式增长的趋势,这是当前各种互联网创新和大数据时代的新常态。火车和八爪鱼等团队看到了这一点,并率先开发了相对完备的爬虫产品,很多用户都在使用,但是更多的用户希望直接把爬虫抓取任务外包出去,因为他们不懂技术,工具的使用需要逾越技术的鸿沟,大部分用户并没有这个逾越鸿沟的打算。我相信像猪八戒这样的技术外包平台会活的越来越好,我也相信各个技术门类会不断聚集,形成相对独立的社区,P2P的社区平台将提供爬虫开发者和爬虫需求者更加通畅的交流渠道。 目前,淘宝等平台上出现很多爬虫服务商,如 https://www.360docs.net/doc/b97012036.html,/item.htm?spm=a230r.1.14.4.10ZOWj&id=42659198536 &ns=1&abbucket=6#detail,这种定制开发的服务,增加了服务商的成本,服务往往是一次性的,满足了一个用户的需求,然而具有相似需求的用户,却很难有机会找到这个服务商,这就是为什么我们需要爬虫信息交流的平台。

相关文档
最新文档