课程设计(综合实验)报告格式
网络11级-【网络工程综合实验】-课程设计报告

课程设计报告设计名称:网络工程综合实验系(院):计算机科学学院专业班级:网络11102班姓名:刘XX学号:指导教师:邱林陈中举设计时间:2013.12.16 - 2010.12.27设计地点:4#网络工程实验室目录一、课程设计目的 (3)二、设计任务及要求 (3)三、需求分析 (5)一、课程设计目的网络工程综合实验是网络工程及计算机相关专业的重要实践环节之一,该内容可以培养学生理论联系实际的设计思想,训练综合运用所学的计算机网络基础理论知识,结合实际网络设备,解决在设计、安装、调试网络中所遇到的问题,从而使基础理论知识得到巩固和加深。
学生通过综合实验学习掌握网络设计中的一般设计过程和方法,熟悉并掌握运用二层交换机、三层交换机、路由器和防火墙的配置技术。
(大家根据自己理解的情况编写,这里的内容只是一个模板性的文字描述)另外通过实验,可以掌握组建计算机网络工程的基本技术,特别是网络规划、交换机路由器等网络设备的基本功能与选型以及网络应用服务器的基本配置,同时提高学生的应用能力和动手实践能力。
二、设计任务及要求用一组实验设备(4个路由器、二台交换机、二台三层交换机、一台防火墙)构建一个园区网,通过防火墙与校园网相联,实现到Internet的访问。
具体要求如下:(1)在一台两层交换机SW1上划分2个VLAN(Vlan 100和Vlan 200,用户数均为100)。
要求实现:两个Vlan均能通过路由器访问外网,但两个Vlan之间不能通信。
(2)在一台三层交换机SW3上划分2个VLAN(Vlan 300和Vlan 400,Vlan300用户数100,Vlan400用户数200),两个Vlan之间能够通信。
要求:两个Vlan均只能通过路由器访问校园网(10.X.X.X),而不能访问Internet。
(3)另外一台两层交换机SW2和一台三层交换机SW4之间使用冗余连接,在两台交换机上均划分两个Vlan(Vlan 500和Vlan 600,Vlan500用户数200,Vlan600用户数100),要求Vlan500可以访问内网所有VLAN,Vlan600既可以访问内网,又可以访问Internet。
电子密码锁实验报告

课程设计(综合实验)报告( 2011 -- 2012 年度第 1 学期)名称:电子技术综合实验题目:数字电子钟院系:电气与电子工程学院班级:电气0903学号:**********学生姓名:**指导教师:**设计周数: 2成绩:日期:2012 年 1 月8 日一、课程设计(综合实验)的目的与要求钟表是人们生活中的常用物品。
本题要求用电子器件设计制作一个数字电子钟。
具体要求是:1、设计一个能直接显示时、分可以进行校“时”、校“分”的数字电子钟。
小时可采用十二进制也可采用二十四进制。
2、(1)设计24小时整点报时控制电路,要求每整点发出一声音响报时。
(2)要求只在6--22点之间每整点报时一次,23--5点之间整点不报时。
3、设计任意几点几分均可响铃的闹钟控制电路。
响铃1分钟,可提前终止。
4、根据规定的作息时间表,设计自动响铃控制电路。
(选做)2.设计思路数字式电子钟的基本功能是能够实现时、分、秒的正确计时,计时单位为1秒。
因此,一个简单的数字式电子钟,首先必须有计时显示电路和秒脉冲产生电路。
(为了避免重复电路,秒计时在本课题中省略,所以计时单位为1分钟,秒脉冲变为分脉冲,仿真中可用软件中已有的时钟信号发生器来实现。
)其次,当刚接通电源或时钟走时出现误差时,需要进行时间校准,否则就不能正确表示当前时间。
因此,数字式电子钟应有校时控制电路。
另外,若要求数字钟能够自动整点报时或按要求时间闹铃,还应有整点报时和闹铃控制电路。
若还需要其它功能,相应的还要有一些控制电路。
综上所述,数字式电子钟应由计时显示电路和控制电路组成。
二.方案设计与论证1、计时电路时间标准:“分”信号后,就可以根据60分为1小时,24小时为一天的计数周期,分别组成一个个60进制,一个24进制的计数器。
将这些计数器适当连接,就可以够成秒,分时的计数器,实现计时功能。
本实验采用74ls160十进制加法计数器。
采用清零法和异步级联法构成60进制,24进制计数器。
课程设计实验报告10篇

课程设计实验报告10篇(经典版)编制人:__________________审核人:__________________审批人:__________________编制单位:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如工作报告、合同协议、心得体会、演讲致辞、规章制度、岗位职责、操作规程、计划书、祝福语、其他范文等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!Moreover, our store provides various types of classic sample texts, such as work reports, contract agreements, insights, speeches, rules and regulations, job responsibilities, operating procedures, plans, blessings, and other sample texts. If you want to learn about different sample formats and writing methods, please pay attention!课程设计实验报告10篇【第1篇】大学物理实验课程设计实验报告北方民族大学大学物理实验(设计性实验)实验报告指导老师:王建明姓名:张国生学号:XX0233学院:信息与计算科学学院班级:05信计2班重力加速度的测定一、实验任务精确测定银川地区的重力加速度二、实验要求测量结果的相对不确定度不超过5%三、物理模型的建立及比较初步确定有以下六种模型方案:方法一、用打点计时器测量所用仪器为:打点计时器、直尺、带钱夹的铁架台、纸带、夹子、重物、学生电源等.利用自由落体原理使重物做自由落体运动.选择理想纸带,找出起始点0,数出时间为t的p点,用米尺测出op的距离为h,其中t=0.02秒X两点间隔数.由公式h=gt2/2得g=2h/t2.将所测代入即可求得g.方法二、用滴水法测重力加速度调节水龙头阀门,使水滴按相等时间滴下,用秒表测出n个(n 取50—100)水滴所用时间t,则每两水滴相隔时间为t′=t/n,用米尺测出水滴下落距离h,由公式h=gt′2/2可得g=2hn2/t2.方法三、取半径为r的玻璃杯,内装适当的液体,固定在旋转台上.旋转台绕其对称轴以角速度ω匀速旋转,这时液体相对于玻璃杯的形状为旋转抛物面重力加速度的计算公式推导如下:取液面上任一液元a,它距转轴为X,质量为m,受重力mg、弹力n.由动力学知:ncosα-mg=0(1)nsinα=mω2X(2)两式相比得tgα=ω2X/g,又 tgα=dy/dX,∴dy=ω2XdX/g,∴y/X=ω2X/2g.∴ g=ω2X2/2y..将某点对于对称轴和垂直于对称轴最低点的直角坐标系的坐标X、y测出,将转台转速ω代入即可求得g.方法四、光电控制计时法调节水龙头阀门,使水滴按相等时间滴下,用秒表测出n个(n 取50—100)水滴所用时间t,则每两水滴相隔时间为t′=t/n,用米尺测出水滴下落距离h,由公式h=gt′2/2可得g=2hn2/t2.方法五、用圆锥摆测量所用仪器为:米尺、秒表、单摆.使单摆的摆锤在水平面内作匀速圆周运动,用直尺测量出h(见图(1)用秒表测出摆锥n转所用的时间t,则摆锥角速度ω=2πn/t 摆锥作匀速圆周运动的向心力f=mgtgθ,而tgθ=r/h所以mgtg θ=mω2r由以上几式得:g=4π2n2h/t2.将所测的n、t、h代入即可求得g值.方法六、单摆法测量重力加速度在摆角很小时,摆动周期为:则通过对以上六种方法的比较,本想尝试利用光电控制计时法来测量,但因为实验室器材不全,故该方法无法进行;对其他几种方法反复比较,用单摆法测量重力加速度原理、方法都比较简单且最熟悉,仪器在实验室也很齐全,故利用该方法来测最为顺利,从而可以得到更为精确的值。
课程设计格式模板

课程设计格式模板一、课程目标知识目标:1. 学生能够掌握课程内容中的核心概念,如XXX(此处填写具体概念),并能够准确描述其定义及特点。
2. 学生能够理解课程相关知识点之间的联系,如XXX(此处填写具体知识点)与XXX(此处填写另一知识点)之间的关系,形成知识网络。
3. 学生能够运用所学知识解决实际问题,如运用XXX(此处填写具体方法或理论)分析并解决XXX(此处填写实际问题)。
技能目标:1. 学生能够通过课堂讨论、小组合作等方式,提高沟通协作能力。
2. 学生能够运用批判性思维分析问题,提出自己的观点,并能够进行有效论证。
3. 学生能够运用所学方法或技能,如XXX(此处填写具体方法或技能),解决实际操作问题。
情感态度价值观目标:1. 学生能够对课程内容产生兴趣,形成主动学习的态度。
2. 学生能够认识到所学知识在实际生活中的应用价值,培养学以致用的意识。
3. 学生能够通过课程学习,培养良好的道德品质,如尊重他人、团队合作等。
分析课程性质、学生特点和教学要求:1. 本课程为XXX学科,注重理论与实践相结合,强调知识的应用性和实践性。
2. 学生所在年级为XXX,具备一定的自主学习能力和批判性思维能力。
3. 教学要求:关注学生个体差异,激发学生兴趣,提高课堂参与度;注重培养学生解决问题的能力和团队协作精神。
二、教学内容本课程依据课程目标,选择以下教学内容:1. 知识点讲解:- 章节一:XXX(如基本概念、原理等)- 内容:XXX(列举具体内容)- 章节二:XXX(如相关知识点、案例分析等)- 内容:XXX(列举具体内容)2. 技能训练:- 技能一:XXX(如数据分析、实验操作等)- 内容:XXX(列举具体训练内容)- 技能二:XXX(如沟通协作、解决问题的方法等)- 内容:XXX(列举具体训练内容)3. 情感态度价值观培养:- 主题一:XXX(如团队合作、道德品质等)- 内容:XXX(列举具体培养内容)- 主题二:XXX(如学以致用、社会责任感等)- 内容:XXX(列举具体培养内容)教学大纲安排如下:第一周:- 知识点讲解:章节一- 技能训练:技能一- 情感态度价值观培养:主题一第二周:- 知识点讲解:章节二- 技能训练:技能二- 情感态度价值观培养:主题二第三周:- 综合训练:结合前两周所学知识点和技能,进行实际操作和案例分析- 情感态度价值观培养:主题一和主题二的综合实践教学进度将根据学生实际情况进行调整,确保教学内容与课程目标紧密结合,提高教学效果。
综合性实验设计报告

综合性实验设计报告
1. 实验目的
本实验旨在考察学生在综合实践中的综合能力,包括问题分析和解决能力、实验设计和操作能力以及实验结果的分析和总结能力。
2. 实验背景
实验背景介绍。
3. 实验设计
3.1 实验材料和设备
本实验采用以下材料和设备:
- 材料1
- 材料2
- 设备1
- 设备2
3.2 实验步骤
本实验的实验步骤如下:
1. 步骤1
2. 步骤2
3. 步骤3
3.3 实验注意事项
在实验过程中,需要注意以下事项:
- 注意事项1
- 注意事项2
4. 实验结果和分析
根据上述实验设计,我们进行了实际实验,并得到了以下结果:
实验结果描述。
根据实验结果,我们进行了以下分析:
实验结果的分析。
5. 实验总结
通过本实验,我们学到了很多知识,获得了一些实践经验。
同时,我们还发现了一些问题和不足之处,需要进一步改进。
6. 参考文献
- [参考文献1]
- [参考文献2]。
软件课程设计实验报告(3篇)

软件课程设计实验报告(3篇)【导语】软件课程设计试验报告怎么写出亮点?整理了3篇优秀的《软件课程设计试验报告》通用版范文,有规范的开头结尾写法和标准的书写格式。
是您写出深受大家欢迎的综合报告抱负参考模板,盼望对您有所关心。
【第1篇】软件课程设计试验报告一、目的、要求通过该课程设计要使同学树立起剧烈的工程化意识,用工程化思想和方法开发软件。
切实体会出用软件工程的方法开发系统与一般程序设计方法的不同之处,同学在对所开发的系统进行软件方案、需求分析、设计的基础上,实现并测试实际开发的系统。
通过一系列规范化软件文档的编写和系统实现,使同学具备实际软件项目分析、设计、实现和测试的基本力量。
二、主要内容要求同学把握软件工程的基本概念、基本方法和基本原理,为将来从事软件的研发和管理奠定基础。
每个同学选择一个小型软件项目(内容参照《计算机综合实践指导》,宋雨等编著,清华高校出版社出版),根据软件工程的生命周期,完成软件方案、需求分析、软件设计、编码实现、软件测试及软件维护等软件工程工作,并按要求编写出相应的`文档。
详细的方法可以选用传统的软件工程方法或者面对对象的方法,开发环境和工具不限。
三、进度方案略四、设计成果要求1.至少提交4个文档,包括软件方案、软件需求规格说明书、软件设计说明书、软件测试方案,要求文档格式规范、规律性强(可参考《计算机综合实践指导》中给出的要求及格式)、图表规范;2.独自实现了系统的某些功能,基本达到了要求的性能,经过了测试,基本能运行。
五、考核方式(1)提交的文档规范,工作量大,文档规律性强、正确,按《计算机综合实践指导》标准考核(附《软件工程课程设计》试验报告评分表)占60%(2)系统验收、讲解、答辩占25% (3)考勤占15%软件课程设计试验报告【第2篇】应用软件课程设计报告计算机是一门技术性、工程性和应用性很强的学科,教育部高等学校计算机科学与技术教学指导委员会的进展战略讨论报告中也指出:计算机专业的人才应当被分为科学型、工程型、应用型三类,而绝大多数应当是工程型和应用型的。
基于PLC的风电机组自动运行控制模拟课程设计综合实验报告

课程设计(综合实验)报告(2014 - 2015年度第1学期)名称:风力发电机组监测与控制题目:基于PLC的风电机组自动运行控制模拟院系:可再生能源学院班级:风能1101班学号: 12学生姓名:李欣指导教师:邓英设计周数: 2 周成绩:日期: 2015 年 01 月 09 日目录一、主要内容 (3)1、设计要求 (3)2、设计说明 (3)3、设计输入、输出电路图 (3)4、PLC编程的梯形图 (3)5、演示效果图 (3)二、设计原理 (3)1、安全链 (3)2、PLC的基本原理 (4)三、设计内容和步骤 (5)1、实验内容 (5)2、实验步骤 (7)3、仪器箱及元器件示意图 (10)4、手动实验电路图 (10)5、效果演示图 (11)四、PLC梯形图 (11)1、启动条件 (11)2、继电器 (12)3、输入 (13)4、输出 (13)5、PLC梯形图 (13)6、模拟量部分的梯形图编程 (13)五、设计总结与心得 (16)一、主要内容1、设计要求使用PLC与仪器箱的电子器件完成风电机组自动运行模拟仿真实验2、设计说明即设计功能(自行填写自己的设计功能)须写清楚模拟仿真实验的操作步3、设计输入电路图、输出电路图(续附上设计状态)4、PLC编程的梯形图5、演示效果图二、设计原理1、安全链及电路原理风力发电机组的监测与控制系统是综合性控制系统。
它不仅要监视电网、风况和机组运行参数,在各种正常或故障情况下脱网停机,以确保运行的安全性和可靠性,还要根据风速与风向的变化,对机组进行优化控制,以保证机组稳定、高效地运行。
将6个安全链条件串联接入继电器的A13和A14两个端口中,通过安全链的通断能够控制与继电器A4、A12串联的急停灯熄灭、亮起。
串联接入到继电器的A13和A14两个端口中的6个安全链条件无故障时,电源灯要亮,PLC能控制输出;任一个安全链条件有故障时(开关断开),则电源灯不亮,PLC则不能控制输出。
课程设计实验报告的格式

课程设计实验报告的格式一、教学目标本课程的学习目标包括知识目标、技能目标和情感态度价值观目标。
知识目标要求学生掌握课程内容的基本概念、原理和方法,能够运用所学知识解决实际问题。
技能目标要求学生能够运用课程所学的知识和方法,进行实验设计、数据分析和结果解释。
情感态度价值观目标要求学生培养对科学的兴趣和好奇心,提高科学素养,培养良好的科学态度和科学精神。
通过分析课程性质、学生特点和教学要求,明确课程目标,将目标分解为具体的学习成果,以便后续的教学设计和评估。
例如,针对不同章节的内容,可以设定具体的学习成果,如掌握某个概念的定义、能够运用某种方法进行实验设计等。
二、教学内容根据课程目标,选择和教学内容,确保内容的科学性和系统性。
制定详细的教学大纲,明确教学内容的安排和进度,指出教材的章节和列举内容。
例如,可以将教学内容分为理论知识和实验技能两个部分,每个部分再细分若干个小节,每个小节都有具体的学习内容和要求。
教学内容的安排应符合学生的认知规律和学习特点,注重基础知识的学习和基本技能的培养,同时结合实验和实践环节,提高学生的实际操作能力。
三、教学方法选择合适的教学方法,如讲授法、讨论法、案例分析法、实验法等,以激发学生的学习兴趣和主动性。
根据不同的教学内容和学生的学习特点,采用不同的教学方法,以达到最佳的教学效果。
例如,对于理论知识的讲解,可以采用讲授法和讨论法,引导学生主动思考和提问;对于实验技能的培养,可以采用实验法和案例分析法,让学生亲自动手操作,提高实验技能和解决问题的能力。
四、教学资源选择和准备适当的教学资源,包括教材、参考书、多媒体资料、实验设备等。
教学资源应该能够支持教学内容和教学方法的实施,丰富学生的学习体验。
例如,可以选用权威的教材和参考书,提供丰富的多媒体资料,如视频、图片、动画等,以形象生动的方式展示教学内容;同时,要配备实验设备,让学生能够进行实验操作,增强实践能力。
五、教学评估本课程的教学评估方式包括平时表现、作业、考试等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
]课程设计报告( 2010 -- 2011 年度第一学期))名称:《软件设计与实践》课程设计题目:网络爬虫研究与应用院系:计算机系班级:学号:学生姓名:指导教师:软件设计与实践教学组}设计周数:两周成绩:日期: 2011 年 1 月 14 日《软件设计与实践》课程设计任务书一、目的与要求1.了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架;2.开发平台采用JDK eclipse集成开发环境。
二、主要内容1.了解网络爬虫的构架,熟悉网页抓取的整个流程。
2.学习宽度优先和深度优先算法,实现宽度crawler应用程序的编写、调试和运行。
3.学习主题爬行及内容分析技术。
4.实现网络爬虫的基本框架。
三、进度计划四、设计成果要求1.要求按时按量完成所规定的实验内容;2.界面设计要求友好、灵活、易操作、通用性强、具有实用性;3.基本掌握所采用的开发平台。
五、考核方式平时成绩+验收+实验报告。
学生姓名:于兴隆指导教师:王蓝婧2011 年 1 月 2 日一、课程设计的目的与要求1.目的:掌握crawler的工作原理及实现方法;了解爬虫架构;熟悉网页抓取的整个流程及操作步骤;掌握宽度优先,深度优先算法,并实现宽度crawler应用程序的编写、调试和运行;掌握主题爬行及内容分析技术;实现一个最基础的主题爬虫的过程;理解pageRank算法,并编程验证;二、设计正文网络爬虫研究与应用[摘要]:本文通过对网络爬虫研究的逐步展开,讨论了爬虫的相关概念与技术,并通过实验设计了简单的基于宽度优先的爬虫和主题式爬虫。
最后,讨论了PageRank算法。
[关键词]:网络爬虫爬虫应用 PageRank算法1.引言随着网络技术的迅速发展,万维网已经成为人们获取信息的重要渠道,如何高效地提取并利用这些信息成为一个巨大的挑战。
现阶段的搜索引擎,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。
但是,这些通用性搜索引擎也存在着一定的局限性,如:(1)统一的返回不能满足不同用户的检索需求。
(2)搜索引擎提高覆盖面的目标与膨胀的网络信息之间的矛盾日益加深。
(3)搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。
主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。
与通用爬虫不同,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
2.网络爬虫Internet上的网页关系建模如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个Internet上的网页建模成一个有向图。
理论上,通过遍历算法遍历该图,可以访问到Internet上的几乎所有的网页。
图 1. 网页关系的建模图搜索引擎的分类和整体结构分类 :搜索引擎虽然所采用的技术和实现的方法各有不同,但是总体来说可以分为两类,一种是基于目录的搜索引擎,另一种是基于全文检索的搜索引擎。
整体结构:目前,在国内外各主要商业搜索引擎在技术上主要使用了全文检索技术,下图为基于使用全文检索技术的搜索引擎的整体结构。
基于全文检索技术的搜索引擎主要由三部分组成,如图所示,信息采集器(网络爬虫),索引器、搜索接口。
图2 搜索引擎的整体结构网络爬虫:定义:网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。
基本原理:爬虫从一个或若干初始网页的URL 开始,通过分析该URL 的源文件,提取出新的网页链接,继而通过这些链接继续寻找新的链接,这样一直循环下去,直到抓取并分析完所有的网页为止。
当然这是理想状态下爬虫的执行过程,但是实际上要抓取Internet上所有的网页是不可能完成的。
从目前公布的数据来看,最好的搜索引擎也只不过抓取了整个Internet40%的网页。
这有两个原因,其一是网络爬虫设计时的抓取技术瓶颈造成的,无法遍历所有的网页,很多网页链接不能从其他网页中得到。
其二是存储技术和处理技术造成的,如果按照每个页面的平均的大小是20K,那么100 亿个页面的大小就是200000G,对于现在的存储技术来说是个挑战。
爬行策略:(1)广度优先:广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。
该算法的设计和实现相对简单,可以覆盖尽可能多的网页。
本课题采用广度优先策略。
对图1 中的节点进行访问:1-->2-->3-->4-->5-->6-->7-->8(2)深度优先:深度优先搜索策略是一种在开发Spider 的早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
当不再有其他超链可选择时,说明搜索已经结束。
对图1 中的节点进行访问:1-->2-->5-->6-->3-->7-->4-->8爬虫物理分布架构图3 爬虫物理分布架构爬虫部分阶段性地从互联网上抓取内容。
存储库存储爬虫下载下来的网页,是分布式的和可扩展的存储系统。
简易爬虫实现流程图 4. 爬虫流程图图简易爬虫爬取网页的流程单个网络爬虫的系统结构图图5 单个Spider的系统结构单个Spider的系统结构如上图所示.每个爬虫从一组种子URL开始,首先根据初始URL并按照机器人拒绝协议检测被访问主机是否允许访问该URL,通过检测后由HTTP/HTTPS下载模块下载该网页。
URL抽取器从下载的网页中抽取出新的URL,然后由URL过滤器逐个检测URL是否符合过滤器限制。
最后,用哈希函数计算各个URL的哈希值,如果属于本Spider 的爬行范围,则将该URL加入到本地URL数据库中;否则把该URL插入到URL发送队列中,由URL分发器定时转发给对应的Spider.3.主题爬虫定义主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。
抓取的网页与主题的相关性决定策略(1)行业搜索:比如机票搜索,抓取的是各大航空公司网站和代理人网站上面的数据。
这种方法适合小型行业搜索引擎。
(2)根据得到的网页的内容,判断网页内容和主题是否相关。
如果一个网页是和主题相关的,在网页中的标题、正文、超链接中,通常会有一些和主题相关的关键词。
在面向主题的搜索中,这种词叫做导向词,给每个导向词一个权重,就能够优先访问和主题相关的URL。
(3)针对网页连接进行评分。
(后面着重讨论PageRank算法)主题爬虫URL的处理流程图6抓取算法在介绍算法的开始需要先做两个定义定义1.父网页:网页A中有url链接到网页B,那么网页A就是网页B的父网页。
定义2.子网页:网页A中有url链接到网页B,那么网页B就是网页A的子网页。
爬虫抓取过程中使用了五个队列,分别是等待队列,处理队列,错误队列,完成队列,抛弃队列。
等待队列:爬虫解析到的url先保存到等待队列中,在等待队列中的u rI按照特定的排序法则进行排序,等候爬虫的抓取。
处理队列:url正在被抓取时放进抓取队列,目的是防止url被同时多次抓取。
错误队列:在抓取过程中出错的urI保存到错误队列。
完成队列:一个url被爬虫完全抓取之后就将url放进完成队列。
相关度计算在基于HTML协议的网页中,每一个url的链接文本最能概括表达url所指向的网页内容,在网页中有一个链接模型为<a href= “urltext”>text</a>,基于网页结构的明确性,text 往往是一个非常精确的概括性描述文字。
在这种结构基础上,我们采用向量空间模型来计算链接文本text的相似度,用它标记urltext的相关度。
模型公式如公式(1)。
其中Wij表示特征向量在链接文本中的权值,Wir表示特征向量i在主题特征库中的权值,R代表主题特征向量,SIM(Pj,R)表示链接文本Pi的相关度。
爬虫的抓取算法如下:(1)将初始页面url集合放进等待队列,分配每个url一个相关性消息值m,并给每个url同样的相关度值。
这个相对于后面将要计算到的值较大。
初始页面会人为根据主题进行筛选,所以与主题的紧密度高。
人为的给定一个高的相关度值优点有两个,首先,减少爬虫的计算量,这些种子站点不需要通过相关度的计算。
其次,可以在等待队列中置于较靠前的位置,在以后的更新过程中,可以优先更新。
(2) 对等待队列中的url,先根据m值大小排序,再根据相关度的大小排序。
(3) 根据第二步排好序的等待队列,将排序最前的url拿出放进处理队列,爬虫开始抓取。
(4) 下载网页到本地磁盘,并建立索引,然后将url地址放进完成队列。
(5)利用解析器解析出网页中的链接与对应的链接文本,利用公式1计算链接地址的相关度值。
(6) 将第5步得到的相关度值与相关度阀值f进行比较,其结果分为三种情况:第一种情况是相关度值大于相关度阀值,且父网页的相关性消息m 值等于初始值,则直接传递父网页的m 值给子网页。
第二种情况是相关度值大于相关度阀值,且父网页的相关性消息m 值小于初始值,则恢复m 值为初始值,传递m 值给子网页。
第三种情况是相关度值小于相关度阀值,则将父网页的m 值乘以遗传基因比例b 传递子网页的(b 值大于0小于1),子网页的相关性消息值是m*b 。
(7) 将url ,m 值,相关度值放进等待队列,重复第二步。
(8) 算法结束。
3. PageRank 算法PageRank 算法是由Google 公司两个创始人Sergey 及LarryPage 提出的一种搜索引擎排序算法。
先给每个网页赋予一个PageRank 值,那么对于用户查询串分词后得到关键字的集合,Q = <key1,key2,…,keyn>,通过搜索引擎中的索引器,得到一个匹配的网页集合PageSet=<pi,pk,pm,pn,…>,然后对<pi,pk,pm,pn,…>中的网页按PageRank 值高低进行排序,把排序高的前面K 个网页返回给用户。
PageRank(p)计算公式PageRank 是基于这样一个假设:从许多优质的网页上链接过来的网页,必定也是优质网页。