面向中等职业教育的垂直搜索引擎的分析与研究

合集下载

搜索引擎

搜索引擎

搜索引擎分析在当今的社会,上网成为了我们大部分人每天必不可少的一部分,网络具有太多的诱惑和开发的潜力,查询资料,消遣娱乐等等,但是这些大部分都离不开搜索引擎技术的应用。

今天在我的这篇论文里将会对搜索引擎进行一个分析和相关知识的概括。

就如大家所知道的互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。

网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。

用户查询时,通过一层层的点击来查找自己想找的网站。

也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。

1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。

当时,万维网还没有出现,人们通过FTP来共享交流资源。

Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。

用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。

虽然Archie搜集的信息资源不是网页,但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。

所以,Archie被公认为现代搜索引擎的鼻祖。

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

百度和谷歌等是搜索引擎的代表。

那么搜索引擎将来的发展方向和发展的前景又是如何?我们就先从以下的各类主流搜索引擎先进行一个大致的分析。

1.全文索引全文搜索引擎是当今主要网络搜素时所应用的搜索引擎,在网络上也是大家所熟知的,比如google和百度都是我们平时经常使用的。

它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google 和百度就属于这种类型;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

搜索引擎综合分析_方志坚

搜索引擎综合分析_方志坚
最 早 搜 索 引 擎 应 用 于 门 户 网 站 ,获 得 了 极 大 的 成 功 ,如 今,它已广泛地应用于各行各业,以它为核心引发了所谓的搜 索 经 济 ,成 为 大 家 关 注 的 焦 点 。
1 搜索引擎的分类
1.1 基 于 Web 的 搜 索 引 擎 1.1.1 第 1 代 搜 索 引 擎
0引言
搜索引擎已经成为大家在工作、学习、娱乐中不可或缺的 神 兵 利 器 。 通 过 使 用 搜 索 引 擎 ,使 得 我 们 检 索 信 息 的 能 力 获 得 了 极 大 的 提 高 ,成 本 有 效 地 降 低 。可 以 说 ,搜 索 引 擎 是 现 代 的计算机技术,因特网技术与传统的索引理论相结合的成 功 典范 。 [1]
(1) 分 类 全 文 搜 索 引 擎 :分 类 全 文 搜 索 引 擎 是 针 对 全 文 搜 索 引 擎 和 目 录 式 分 类 搜 索 引 擎 的 特 点 而 设 计 的 ,通 常 是 在 分 类 的 基 础 上 再 进 一 步 进 行 全 文 检 索 。用 户 通 过 在 搜 索 程 序 中 键 入 所 需 信 息 的 关 键 词 ,得 到 检 索 结 果 。 现 在 大 多 数 的 搜 索 引擎都属于分类全文搜索引擎。
搜 索 引 擎 是 根 据 用 户 的 查 询 请 求 ,按 照 一 定 算 法 从 索 引 数 据 中 查 找 信 息 返 回 给 用 户 。为 了 保 证 用 户 查 找 信 息 的 精 度 和 新 鲜 度 ,搜 索 引 擎 需 要 建 立 并 维 护 一 个 庞 大 的 索 引 数 据 库 。 一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数 据库等部分组成。具体如图 1 所示。
Recently research and future development of search engine

基于Lucene的数码产品垂直搜索引擎的设计与实现的开题报告

基于Lucene的数码产品垂直搜索引擎的设计与实现的开题报告

基于Lucene的数码产品垂直搜索引擎的设计与实现的开题报告一、选题背景随着数码产品的不断发展和普及,人们购买和使用数码产品的需求也越来越高。

但是,随着数码产品种类的增加和信息量的增长,现有的搜索引擎已经不能满足人们的需求。

因此,基于Lucene建立一个数码产品垂直搜索引擎是非常必要和有意义的。

二、选题意义数码产品垂直搜索引擎的建立对于用户是非常有帮助的。

通过使用该搜索引擎,用户可以快速找到自己需要的商品,缩短查找时间,提高搜索效率。

同时,搜索引擎可以根据用户的搜索行为和历史记录,向用户推荐符合其需求的产品,增加用户的消费体验。

对于企业来说,垂直搜索引擎可以提高企业的竞争力。

通过收集用户的搜索数据和行为,企业可以了解用户的需求和偏好,根据用户的反馈来优化和完善产品,提高产品的质量,增加企业的竞争力。

三、选题内容本文将基于Lucene建立一个数码产品垂直搜索引擎。

具体内容包括:1. 研究Lucene搜索引擎的原理和应用,了解其优点和不足。

2. 构建搜索引擎的数据采集系统,收集数码产品信息,构建数据库。

3. 使用Lucene建立搜索引擎的索引系统,对数据库中的数据进行索引。

4. 针对用户的搜索需求,设计和实现搜索算法和推荐系统。

5. 测试和优化搜索引擎。

四、选题方法本文将采用以下方法:1. 研究相关文献,了解Lucene搜索引擎的原理和优点。

2. 建立数码产品数据采集系统,采集数码产品的相关信息,构建数据库。

3. 使用Lucene建立索引系统,对数据库中的数据进行索引。

4. 设计和实现搜索算法和推荐系统,根据用户的搜索行为和历史记录向用户推荐符合其需求的产品。

5. 测试和优化搜索引擎,提高搜索引擎的性能和用户体验。

五、预期效果本文的预期效果如下:1. 基于Lucene建立数码产品垂直搜索引擎,实现对数码产品的快速检索和推荐。

2. 提高用户的购物体验,增加用户的满意度和忠诚度。

3. 增加企业的竞争力,提高产品质量和市场占有率。

文献综述与职业教育研究方法论试卷

文献综述与职业教育研究方法论试卷

文献综述与职业教育研究方法论试卷(答案见尾页)一、选择题1. 在文献综述中,以下哪项不是选择研究主题的标准?A. 研究主题的时效性B. 与个人兴趣和研究方向的契合度C. 研究的难易程度D. 已有研究的数量和质量2. 文献综述的主要目的是什么?A. 为自己的研究提供理论支持B. 批判性地分析现有研究的不足C. 介绍特定领域的研究现状和发展趋势D. 以上都是3. 在进行职业教育研究时,以下哪项不属于常用的研究方法?A. 案例研究B. 实验研究C. 调查研究D. 文献综述4. 文献综述中的“文献”通常指的是哪些类型的资料?A. 书籍和期刊文章B. 政府报告C. 网络资源D. 所有以上选项5. 在进行文献综述时,如何确定研究的起始点?A. 从最古老的相关文献开始B. 从最新的相关文献开始C. 从与研究主题最相关的文献开始D. 从作者认为最重要的文献开始6. 文献综述中的“综述”一词意味着:A. 对已有文献的简单总结B. 对已有文献的深入分析和评价C. 对已有文献的复制和粘贴D. 对已有文献的新颖解读7. 在职业教育研究中,实验研究法通常用于哪种情况?A. 探讨理论知识的应用B. 描述教育现象的变化C. 测试新的教育方法和策略D. 分析教育政策的影响8. 调查研究法在职业教育研究中通常包括哪些步骤?A. 设计问卷、收集数据、分析数据、撰写报告B. 设计问卷、实施调查、数据整理、数据分析C. 设计问卷、收集数据、数据整理、撰写报告D. 设计问卷、收集数据、数据分析、实施调查9. 在进行文献综述时,如何避免抄袭?A. 直接复制他人的研究成果B. 对他人的研究进行适当的引用和注明出处C. 只引用与自己观点完全一致的研究D. 不进行任何引用,完全自己创造内容10. 文献综述与职业教育研究方法论的关系是什么?A. 文献综述是职业教育研究方法论的一部分B. 文献综述与职业教育研究方法论是两个独立的概念C. 文献综述可以替代职业教育研究方法论D. 文献综述是职业教育研究方法论的基础11. 在进行文献综述时,以下哪项不是检索文献的主要方法?A. 利用图书馆目录B. 访问学术数据库C. 通过社交媒体获取信息D. 咨询同行专家12. 在进行文献综述时,如何确保所引用文献的质量?A. 只引用权威作者的著作B. 引用尽可能多的文献以增加说服力C. 查阅文献的引用次数和被引用次数D. 根据文献的发表时间顺序引用13. 职业教育研究方法论中,定量研究方法通常包括哪项技术?A. 访谈B. 案例分析C. 实验设计D. 文献分析14. 在职业教育研究中,质性研究方法相较于定量研究方法的优势是什么?A. 可以提供更为客观的数据B. 更适合探索复杂和模糊的问题C. 结果更易于进行统计分析D. 可以使用大规模样本15. 下列哪项不是职业教育研究中的常见研究问题类型?A. 描述性问题B. 解释性问题C. 预测性问题D. 规范性问题16. 在进行职业教育研究时,如何选择合适的研究对象?A. 根据研究目的和问题选择具有代表性的样本B. 随意选择研究对象,只要数量足够即可C. 只选择某个特定群体进行研究D. 选择研究对象时无需考虑其背景多样性17. 文献综述中,如何避免引用与自己观点一致的文献?A. 只关注与自己观点相反的文献B. 广泛阅读,包括与自己观点不同的文献C. 只引用权威人士的观点D. 避免阅读与自己研究领域相关的文献18. 在职业教育研究中,如何确保研究结果的有效性和可靠性?A. 遵循严格的研究方法和程序B. 依赖于个人的直觉和经验C. 减少样本量以节省时间和资源D. 仅根据研究者的主观判断得出结论19. 文献综述与职业教育研究方法论的结合,有助于教师在教学实践中如何改进?A. 直接应用研究结果改进教学策略B. 仅作为理论参考,不直接应用于实践C. 改进研究方法,但不对教学实践产生影响D. 忽略文献综述,专注于个人教学经验20. 在进行文献综述时,如何评估文献的质量?A.只看发表文章的期刊级别B. 考虑作者的权威性C. 分析研究方法的科学性D. 参考文章的被引用次数21. 职业教育研究中常用的研究方法包括哪些?A. 调查研究法B. 实验研究法C. 案例研究法D. 以上都是22. 在进行实验研究法时,以下哪项不是控制变量的主要目的?A. 提高研究的准确性B. 排除其他因素对结果的影响C. 简化研究过程D. 节省研究资源23. 案例研究法在职业教育研究中的优势是什么?A. 能够深入分析个别现象B. 结果具有普遍性C. 可以重复进行D. 数据收集方便24. 在进行调查研究时,如何确保问卷的有效性和可靠性?A. 问卷设计简洁明了B. 采用匿名方式收集数据C. 对调查员进行专业培训D. 以上都是25. 文献综述与职业教育研究方法论之间的关系是什么?A. 文献综述是职业教育研究方法论的一部分B. 两者没有直接关系C. 文献综述可以替代职业教育研究方法论D. 文献综述是职业教育研究方法论的基础26. 在进行职业教育研究时,如何确定研究的主题和问题?A. 根据个人兴趣随意选择B. 遵循研究领域的热点趋势C. 结合职业教育实践的需求D. 参考其他研究者的研究成果27. 文献综述过程中,如何避免抄袭?A. 直接复制他人的研究成果B. 对他人观点进行简单改写C. 引用他人观点时必须标明出处D. 不进行引用直接使用28. 在进行文献综述时,以下哪项不是选择文献的标准?A. 与研究主题直接相关B. 发表时间最新的文献C. 权威性和引用次数D. 研究者的个人偏好29. 在职业教育研究中,行动研究法通常被用于哪种情况?A. 理论构建B. 政策制定C. 教师专业发展D. 课程设计30. 下列哪项不是实验研究法的特点?A. 可以控制变量B. 结果具有普遍性C. 属于定性研究方法D. 可以重复验证二、问答题1. 什么是文献综述?它在职业教育研究中的作用是什么?2. 如何进行有效的文献检索?请列举几种常用的文献检索工具。

面向招聘信息主题搜索引擎的研究与设计

面向招聘信息主题搜索引擎的研究与设计

模块 中首先 提供关 键词表 和 网站集 合 ,
由主题爬 虫 根 据初 始 种 子 站点 获 取 信 息, 然后再交 由主题过滤模块进行过滤 。
( ) 始 种 子 URL的 选 取 与 设 定 二 初
p b i tt v i r v l o d a l u l sai o d T a eW r T b e c c

ll 哇 穗 蠡 }

1 _ _
下码 :
p bi s t od m i (tn [ rs u l t i vi an S g 】ag) c ac i r
t o r eEx e to hr wsPas r c pi n
主题爬虫 的 目标 是完成主题 信息的 收集 ,其设计是 在通用搜索 引擎 上的爬
虫进行功能扩充 的。主题信息抓 取流程 设 计如图 4所示 。
析 We b页面的纯 Jv aa开源类库 , 主要用
于分析 H ML格式 的 We T b页面 , 完成 内
=u ) nl 1

S r g r = ” t :ww b i u ti u l n h t / w. ad . p/ c r/? o s n l 0 i &r = 0 e g 2 1 &c= &wd ” m= &s = n 1 &i= b 3 2 tO -
{ t{ r y
图 3 主 题 爬 虫 的 工 作 流 程
Tae rT be ( 关 键 rvl d al ” Wo 词 表 ”; )
} a h E cpi ) ct ( xet ne c o {
主题爬虫 的工作流程是 ,首先从初
始种 子站点 中开 始进 行信息 的采 集 , 对
二、系统功能分析 ( )系统 功能需求分析 一

《搜索引擎》课件

《搜索引擎》课件

3
垂直搜索的出现
解释垂直搜索引擎的概念和现实意义,为特定领域的用户提供精确的搜索结果。
总结
通过本课程的学习,你应当对搜索引擎有了更深入的了解,包括其工作原理、使用方法、优化技巧以及 发展趋势。 参考资料:
• 《搜索引擎优化:原理与实践》 - 许平 • 《搜索引擎的原理与设计》 - 林志峰 • 《搜索引擎技术用
图像搜索
解释如何利用计算机视觉技术 进行图像搜索,以图片作为搜 索关键词。
视频搜索
智能推荐
介绍如何使用搜索引擎进行视 频搜索,提供更多多媒体内容。
讨论搜索引擎如何利用计算机 视觉技术为用户提供个性化的 搜索结果。
搜索引擎的优化
搜索引擎优化的目的
解释搜索引擎优化的意义, 为什么我们要优化网页。
搜索引擎排名的重要 因素
介绍影响网页在搜索结果 中排名的主要因素,如内 容质量和链接权重。
搜索引擎优化的技巧
分享一些优化网页以提高 排名的技巧和策略。
搜索引擎的发展趋势
1
人工智能在搜索引擎中的应用
讨论人工智能在搜索引擎中的前景和应用,如自然语言处理和机器学习。
2
移动搜索的发展
介绍移动搜索的发展趋势和未来的挑战,以及为移动设备优化的技巧。
《搜索引擎》PPT课件
什么是搜索引擎?
搜索引擎是一种通过关键词搜索互联网上的信息的工具。它包括了搜索引擎 的定义和发展历程,从最早的阿尔泰山到现在的、谷歌等。如何使用搜索引擎?
搜索引擎的分类
介绍主要的搜索引擎分类, 包括通用搜索引擎和垂直 搜索引擎。
搜索引擎的基本使用 方法
学习如何有效地使用搜索 引擎进行信息搜索和筛选。
搜索引擎的高级使用 方法
介绍如何利用搜索引擎的 高级搜索功能来精确定位 所需的信息。

文献检索课的发展历程与发展对策

文献检索课的发展历程与发展对策

文献检索课的发展历程与发展对策一、概述文献检索课,作为一门培养学生信息素养、提升学生学术研究能力的重要课程,随着信息技术的飞速发展,其发展历程经历了从简单的手工检索到复杂的电子检索,再到现如今的智能化、网络化检索的演变。

在这一过程中,文献检索课不仅在教育体系中逐渐占据了重要地位,更在推动学术研究和科技进步方面发挥了不可替代的作用。

在发展历程上,早期的文献检索主要依赖于图书馆的纸质资源,学生通过翻阅目录、卡片索引等方式进行手工检索。

随着计算机技术的引入,文献检索逐渐实现了电子化,学生可以通过特定的软件或数据库,在电子资源中进行快速、准确的检索。

近年来,随着大数据、人工智能等技术的兴起,文献检索课开始步入智能化、网络化的新阶段,如智能推荐、语义检索等先进技术的应用,使得文献检索更加高效、便捷。

面对快速发展的信息技术和日益丰富的文献资源,文献检索课也面临着诸多挑战。

如何适应信息化的发展趋势,进一步提升课程质量,培养学生的信息素养和学术研究能力,成为当前文献检索课发展亟待解决的问题。

有必要对文献检索课的发展历程进行回顾和总结,分析当前课程存在的问题和不足,并在此基础上提出相应的发展对策,以期为文献检索课的未来发展提供有益的参考和借鉴。

1. 文献检索课的重要性随着信息技术的飞速发展和知识经济的不断崛起,文献检索课的重要性日益凸显。

这门课程不仅关乎学术研究的深度与广度,更对个人职业发展和社会创新具有深远的影响。

文献检索课是学术研究的基础。

在任何一个学科领域,了解前人的研究成果、掌握学术动态、避免重复劳动,都是进行高质量研究的前提。

文献检索课能够帮助学生和研究者快速、准确地找到所需资料,为科研工作提供有力的信息支持。

文献检索课是提升个人综合素质的关键环节。

在信息爆炸的时代,如何有效地筛选、整理、分析和利用信息,已经成为现代人才必备的基本技能。

文献检索课能够培养学生的信息素养,提升他们在信息海洋中获取有价值知识的能力,为未来的职业发展奠定坚实的基础。

我国职业院校教师队伍研究的热点与趋势分析

我国职业院校教师队伍研究的热点与趋势分析

74着力发展和推进职业院校“双师型”教师队伍建设是实现职业教育内涵式发展和走向教育现代化的必然要求。

当前,全面加强“双师型”教师队伍建设已经成为职业院校发展的关键性问题,国家大力发展职业教育,激发了学者对职业院校教师队伍的关注和多角度研究,涌现了大量有价值的研究成果,梳理和分析这些研究成果,有利于了解我国职业院校教师队伍研究热点与趋势。

本文基于CiteSpace对相应文献进行计量分析,以期为职业院校教师队伍建设提供参考。

一、研究方法及数据来源(一)研究方法本研究主要针对我国职业院校教师队伍相关文献进行关键词词频、关键词聚类、关键词时间线等进行分析,以便更好地了解我国职业院校教师队伍研究的热点与发展趋势。

利用软件的数据格式转换,使期刊论文转换为系统可识别的数据格式;将时间的间隔跨度设置为2002-2020年,间隔为1;绘制作者合作网络图谱、关键词共现图谱、关键词聚类图谱、关键词时间线图谱。

(二)数据来源本文数据来源于中国知网(CNKI)期刊数据库,选择期刊中的专业检索以“中职”或“高职”或“职业院校”和“教师队伍”为主题,文献发表时间截至2020年11月30日,“期刊来源”为全国中文核心期刊和CSSCI来源期刊,共得到相关文献1485篇。

通过阅读检索文献的标题和摘要,剔除与关键词不符、会议文集、事件、征稿等无关信息的论文,确定有效论文为617篇。

CiteSpace中Modularity(简称Q值)和Mean Silhouette(简称S值)是源于图谱结构和聚类清晰度的两个划分指标,被普遍认为是评判图谱绘制作者简介王再宙(1974-),男,河北师范大学职业技术学院学科主任,教授,工学博士,硕士生导师(石家庄,050024);齐曹(1995- ),女,河北师范大学职业技术学院硕士研究生通讯作者张春香(1974- ),女,河北师范大学职业技术学院,副教授,硕士生导师(石家庄,050024)我国职业院校教师队伍研究的热点与趋势分析王再宙 齐 曹 张春香摘 要 职业院校教师队伍研究是职业教育可持续发展的重要部分,通过CiteSpace软件分析从CNKI中筛选的有关职业院校教师队伍研究的1485篇文献,发现2002-2020年间我国职业院校教师队伍的研究呈现“增长-回落-高峰-回落-回温”的趋势。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面向中等职业教育的垂直搜索引擎的分析与研究作者:卞华文来源:《科技资讯》2015年第36期DOI:10.16661/ki.1672-3791.2015.36.056摘要:网络技术的飞速发展,使人们对信息的接收方式发生了翻天覆地的变化。

搜索引擎已经成为人们查询信息的主要方式。

同时对于查询的速度,准确率提出了更高的要求。

由此各种针对某一行业的垂直搜索引擎为此应运而生。

目前面向教育的垂直搜索引擎已经有了很大的发展。

但是针对中等职业教育的垂直搜索引擎还很少。

该文通过对垂直搜索引擎的核心技术分析、研究,设计了面向中等职业教育的垂直搜索引擎的系统结构,并对其中涉及的关键技术:Web搜集器、信息抽取技术、中文分词和检索技术进行了深入研究,期望对推进该领域的技术发展作出一定的贡献。

关键词:中等职业教育垂直搜索引擎网络爬虫中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2015)12(c)-0056-021 绪论1.1 概述目前我们的社会已经进入高度信息化时代,人们对获取信息的方式发生了根本性的变化,我们学习的途径不再局限于课堂和书籍,而是越来越多地通过互联网来找到我们所需要的信息。

那么为了能够更快更好地获取互联网上的资源,那么搜索引擎技术就应运而生了,搜索引擎(雅虎、百度、Google)能够使人们快速地搜索网络上我们需要的相关信息。

但是,获得的信息也是非常庞大和分散的,而且其中包含了许多与我们查询主题无关的内容,需要浪费用户大量的时间和精力来加以区别。

垂直搜索引擎技术的产生就是为了解决通用搜索引擎专业性不够、集中度不高的问题,大大地提高了搜索的速度和精确度。

而随着我国执行大力发展中等职业教育的政策,教育资源不足严重地制约着中等职业教育质量的提高[1]。

目前面向普通教育资源的垂直搜索引擎发展的也很迅速,但是对于专门面向中等职业教育的垂直搜索引擎仍然严重不足。

目前我们国家对于中等职业教育非常重视,投入的力度也很大,对于计算机和网络的硬件条件已经完全具备在中等职业学校建立辅助教学的信息检索平台。

1.2 国内外研究现状分析通用搜索引擎从诞生到现在已经经历了十余年的发展,目前已经广泛应用于互联网,成为人们搜索互联网资源必不可少的工具,实际上,搜索引擎的出现是个必然,因为随着网络资源的几何级别的增长,同时网络传播的速度大大超出了人们的想象,互联网行业的应用已经渗透到人类生活的方方面面。

搜索引擎就像茫茫大海中灯塔一样指引着人们在互联网中遨游。

搜索引擎的发展经历了几个重要的历史时期:最开始出现的搜索引擎只是检索FTP上边的文件;随后的搜索引擎开始收录网络地址;搜索引擎开始收录标题;目前的搜索引擎,已经开始抓取网页全文了。

1.3 面向教育的搜索引擎的发展现状目前流行的通用搜索引擎其工作原理及核心代码是不对外公开的,其产生查询结果的排序方法也被视为商业机密。

甚至有人质疑由于商业利益的关系对查询结果的排序造成了扭曲。

面向教育的垂直搜索引擎的研究有很多的文章,但未对教育搜索引擎框架和核心给出详细的描述。

这使得开发教育搜索引擎成为教育技术领域一项困难的任务。

为此该文结合教育领域特征和搜索需求的多样化研究对面向教育的垂直搜索引擎框架及其关键技术进行了深入地探讨和研究。

1.4 面向中等职业教育的垂直搜索引擎发展现状面向中等职业学校的垂直搜索引擎的研究目前严重不足。

对于垂直搜索引擎来说专业性越强其搜索的效果越好,由于我国的经济形势的发展,各种产业不断升级,社会需要大量具有合格工作技能的专业人才,国家对于中等职业教育越来越重视,投入也越来越大,甚至达到了职业教育与义务教育同等重要的地位。

2 垂直搜索引擎技术分析垂直搜索引擎系统由4部分组成:信息采集(Crawler)、分析、索引(Indexer)和查询(Query)。

信息采集模块负责在互联网上查找网页信息,并对所采集的网页内容进行解析、过滤、分词处理;索引模块对采集到的信息分析之后进行倒排序的方式存放到索引数据库中;查询模块根据用户输入的关键词,从索引数据库中找到相关的网页,并根据相关度排序将网址和网页摘要反馈给用户。

2.1 信息采集模块搜索引擎采集网页通常采用网络爬虫(Spider)[2]方式。

通过它可以生成以用户输入的关键词为依据排序的URL及摘要的索引数据库,它的工作原理是从初始URL开始不断抓取URL。

这些URL信息集成一个URL队列,一直到不满足查询条件为止。

通过分析过滤掉不相关的网页链接,将有用的网页链接放到URL队列中,并在URL队列中找到后面要抓取的网页。

最后将抓取的URL和摘要按相关度的顺序保存到索引数据库中,用于后面的索引和查询。

2.2 信息的分析模块目前互联网上的网页数量呈几何级别的增长,如何从浩如烟海的网络中抓取用户需要的信息,过滤掉无关的网页需要建立一个判定的规则。

通用搜索引擎是不进行主题相关性判定的,造成抓取的网页数量庞大且分散。

由于垂直搜索具地专业特性、精确度高、深度大的特点,要对信息采集模块采集到的网页进行主题相关度的判定。

使其能够尽量地抓取高度相关的网页,这样提高了搜索的精确度和搜索的速度。

同时还要制定一定的策略来解决网页重复和网页内容变化的问题。

2.3 信息索引模块信息采集模块抓取的网页,保存在一个结构化的数据库中,按照类型进行排列建立索引数据库以便进行快速检索。

通用搜索引擎抓取的网页庞杂、分散,因此不能进行全文检索,垂直搜索引擎因为是针对某一特定领域或某一特定人群,因此支持进行全文检索。

使其具有相比于通用搜索引擎搜索深度大的优点。

2.4 用户界面用户输入和输出的接口,现在通常使用Ajax技术来设计用户使用的界面。

利用Lucene全文检索工具根据用户输入的关键词将索引的相关网页以列表的形式反馈给用户。

3 面向中等职业教育的垂直搜索引擎的分析和研究3.1 中等职业教育的特点中等职业教育具不同于普通教育的特殊性,简单的说有些类似于高等教育与义务制普通教育的结合体。

既有高等教育按专业分类的特点,又有普通教育课程分配的特点。

要求的知识内容和技术水平接近于高中教育水平。

虽然中等职业教育是以培养专业技术型人才为目标,但同时也要兼顾文化素养和德智体美全面发展。

即不仅要学好专业课程和专业相关领域知识,同时也要加强文化课程的学习。

3.2 构建面向中等职业教育资源的垂直搜索引擎框架根据我国中等职业教育的自身特点,搜索引擎框架从下面几个角度来设计,分别为专业课程、文化课程、技能鉴定和实习就业4个部分。

学生可以根据自己在学习当中的需要,有针对性地查询自己所想要的信息。

3.3 各个子系统的设计信息采集系统的设计:网络爬虫的工作步骤。

首先蜘蛛搜索网站首页的根网址,保存到待抓取的地址列表中,若地址列表不为空就判断是否曾经访问过该地址,假如此网页没有被访问过就读取网页内容,并对读取的网页内容进行解析,然后对内容主题相关度进行判断,并将关联主题的网页内容保存到数据库中,并把这些网页的网址保存到已访问网页列表中,否则去掉此网页地址。

最后当待抓取的网页列表为空的时候,或者抓取的深度满足制定要求的时候结束读取,重复执行抓取其他网站直到结束。

索引系统的设计。

索引过程可分为3个主要的操作步骤:将信息转换成文本,分析文本,将分析过的文本保存到数据库中。

要想对信息分类和建立索引,那么首先必须将信息转换成纯文本字符流。

但是在网络中信息是以各种富媒体文档格式存在的:比如PDF,WORD,EXCEL,HTML,XML等。

为此需要使用文档解析器,将富媒体转换成纯文字字符流。

分析文本。

在对信息进行索引之前,还必须将转换后的文本进行分词技术处理,才能更好地建立索引。

当数据分析时,首先将文本拆成若干个块和单元词汇,接着可选择操作,比如:大小写转换在索引操作之前,避免大小写的错误;比较典型的是去除经常使用却没用的词汇,比如介词、冠词(the、a、in、on、an等)。

同样道理,找到一些没有意义的词汇在索引之前就把它们去掉以减少索引的次数提高索引的效率。

对输入数据分析处理完成后,就可以将结果写入索引文件中。

结果一般包括网页标题,正文,所属住地址,主机,内容摘要,当前URL地址等,并根据具体情况和需要建立索引和存储。

信息查询算法。

通过预处理网页后,每个元素由下面几个信息构成:编号,网页地址和主题,初始网页文档包含的系统关键词的集合以及它们在文档中出现的位置数据同时还包括一些其他的重要信息(例如重要级别,代码类别等)。

而关键词集合和文档的编号共同组成了一个倒排索引文件结构,能够迅速地输出相关文档的集合编号。

查询方式指的是搜索引擎承认的查询方法。

由于客户的不同要求所以不能只有一种查询方法。

通常对于普通的客户的查询方式,那就是输入他最想要的词汇。

然而这不能作为一种准确定义的查询方式。

比如客户写“技师学校”,可能是他想了解技术学校目前的招生状况,可能需要找到技师学校教务系统的网址,可能需要了解大家对技师学校的评价。

这是3种相当不同的需求。

在其他一些情况下,用户可能关心的是间接的信息,例如“技师学校录取分数线”,450分应该是他需要的,但不可能包含在这个短语中。

尽管如此,用一个字或短语来间接表达查询需要,如果网页内容或标题中包括输入的词或短语,仍然是最普遍的查询方法。

原因是他所查询出现的概率是最多的,还包括如此查询也更简单和容易完成。

如此来说,搜索引擎接收的语句。

通常用q0作为客户的初始查询,比如,q0 =“网络与分布式系统实验室”。

它最先要被分词成一个词的序列。

所以则变成“网络与分布式系统实验室”(注意,分词软件的不同有可能导致不一样的查询结果)。

接着要过滤掉那些几乎在所有文档中都会出现的那些没有意义的字符,最后生成查询词表用于匹配,q={t1,t2,…,tm},从上面的实例来说q={网络,分布式,系统,实验室}。

倒排文件就是把所有的词按倒序的方式依次保存到搜索引擎的索引文件中,所以q中的词一定要存在于搜索引擎所产生的查询倒排文件。

那么作为用户所输入的q,客户输入的词汇会分割成一个个的关键词而抓取到文档编号的集合,记作L(ti),所产生的交集就是相关查询的倒排文件,也就是达到了查询和网页文档的匹配。

因此用户总是要求所输入的词汇被包含在网页文档当中。

3.4 专业课程模块设计专业技术的学习是中等职业教育的核心和重点,专业技能的高低直接决定了学生未来的就业前景。

由于中等职业学校规模的限制不可能像大学那样建立大而全的专业体系。

大体上来讲,中等职业学校的专业可以笼统地分为工业类包括机械、工程、电子等,信息类包括计算机、金融、会计等,服务类包括艺术、旅游、餐饮、教育等。

用户可以根据不同的专业来搜索相应预处理过的信息。

4 该文的主要工作该文通过分析了中等职业教育的特点,对垂直搜索引擎的核心技术分析、研究。

相关文档
最新文档