信息检索实验报告

合集下载

中文数据库信息检索实验--文献检索

中文数据库信息检索实验--文献检索

文献检索实验报告(一)实验名称中文数据库信息检索实验姓名实验日期2012 年05 月10 日学号200903120210专业班级网络工程0902 实验地点E413指导老师陈多评分一.实验目的:1.熟悉与专业有关的中文数据库信息检索系统的基本情况;2.熟悉相应中文数据库信息检索系统的浏览器使用;3.掌握常用中文数据库信息检索系统的检索方法以及检索结果的处理;4.掌握提高查全率和查准率的方法。

二.实验环境:连接到因特网的实验室局域网环境,并能通过学院图书馆入口访问以下数据库系统:1.万方数据资源系统2.维普信息资源系统3.中国知网数据库4.人大《复印报刊资料全文数据库》5.超星数字图书馆6.试用数据库三.实验要求:先选检索课题:1.分析课题主题,写出课题所属领域、背景、拟解决的技术问题、采用的技术方案等相关技术内容。

(限200字左右)2.给出中外文检索词(包括主题词、关键词、同义词、缩写及全称等,限15个以上)及检索式,按要求检索数据库,写出检索过程,并按题录形式选择给出相关文献2-3篇。

3.中文数据库4种类型8个库:任选两个馆藏目录、联合目录、中文期刊数据库、事实与数值数据库进行检索。

4.外文数据库2个:5.学位论文库2个:万方学位论文库、中国知网。

6.会议论文库2个:万方学术会议库、中国知网。

7.标准、专利、注:结果页面截图:(用键盘Pr Scrn SysRq键截图,要求显示检索条件窗口)四.实验内容:1.从图书馆网站上安装CNKI阅览器和PDF格式全文阅览器。

从CNKI(即中国期刊网)的“进入总库平台”中的“中国学术期刊网络出版总库”检索2005年出版、EI来源期限、篇名中包含“信息管理”的文献,任意下载一篇检索出的论文,分别下载CAJ格式和PDF格式,体验两种阅览器的各自功能。

图1-1图1-22.利用中国知网的“中国博士学位论文全文数据库”检索,文献题名中包含“机群”的华中科技大学的硕士学位论文。

信息科技检索实验报告

信息科技检索实验报告

一、实验目的本次实验旨在使学生了解信息科技检索的基本原理和方法,掌握使用各类信息检索工具的技能,培养学生独立获取、分析和利用信息的能力。

二、实验内容1. 信息检索基础知识- 信息检索的定义和分类- 信息检索的基本流程- 信息检索的策略和方法2. 信息检索工具的使用- 知网CNKI数据库检索- 万方数据库检索- 维普数据库检索- 超星数字图书馆检索- 中国专利信息网检索- 中国标准全文数据库检索3. 信息检索案例- 检索某一科技领域的最新研究进展- 检索某一专利技术的相关信息- 检索某一标准规范的具体内容三、实验步骤1. 信息检索基础知识学习- 阅读相关教材和资料,了解信息检索的基本概念、原理和方法。

- 通过网络资源,学习信息检索工具的使用方法和技巧。

2. 信息检索工具实践操作- 以知网CNKI数据库为例,进行以下操作:- 登录知网CNKI数据库。

- 选择检索方式,如关键词检索、作者检索、机构检索等。

- 输入检索词,如“人工智能”、“大数据”等。

- 分析检索结果,了解相关研究领域的最新进展。

- 以万方数据库为例,进行以下操作:- 登录万方数据库。

- 选择检索方式,如标题检索、关键词检索、作者检索等。

- 输入检索词,如“智能制造”、“物联网”等。

- 分析检索结果,了解相关技术领域的应用现状。

3. 信息检索案例实践- 以“人工智能”为例,检索相关研究进展:- 使用关键词检索,如“人工智能”、“深度学习”、“机器学习”等。

- 分析检索结果,了解人工智能领域的最新研究热点和发展趋势。

- 以“智能机器人”为例,检索相关专利技术:- 使用关键词检索,如“智能机器人”、“机器人控制”、“机器人应用”等。

- 分析检索结果,了解智能机器人领域的专利技术现状。

四、实验结果与分析1. 信息检索基础知识掌握情况- 通过本次实验,学生对信息检索的基本概念、原理和方法有了较为全面的了解。

- 学生掌握了信息检索的基本流程,包括确定检索目标、选择检索工具、构建检索策略、分析检索结果等。

计算机信息检索实验报告(6个)

计算机信息检索实验报告(6个)

实验一网上中文搜索引擎及其使用一、实验心得在电脑已经成为生活必备品的现在,日常搜索是一件很平常的事情。

俗话说,天天百度知识丰富。

当然,我国国内主要的搜索引擎除了百度,还有谷歌、雅虎、搜狗、网易、新浪。

一般来说,百度和谷歌是最多人用的。

不同的搜索引擎,不同的搜索方法,得到搜索结果的速度和准确度也不一样。

所以我觉得学习计算机信息检索的主要目的就是更好地提高自己搜索的速度和准确度。

在这次实验当中,我们主要学习和掌握以下搜索技巧的运用。

「“”」的基本用法、「+」或「空格」的基本用法、「+」的基本用法、「-」的基本用法、「OR」的基本用法、「site」的基本用法、「inurl」的基本用法、「intitle」的基本用法、「filetype」的基本用法。

比起以前直接把整个问题打上去然后从网页中寻找满意的答案,灵活使用这些搜索技巧可以更快地找到准确率高的答案。

这些技巧在现实生活中具有高度的可操作性和便捷性。

二、实验结果(一)请使用Google或百度搜索引擎完成以下知识测验:(请将检索结果复制到题干之后,并把所有有关的网页都下载到你的作业文件夹中,以作为本作业评分的依据。

)1.谁根据小仲马的《茶花女》改编了同名歌剧( B )/b/7602599.htmlA.奥斯汀 B.威尔第 C.福楼拜2."生存还是死亡,这是一个问题。

"出自莎士比亚的哪部作品?( A )/question/25934693.htmlA.《哈姆雷特》 B.《李尔王》 C.《麦克白》3."侦探福尔摩斯"第一次出现是在下列哪部作品中: ( A )/question/1306083005651.htmlA.《血字的研究》B.《东方快车谋杀案》C.《尼罗河上的惨案》D.《难逃一生》4.李清照词中名句"寻寻觅觅,冷冷清清,凄凄惨惨戚戚"的词牌名是: ( D ) /wenda/thread?tid=7c29ad4f072df739&hl=cnA.醉花阴B.一剪梅C.如梦令D.声声慢(二)请在网上寻找如下列图片。

信息检索课程实验报告

信息检索课程实验报告

一、实验背景随着信息技术的飞速发展,信息检索已成为信息时代的重要技能。

为了提高我们的信息素养,培养我们在海量信息中快速、准确地找到所需信息的能力,我们开展了信息检索课程实验。

本实验旨在让我们熟悉信息检索的基本流程,掌握各种检索工具的使用方法,并学会运用检索策略进行信息获取。

二、实验目的1. 熟悉信息检索的基本概念和流程。

2. 掌握搜索引擎和数据库的使用方法。

3. 学会运用检索策略提高检索效率。

4. 培养信息素养,提高信息获取能力。

三、实验内容1. 信息检索基本概念(1)信息检索:指根据信息用户的需求,利用一定的检索工具或联机网络,从大量的文献中迅速准确地查找、筛选、整理和利用所需信息的过程。

(2)检索工具:包括搜索引擎、数据库、图书馆等。

(3)检索策略:指在检索过程中,针对特定需求,选择合适的检索词、检索式和检索途径,以达到快速、准确地获取所需信息的目的。

2. 搜索引擎的使用(1)以百度为例,介绍搜索引擎的基本操作。

(2)演示如何利用关键词进行精确检索、组合检索和高级检索。

(3)讲解如何使用搜索技巧,如排除法、使用引号等。

3. 数据库的使用(1)以CNKI为例,介绍学术数据库的基本操作。

(2)演示如何利用数据库的高级检索功能,如主题检索、作者检索、机构检索等。

(3)讲解如何筛选和整理检索结果,提高信息获取效率。

4. 检索策略的应用(1)针对特定课题,分析检索需求,确定检索策略。

(2)运用关键词、布尔逻辑运算符、位置运算符等构建检索式。

(3)根据检索结果,调整检索策略,提高检索效果。

四、实验步骤1. 熟悉实验内容,了解信息检索的基本概念和流程。

2. 登录百度搜索引擎,进行关键词检索、组合检索和高级检索实验。

3. 登录CNKI学术数据库,进行主题检索、作者检索、机构检索等实验。

4. 根据实验需求,构建检索式,进行检索实验。

5. 分析检索结果,调整检索策略,提高检索效果。

6. 撰写实验报告,总结实验心得。

信息检索上机实验报告

信息检索上机实验报告

1. 掌握信息检索的基本原理和方法。

2. 熟悉常用的信息检索工具和系统。

3. 提高信息检索技能,提高信息获取效率。

二、实验环境1. 操作系统:Windows 102. 浏览器:Chrome3. 信息检索工具:百度、谷歌、必应等三、实验内容1. 实验一:信息检索原理与方法(1)了解信息检索的基本概念,如信息、知识、数据等。

(2)掌握信息检索的流程,包括信息收集、信息处理、信息检索、信息评估等。

(3)了解信息检索的基本方法,如布尔检索、短语检索、自然语言检索等。

(4)通过实验,学会使用信息检索工具进行信息检索。

2. 实验二:信息检索工具的使用(1)了解百度、谷歌、必应等搜索引擎的特点和优缺点。

(2)学会使用搜索引擎的高级搜索功能,如关键词搜索、按时间搜索、按网站搜索等。

(3)掌握使用学术搜索引擎,如CNKI、万方、维普等,获取学术资源。

(4)通过实验,学会使用信息检索工具获取所需信息。

3. 实验三:信息检索策略的制定(1)了解信息检索策略的概念和作用。

(2)掌握信息检索策略的制定方法,如关键词选择、检索式构造等。

(3)通过实验,学会制定有效的信息检索策略。

1. 实验一:信息检索原理与方法(1)阅读相关教材和资料,了解信息检索的基本原理和方法。

(2)在浏览器中输入关键词,观察搜索结果,了解搜索算法。

(3)分析搜索结果,总结信息检索的方法。

2. 实验二:信息检索工具的使用(1)在浏览器中输入关键词,使用百度、谷歌、必应等搜索引擎进行搜索。

(2)尝试使用搜索引擎的高级搜索功能,观察搜索结果的变化。

(3)使用学术搜索引擎,查找相关学术资源。

3. 实验三:信息检索策略的制定(1)根据实验要求,确定关键词。

(2)构造检索式,进行信息检索。

(3)分析检索结果,调整检索策略。

五、实验结果与分析1. 实验一:信息检索原理与方法通过实验,掌握了信息检索的基本原理和方法,了解了信息检索的流程。

同时,学会了使用信息检索工具进行信息检索。

医学信息检索实验报告

医学信息检索实验报告

一、实验名称医学信息检索实验二、实验日期2023年10月25日三、实验目的1. 掌握医学信息检索的基本方法与技巧。

2. 熟悉常用医学数据库和检索工具的使用。

3. 提高医学文献检索的准确性和效率。

四、实验原理医学信息检索是指通过计算机技术,对医学领域的文献、数据等进行检索和获取的过程。

医学信息检索的目的是为了快速、准确地找到所需的医学信息,为临床诊断、治疗、科研等工作提供支持。

五、主要仪器与试剂1. 电脑2. 医学数据库:PubMed、CNKI(中国知网)、万方数据等3. 检索工具:关键词、布尔逻辑运算符等六、实验步骤1. 确定检索主题:以“糖尿病”为例。

2. 选择数据库:PubMed、CNKI、万方数据等。

3. 使用关键词进行检索:输入“糖尿病”进行初步检索。

4. 分析检索结果:筛选出相关性较高的文献。

5. 查看文献摘要:了解文献的基本内容。

6. 阅读全文:对感兴趣或重要的文献进行全文阅读。

7. 重复以上步骤,直至找到满意的文献。

七、注意事项1. 确定检索主题时,应尽量使用准确、简洁的关键词。

2. 在检索过程中,可运用布尔逻辑运算符(如AND、OR、NOT)进行组合检索,提高检索的准确性。

3. 阅读文献时,注意文献的发表时间、作者、研究方法等,以便全面了解文献的内容。

4. 遵循数据库的检索规则,避免误操作。

八、实验结果1. 在PubMed数据库中,检索到“糖尿病”相关文献约3000篇。

2. 在CNKI数据库中,检索到“糖尿病”相关文献约5000篇。

3. 在万方数据中,检索到“糖尿病”相关文献约2000篇。

九、讨论1. 通过本次实验,我们掌握了医学信息检索的基本方法与技巧,提高了文献检索的准确性和效率。

2. 医学数据库种类繁多,各有特点,选择合适的数据库对于检索结果至关重要。

3. 在检索过程中,注意运用布尔逻辑运算符,可以提高检索的准确性。

4. 阅读文献时,应注重文献的发表时间、作者、研究方法等,以便全面了解文献的内容。

信息检索实践报告总结(2篇)

信息检索实践报告总结(2篇)

第1篇一、前言随着互联网的快速发展,信息资源日益丰富,信息检索成为人们获取知识、解决问题的必要手段。

为了提高自身的信息检索能力,我参加了一次信息检索实践课程,通过实践操作,对信息检索有了更深入的了解。

以下是本次实践报告的总结。

二、实践内容1. 信息检索基础知识学习首先,我学习了信息检索的基本概念、分类、检索原理和检索方法。

了解信息检索的目的、意义以及信息检索系统的基本结构,为后续实践操作打下基础。

2. 信息检索工具使用在实践过程中,我使用了多种信息检索工具,包括搜索引擎、数据库、学术资源库等。

通过实际操作,掌握了不同检索工具的使用方法和技巧,提高了信息检索的效率。

3. 信息检索策略制定针对不同类型的检索任务,我制定了相应的检索策略。

这包括选择合适的检索词、使用布尔逻辑运算符、调整检索结果排序等。

通过实践,我学会了如何根据检索任务的特点,优化检索策略,提高检索效果。

4. 信息评估与筛选在检索到大量信息后,我学会了如何对信息进行评估和筛选。

这包括判断信息的可靠性、权威性、时效性等方面。

通过实践,我掌握了信息评估的方法,提高了对信息真伪的辨别能力。

5. 信息整合与应用在实践过程中,我将检索到的信息进行整合,形成完整的知识体系。

同时,我将所学知识应用于实际工作中,解决了实际问题,提高了工作效率。

三、实践收获1. 提高了信息检索能力通过本次实践,我对信息检索有了更深入的了解,掌握了信息检索的基本原理、方法和技巧。

在实际操作中,我的信息检索能力得到了显著提高。

2. 增强了信息素养信息素养是指个体获取、评估、利用信息的能力。

通过本次实践,我不仅学会了如何检索信息,还学会了如何评估和筛选信息,提高了自己的信息素养。

3. 丰富了知识体系在实践过程中,我检索了大量的信息,涵盖了各个领域。

这些信息为我提供了丰富的知识资源,使我能够更好地了解世界,拓宽视野。

4. 提升了实际应用能力将所学知识应用于实际工作中,我解决了实际问题,提高了工作效率。

信息检索(实验报告)

信息检索(实验报告)

信息检索(实验报告)徐州工程学院管理学院实验报告实验课程名称:信息存储与检索实验地点:经济管理实验教学中心 2012 年月至 2012 年 12 月专业信息管理与信息系统班级 10信管学生姓名 xx学号 20101511215指导老师 xxx2、使用数字照相机(或具有近似功能的设备,如摄像功能手机)获取本人实验用的计算机显示器上显示的任一屏幕图像,保存成JPG格式图片,粘贴到实验报告上。

并用文字简要叙述你所使用设备的工作原理。

(实验目的不同,请不要用计算机本身的屏幕抓图功能)数字照相机的工作原理:数码相机是集光学、机械、电子、电功一体化的产品。

它集成了影像信息的转换、存储和传输等部件,具有数字化存取模式,与电脑交互处理和实时拍摄等特点。

光线通过镜头或者镜头组进入相机,通过成像元件转化为数字信号,数字信号通过影像运算芯片储存在存储设备中。

数码相机的成像元件是CCD或者COMS,该成像元件的特点是光线通过时,能根据光线的不同转化为电子信号。

佳能数码照像机3、够读取条形码的设备有哪些?任意选取一种,并将其图片粘贴到实验报告中,并在图片下方给出设备名称信息。

读取条形码的设备:光笔、条码卡槽、扫描枪、激光全向扫描台、扫描仪、扫描器条形码扫描设备:手持式激光条码扫描器LS2208(摩托罗拉)4、叙述一下本人触摸屏手机(没有的可以借用同学的)的触摸屏类型(电容式、电阻式…)及其工作原理。

并用图片说明。

手机信息:步步高vivio S3, Android OS 2.3系统,电容屏。

5、叙述一下本人手写板手机(没有的可以借用同学的)的手写板类型及其工作原理。

并用图片说明。

手机信息:三星Galaxy Tab P1000,7.0英寸超大电容触摸屏工作原理:数位电磁板和压感式电磁板的工作原理都是采用了电磁感应技术。

它由手写笔发射出电磁波,由写字板上排列整齐的传感器感应到后,计算出笔的位置后报告给计算机,然后由计算机做出移动光标或其它的相应动作。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索课程结业报告姓学信息检索与web搜索应用背景及概念信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。

狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。

随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统。

信息检索有广义和狭义的之分。

广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。

狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。

狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。

搜索引擎(Search Engine,简称SE)是实现如下功能的一个系统:收集、整理和组织信息并为用户提供查询服务。

面向WEB的SE是其中最典型的代表。

三大特点:事先下载,事先组织,实时检索。

垂直搜索引擎:垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。

不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。

相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

Web检索的历史:1989年,伯纳斯·李在日内瓦欧洲离子物理研究所(CERN)开发计算机远程控制时首次提出了Web概念,并在1990年圣诞节前推出了第一个浏览器。

接下来的几年中,他设计出HTTP、URL和HTML的规范,使网络能够为普通大众所应用。

Ted Nelson 在1965年提出了超文本的概念.超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络传输协议,超文本标注语言(HTML)。

1993, 早期的 web robots (spiders) 用于收集 URL: Wanderer、ALIWEB (Archie-Like Index of the WEB)、WWW Worm (indexed URL’s and titles for regex search)。

1994, Stanford 博士生 David Filo and Jerry Yang 开发手工划分主题层次的雅虎网站。

1994年初,WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。

除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。

DEC的AltaVista 是一个迟到者,1995年12月才登场亮相. AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等) 。

1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了的域名,1997年底,开始提供Demo。

1999年2月,Google完成了从Alpha版到Beta版的蜕变。

Google公司则把1998年9月27日认作自己的生日。

Google在Pagerank、动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。

主要的进步在于应用链接分析根据权威性对部分结果排序。

北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。

2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司2001年8月发布搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎)。

2001年10月22日正式发布Baidu搜索引擎。

Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库。

Web搜索引擎系统组成:Web数据采集系统网页预处理系统索引检索系统检索结果排序系统Web检索所在现阶段的挑战:数据的分布性:文档散落在数以百万计的不同服务器上,没有预先定义的拓扑结构相连。

不稳定的数据高比例:许多文档迅速地添加或删除 (e.g. dead links).大规模:网络数据量的指数增长,由此引发了一系列难以处理的规模问题。

无结构和冗余信息:每个HTML页面没有统一的结构, 许多网络数据是重复的,将近 30% 的重复网页.数据的质量: 许多内容没有经过编辑处理,数据可能是错误的,无效的。

错误来源有录入错误,语法错误,OCR错误等。

异构数据:多媒体数据(images, video, VRML), 语言,字符集等.Web检索的基本过程:网页爬行下来预处理:网页去重,正文提取,分词等建立索引接受用户请求,检索词串的处理,查询重构找到满足要求的列表根据连接和文本中的词进行排序输出信息采集:信息采集是指为出版的生产在信息资源方面做准备的工作,包括对信息的收集和处理。

它是选题策划的直接基础和重要依据。

信息采集工作最后一个步骤的延伸,成选题策划的开端。

信息采集系统:信息采集系统以网络信息挖掘引擎为基础构建而成,它可以在最短的时间内,帮您把最新的信息从不同的Internet站点上采集下来,并在进行分类和统一格式后,第一时间之内把信息及时发布到自己的站点上去。

从而提高信息及时性和节省或减少工作量。

网络爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

倒排索引:倒排索引源于实际应用中需要根据属性的值来查找记录。

这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。

由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。

带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。

倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。

建立倒排索引目的:对文档或文档集合建立索引,以加快检索速度倒排文档(或倒排索引)是一种最常用的索引机制倒排文档的索引对象是文档或文档集合中的单词等。

例如,有些书往往在最后提供的索引(单词—页码列表对),就可以看成是一种倒排索引倒排索引的组成:倒排文档一般由两部分组成:词汇表(vocabulary)和记录表(posting list)词汇表是文本或文本集合中所包含的所有不同单词的集合。

对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为记录表。

相关工具1ltp-Java版分词工具1.1文件_irlas.dll, _wsd.dll : 分词工具所需要的动态链接库,放在java工程的根目录下。

nlptools.jar : jar文件。

resource : 分词所需要的资源,需放在放在java工程的根目录下。

1.2 使用方法下面将列出在实验过程中可能使用到的类:1)edu.hit.irlab.nlp.splitsentences.SplitSentences将中文文本按照有分割意义的标点符号(如句号)分开,以句子的序列方式返回。

输入为中文文本,输出为中文句子的序列。

例如:SplitSentences sentenceSplit = new SplitSentences();List<String> sentences = sentenceSplit.getSentences(text);sentences是对text分句之后的句子集合。

2)edu.hit.irlab.nlp.irlas.IRLAS分词以及词性标注,使用方法如下:irlas = new IRLAS();irlas.loadResource(); //调用分词方法前必须先加载资源Vector<String> words = new Vector<String>(); //用来存储分词结果Vector<String> posTags = new Vector<String>(); //用来存储词性标注结果,标点符号的词性是“wp”。

irlas.wordSegment(sentence, words, posTags); //调用分词以及词性标注方法使用该文件可以将文件里的文本自动变成一个一个关键词,并且统计出此关键词出自哪个文档,建立哈希表进行存储,再存储在txt文件中。

2DownloadURL类edu.hit.irlab.util.web.DownloadURL类封装在nlptools中,包含一些常见的web操作,如下载网页、判断编码格式等。

请特别注意:Google的检索结果在本程序发送的FF的head的情况下,没有编码信息。

所以在爬Google的检索结果的时候请务必手动指定使用UTF-8编码。

表格 1 DownloadURL类的方法介绍下面是一个下载“”网页的例子://模拟IE8,以gb2312的编码格式下载“”的内容。

String content = DownloadURL.downURL(“”,“gb2312”, "IE8.0") ;正文提取算法:将网页源代码中的HTML格式信息删除,每行仅保留文本内容,即文本行。

接下来,正文内容块的抽取可以被看成一个优化问题,即计算行b和e,用于最大化低于行b和高于行e的非文本字符数,以及在行b和行e之间的行文本字符数,相应的就是最大化对应的目标函数,如公式所示。

相关文档
最新文档