信息检索与搜索引擎技术实验向量空间模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

昆明理工大学信息工程与自动化学院学生实验报告

(2014—2015学年第1学期)

课程名称:信息检索与搜索引擎技术开课实验室:信自楼445 2014 年12月 23日

一、上机目的及内容:

给定文档语料:

d1: 北京安立文高新技术公司

d2: 新一代的网络访问技术

d3: 北京卫星网络有限公司

d4: 是最先进的总线技术。。。

d5: 北京升平卫星技术有限公司的新技术有。。。

设计一个针对这些文档的信息检索系统。具体要求是:

1)给出系统的有效词汇集合(说明取舍原因)。

2)写出d1和d2在VSM中的表示(使用tf*idf,写出各项的数字表达式,具体数值不必实

际计算出来)。

3)画出系统的倒排文件示意图。

4)按照向量夹角的余弦计算公式,给出针对查询“技术的公司”的前3个反馈结果。

二、实验原理

给定文档语料:

•d1: 北京安立文高新技术公司

相关文档
最新文档