信息检索与搜索引擎技术实验向量空间模型
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
昆明理工大学信息工程与自动化学院学生实验报告
(2014—2015学年第1学期)
课程名称:信息检索与搜索引擎技术开课实验室:信自楼445 2014 年12月 23日
一、上机目的及内容:
给定文档语料:
d1: 北京安立文高新技术公司
d2: 新一代的网络访问技术
d3: 北京卫星网络有限公司
d4: 是最先进的总线技术。。。
d5: 北京升平卫星技术有限公司的新技术有。。。
设计一个针对这些文档的信息检索系统。具体要求是:
1)给出系统的有效词汇集合(说明取舍原因)。
2)写出d1和d2在VSM中的表示(使用tf*idf,写出各项的数字表达式,具体数值不必实
际计算出来)。
3)画出系统的倒排文件示意图。
4)按照向量夹角的余弦计算公式,给出针对查询“技术的公司”的前3个反馈结果。
二、实验原理
给定文档语料:
•d1: 北京安立文高新技术公司