信息检索导论-王斌-第三次课后作业(13-21)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索导论第三次课后作业

1、习题13-2

答:(i)贝努利模型:三个文档具有相同的模型表示

(ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。

2、习题13-5

3、习题14-6

在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?

4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)?

答:一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。请问这两个条件是否等价?

答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么?

b. 当使用HAC 算法时,预期的结果是否仍然一样?

答:a.预期的结果:文档根据语言的大致分成两类。

b.预期的结果不一样。HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。

7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。

答:(1)词项-文档矩阵:

d1 d2 d3 d4 d5 d6

hello 1 0 0 0 0 1

open 0 1 0 0 0 0 house 0 1 0 0 0 0 profess0 0 0 1 0 0 and 0 0 0 0 0 1 welcom0 0 0 0 0 1 mi 0 0 1 0 0 0 case 0 0 1 0 0 0 hola 0 0 0 1 1 0 y 0 0 0 0 1 0 bienven0 0 0 0 1 0

(2)经过SVD分解,得到:

U2 = 0.00000 0.70711

0.00000 0.00000

0.00000 0.00000

-0.27639 0.00000

0.00000 0.50000

0.00000 0.50000

0.00000 0.00000

0.00000 0.00000

-0.72361 0.00000

-0.44721 0.00000

-0.44721 0.00000

Σ'2= 1.90211 0 0 1.84776

V2 = -0.00000 0.38268 -0.00000 -0.00000 -0.00000 -0.92388 -0.00000 -0.00000 1.00000 -0.00000 -0.00000 -0.00000

2-秩逼近矩阵为:

C2 = 0.00000 0.00000 1.30656 0.00000 0.00000 0.00000

0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.20119 0.00000 0.00000 0.00000 0.48571 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.52672 0.00000 0.00000 0.00000 1.27161 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 (3) C C T 的元素(i,j)代表了文档i 和文档j 的相似度。

(4) 22C C T

的元素(i,j)代表了在新的2维空间中文档i 和文档j 的相似度。

与22C C T

中的(i,j)元素不同,是因为在新的低秩表示空间中,将共现上相似的词

项合在一起,隐含地参照了英语与西班牙语的术语对照表。

8、习题19-5Goto 方式根据报价的高低来对广告进行排序,出价最高的广告商获得最高的位置,出价第二高的次之,其余以此类推。如果出价最高的广告商给出的广告与查询无关时会出现什么问题?为什么会出现这样的情况?

答:无关的广告永远不会被用户点击,由此生成的搜索引擎也就没有收入。广告商可以推送这样的广告,在推广自己品牌的同时而没有任何花费。

9、习题20-1在分布式采集系统中,为什么按照主机进行划分会比按照每个URL 进行划分要好?

答:有两个好处:其一,使得更容易跟踪同一主机的连续请求之间经过的时间;其二,主机的robots.txt文件可以在爬行的节点处被缓存和重新利用。

10、习题21-3 对某个Web 网页x,假设给定了指向它的所有锚文本短语组成的集合,请给出某种启发式方法来从这个集合中选出针对x 的最具描述性的词项或短语。

答:若要从锚文本短语组成的集合中选出针对x的最具描述性的词项或短语,需要进行特征选择。特征选择即从训练集合出现的词项中选出一部分子集,特征选择的指标包括互信息,2χ统计量及词项频率。以2χ统计量为例,检测锚文本短语与Web网页x之间的独立性,2χ值越大则意味着独立性假设不成立。

如果某词项或者短语更能描述x,则两者的存在是相互依赖的,表现为2χ值越大。

相关文档
最新文档