信息检索与数据挖掘2019371

合集下载

信息检索与数据挖掘-中国科学技术大学

信息检索与数据挖掘-中国科学技术大学

《信息检索与数据挖掘》中国科学技术大学•电子工程与信息科学系目录目录 (I)1.实验内容 (1)1.1R语言学习 (1)1.2用R语言做文本分析 (1)1.3用R语言做数据挖掘 (2)2.附录1:R环境安装 (3)2.1基本R环境安装 (3)2.2镜像选择与包安装 (3)2.2.1设定镜像服务器 (3)2.2.2安装包(package) (6)2.3W INDOWS下的R语言编辑器 (7)附录2:JAVA有关 (9)2.4JDK安装 (9)2.4.1安装包下载 (9)2.4.2环境变量设置 (9)2.5JDK、JRE、JVM三者间的关系 (10)2.5.1JDK(Java Development Kit) (11)2.5.2Java Runtime Environment(JRE) (11)2.5.3JVM(java virtual machine) (11)参考文献 (12)1.实验内容1.1 R语言学习(1)建议阅读的资料:《R语言实战》(中文版[1]、英文版[2])。

(2)矩阵、数据框运算:掌握矩阵运算相关函数的用法。

(3)绘图:至少掌握柱状图、散点图、饼图等常规图形的绘制。

(4)基本的数据导入/导出:至少掌握导入EXCEL文件和XML格式数据文件的方法。

(5)学习使用编辑器UltraEdit或WinEdt(即CTex)来写R文件。

1.2 用R语言做文本分析(6)建议阅读《R语言tm工具包进行文本挖掘实验》[3](与我们给出的示例代码差别不大);《R语言环境下的文本挖掘---tm包》[4],有关于中文分词的部分;《R和Ruby数据分析之旅》(中文版[5]、英文版2nd[6])。

(7)用文本分析包tm创建词项-文档关联矩阵(采用tm自带的路透社20篇文档的数据集)并分析。

i.安装tm包,在windows vista及以后的版本,应该会被安装到C:\Users\%user_name%\Documents\R\win-library\3.2 目录下(RStudio安装后包的目录缺省应该是C:\Program Files\R\R-3.2.3\library)。

2019信息检索课件第6章

2019信息检索课件第6章
? </~scholzcr/eval.html>
? University of California, Los Angeles, College Library, Thinking Critically about World Wide Web Resources
? </libraries/college/instruct/web/critical.htm>
? 信息数量庞杂而无序
导致网络信息分布范围广、网络信息的类型多样、信息污染严重
? 信息的不稳定性强
网络的动态性、内容可靠性降低
? 网络安全存在隐患
计算机病毒的破坏
2020/3/26
4
据第25次中国互联网络发展状况统计报告(2019.1 )显示,绝大多数网络信息 来自商业网站,来自教育、科研、政府机构的网络信息仅占总量的1.9%
2020/3/26
5
网络炒作增加网络信息的不真实性
2020/3/26
6
6.2 网络信息选择与评价的客体
? 对网站的选择与评价 (IT)
? Website
? 定量为主
? 存在作弊行为
? 对网络信息内容的评价 (LIS)
? Information on the web ? 定性为主,辅之以定量 ? 不易操作
2020/3/26
LOGO
图书馆参考咨询部 2019.7
第六章 网络信息的选 择与评价
2020/3/26
22
目录
6.1网络信息选择与评价的必要性 6.2网络信息选择与评价的客体 6.3网络信息选择与评价的主体 6.4网络信息选择与评价的标准 6.5各类型网络信息的评价
2020/3/26
3

信息检索与数据挖掘

信息检索与数据挖掘

信息检索与数据挖掘信息检索与数据挖掘是现代信息科学领域中重要的研究方向,它们主要涉及从大规模的数据集中提取有用的信息和知识。

本文将介绍信息检索与数据挖掘的基本概念、应用领域以及相关技术方法。

一、信息检索信息检索(Information Retrieval,简称IR)是指根据用户的信息需求,从大规模的信息资源中找到相关的信息并呈现给用户的过程。

信息检索可以分为两个阶段:索引构建和查询处理。

1. 索引构建索引构建是信息检索的第一步,它主要包括文本预处理、词汇表构建和倒排索引的生成。

文本预处理是将文档集合进行清洗和归一化处理的过程,例如去除标点符号、停用词和数字,进行词干化和词形还原等操作。

词汇表构建是根据文本预处理得到的词语集合,构建一个词汇表,用于描述整个文档集合的词汇特征。

倒排索引是根据词汇表和文档集合,生成一个以单词作为索引项的数据结构,用于快速定位包含某个单词的文档。

2. 查询处理查询处理是信息检索的第二步,它主要包括查询解析、查询扩展和结果排序等处理过程。

查询解析是将用户提出的自然语言查询转换为计算机可以理解的查询表示形式,一般是一个向量或布尔查询。

查询扩展是在用户提出的查询上进行相关性扩展,通过词义分析、同义词替换等方法,提高查询的召回率和准确率。

结果排序是根据查询的相关性评分对搜索结果进行排序,一般采用向量空间模型、BM25算法等排序方法。

二、数据挖掘数据挖掘(Data Mining)是从大规模的数据集中提取有用的信息和知识的过程。

数据挖掘主要包括数据预处理、模式挖掘和模型评估等步骤。

1. 数据预处理数据预处理是数据挖掘的第一步,它主要包括数据清洗、数据转换和数据集成等操作。

数据清洗是去除数据集中的噪声和异常值,填补缺失值,解决数据不一致性等问题,以提高数据质量。

数据转换是将数据转换为适合数据挖掘算法处理的形式,例如将文本数据转换为向量表示,将时间序列数据进行平滑等操作。

数据集成是将多个数据源中的数据进行合并和整合,以得到一个包含全面信息的数据集。

信息检索与数据挖掘

信息检索与数据挖掘

信息检索与数据挖掘 2011
2011/4/27
27
信息检索与数据挖掘 2011
2011/4/27 2011/5/4
28
向量空间可能与直觉不符
Doc “J. Snow & Cholera” x x x o q1 x x x q1 query “cholera” o /epi/snow.html x other documents 27 x x x x x x x x x x x x x x x x
所有相关文档都聚集在某个原型(prototype)周围,形成一 个簇. 或者: 有不同的原型,但是它们的词汇有很大重合. 相关文档和不相关文档的相似度很小
信息检索与数据挖掘 2011
2011/4/27 2011/5/4
23
信息检索与数据挖掘 2011
2011/4/27 2011/5/4
24
需要注意的细节
α 和 β/γ的权衡 : 如果很多文档已经评价了相关度, 那么β/γ应该大一些. 查询向量的某些权值可能为负数
忽略负的权值
对初始查询的相关反馈
source: Fernando Diaz
用户的反馈:选择一个认为相关的文档
source: Fernando Diaz
信息检索与数据挖掘 2011
2011/4/27 2011/5/4
15
信息检索与数据挖掘 2011
2011/4/27 2011/5/4
16
查询扩展后的结果
source: Fernando Diaz
初始的查询和结果
初始查询: New space satellite applications
+ 1. 0.539, 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer + 2. 0.533, 07/09/91, NASA Scratches Environment Gear From Satellite Plan

信息检索与数据挖掘技术

信息检索与数据挖掘技术

信息检索与数据挖掘技术信息检索与数据挖掘技术是现代信息时代的重要组成部分。

随着海量数据的不断产生和积累,人们需要有效的方式来管理和利用这些数据。

信息检索和数据挖掘技术就应运而生,为人们提供了处理和分析大规模数据的工具和方法。

一、信息检索技术信息检索技术是为了帮助用户从大规模数据源中获取所需信息而发展起来的技术。

其目标是从数据库、互联网等数据源中,根据用户的需求快速准确地检索出相应的文档或信息。

信息检索技术的主要任务包括索引构建、查询处理和结果呈现。

索引构建是信息检索技术的重要环节。

通过索引,可以将文档的关键信息进行分类和组织,提高检索的效率和准确性。

常用的索引构建方法有倒排索引和词袋模型。

倒排索引通过将文档中的关键字与文档的引用进行关联,以快速定位相关文档;词袋模型则是将文档表示为一个词的无序集合,用于衡量文档与查询之间的相似度。

查询处理是指根据用户提供的查询请求,从索引中检索出与之相关的文档。

查询处理的关键是查询优化和查询扩展。

查询优化通过选择合适的检索算法和调整查询参数,提高检索的准确性和效率。

查询扩展则是通过将查询结果与相关的文档进行关联,扩展用户的查询范围,提供更全面的信息。

结果呈现是将检索结果按照一定的方式呈现给用户。

常见的结果呈现方法有排名和聚类。

排名方法根据结果的相关性进行排序,将最相关的文档排在前面;聚类方法则根据文档的相似性将结果分组,提供更加结构化的信息。

二、数据挖掘技术数据挖掘技术是从大规模数据中发现隐藏模式和知识的过程。

它利用统计学、机器学习和数据库技术等方法,通过对数据的分析和建模,来寻找其中的规律和趋势。

数据挖掘技术可以帮助人们挖掘大数据中的有价值信息,并支持决策和预测。

数据挖掘技术的主要任务包括数据清洗、特征选择、模型构建和模式评估。

数据清洗是指对数据进行预处理,去除重复项、噪声数据和缺失数据,保证数据的质量和完整性。

特征选择则是从数据中选择最具代表性的特征,减少模型的复杂度和冗余性。

数据挖掘与信息检索

数据挖掘与信息检索

数据挖掘与信息检索随着信息技术的迅猛发展,人们对于数据的需求也变得越来越多。

数据挖掘和信息检索作为数据处理的两个重要方面,在不同的场景中扮演着重要的角色。

本文将从定义、应用领域和方法技术三个方面来介绍数据挖掘和信息检索。

一、定义1. 数据挖掘数据挖掘是指从大量数据中自动发现隐藏在其中的有价值的信息和模式的过程。

通过使用各种技术和算法,数据挖掘可以帮助我们从数据中提取有用的信息和知识,以支持决策和预测。

2. 信息检索信息检索是指从大量的、分散的数据中快速找到用户需要的信息的过程。

信息检索旨在通过建立合适的索引和使用有效的检索算法,实现用户对信息的高效获取和利用。

二、应用领域1. 数据挖掘数据挖掘在各个领域中都有广泛的应用。

在商业领域中,数据挖掘可以用于市场分析、客户关系管理、销售预测等;在医疗领域中,数据挖掘可以用于疾病预测、医疗证据发现等;在社交媒体领域中,数据挖掘可以用于用户兴趣分析、舆情监测等。

2. 信息检索信息检索在互联网搜索引擎中得到了广泛的应用。

用户可以通过输入关键词,搜索引擎会根据索引和算法,快速返回与关键词相关的网页、图片、视频等各种类型的信息。

除了互联网搜索引擎,信息检索还可以应用于文档管理系统、知识图谱构建等领域。

三、方法技术1. 数据挖掘数据挖掘的方法技术包括聚类分析、分类分析、关联规则挖掘、异常检测等。

聚类分析用于将数据分成不同的群组;分类分析用于对数据进行分类预测;关联规则挖掘用于寻找数据中的相关规律;异常检测用于发现数据中的异常行为。

2. 信息检索信息检索的方法技术包括索引构建、查询处理和排序等。

索引构建是指将文档中的关键词提取出来,并建立索引表;查询处理是指根据用户的查询请求,对索引表进行查询和匹配;排序是指根据一定的权重计算,将检索到的结果按照相关性进行排序。

总结:数据挖掘和信息检索在今天的数字化时代中起着重要的作用。

数据挖掘可以帮助我们从海量的数据中发现有价值的信息和知识,为决策和预测提供支持;信息检索可以帮助我们从大量的分散数据中快速定位并获取所需的信息。

信息检索与数据挖掘技术研究

信息检索与数据挖掘技术研究

信息检索与数据挖掘技术研究第一章绪论信息检索与数据挖掘技术是信息科学中的两个重要分支,它们的发展与应用已经越来越引起人们的关注。

随着大数据时代的到来,信息检索与数据挖掘技术正在成为深度学习、人工智能等前沿科技发展的重要基础。

本文将从概念和定义、研究意义、研究现状和未来展望等四个方面深入研究信息检索与数据挖掘技术的相关问题。

第二章概念和定义信息检索是指通过计算机程序对大量的文本信息进行处理和归类,为用户提供信息的一种技术。

数据挖掘则是指从大量数据中发掘规律、模式和趋势,提供数据分析和决策支持的技术。

两者之间有一定的交叉和联系,在实际应用中常常同时使用。

信息检索和数据挖掘技术的应用范围非常广泛。

例如,搜索引擎利用信息检索技术,为用户提供知识和信息;数据挖掘则在电子商务、金融、医疗等领域得到广泛应用,依靠其强大的数据分析能力为企业提供决策参考。

第三章研究意义信息检索和数据挖掘技术的研究意义非常重大。

在当今信息爆炸的时代,各种信息和数据都在不断地增长和扩散,如何有效地获取、处理、存储和利用这些信息和数据,已经成为一个非常重要的科学问题。

信息检索和数据挖掘技术发挥着不可替代的作用。

首先,信息检索技术能够快速准确地找到用户所需要的信息,为其提供知识和帮助。

随着互联网的高速发展,用户需要从海量信息中找到最相关、最有用的信息,信息检索技术的重要性也越来越明显。

其次,数据挖掘技术能够从大量数据中挖掘出隐藏在数据背后的规律、模式和趋势,为企业提供决策参考。

在大数据时代,各种企业都需要获取并分析大量的数据,数据挖掘技术能够为其提供强有力的支持。

第四章研究现状目前,信息检索和数据挖掘技术已经取得了很大的进展,并在实际应用中得到广泛推广。

在信息检索领域,主要的搜索引擎有Google、Baidu、Yahoo等;在数据挖掘领域,主要的工具有SPSS、R、Python等。

同时,研究人员也在不断探索新的方法和工具,提高信息检索和数据挖掘的效率和准确率。

常用于信息检索和数据挖掘的加权技术

常用于信息检索和数据挖掘的加权技术

随着信息时代的到来,数据量的爆炸性增长使得信息检索和数据挖掘成为了重要的研究方向。

在这个过程中,加权技术作为一种常用的方法,被广泛应用于信息检索和数据挖掘的实践中。

本文将介绍常用于信息检索和数据挖掘的加权技术。

一、加权技术的概念加权技术是信息检索和数据挖掘中常用的一种技术手段,其基本思想是通过对不同数据或信息进行加权处理,从而得到更合理、更准确的结果。

在信息检索中,加权技术被用于对检索结果进行排序和过滤;在数据挖掘中,加权技术则被用于对数据进行特征提取和模式识别。

加权技术可以帮助我们更好地处理和利用海量的信息和数据,提高信息检索和数据挖掘的效率和准确性。

二、加权技术的常见方法1.TF-IDF方法TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的加权技术,它通过统计每个词在文档中的出现频率和在整个语料库中的出现频率来进行加权处理。

具体来说,TF-IDF方法先计算每个词的TF值(词频)和IDF值(逆文档频率),然后将它们相乘得到最终的加权值。

TF-IDF方法在信息检索中被广泛应用,能够有效地反映出每个词在文档中的重要程度,从而提高检索结果的准确性。

2.权重向量模型权重向量模型是另一种常见的加权技术,它通过构建特征向量并对每个特征进行加权处理来实现信息检索和数据挖掘的目的。

在权重向量模型中,我们可以根据具体的需求和场景选择不同的加权方法,比如使用余弦相似度进行加权,或者使用基于概率统计的方法进行加权。

权重向量模型在实际应用中具有较高的灵活性和可定制性,能够更好地适应不同的信息检索和数据挖掘任务。

3.基于机器学习的加权方法随着机器学习技术的不断发展,基于机器学习的加权方法也逐渐成为了信息检索和数据挖掘领域的热门话题。

这类方法通过构建模型并对训练数据进行学习,从而得到能够自动适应不同情况的加权规则。

在信息检索中,我们可以使用基于机器学习的排序模型来对检索结果进行加权和排序;在数据挖掘中,我们也可以使用基于机器学习的分类器来对数据进行加权和分类。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Heaps law:在给定的语料中,独立的term数(vocabulary的 size)v(n)大致是语料大小(n)的一个指数函数。
Benford law:在自然形成的十进制数据中,任何一个数据的 第一个数字d出现的概率大致log10(1+1/d)
信息检索与数据挖掘
压缩
• 现在,我们考虑压缩词典和倒排记录表
2019/3/7
12
M:词项总数 T:词条总数
信息检索与数据挖掘
2019/3/7
13
Zipf定律
• Heaps定律提供了对文档集中词汇量的估计
• 我们还想了解词项在文档中的分布情况
• 在自然语言中,只有很少一些非常高频的词项,而 其它绝大部分都是很生僻的词项。
• Zipf定律:排名第i多的词项的文档集频率与1/i 成正比
信息检索与数据挖掘
中文词频规律示例
2019/3/7
17
汉语言文学作品中词频的Zipf分布,王洋,刘宇凡,陈清华,北京师范大学学报(自然科学版)2009
信息检索与数据挖掘
题外话
2019/3/7
18
• 很多复杂系统同时满足Zipf定律和Heaps定律,但是对于两者关 系,学术界存在长期争论。通过一些随机过程模型,有些学者认 为Zipf定律是本质的,Heaps定律是衍生的,可以从Zipf定律推 出;有些学者(Zanette, Moutemurro)认为Heaps定律是本质的, Zipf定律是衍生的;有的学者认为这两种定律相互独立。
• 仅仅考虑基本的布尔索引 • 不研究包含位置信息的索引 • 我们将考虑压缩架构
2019/3/7
22
信息检索与数据挖掘
索引压缩
• 统计信息(对RCV1语料库)
• 词典和倒排记录表将会有多大? • Heaps定律:词项数目的估计 • Zipf定律:对词项的分布建模
• 词典压缩
• 将词典看成单一字符串的压缩方法 • 按块存储/前端编码
信息检索与数据挖掘
2019/3/7
14
Zipf定律推论
• 如果最高频的词项(the)出现了cf1次
• 那么第二高频的词项(of)出现了cf1/2次 • 第三高频的词项(and)出现了cf1/3次
• 等价的:cfi = K/i 中K是归一化因子,所以
• Log cfi = log K - log i • log cfi和log i之间存在着线性关系
• 在对数空间中,这是这两者之间存在的最简单的关系 • 这是一个经验发现(“empirical law”)
Heaps定律是Heaps在1978年一本关于信息挖掘的专著 中提出的。事实上,他观察到在语言系统中,不同单 词的数目与文本篇幅(所有出现的单词累积数目)之 间存在幂函数的关系,其幂指数小于1。
讨论:0的原因?
信息检索与数据挖掘
2019/3/7
9
无损 vs. 有损压缩
• 无损压缩:压缩之后所有原始信息都被保留。
• 在IR系统中常采用无损压缩
• 有损压缩:丢掉一些信息 • 一些预处理步骤可以看成是有损压缩:大小写转换,
停用词剔除,词干还原,数字去除。
• 第7章:那些削减的倒排记录项都不太可能在查询 结果的前k个列表中出现。
• 但我们仍然不能解决“supercalifragilisticexpialidocious” 和“hydrochlorofluorocarbons”
• 书面英文中单词的平均长度约为4.5个字符
• 练习:为什么不用这个值来估计词典的大小?
• 英语中平均的词典词项长度为8个字符
• 平均会有12个字符的空间浪费
• cfi ∝ 1/i = K/i,K是一个归一化常数
• Cfi是文档集频率:词项ti在文档集中出现的次数
Zipf定律是Zipf在1949年的一本关于人类定位的最小作用原理的书中首先 提出的,其中最令人难忘的例子是在人类语言中,如果以单词出现的频次 将所有单词排序,用横坐标表示序号,纵坐标表示对应的频次,可以得到 一条幂函数曲线。这个定律被发现适用于大量复杂系统。
词典
无位置信息索引
包含位置信息的索引
未过滤 无数字 大小写转换 30个停用词 150个停用词 词干还原
数目(K) ∆% T% 数目(K) ∆% T% 数目(K) ∆% T%
484,494
109,971
197,879
474,723 -2
-2 100,680 -8
-8 179,158.2 -9
-9
391,523 -17
• [读取压缩数据][解压缩]比直接[读取未压缩的数据]快 • 前提:解压缩算法要很快
• 我们目前所用的解压缩算法在现代硬件上运行相当快
信息检索与数据挖掘
2019/3/7
6
为什么要压缩倒排索引?
• 词典
• 压缩的足够小以便能够放入内存中 • 当词典足够小时,我们也可以在内存中存储一部分的倒
排记录表
2019/3/7
19
关于数字的统计规律
第一数字定律(Benford law)
描述的是自然数1到9的使用频率F(d)=log[1+(1/d)] (d为自然数),其中1使用最多接近三分之一,2为 17.6%,3为12.5%,依次递减,9的频率是4.6%。
科学家们仔细研究第一数字定律后,无法对这种现象 做出合理解释。定律的主要奠基人Frank Benford对 人口出生率、死亡率、物理和化学常数、素数数字等 各种现象进行统计分析后发现,由度量单位制获得的 数据都符合第一数字定律。当然彩票上随机数据并不 符合。
以便搜索能快速启动 • 所以,压缩词典非常重要
尽管即使是非常大规模的文档集的词典也往往能够放入一台标准台式计 算机的内存,但是在很多其他场景下情况并非如此。例如,大公司的一 台企业搜索服务器也许要索引数太字节的文档,由于文档中可能包含多 种不同语言,所以最后的词汇量可能会很大。
信息检索与数据挖掘
词典存储
• 较短的词项支配了词条的数目但是并不是典型的平
均值
hydro-chlorofluorocarbons 氢氯氟烃
supercalifragilisticexpialidocious 奇妙的; 难以置信的
含义

文档总数
每篇文档的平均词条数目 200
词项总数
400,000
每个词条的平均字节数 6 (含空格和标点符号)
每个词条的平均字节数 4.5 (不含空格和标点符号)
每个词项的平均字节数 7.5
倒排记录总数
160,000,000
信息检索与数据挖掘
2019/3/7
8
索引参数 vs. 索引内容
不同词项
无位置信息倒排记录 词条
• 尤其当采用Unicode编码时
信息检索与数据挖掘
2019/3/7
11
词汇量 vs. 文档集大小
• Heaps定律:M = kTb
• M是词项的数目,T是文档集中词条的个数
• 参数k和b的典型取值为:30≤k≤100和b≈0.5
• 词汇量大小M和文档集大小T在对数空间中,存在着 斜率为½的线性关系
• 定长数组存储
• 400,000词项;20字节/词项 = 11.2 MB
词典搜索结构
词项
a aachen …. zulu
文档频率 指向倒排记 录表的指针
656,265
65
….
221
20 字节 每个4字节
2019/3/7
25
信息检索与数据挖掘
2019/3/7
26
定长方法存储词项浪费空间
• 在词项那一列大部分的字节都被浪费 — 我们为每 个词项分配了20字节的固定长度。
• 对于前k个返回结果来说,这几乎是无损的
有损还是无损与需求相关!!
信息检索与数据挖掘
2019/3/7
10
词汇量 vs. 文档集大小
• 词项的词汇量有多大?
• 也就是说,有多少个不同的词?
• 我们可以假定一个上界吗?
• 实际上并不可以:长度为20的不同单词至少有7020=1037个
• 实际中,词汇量会随着文档集大小的增大而增长
信息检索与数据挖掘
Heaps定律
对RCV1文档集来说,虚线
log10M = 0.49log10T + 1.64
是基于最小二乘法的最佳拟合 结果。
则 M = 101.64T0.49 , 所 以 k = 101.64 ≈ 44,b = 0.49
对RCV1是一个很好的经验拟合!
对于前1,000,020个词条, Heaps 定 律 会 估 计 得 到 大 约 38,323个词项; 而实际数目是 38365 ,和估计 值非常接近
• 词典压缩
• 将词典看成单一字符串的压缩方法 • 按块存储/前端编码
• 倒排记录表压缩
• 可变长字节码 • 一元编码/ γ 编码
2019/3/7
4
信息检索与数据挖掘
2019间
• 省钱
• 提高内存的利用率
• 提高速度
• 加快数据从磁盘到内存的传输速度
• 倒排记录文件
• 减少所需的磁盘空间 • 减少从磁盘读取倒排记录文件所需的时间 • 大的搜索引擎在内存中存储了很大一部分的倒排记录表
• 压缩可以让我们在内存中存储的更多
• 我们将设计各种基于IR系统的压缩架构
信息检索与数据挖掘
回顾 Reuters-RCV1语料库
2019/3/7
7
符号 N L M
-19 96,969 -3 -12 179,157.8 0 -9
391,493 -0 -19 83,390 -14 -24 121,858 -31 -38
391,373 -0 -19 67,002 -30 -39 94,517 -47 -52
相关文档
最新文档