搜索引擎关键技术——文本处理

合集下载

AI技术如何实现智能搜索引擎

AI技术如何实现智能搜索引擎

AI技术如何实现智能搜索引擎引言:在当今信息爆炸的时代,搜索引擎成为了人们获取所需信息的主要工具。

然而,传统的搜索引擎往往只能通过关键词匹配来返回相关的结果,而无法理解用户的具体意图。

为了解决这一问题,人工智能(AI)技术被应用于搜索引擎中,使其更加智能化。

本文将探讨AI技术如何实现智能搜索引擎。

一、语义理解和自然语言处理在传统的搜索引擎中,用户通常通过输入关键词来检索相关内容。

然而,很多时候用户所需信息并不仅仅局限于某个特定关键词,而是希望能够准确表达自己的需求。

AI技术在语义理解和自然语言处理方面做出了突破。

1. 语义理解AI技术通过深度学习算法和自然语言处理模型来进行语义理解,从而帮助搜索引擎更好地把握用户意图。

例如,在输入搜索词之后,基于机器学习和神经网络的算法可以分析用户输入背后的含义,并提供与之相符合的结果。

2. 自然语言处理AI技术中的自然语言处理模型可以将用户提供的自然语言文本转化为计算机能够理解和处理的形式。

通过将文本进行分词、词性标注、命名实体识别等技术,搜索引擎能够更好地理解用户查询的含义和特点,从而提供更有针对性的搜索结果。

二、机器学习与个性化推荐传统搜索引擎往往只能提供基于关键词匹配的结果,无法根据用户个人兴趣和偏好定制化推荐内容。

而利用机器学习技术可以提升搜索引擎中的个性化服务。

1. 机器学习算法AI技术中广泛应用的机器学习算法,可以通过对海量数据的训练和学习来建立模型,并预测用户喜好和行为。

搜索引擎可以通过分析用户在过去浏览记录、点击行为以及反馈等信息,生成个性化推荐结果,并为每位用户量身定制个性化的搜索体验。

2. 推荐系统AI技术为搜索引擎打造了更加智能和精准的推荐系统。

根据用户过去行为和兴趣爱好等信息,推荐系统能够提供相关度更高的搜索结果,并通过实时更新和个性化推荐算法,为用户呈现更有价值的信息内容。

三、图像和语音识别AI技术在图像和语音识别方面的应用,为智能搜索引擎带来了全新的可能性。

浅析文本检索关键技术

浅析文本检索关键技术
收 稿 日期 :0 2 0 — 2 2 1— 3 1
浅新 文本检索 关键技木
宗 萍
( 华北电力大学 图书馆 , 北京 ,0 2 6 12 0 )
摘 要: 文本 检 索技 术 是 重要 的 现 代 信 息检 索技 术之 一 。 以文 本信 息检 索过 程 的 文本
处理 、 索模 型、 搜 查询 处理 和用户界 面 4个主要环 节为基础 , 简单 归纳、 分析 了文本检 索各技术环节的具体 内容及其特点。
2 搜索模 型
搜 索模 型的构建 是指 如何 在所 组织的文本信息 中找到用户 需要的信息 。信息检索的核心是预测 哪些数据相关 、 哪些数据不 相关。这通 常取决于所采用的排序算法 , 排序算法是信息检索系 统 的核心 , 决定对检出的文献简单 的排列次序 。排序算法是根据
文献相关 的概念这一基本假设来运算的 ,不 同的假设方式形 成
4 可 视化界 面
图形化 的用户搜索界面设计可利用丰 富的图形 或图像揭 示
1 9
科技情报开发与经济
文 章 编 号 :0 5 6 3 (0 2 1— 0 0 0 10 — 0 32 1 )4 0 2 — 3
关 键 词 : 本检 索 ; 息检 索 ; 文 信 关键 技 术 中 图分 类 号 : 2 49 G5. 文 献标 识 码 : A
随着计算机技术和网络通信技术的迅 速普及 , 近年来信息检 索技术有了突飞猛进的发展 , 其中文本检索技术是信息检索 中最 为核心的一支。 目前 , 文本检索技术 已经深入应用到政府 、 企业 、 图 书情报机构等各类型机构和组织 , 成为信息化建设和知识管理 的 重要工具。面 向文本 的信息检索过程 由文本处理 、 搜索模型、 查询 处理和用户界面 4 个主要环节组成 , 本文将作一介绍。

文本分析算法

文本分析算法

文本分析算法文本分析算法是当今文本分类、句子检测、文本聚类、文本抽取、垃圾邮件过滤、自然语言处理(NLP)和搜索引擎技术等领域的一个重要研究课题。

随着数据科学的发展,这些领域涉及的方法越来越多,文本分析算法也在不断深入发展。

简而言之,文本分析算法是指在文本处理过程中使用的算法。

这些算法可以用于从原始文本中提取和解释有用信息,从而帮助用户识别重要文本特征,进行深入研究和分析。

文本分析算法也可以称为“文本挖掘算法”,它可以从大量文本中抽取、检验、归类和发现有价值的信息。

文本分析算法的主要用途是将原始文本数据转换为有用的信息,比如:1.本分类:文本分类算法可以将文本分类为不同的类别,比如政治、社会、娱乐、新闻等。

2.子检测:句子检测算法可以用于检测具有特定语义的句子。

3.本聚类:文本聚类算法可以将文本分类到不同的类别中,从而更好地理解文本的含义。

4.本抽取:文本抽取算法可以从文本中抽取出最重要的文本片段,从而更好地理解文本的含义。

5.圾邮件过滤:垃圾邮件过滤算法可以对垃圾邮件进行过滤,从而将有用的邮件分类为不同的类别。

6.然语言处理:自然语言处理(NLP)算法可以帮助机器理解、分析和操作文本,从而可以实现自动文本摘要、文本分类、文本聚类等一系列任务。

7.索引擎技术:搜索引擎技术使用文本分析算法,比如关键词提取算法,可以有效地识别和排序出搜索结果。

众所周知,文本分析算法的实现受到语言的限制,这也就意味着不同语言的文本分析算法也会有所不同。

英语文本分析算法的实现一般使用基于特定语义的规则,这些规则可以帮助算法分析和理解文本。

其他语言文本分析算法的实现也大体类似,但会有一定差异。

由于文本分析算法受到语言的限制,所以在实现时需要分类和定义不同语言的语句结构和词汇,然后再用这些词汇构建不同的结构。

这些结构可以通过文本生成模型来实现,文本生成模型可以用来发现文本中有意义的特征,比如词汇、句子形式、语义等。

文本分析算法还可以使用机器学习技术来提高效率,比如神经网络、决策树、支持向量机等。

搜索引擎的使用方法和技巧

搜索引擎的使用方法和技巧

百度搜索引擎的使用方法和技巧学生姓名:学院:信息技术学院专业:信管(电)班级:学号:指导教师:完成日期: 2015年3月28日辽东学院Eastern Liaoning University一、简单搜索1. 关键词搜索只要在搜索框中输入关键词,并按一下“搜索”,百度就会自动找出相关的网站和资料。

百度会寻找所有符合您全部查询条件的资料,并把最相关的网站或资料排在前列。

小技巧:输入关键词后,直接按键盘上的回车键(即Enter健),百度也会自动找出相关的网站或资料。

关键词,就是您输入搜索框中的文字,也就是您命令百度寻找的东西。

可以是任何中文、英文、数字,或中文英文数字的混合体。

可以命令百度寻找任何内容,所以关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文、、、例如:可以搜索[windows]、[918]、[F-1赛车]。

可以输入一个关键词,也可以输入两个、三个、四个,您甚至可以输入一句话。

例如:可以搜索[博客]、[原创爱情文学]、[知音,不需多言,要用心去交流;友谊,不能言表,要用心去品尝。

悠悠将用真诚,尊敬和大家来建立真正的友谊]。

注意:多个关键词之间必须留一个空格。

2. 准确的关键词百度搜索引擎严谨认真,要求一字不差。

例如:分别输入 [舒淇] 和 [舒琪] ,搜索结果是不同的。

分别输入 [电脑] 和 [计算机] ,搜索结果也是不同的。

因此,如果您对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。

3. 输入两个关键词搜索输入多个关键词搜索,可以获得更精确更丰富的搜索结果。

例如,搜索[悠悠情未老],可以找到几千篇资料。

而搜索[悠悠情未老],则只有严格含有“悠悠情未老”连续5个字的网页才能被找出来,不但找到的资料只有几十篇,资料的准确性也比前者差得多。

因此,当你要查的关键词较为长时,建议将它拆成几个关键词来搜索,词与词之间用空格隔开。

多数情况下,输入两个关键词搜索,就已经有很好的搜索结果。

搜索引擎技术

搜索引擎技术

搜索引擎技术
搜索引擎技术是一种用于从大型数据集合中找出与用户查
询相关的信息的技术。

它涉及到多个方面,包括索引技术、查询处理技术、排名算法等。

以下是一些搜索引擎技术的
关键组成部分:
1. 网页爬取:搜索引擎通过网络爬虫抓取互联网上的网页,并将这些网页存储到自己的数据库中。

2. 数据处理和索引:搜索引擎将爬取到的网页进行处理,
提取出其中的文本内容,并建立索引,以便能够快速地检
索相关的网页。

3. 查询处理:当用户输入查询关键词时,搜索引擎将通过
查询处理技术解析用户的查询,提取出其中的关键信息,
并根据索引进行检索,找出与查询相关的网页。

4. 排名算法:搜索引擎通过一系列的排名算法来确定搜索
结果的排序顺序。

这些算法根据不同的因素评估网页的相
关性和质量,例如关键词匹配度、网页的权威性和用户反
馈等。

5. 用户界面:搜索引擎还需要提供一个用户界面,以便用
户输入查询,并展示搜索结果。

用户界面通常包括搜索框、搜索按钮、分页和过滤等功能。

6. 垂直搜索和个性化搜索:搜索引擎可以根据用户的兴趣
和行为提供个性化的搜索结果,并针对特定的领域(如新闻、图片、视频等)提供专门的搜索服务。

综上所述,搜索引擎技术是一种复杂的技术体系,涉及到
多个方面的知识和技术,旨在为用户提供准确、全面、高
效的搜索结果。

文本信息检索相关处理技术

文本信息检索相关处理技术

词性标注
对文本中的每个词语进行词性标注,有助于 理解词语在句子中的功能和意义。
文本表示模型
向量空间模型
将文本表示为高维向量空间中的 一个向量,利用向量间的相似度 度量文本间的关系。
主题模型
通过学习文档集合的主题分布, 将文档表示为主题的权重向量, 实现文档间的语义关联。
深度学习模型
利用神经网络技术,将文本表示 为固定长度的向量,能够更好地 捕捉文本的语义信息。
感谢您的观看
THANKS
04
文本信息检索的挑战与解决 方案
数据稀疏问题
总结词
数据稀疏问题是文本信息检索中的一大挑战,指在大 量文本数据中,与特定查询相关的文档数量较少。
详细描述
由于文本数据的海量增长,与特定查询相关的文档往往 只占很小一部分,这使得信息检索变得困难。为了解决 数据稀疏问题,可以采用以下策略:利用无监督学习算 法对文本数据进行预处理和特征提取,以发现潜在的主 题和语义模式;利用深度学习技术,如卷积神经网络 (CNN)或递归神经网络(RNN),对文本数据进行建 模,以捕捉更复杂的语义信息;采用集成学习等技术, 将多个模型的结果进行融合,以提高检索性能。
出与用户兴趣相关的信息,推荐给用户。
接影响信息过滤的效果。
信息推荐
信息推荐是文本信息检索技术的另一个 应用。通过分析用户的阅读历史、兴趣 爱好等信息,推荐系统可以向用户推荐 相关的文章、视频、产品等资源。
信息推荐的原理主要是利用协同过滤、内容 推荐等算法,根据用户的兴趣和行为,推荐 相似的资源。
信息推荐的关键技术包括用户画像、 推荐算法、数据挖掘等,这些技术 直接影响信息推荐的效果。
当前阶段
深度学习、自然语言处理等 技术的引入,使得文本信息 检索更加智能化、个性化。

搜索引擎中的中文信息处理技术

搜索引擎中的中文信息处理技术
( 成 语 、专 有 名侧 等 ) 如 。 中 文 词 的 一 个特 点 是 数 量 繁 多 汉 语 中 常 用 的 词 有 几 万条 , 《 代 汉 语 词 典 》 中 收 录 的 词 就 达 6百 十 之 多 。 而 现 且 ,随 着 社 会 的 发 展 , 不 断 地 有 新词 产 生 中 文 词 的 另 一
立 字 符 ,汉 字 的 数 目大 约 有 数 万 个 之 多 在 计算 机 中 文 系
处理 中文 信 息 的 另 一 个 难 点 源 于 汉 字 的 书 写 习 惯 。在 英 文 系统 中 .词 与 词 之 间在 书写 上 用 空 格 隔 开 ,计 算 机 处 理 时 可 非 常 容 易 地 从 中 识 别 出 一 个 一 个 的 词 。而 在 汉 语 系统 中 。 书写 以 句 子 为 单 位 .句 问 有 标 点 隔 开 ,在 旬 内 , 宇 和词 则 是 连 续 排 列 的 ,它 们 之 间 没 有 任 何 分 厢 。 这 样 ,
维普资讯
第 5 期
2 0 年 5月 02
坝 代 情 报
M 20O2 N5 o v
搜 索 引擎 中 的 中文信 息处 理 技术
赵 新 民 ( 曲阜 师 范 大 学 , 曲阜 2 3 6 ) 7 15
[ 摘 要] 基于中文信息处理 的特睬性和复杂性 。皋文就 中文搜 索引擎 中的若干 中文信 息处理技
术进 行 了 幕八 地 探 讨 、 叶诸 如 中文 分 词 、 中文码 制转 换 和 中文 奎 卓 角处理 等 方 面提 出 了一 种较 为 完整 的
解 决 方 案
[ 关键 词 ] 搜 索 引 擎 ; 中文 分词 ;码 制 转 换 :奎 半 角 处理 [ 图 分 类号 ]T 3 1 [ 中 P9 文献 标 识 码 ]B [ 章 编 号 ] 10 —02 【02 5— 08— 3 文 08 8 1 20 0 09 0 J

文本检索名词解释-概述说明以及解释

文本检索名词解释-概述说明以及解释

文本检索名词解释-概述说明以及解释1.引言1.1 概述在当今信息爆炸的时代,人们面临着海量的文本信息,如何快速准确地从中找到所需的信息变得至关重要。

文本检索作为一种关键技术,被广泛应用于各个领域,如搜索引擎、知识图谱构建、智能问答等。

文本检索是指通过检索技术,在大规模文本数据集中查找与用户需求相关的文本信息。

它与传统的数据库检索不同,后者主要针对结构化数据,而文本检索要处理的是非结构化的自然语言文本。

因此,文本检索面临着一系列挑战,如信息的表示和建模、匹配算法的设计和优化等。

文本检索的目标是通过建立索引,将文本数据集中的信息与用户的查询进行精确匹配或相关匹配,从而快速地定位到用户所需的文本信息。

为了实现这一目标,文本检索涉及到多个关键步骤,包括预处理、特征提取、索引构建和查询处理等。

预处理是指对文本进行一系列的处理操作,如分词、去除停用词、词干化等,以便后续的特征提取和索引构建能够更好地进行。

特征提取是指从文本中抽取出有代表性的特征,用于描述文本的内容和语义。

索引构建是指根据提取的特征,建立索引结构,以便于高效地查询处理。

查询处理是指根据用户的查询,通过索引结构,找到与查询相关的文本信息。

文本检索技术的重要性不言而喻。

随着互联网的普及和信息的快速增长,用户对信息的获取需求也越来越强烈。

只有通过高效准确的文本检索,才能满足用户的需求,提高信息获取的效率和质量。

未来,在人工智能和大数据时代的推动下,文本检索技术还将继续发展,并发展出更加智能化和个性化的应用。

综上所述,本篇文章旨在对文本检索进行名词解释,介绍文本检索的基本概念、关键步骤和技术挑战。

在接下来的章节中,我们将详细解释文本检索中涉及到的各个名词,并讨论文本检索的重要性和未来的发展趋势。

1.2 文章结构本文主要介绍了文本检索的相关概念和方法,并对其重要性和未来发展进行了讨论。

具体而言,文章分为引言、正文和结论三个部分。

在引言部分,首先对文本检索进行了概述,说明了其在信息检索领域的重要性和广泛应用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于连字符的处理,目前常用的是首 先采用一定的规则选出那些对词义有影响 的连字符号,然后将其他连字符都过滤掉。
• 标点符号
对于文本中的标点符号,一般说来在 词法分析过程中将被全部去除。但是,对 于那些成为单词中一部分的标点符号来说, 又要慎重考虑是否删除标点。
另外一种特殊情况是程序片段出现在 文本中,这时就要区分变量x.id与xid了。 这种情况下,标点符号应该保留。
例:“这种设计方法学的理论,不可 能有用”
b. 基于理解的分词方法
这种分词方法是通过让计算机模拟人 对句子的理解,达到识别词的效果。
其基本思想就是在分词的同时进行句 法、语义分析,利用句法信息和语义信息 来处理歧义现象。
该分词方法需要使用大量的语言知识 和信息。由于汉语语言知识的笼统、复杂 性,难以将各种语言信息组织成机器可直 接读取的形式,因此目前基于理解的分词 系统还处在试验阶段。
c) 双向匹配法BM(Bi-direction Matching method)
基本原理:分别用FMM法和BMM法进 行正向和逆向的扫描和切分,通过比较两 者的切分结果来决定正确的切分,而且可 以识别出分词中的交叉歧义。但是对于正、 逆向的扫描结果一致但实际切分不正确的 字段(如“结合成分子时”)仍不能正确 处理。
待处理网页

页 噪
干净网页



词 汇 分 析
排 词序列 除
停 用 词
有用词序列
词 干
关键词


HTML文档预处理流程
文本处理的过程包括如下5个步骤:
• 文本的词法分析 • 无用词汇的删除 • 词干提取 • 索引词条/词干的选择 • 构造词条的分类结构
1.词法分析
词法分析的过程是将字符串转换成词 条的过程,因此词法分析的主要目的就是 识别文本中的词条。
缺点:时间复杂度增加,而且词库结 构比一般的分词词库要复杂很多。
d) 最少匹配算法FWM(Fewest Words Matching method)
该算法实现的分词结果中含词数最少。
e) 设立切分标识法
该算法的思想是:优先在待分析字符 串中识别和切分出一些带有明显特征的词, 以这些词作为断点,可将原字符串分为较 小的串,然后用FMM或BMM法进行细分。
删除无用词,一方面可以减小索引空 间,另一方面可以提高检索精度,但也可 能会降低系统的召回率(查全率),使得 用户不能查到自己需要的网页。
4.词干提取
词干是去除单词的前缀和后缀后剩 下的部分。词干提取就是把同词干同义 的不同词语中的相同部分提取出来。 • 优点 a.在一定程度上提高信息获取的性能 b.缩小索引空间的大小 • 缺点 可能会有勿截,造成词义的改变,影响 查询的结果
• 另一种可选的方法是通过对文档的分析来 自动选择索引词,该方法没有第一种方法 准确,但可由系统自动实现。
6.词典
词典是用来根据词汇找到对应词汇信 息的数据汇编。
• 词典的主要内容 a. 有关某个领域知识的重要词汇; b. 对于词典中的每个词汇,都有跟它相
关的一些词汇。这些相关的词汇可以是它 的变形或者它的同义词;
c. 词典中还包含一个相对复杂的词汇和 结构,而不只是简单的词汇列表和它们的 同义词。
•词典的主要作用:
a. 提供索引和搜索的标准词汇; b. 帮助用户使用合适的查询词汇; c. 提供分类层次结构,这样可以根据用户的
需求来扩大或者缩小查询请求。
词典的主要组成部分是索引词、词语 之间的关系以及编排的方式。
网络搜索引擎关键技术 ——文本处理
主要内容
本讲稿对搜索引擎的关键技术进行了概 述,着重讨论了信息预处理技术中的文本处 理。
一.搜索引擎的关键技术
1. 信息收集和存储技术
包括两种方式:人工和自动。
• 人工方式采用传统的信息收集、分类、存储、 组织和检索的方法。
• 自动方式通常是由网络机器人来完成的。 • 一般来说,人工方式收集信息的准确性要远优
d. 分词中的难题
a) 歧义识别 歧义是指同样的一句话,可能有两种
或者更多的切分方法,这是由中文本身的 特性形成的。 包括: • 交叉歧义,如“表面的”; • 组合歧义,如“这个门把手坏了”; • 真歧义,如“乒乓球拍卖完了”。
b) 新词识别
由于中文信息检索系统中的索引项是 基于一定的词库构建而成的,定期更新, 那么对于一些没有收入词库而用户提交查 询的新词,检索系统是无法按照用户的本 意来识别这些新词的。
现在常用的做法是保留一些专门指出 的(通过与正规表达式的匹配)数字,而 将其他数字过滤掉。
• 连字符
对连字符来说,也有两难情况。
一种方法是将连字符都忽略掉,例如 state-of-the-art等同于state of the art。 但是,有些带有连字符的单词本身是一个 完整的单词,如gilt-edged。
与英文相比,中文词与词之间没有分 界符,需要人为切分,而且汉语中存在大 量歧义现象,对几个字分词可能有好多种 结果,因此将中文分词技术专门提出来做 详细总结。
•中文分词方式
a. 单字切分 按照中文一个字、一个字地进行分词。
以这种方式切分出来的词再进入索引,称 为字索引。
缺点:随着索引的增大,相应索引条 目的内容会不断增大,严重影响效率。
c. 基于统计的分词方法
从形式上看,词是稳定的字的组合, 因此在上下文中,相邻的字同时出现的次 数越多,就越有可能构成一个词。因此字 与字相邻共现的频率或概率能够较好地反 映成词的可信度。
于是可以对语料中相邻共现的各个字 的组合的频度进行统计,计算它们的互现 信息。互现信息体现了汉字之间结合关系 的紧密程度。当紧密程度高于某一个阈值 时,便可认为此字组可能构成了一个词。
b. 二分法 二分法是指每两个字进行一次切分。
该方法完全不考虑语义、语境,机械 地对语句进行处理,不是很好的分词方式。
c. 词库分词 该方法是用一个已经建立好的词的
集合(按某种算法)去匹配目标,当遇上 集合中已经存在的词时,就将其切分出来, 是一种较理想的中文分词方式。
•中文分词算法
a. 基于字符串匹配的分词方法
• 关键词的提取 • 重复或转载网页的消除 • 链接分析 • 网页重要程度的计算
3.信息索引技术
信息索引就是创建文档信息的特征记录,以 便用户能够快速地检索到所需信息。
• 信息语词切分和语词词法分析 • 进行词性标注及相关的自然语言处理 • 建立检索项索引 • 检索结果处理技术
二.文本处理
文本处理是指将网络爬虫搜集到的文 本信息进行预处理,以便进行网络信息检 索的下一个流程——索引处理。
关于词法分析,中英文存在较大的区 别,英文单词有空格分隔,易于识别,而 中文文本以句子为自然分隔单位,要提取 出词语来,需要复杂的分词技术。
在对英文进行分词的过程中,除了空 格分隔符,还有几种特殊的情况要处理: 数字、连字符、标点符号和字母的大小写。
• 数字 数字一般不作为索引词,因为如果没
有上下文的联系,它们的含义是模糊不清 的。
b) 逆向最大匹配法BMM(Backward Maximum Matching method)
其分词过程与正向最大匹配法相同, 不同的是每次是从待处理语料的末尾开始 处理,每次匹配不成功时去掉的是前面一 个汉字,即匹配方向是从右到左。
FMM方法的错误切分率为1/169, BMM方法的精度要高一些,其错误切分率 为1/245。
该方法又叫做机械分词方法,基本思 想是:截取一个字符串,把它与词典中的 词条进行匹配,若在词典中找到对应的词, 该字符串就被识别为一个词。
按照扫描方向的不同,可分为正向匹 配和逆向匹配;按照不同长度优先匹配的 情况,可分为最大匹配和最小匹配;按照 是否与词性标注过程相结合,可分为单纯 分词方法和分词与标注相结合的一体化方 法。
于“网络机器人”,但其收集信息的效率及全 面性低于“网络机器人”。
2.信息预处理技术
信息预处理系统的主要工作是从抓取的网页 中提取能够代表网页的属性,并将这些属性组成 网页的对象,然后根据一定的相关度算法进行计 算,得到每一个网页针对页面内容及链接每一个 关键词的相关度,并用这些信息建立索引数据库。
• 字母的大小写
字母的大小写对于区分索引词条来说 一般不是很重要,因此可以将文本中的所 有词条都转换成大写或者小写。
但是也存在特殊情况,例如对于描写 UNIX命令的文档,由于大小写都是约定俗 成的,因此用户并不希望改变文档中的大 小写。对于此种情况,就要特殊处理。
2.中文分词技术
中文分词技术属于自然语言处理技术 范畴,对于一句话,人可以通过自己的知 识来明白哪些是词,哪些不是词,但如何 让计算机也能理解?其处理过程就是分词 算法。
人名、机构名、地名、产品名、商标 名、简称、省略语等都可能是新词,目前 新词识别准确率已经成为评价一个分词系 统好坏的重要标志之一。
3.无用词删除
在网页或文档集合中出现频率高于 80%的单词通常被称为无用词或停用词 (stopword),它们对文档的含义没有任 何意义,不具有很好的文档区分能力,需 要被过滤、屏蔽掉。
a) 正向最大匹配法FMM(Forward Maximum Matching method)
主要思想:选取包含6~8个汉字的符 号串作为最大符号串,把最大符号串与词 典中的单词条目相匹配,如果不能匹配, 就削掉最右边一个汉字继续匹配,直到在 词典中找到相应的单词为止。
正向是指匹配方式从左向右。
例:“计算机科学和工程”
词干提取方法
a. 查表法 b. 词缀删除法 c. 后继变化数 d. N个字符列
应用最多的,最实际的词干提取方法 是去除词缀法。
Porter算法是最著名的词缀去除方法。
5.索引词选择
并不一定对文档中出现的所有词条都 建立索引,而是选择一些比较重要的词条 来建立索引。
相关文档
最新文档