跨语言信息检索课件

合集下载

跨语言信息检索的主要实现方法.ppt

跨语言信息检索的主要实现方法.ppt

4.中间语种翻译方法 一般认为,选择的中间语种是计算机容易自动 处理的语种,如英语等。特别是在跨语言信 息检索中遇到这样问题时:源语种和目标语 种之间无法进行直接翻译。此时只能借助于 中间语种将源语种翻译目标语种(源→中间→ 目标)或将源语种和目标语种翻译成中间语种 (源→中间←目标)。
5.非翻译方法(no translation approach)。
一、跨语言信息检索基本概念
1.跨语言信息检索的概念 跨语言信息检索(CLIR)是指用户用某种语 言从另外一种或多种语言表达的文献信息集 中检索出所需文献信息的方式或技术。
2.跨语言信息检索的类型 (1)双语言信息检索 (2)多语言信息检索 (3)特定领域的跨语言信息检索 (4)跨语言的多媒体信息检索
四、跨语言信息检索的发展趋势及 前景展望
1、发展趋势: (1)不断涉足新的语言种类。 (2)多种方法结合的效果要优于单种方法。 (3)结合语义分析提高查询精确度。 2、前景:由于CLIR 技术是正处于研究的新兴技术, 实际应用也不是很多,技术还不够成熟,因此在技 术方面仍期待有更核心性的突破和进展,从而形成 一套完备的理论体系以及成熟的实践操作技术。
2.文献翻译方法。 文献翻译方法是在信息检索之前,将文献信 息资源的信息语种转化为提问语种。文献信 息不仅指文本信息,也包括语音文献信息, 例如数字图书馆中就存在大量的数字化语音 文献。
3.提问式-文献翻译方法 综合提问式翻译方法和文献翻译方法的优点, 提出提问式-文献翻译方法来实现CLIR。这一 方法既减少用户的翻译成本,又提高检索服 务的质量,应该说是目前实现CLIR 比较理想 的选择。

谢!Biblioteka 除了上述几种通过翻译来实现跨语言信息检索的方法外, 还有学者提出了不进行任何翻译,只通过使用一些词形 处理手段,就可实现CLLR的技术。也称为同源匹配。 这种技术主要是基于印欧语系中的英语、法语等有共同 的起源,它们中的很多词有相似的拼写形式或者读音, 将英语词汇、法语词汇、英法双语文件映射到一个向量 空间中,可进行语义上的比较匹配。

信息检索与运用PPT课件(共8章)第一章 进入“信息殿堂”的钥匙---认识信息检索

信息检索与运用PPT课件(共8章)第一章 进入“信息殿堂”的钥匙---认识信息检索
(二)按照收录信息的完整程度划分
1 全文检索工具 全文检索工具主要指可以检索到文献全文,并且为检索结果提供全文阅读的信息检索工具。
图1-12 中国知网提供全文检索服务
2 二次检索工具 分类
目录型检索工具
题录型检索工具 文摘型检索工具
索引型检索工具
四、信息检索的工具
定义
目录型检索工具是记录文献具体出版单位、收藏单位及其他外表特征的检索工具。 它一般以一个完整的出版或收藏单位(如某图书馆)为基本著录单元,一般著录 文献的名称、著者、文献出处等。对于文献信息检索来说,国家图书馆馆藏目录、 学校或公共图书馆馆藏目录等是常用的目录型检索工具



信息检索基础知识
一、信息、知识和文献的概念
观察图1-6中的4张图片,你能从中得到哪些信息?这些信息的载体是什么?
(a) (a)
(b)
(c)
;(b)
图1-6 信息的形式与内容 ;(c)
(d)
;(d)

一、信息、知识和文献的概念
(一)信息
目前大家普遍接受的定义为:信息是客观存在的一切事物通过物质载体所发出的消息、情报、 指令、数据和信号中所包含的一切可传递和交换的内容。


产生


信 大脑思维重新 知

组织和有序化
实践应用 的




记录在载体上 文献
传递、研究、 运用
图1-7 信息、知识和文献的关系
二、信息检索的概念与原理
信息检索的基本原理,其核心是信息需求 与信息存储的比较和选择,即两者匹配的过程。 具体来说,就是信息使用者从特定的信息需求 出发,在特定的信息集合中根据存储信息时所 设定的线索与规则找出自己需要的信息。信息 检索的原理如图1-8所示。

信息检索技术(讲授版)PPT课件

信息检索技术(讲授版)PPT课件

开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签”
保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地
址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应
时间快的引擎。
-
3
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在 联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、 相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指 明了与用户需求最密切的文献线索,往往包含了相似的观点、思路、 方法,具有启发意义。
这里需要说明的是,在Windows 环境下,尤其是在中文数据库及网 站中,逻辑检索可以用算符将检索要求编成综合表达式向计算机一 次输入检索提问,也可以用窗口上的逻辑指令按钮(与、或、非) 进行分步组配提问和检索。
-
36
案例
-
37
布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布
尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索
例 2:《法国的邮电事业》的类号为“F635.65” ,“F63” 代表 世界各国 邮电事业,“565”为世界地区复分号,是法国的代号。 如主表类目没有注明依世界地区表复分时,则在世界地区复分号 上加国家区分号“()”以示区别
例3:《上海市现代摄影作品集》是“J426.51”,“J426”代表现 代摄影作品集,“51”为中国地区复分号,指上海市。
-
5
另一种较为普遍的查法是由近及远地追溯,这样由一变十, 由十变百地获取更多相关文献,直到满足要求为止。这种方法适 合于历史研究或对背景资料的查询, 其缺点是越查材料越旧,追 溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择 综述、评论和质量较高的专著作为起点,它们所附的参考文献筛 选严格,有时还附有评论。

信息检索通用教程教学课件ppt

信息检索通用教程教学课件ppt

1-3 基本方法
信息检索原理图
1-3 基本方法
2. 常用技术 布尔逻辑检索(Boolean Search) 截词检索(Truncation Search) 限制检索(Limitation Search) 位置检索(Position Search) 加权检索(Weight Search)
1-3 基本方法
原理原理信息存储与检索信息存储与检索信息检索信息检索信息的存储与检索之间的相符性信息的存储与检索之间的相符性113基本方法基本方法信息检索原理图信息检索原理图113基本方法基本方法常用技术常用技术布尔逻辑检索布尔逻辑检索booleansearchbooleansearch截词检索截词检索truncationsearchtruncationsearch限制检索限制检索limitationsearchlimitationsearch位置检索位置检索positionsearchpositionsearch加权检索加权检索weightsearchweightsearch基本方法基本方法常用技术常用技术布尔逻辑检索布尔逻辑检索booleansearchbooleansearch布尔逻辑算符图示布尔逻辑算符图示逻辑与逻辑非逻辑或逻辑异检索工具方法与步骤检索工具方法与步骤选择检索工具方法与途径实施检索过程评价检索结果修正调整检索策略分析检索问题13基本方法113基本方法基本方法检索工具方法与步骤检索工具方法与步骤11分析检索课题分析检索课题22选择检索工具方法与途径选择检索工具方法与途径33实施检索过程实施检索过程44修正或调整检索策略修正或调整检索策略bb11分析检索课题分析检索课题要查找的是什么类型的问题
书目、索引、 文摘等
各类字典、词 典、百科全书 等 类书、政书、 年鉴、手册、 名录、表谱、 图录等 丛书、总集、 资料汇编、综 述、方志等

跨语言信息检索技术

跨语言信息检索技术
The unchanged term can be expected to match successfully with a corresponding term in another language if the two languages have a close linguistic relationship.(for example, generation in English and French)
2021/8/2
3
The Internet Big Picture
World Internet Users and 2015 Population Stats
World Regions
Africa
Population Internet Users
1,158,355,663 313,257,074
Penetrat Users % ion(%po of Table pulation)
2021/8/2
17
文档翻译优缺点
优点
只翻译一次 文档提供的上下文比较丰富 文档可以线下事先翻译好
缺点
翻译速度慢 占用大量空间、时间,效率低 依赖机器翻译系统的质量
2021/8/2
18
查询翻译vs.文档翻译
取决于特定语言资源 通常查询翻译使用更广 两种方法都提出了“交互性”挑战
3.5%
3,426%
North America
357,172,209 313,862,863 87.9%
9.6%
191%
Latin America
617,776,105 333,115,908 53.9%
10.2%
1,743%
Oceania/Aus 37,157,120

《信息检索》PPT课件

《信息检索》PPT课件

1985年,国家教委印发<改进和发展文献课教学的几点意 见>的通知. (85)教高一司字065号
1992年,国家教委印发《文献检索课教学基本要求》,全 面规定了“文献检索课”的课程性质、教学目的、课程组
织、教学评估.教高司[1992]44号
1993年,国家教委<关于成立《文献检索课》教学指导小
怎样提高信息处理能力?
精选课件ppt
7
内容提要
1
引言
2
基本概念
3
互联网资源
4
专业学术资源
5
商标权
6
其他知识产权
精选课件ppt
8
1. 信息、知识、情报、文献
信息:事物属性,是由事物发出的消息、指令、数据. 知识:是人类社会实践经验的总结,是人的主观世界对于
客观世界的概括和反映. 情报:是激活了的知识,是为特定目的服务的信息;是对
(20%)
精选课件ppt
15
2.3.1 图书
对已发表的成果和经验,或某知识领域的系统论述或总结. 通常以期刊论文、会议论文、研究报告等一次文献为基本
素材,经分析、归纳、重组而成.
范围:专著、文集、教科书、普及读物、百科全书、年鉴、手册、 词典等.
按载体形态分
手抄型文献 印刷型文献 微缩型文献 机读型文献(电子文献) 视听型文献
精选课件ppt
12
2.1 文献内容层次
零次文献:未经正式发表或不宜公开或交流的文献.
包括:底稿、手稿、文稿、书信、图纸、记录、经验、意见等.
一次文献:原始制作,即作者以本人的研究成果为基本素
材而创作(或撰写)的文献.
手抄型:主要指古旧文献和未经付印的手稿及技术档案之 类的资料.

信息检索之课件文稿演示

信息检索之课件文稿演示

省图馆藏 书目查询 系统
2021年3月6日星期六
湖北民族学院《信息检索》(Information Retrieval )系列课件
3-16
检索方法
2021年3月6日星期六
湖北民族学院《信息检索》(Information Retrieval )系列课件
3-17
普通检索界面
2021年3月6日星期六 北京交通大学出版社《信息检索教程》(Information Retrieval Textbook)系列课件 3-18
随着现代计算机技术的发展,大多数图书馆都已 建成馆藏书目数据库,并进而发展成基于计算机网络 的联机公共目录检索系统(OPAC)。读者利用OPAC系 统,在任何地方都可以方便地查询图书馆的书刊信息, 使馆藏书目走出图书馆,实现了更广泛地服务于公众 的目的。
3-2
OPAC系统一般设置题名、责任者、主题词、分 类号、索取号、ISBN/ISSN号、出版社等字段,输入 检索词即可检索。系统执行后将逐条显示命中书刊的 基本信息,单击某个题名则进一步显示详细的书目信 息和馆藏及流通信息,读者可据此前往图书馆借阅。
由于图书馆的藏书数量相当庞大,而读者不可能 尽知每本图书的准确书名,因此在使用OPAC时,可 先通过题名、责任者、主题词等途径找出若干所需图 书,然后从这些图书的分类号入手,通过分类途径浏 览、查寻,最终找到自己最需要的图书。
2021年3月6日星期六
湖北民族学院《信息检索》(Information Retrieval )系列课件
湖北民族学院《信息检索》(Information Retrieval )系列课件
ห้องสมุดไป่ตู้
3-2
1 书刊目录检索系统
书目即书刊目录的简称。它是将图书、期刊按一 定规则著录、并有序编排而成的检索工具,它记载书 刊的题名、著(译)者、版本、出版地、出版者、出版 年、文献内容等信息。

跨语言资讯检索导论-PPT精品.ppt

跨语言资讯检索导论-PPT精品.ppt
1,687 1,684 654 546 546 473 458 432
英100 語 English
40%的Internet使用者 不懂英文,但是80% 的Internet內容是英文
Hsin-Hsi Chen
German
Dutch
Spanish
Swedish
Language (estimated by domain)
Monolingual users may retrieve images by taking advantage of multilingual captions.
Monolingual users may retrieve documents and have them translated (automatically or manually) in their language.
西
日 語
德 語
法 語
荷 蘭
芬班 蘭牙
中 文
語 語語
瑞 典 語8
Hsin-Hsi Chen (Source: www.emarketer)
9
What is Cross-Language
Information Retrieval?
Definition: Select information in one language based on queries in another.
跨語言資訊檢索導論
Hsin-Hsi Chen (陳信希) Department of Computer Science and
Information Engineering National Taiwan University
Hsin-Hsi Chen
1
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 翻译成这些英文句子的概率是不同的 • 概率最大的英语句子是翻译结果
P(e1|f), P(e2|f), P(e3|f)…
e = arg max P(e | f )
e
Use Bayes Rule
• Use Bayes Rule
e = arg max P(e | f ) = arg max( P(e) × P( f | e))
– 288,000 v.s. 346,000

Word Reordering in Translation
– have programming a seen never I language better

Word Choice in Translation
– That is a little banana. (0) – That is a small banana. (3)
• 噪音信道模型
• •
Mary 到底说了什么? 到底说了什么? Brown 猜的过程就是翻译的过程。 猜的过程就是翻译的过程。
– 将法语 ”Je t’aime.” 翻译成英语
基于统计的方法(SMT) 基于统计的方法
• 怎么猜? 怎么猜?
– 一开始,肯定猜不出来。 一开始,肯定猜不出来。 – 说多了,可能就能猜出来了。 说多了,可能就能猜出来了。
翻译概率 教师 教师 a 教师 teacher
扭曲度
twenty aged
– she is a teacher aged twenty
跨语言信息检索
• 为了消除网络资源利用中的语言障碍,跨语言信息检索技 为了消除网络资源利用中的语言障碍, 术成为当前信息检索领域中重要的研究课题。 术成为当前信息检索领域中重要的研究课题。
• 跨语言信息检索
– Cross-Language Information Retrieval (CLIR)
• 是指用户以一种语言提问 是指用户以一种语言提问 • 检出另一种语言或多种语言描述的相关信息的方法 检出另一种语言或多种语言描述的相关信息的方法
a i =1 j =1 j =1
l
m
m
基于统计的方法
• Brown认为,法语f: ”Je t’aime.” 可能翻译成任何一句英语 认为,法语 认为
– e1: How are you? – e2: I love you. – e3: The noisy channel works like this. – ……
• 生成
– 根据目标语言生成规则,利用译文结构生成译文。 根据目标语言生成规则,利用译文结构生成译文。
RBMT的优缺点 的优缺点
• 优点
– 直观,能够直接表达语言学家的知识 直观, – 系统适应性强,不依赖于具体的训练语料 系统适应性强,
• 缺点
– 规则主观因素重,有时与客观事实有一定差距 规则主观因素重, – 规则的覆盖性差,特别是细颗粒度的规则很难总结得比较全面 规则的覆盖性差, – 规则之间的冲突没有好的解决办法(翘翘板现象) 规则之间的冲突没有好的解决办法(翘翘板现象) – 规则一般只局限于某一个具体的系统,规则库开发成本太高 规则一般只局限于某一个具体的系统, – 规则库的调试极其枯燥乏味
• Brown 的方法
e = arg max P (e | f ) = arg max ( P(e) × P ( f | e))
e l e
= arg max (∏ p (ei | ei −1ei − 2 )
e i =1
× ∑ (∏ n(φi | ei ) × ∏ t ( f j | ea j ) × ∏ d ( j | a j , l , m)))
跨语言检索 = 传统检索 + 机器翻译
机器翻译
检索结果
用户需求
匹配
互联网
机器翻译
索引库 分 析 处 理
网页采集
建立索引
网页
机器翻译
基于规则的方法(RBMT) 基于规则的方法
• 分析
– 根据源语言分析规则,分析原文结构。 根据源语言分析规则,分析原文结构。
• 转换
– 根据转换规则,将原文结构转换成译文结构 根据转换规则,
基于实例的方法(EBMT) 基于实例的方法
• 照猫画虎
• RBMT: • EBMT:
分析 匹配
转换 对齐
生成 重组
基于实例的翻译举例
待翻译句子
吴 先生 是 宇航员
匹配
吴 先生 是 老师
实例组
翻译结果
呉 さん は
宇宙飛行士
です
基于统计的方法(SMT) 基于统计的方法
Translation Model
• 翻译模型
P ( f | e) = ∑ (∏ n(φi | ei ) × ∏ t ( f j | ea j ) × ∏ d ( j | a j , l , m))
a i =1 j =1 j =1
l
m
m
富余度 – 她 – 她 – She 是 是 is 二十 二十 岁 岁 的
e e
• ?
– What happened to P(f)? – Why use Bayes Rule?
• e:疾病 疾病 • f:症状 症状
语言模型
翻译模型
Language Model
• • P(e) P(“我是坏人”) v.s. P (“我是好人”) 我是坏人” 我是好人” 我是坏人 我是好人
相关文档
最新文档