北邮徐蔚然教授信息工程导论课件——信息抽取与信息检索2015

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至 20世纪40年代，索引和检索成已为图书馆独立的工具和用户服务项目。
分词去标点
信息检索起源于图书馆的参考咨询和文摘索引工作从 19 世纪下半叶首先开始发展至 20 世纪 40 年代索引和检索已成为图书馆独立的工具和用户服务项目
信息抽取：信息抽取的研究问题
• 命名实体识别(Named Entity Recognition)
– 识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。
习近平人名地名组织机构名实体链接奥巴马北京乔布斯国家主席
共指消解习近平苹果公司苹果水果
知识库
信息检索:倒排索引(Inverted Index )
Doc 1 This is a sample document with one sample sentence Doc 2
词典
Term This is sample another … DF 2 2 2 1 … TF 2 2 3 1 …
倒排索引项
– 检索到的文档是否相关？ • 查准率（精度precision ） – 所有相关文档是否都找到了？ • 查全率（召回率recall）
信息检索:搭建自己的搜索引擎
• 开源搜索引擎平台
– 面向研究 • 卡耐基－梅隆大学的Lemur 和 Indri – 面向应用 • Lucene • Xapian • Sphinx
内容处理技术文本信息处理技术
信息技术
未来技术的畅想：新的Google/百度是什么样？
信息时代的机遇和挑战4-4 文本信息处理技术
• 从内容的传输到内容的处理
– 传输技术/网络技术的发展和成熟 – 内容处理的挑战
• 最有代表性的内容处理问题：语言文字
– 语言文字专门用来传递信息和承载知识 – 与人类的智能密不可分
– 信息行业、SOHO
• 社会的改变
– 经济全球化
给我们带来革命的基盘技术是什么？
信息时代的机遇和挑战4-3 信息时代的机遇
• • • • • • • • IBM PC机硬件白手起家到身价千亿微软软件集中在IT行业 Netscape 浏览器从硬件到软件 Yahoo 门户网站 Google/百度搜索引擎从信息到内容 Twitter/新浪微博微博 Facebook /腾讯社交网络服务网站 ……
信息抽取:什么是信息抽取
• 信息检索（IR）与信息抽取（IE）
– 信息检索 • 从文档集中找到相关的文档。用户必须从找到的文档中翻阅自己所要的信息。 • 相关理论：信息论, 概率论, 统计学 • 技术相对成熟 – 信息抽取 • 从文档集中提取相关的信息。 • 相关理论：计算语言学,自然语言处理技术,机器学习 • 技术不成熟 – 两者联系 • 满足不同层次的信息需求，逐渐结合。
信息检索: 文档和查询的内容表示
• 目标
– 表示出文档的内容和语义，方便于信息的查找
• 考虑因素
– 准确表达文本的语义 – 全面覆盖文本全部内容 – 方便计算机处理
• 主要方法
– 向量空间模型(Vector Space Model) • 词袋模型(Bag Of Words) :忽略文档的词语顺序和语法、句法等要素，仅将其看作是若干个词汇的集合。 • TF（词频）: 一个词在一篇文档中出现的次数 • DF（文档频率）:全部文档集合中包含该词的文档数 • IDF: ID的倒数
信息检索: 文档和查询的内容表示
基于TF-IDF的词袋模型
词典 19 20 40 参考成为从的独立发展服务工具工作和检索开始年代起源世纪首先索引图书馆文摘下半叶项目信息检索已用户于至咨询 TF 1 1 1 1 1 1 2 1 1 1 1 1 3 1 1 1 1 2 1 2 2 1 1 1 1 1 1 1 1 1 DF TF*IDF 0.1 10.0 0.1 10.0 0.1 10.0 0.2 5.0 0.2 5.0 0.4 2.5 0.4 5.0 0.2 5.0 0.2 5.0 0.2 特点：频率高的词权重大 5.0 0.2 5.0 0.2 5.0 0.4 7.5 0.1 10.0 0.2 5.0 问题：这次词能代表这篇 0.2 5.0 文档吗？ 0.2 5.0 0.2 10.0 0.3 3.3 0.1 20.0 0.1 20.0 0.1 10.0 0.2 5.0 0.2 5.0 0.1 10.0 0.4 2.5 0.3 3.3 0.3 3.3 0.3 3.3 0.2 5.0
信息检索:倒排索引(Inverted Index )
• 问题
– 海量数据：谷歌，百度这样大型的商业搜索引擎索引都是亿级甚至几千亿的网页数量。 – 针对一个查询，如何快速找到包含查询词的文档？ • 毫秒级时间
• 方法
– 对文档建立倒排索引(Inverted Index ) – 记录每个词条在哪些文档中出现过
信息抽取：信息抽取的主要方法
• 手工模板
– （某人）创建了（某个组织）
• 机器学习
– 监督学习：支持向量机
– 半监督学习：bootstrapping
信息抽取：机器学习简介
• 机器学习要解决什么问题？
完成学习
f ( x)
ln P( X | )
解释数据能力预测能力推广能力最简单化
ln P( X | )
……. 关系抽取知识库填充
信息抽取：信息抽取的问题
• 事件检测
– 抽取出新闻报到中的各种事件，提取出每个事件的关键信息（动态信息的提取） • 恐怖袭击：时间、地点、作案者、受害者、袭击目标、使用的武器等； • 自然灾害：时间、地点、事件原因、人员伤亡、财产损失；
• 倾向判断
– 对某一人物、商品和事件的态度 • 淘宝商品的倾向抽取
奥巴马乔布斯
苹果公司
语义消岐
命名实体识别
信息抽取：信息抽取的问题
• 关系抽取
– 确定实体之间的关系，包括隐含的关系和明确的关系。
知识库乔布斯国家主席
创建关系习近平苹果公司
习近平奥巴马北京
奥巴马
苹果公司
苹果公司
苹创建人：乔果创建时间：布水斯果子公司：主要产品：
Doc id 1 2 1 2 1 2 2 … Freq 1 1 1 1 2 1 1 …
This is another sample document
…
…
Slide is from ChengXiang Zhai
信息检索: 检索查询
• 问题
– 索引数据集合：已经表示成词向量集合，记为{Di} 用户查询请求：已经表示成词向量，记为Q – 查找：相关的数据列表 – 关键问题：计算Di与Q的相似度，排序给出最相关的结果
– 250 年前，发明蒸汽机工业革命 – 100 年前，电磁场理论，发现电子电气革命 – 50 年前，发明计算机，信息数字化信息革命
信息时代的机遇和挑战4-2 信息时代改变了我们
• 生活方式的改变
– 送别、信件、娱乐
• 学习方法的改变
– 图书馆、互联网、MOOC
• 工作方式的改变
Di
• 相似度计算
– 余弦相似度
(a * b ) Sim( D , Q ) a b (a
k k i k 2 2 k k k k k
θ
k
* bk )
Q
信息检索:系统评价
• 系统评价
– 系统效率和效果怎么样。
• 效率
– 时间：算法速度 – 空间：存储资源，计算资源
i
• 效果
p( X , z | ) p( z | X , ) q( z ) ln q( z ) ln q( z ) q( z ) z z q( z ) ln
z
p( X , z | ) p( z | X , ) q( z ) ln q( z ) q( z ) z
L ( q, ) KL( q || ) L ( q, ) KL( q || )
– 是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。
• 例如：
– 从新闻报道中抽取出恐怖事件的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等； – 从经济新闻中抽取出公司发布新产品的情况：公司名、产品名、发布时间、产品性能等； – 从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方、治疗结果等等。
信息抽取与信息检索
徐蔚然
北京邮电大学模式识别实验室 www.pris.net.cn
主要内容
• 信息时代的机遇和挑战 • 信息检索 • 信息抽取
• 机器学习
主要内容
• 信息时代的机遇和挑战 • 信息检索 • 信息抽取
• 机器学习
信息时代的机遇和挑战4-1 我们生活在大变革的时代
• 信息技术革命（第三次技术革命）
学习数据物理观测数据
学习算法学习过程
问题模型（函数）物理理论
怎样评价学习的好坏？理论模型的好坏？
信息抽取：机器学习简介
• 例：是否有上帝？
解释数据能力
ln P( X | )
f (预测能力 x)
ln P( X | )
推广能力
最简单化
q( z ) ln
z
p( X , z | ) p( z | X , ) q( z ) ln q( z ) q( z ) z p( X , z | ) p( z | X , ) q( z ) ln q( z ) q( z ) z
主要内容
• 信息时代的机遇和挑战 • 信息检索 • 信息抽取
• 机器学习
信息抽取: 什么是信息抽取
• 谷歌和百度是否足够?
– 信息检索功能：从文档集中找到最相关的文档。 – 是否有正好符合需求的文档？ – 能不能让计算机把相关信息自动搜集整理起来，一起提供给用户？
信息抽取:什么是信息抽取
• 信息抽取(Information extraction, IE)
14
信息检索: 什么是信息检索
• 信息检索系统
– 给定：索引数据集合+用户查询请求 – 查找：相关的数据列表
信息需求
查询索引数据集检索检索系统
结果列表
谷歌或百度的原理？构建自己的全文搜索引擎 from Jian-Yun Nie
15
信息检索: 什么是信息检索
Nutch http://nutch.apache.org/about.html Java开源Web爬虫和搜索引擎信息需求爬取索引检索检索系统查询
• 大数据时代的技术瓶颈
– 互联网有我们需要的海量信息和知识，但是我们找不到它们。
主要内容
• 信息时代的机遇和挑战
什么是信息检索
• 信息检索 • 信息抽取
信息检索的方法：怎样构建自己的Google或百度
• 机器学习
搜索引擎
ຫໍສະໝຸດ Baidu
10
中科院研究生院2011年度秋季课程
11
中科院研究生院2011年度秋季课程
卓越-亚马逊(淘宝) “天王表LS3522S(黑色)”
商品数据库
交友数据库
商品列表
人员列表
信息检索: 什么是信息检索
• 信息检索
– 是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。
信息需求
查询索引数据集检索检索系统
结果列表
from Jian-Yun Nie
12
中科院研究生院2011年度秋季课程
信息检索: 什么是信息检索
• 四个应用例子的共同特征
– 给定需求(或者是对象)，从信息库中找出最匹配的信息 (或对象)
查询请求传统图书检索系统书名=“现代信息检索” 谷歌搜索引擎世纪佳缘网 “现代信息检索” “白富美” 信息库收录图书数据库互联网网页数据库返回结果数目列表网页列表
一篇文档TF-IDF权重的向量
信息检索: 文档和查询的内容表示
• 查询的内容表示
– 理想的查询：一篇文档 – 实际的查询：几个词
• 方法
– 查询扩展：扩展出相关词 • 例如，查询词= 马航 • 扩展词=MH370,客机,失联, 波音777，...... – 生成词向量 • [与文档表示方法一样] TF-IDF权重的词向量
Web
索引数据集
结果列表
谷歌或百度的原理？构建自己的全文搜索引擎
16
信息检索:信息检索中的关键问题和方法
查询文档数据集
内容表示查询表示
内容表示文档表示
相似度计算
数据索引
结果列表
Slide is from Jimmy Lin’s tutorial
信息检索:信息检索中的关键问题和方法
• • • • • 爬取 Crawling 内容表示 Representation 数据索引 Indexing 相似度计算 Retrieval 系统评价 Evaluation