2. 第2章文本检索

新一代信息技术导论第2章.权责对等—信息素养与社会责任

信息从业人员行为规范
遵守信息法律法规、自觉抵制不良信息、批判与抵制不道德的信息行为、信息行为不损害他人的利益、不随意发布信息等
2.3.3 人工智能治理
深度学习跨界融合人机协同
群智开放自主操控
通用目的性算法黑箱性数据依赖性
专业化、多元化、敏捷化、全球化
伦理
人工智能治理
一项复杂的系统工程，既需要明确治理原则目标、理清治理主体，又需要提出切实有效的治理措施
信息检索的发展
7．自然语言与人工语言检索并用自然语言检索是指用自然语言作为提问输入和对话接口的检索方式。作为最终用户，不必考虑如何表
达自己的提问，不必学习一套烦琐的命令、格式或代码，就能得到检索结果，但是这种方法不能完全取代人工语言检索。人工语言检索的最大优点是用它标引的数据库检索效率（查全率和查准率）相当高，这是自然语言检索所不能比拟的。因此，这两种检索方式将在并存中为用户提供更多的选择。
区别于其他伦理的明显特征
3.多元性
善
定义
指在信息社会中，信息来源于不同的信息主体，导致信息犹如汪洋大海，不仅量大而且种类多，传播渠道也很丰富
恶
2.3.2 信息从业人员的行为规范
行为规范
社会群体或个人在参与社会活动中所遵循的各种规则、准则的总称，是社会认可和人们普遍接受的具有一般约束力的行为标准
狭义
根据特定需要应用科学的方法采用专门的工具，从大量信息中迅速、准确、相对无遗漏地获取所需信息（文献）的过程。
信息检索与信息搜索的区别
2.2.2 信息检索类型
1.内容和对象
① 文献检索 ② 数据检索 ③ 事实检索
信息资源检索
2.组织方式
① 全文检索 ② 超文本检索 ③ 超媒体检索

第二章之一_基于关键词的检索方法

注意要点乊三 • 由于搜索引擎经常更新网页的索引信息，而且不同的搜索引擎都会采用不同的相关度排序算法，所以实际的检索结果可能会因时因地而变化
注意要点乊四 • “AND”检索其实是一种缩小检索范围的查询方法，该方法可以提高查准率，当然在减少返回结果的同时，一般也会不可避免的丢失一些其实有价值的结果，因此会降低查全率
1.3 模糊检索 • 它并非指一种在不是非常清楚被检索内容时采用的检索方法 • 而是指匹配方式更为灵活、含义更为多样的检索方法
例子 • 检索南京地区的各所大学信息
• 也被称为截词检索、通配符检索、容错性检索等
例子 • 有用户以拼音方式输入“卷帙浩繁”一词，然而该用户不知道其中“帙”如何収言，因此无法以拼音来输入
1.4.3 link字段检索 • 一个高质量网页通常会被更多的网页所链接 • 如果一个网页被其他网页链接的越多子 • 检索毕马威国际会计师事务所主页的链入网页数量来估计它的知名度
说明 • 只是一种估算 • 不过利用不同检索关键词能获取的链入网页数量迚行相互比较，可以在很大程度上区分出网页质量和知名度的高低
总结 • 词组检索也叫做“句子检索” • 虽然词组检索可以非常准确的找到所需的内容，但是也可能会一无所获 • 毕竟不是所有的书籍论文都有网络电子版本，更何况使用该方法还需我们知道一些必要的书籍内容原文，这也是该方法的局限性
练习：检索“米奇妙妙屋”的英文版本和相关字幕 • 希望得到“米奇妙妙屋”的英文版本，特别是相关字幕文字内容
1.4.5 特殊字段检索 • 主要介绍Google搜索引擎提供的一些特殊字段检索方法
价格字段检索 • 如检索售价在100美元到200美元乊间的三星手机 • 检索词为“Samsung $100..200”

文学概论第二章文学文本.ppt

文学文本的纵向层次论
中国古代 “言”“象”“意”
夫象者，出意者也。言者，明象者也。尽意莫若象，尽象莫若言。言生于象，故可循言以观象；象生于意，故可循象以观意。意以象尽，象以言著。故言者所以明象，得意而忘言；象者所以存意，得意而忘象。犹蹄者所以在兔，得兔而忘蹄；筌者所以在鱼，得语而忘筌也。
二、文学文本的结构
横向结构要素论：认为文学文本是由内容和形式两种基本因素组成的统一体。
西方古希腊学者亚里斯多德“戏剧六成分” 分析文艺复兴时期“镜子说” 近代文学表现说、再现说俄国及前苏联的主流文论都遵循内容和形式二分的要素结构论传统。
中国文质彬彬表里相符事辞相配
言与志文与道情与采都是文学作品内容和形式关系的问题。
2、题材与素材
素材是作家在生活中积累起来的，还为经过加工提炼的、处于原始形态的生活材料，是杂乱的、分散的，缺乏明确的主题。题材是在素材的基础上形成的，是经过作家加工提炼后，写进文学作品中的东西，它打上了作家情感的烙印，是作家的主观认识、思想情感和客观材料的统一。
3、题材的形成
题材的形成既要受到作家的生活实践、见闻阅历的制约，也受到作家的思想情感、兴趣爱好、艺术修养、世界观等主观因素的影响。
2.永恒主题与时代主题
由于社会生活属于历史范畴，不同的历史阶段具有不同的生活内容，不同的时代有不同的生活问题，文学作为一种特殊的社会意识形态，作为对社会生活的反映，就不能不具有时代性特征，所以文学文的主题也常常带有鲜明的时代性。
但人类文学发展史上，有一些生活内容在某种程度上超越了时代、地域、阶级的差异，在不同时代不同民族的作家中反复出现，有人称之为“永恒主题”，也有人称之为文学的“母题”。如生命、死亡、爱情、怀乡、伤别等。

信息检索课件第2章

学术评价与评估
信息检索还可以用于学术评价与评估，通过对学术论文的发表数量、被引次数等指标进行统计和分析，评价研究者的学术水平和影响力。
信息检索在商业领域的应用
市场调研与竞争情报
企业通过信息检索技术收集市场和竞争对手的信息，了解市场需求、竞争态势和行业趋势，为制定营销策略和产品开发提供支持。
品牌监测与管理
信息检索课件第2章
contents
目录
• 信息检索概述 • 信息检索技术 • 信息检索系统 • 信息检索的实践应用 • 信息检索的伦理与法律问题
01 信息检索概述
信息检索的定义
信息检索是利用计算机和人工手段，从大量信息中查找和获取特定信息的过程。
信息检索涉及对信息资源的组织、标识、评价和检索等方面。
信息检索的目的是为用户提供准确、及时和有用的信息。
信息检索的原理
信息检索基于信息需求，通过特定的检索方式，从信息源中获取相关信息。
信息检索的原理包括信息标引、信息存储和信息检索三个主要环节。
信息标引是对信息进行分类、主题分析等处理，以便于信息存储和检索。
信息检索是根据用户的信息需求，利用特定的检索工具和策略，从信息源中获取相关信息。
网络搜索引擎、学术搜索引擎、特定领域搜索引擎等。
基于检索技术的分类
基于关键词的检索、基于内容的检索、基于知识的检索等。
信息检索系统的评价
查全率
检索系统返回的相关结果数量与总相关结果数量的比值。
查准率
检索系统返回的相关结果中，真正相关的结果数量与返回的相关结果数量的比值。
响应时间
检索系统对用户查询的响应时间，即从用户提交查询请求到检索系统返回结果所需的时间。

5．号码检索_医学信息检索_[共2页]

中，反映文献信息内容特征的检索有：分类检索和主题检索。

反映文献信息外部特征的检索有：作者、名称和号码检索等。

图2-5 信息检索的基本过程 1．分类检索分类（classification ）检索是从文献内容所属的学科类别出发来检索文献，它依据的是一个可参照的分类体系（classification system ）。

分类体系按文献内容特征的相互关系加以组织，并以一定的标记（类号）作排序工具，它能反映类目之间的内在联系，包括从属、并列、交替、相关等。

较权威的图书分类法有：中国图书馆图书分类法、美国国会图书馆分类法（Library of CongressClassification ）、杜威十进分类法（Deweydecimal Classification system ）。

2．主题检索主题（subject ）检索是从反映文献内容的有关主题词出发来检索文献，主题是检索点，它对应文献主题概念。

检索按主题词的音或形的字顺进行，其方式如查字典、词典。

主题词有多种类型：有规范词和自由词，有单元词和多元词，有先组结构和后组结构等。

主题词的合理选择与使用对检索结果的优劣直接相关。

3．作者检索作者（author ）检索是从文献的作者姓名出发来检索其文献。

作者广义上还应包括：汇编者（compiler ）、编者（editor ）、主办者（sponsoring body ）、译者（translator ）等。

此外，还有代表机构、单位的团体作者（corporate author ），包括作者所在单位（author’s affiliation ）。

4．名称检索名称（title ）检索点是从各种事物的名称出发来检索文献信息。

这些名称包括：书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等，也包括人名和机构名。

检索的对象既包括对应的文献，也包括有关的信息、事项等。

比如个人电话簿（white pages ）或公司电话簿（yellow pages ），查找的是号码信息。

(2)第二章核酸数据库及核酸序列的分析(第二节序列数据库检索)

生物信息学
杭州师范大学生命与环境科学学院向太和
生物信息学
杭州师范大学生命与环境科学学院向太和
作者姓名检索
在检索框内按照姓+名缩写(不用标点)的格式键入作者姓名，如Smith JA，Huang JF，系统会自动在作者字段内进行检索。可以在姓名后加[AU]或[au] au—author
生物信息学
杭州师范大学生命与环境科学学院向太和
3）获取原文及相关资源
联机获取原文（linkout ）
相关文献查找（related article) NCBI其他数据库资源（生物信息学等）
生物信息学
杭州师范大学生命与环境科学学院向太和
PubMed与MEDLINE光盘检索比较
PubMed
内容涉及：医学、药学、牙医学、护理学、卫生保健、兽医学等专业。
记录标注[PubMed - indexed for MEDLINE]
生物信息学
杭州师范大学生命与环境科学学院向太和
OLDMEDLINE for pre-1966 citations
In-process citations
是临时性医学文献数据库，每天接收新数据，经MeSH词表标引后，每周向medline 移加一次。
生物信息学
杭州师范大学生命与环境科学学院向太和
生物信息学
杭州师范大学生命与环境科学学院向太和
自动词语匹配：
PubMed能自动利用它的“自动词语匹配”功能将重要的词语结合在一起，并将不规范的词语转换成规范的用词。如：输入vitamin c common cold，系统会将自动转换成
7种文献类型限制 7种语种 12种子集
生物信息学

数据库检索与网络检索(第2篇)

•
第四章
电子图书及报纸的检索与利用
（四）电子图书的作用 1.电子对图书馆资源建设的价值作为馆藏资源的一部分与纸质馆藏形成互补 2.电子图书对读者的利用价值解决纸质图书的复本少的问题方便检索和下载 (五)电子图书的发展趋势
第四章
电子图书及报纸的检索与利用
二、国内主要的数字图书馆介绍
（一）超星数字图书馆本馆镜像：http://192.168.103.57:8000/ 中心网站：/ （二）书生数字图书馆中心网站：/ (三)方正（Apabi）数字图书馆中心网站：/
1.清华同方CNKI数据库
1.2《 1.2《中国优秀硕士学位论文全文数据库》
简介：《中国优秀硕士学位论文全文数据库》简称 CMFD，是国内内容最全、质量最高、出版周期最短、数据最规范、最实用的硕士学位论文全文数据库。出版内容：覆盖基础科学、工程技术、农业、哲学、医学、哲学、人文、社会科学等各个领域。截止至2010年10月，收录来自561家培养单位的优秀硕士学位论文107多万篇。资源特色：重点收录985、211高校、中国科学院、社会科学院等重点院校高校的优秀硕士论文、重要特色学科如通信、军事学、中医药等专业的优秀硕士论文。专辑专题：产品分为十大专辑：基础科学、工程科技Ⅰ、工程科技Ⅱ、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ、社会科学Ⅱ、信息科技、经济与管理科学。十大专辑下分为168个专题。 •收录年限：从1984年至今的硕士学位论文。产品形式：WEB版（网上包库）、镜像站版、光盘版、流量计费。出版时间： 1、中心网站版、网络镜像版，每工作日出版，法定节假日（春节假日一般为15天，每年假日前10天公布起止日期）除外。 2、镜像版、光盘版，每月10日出版。
第二节

第2章文本、图像与映射图

文本、第二章文本、图像与映射图
●Web站点：多个相关的Web页组合 Web站点：多个相关的Web页组合站点 Web ●主页:一个Web站点的首页主页:一个Web站点的首页 Web ●Web服务器:放置Web站点的计算机 Web服务器:放置Web站点的计算机服务器 Web
文本、第二章文本、图像与映射图
文本、第二章文本、图像与映射图
③创建嵌套列表通过属性面板的文本凸出和文本缩进文本凸出和文本缩进按钮 ●通过属性面板的文本凸出和文本缩进按钮 5.创建超链接和定位点创建超链接和定位点 ①创建超链接普通超链接（内部链接和外部链接） ●普通超链接（内部链接和外部链接） ●文件下载链接 email链接 ●email链接 ②创建定位点在对象窗口选常用面板， ●在对象窗口选常用面板，再点相应按钮 ③定位点的链接 ●配合 # 号键
文本、第二章文本、图像与映射图
④使用图像空白通过属性面板上的垂直边距水平边距域垂直边距和 ●通过属性面板上的垂直边距和水平边距域 ⑤给图像加上链接通过属性面板上的链接链接域 ●通过属性面板上的链接域 ⑥给网页加入背景图像修改/页面属性 ●修改/页面属性 3.插入占位图像插入占位图像五绘制图像热点 3.编辑热点编辑热点 4.给热点指定给热点指定URL 给热点指定
文本、第二章文本、图像与映射图
四、插入图像 1.插入图像插入图像 2.修改图像属性 ①图像对齐属性面板上的“对齐” ●属性面板上的“对齐”列表框和对齐按钮 ②调整图像大小 ●通过属性面板上的宽和高域 ●直接拖放图像配合SHIFT可成比例缩放 ●配合可成比例缩放 ③给图像加上说明通过属性面板上的替代替代域 ●通过属性面板上的替代域
2、站点构建 ① 站点规划 ● 站点结构 ★文件和文件名中不要用中文 ② 定义本地站点站点/管理站点/ ● 站点/管理站点/新建 ③ 打开站点站点/ ● 站点/管理站点

2生物学数据库及其检索

❖ print "Primary accession " . $1;
❖
}
❖ $newEntry=0;
❖
}
❖ if($line =~ /^SQ\s*\w*\s*(\w*)/) {
❖ # match SQ line
❖ print " sequence length: " . $1 . "\n";
❖
}
❖ # ignore other lines
❖ Primary accession P18646 sequence length: 75
❖ Primary accession P13813 sequence length: 296
❖ ………
三、序列格式
❖ 序列格式主要在布局和序列码行的形成上不同，而一些格式同时提供描述或元数据或行集。
❖ 对于许多软件工具来说，它们能很自然地自动区分和接受不同格式的序列
EMBnet
❖ EMBnet (European Molecular Biology Network)建立于1988年，由多个位于欧洲及欧洲以外的成员国节点及专业节点组成。除了上面提到的欧洲生物信息学研究所EMBL-EBI，瑞士生物信息研究所SIB、澳大利亚国家基因组学信息服务（AGRIS）以及中国北京大学的生物信息中心PKUCBI都是EMBnet的成员。它们不仅为本国用户提供生物信息资源及生物计算服务，同时提供用户支持、培训以及进行相关的生物信息研究与开发。比如专业蛋白质分析系统ExPASy就是由SIB开发及维护，而通用蛋白质资源UniProt则由EMBL-EBI及SIB、PIR共同进行维护的。由于 EMBnet的成员国节点及专业节点各自包含了大量的公共数据信息及自行开发的数据库及分析工具，因此可作为生物学数据资源的补充来源。相关信息可以从/en/members/National 和 /en/members/Specialist中查到。

搜索引擎营销第2章课后练习答案试题期中期末练习题

第2章课后练习参考答案
一．填空题
1．搜索引擎的工作原理分为蜘蛛爬行、抓取建库、网页处理、检索服务和结果展现5步。

2．网络蜘蛛爬行网页的策略包括深度优先、宽度优先和最佳优先。

二、单项选择题
1．下列选项中，对搜索引擎发展时代描述正确的是（D）。

A．第一代搜索引擎：文本检索时代
B．第二代搜索引擎：分类目录时代
C．第三代搜索引擎：整合分析时代
D．第四代搜索引擎：用户中心时代
2．下列选项中不属于网络蜘蛛的爬行策略的是（B）。

A．深度优先B．高度优先
C．最佳优先D．宽度优先
三、判断题
1．深度优先策略是网络蜘蛛来到一个网页后，先爬行该网页上所有的链接，然后再爬行下一层网页的链接。

（×）2．最佳优先策略是当网络蜘蛛到达一个网页时，会将其中的所有链接收集到地址库中，并对其进行分析，从中．筛选出重要性较高的链接进行爬行。

（√）
四．简答题
1．国内外主要的搜索引擎有哪些，简述其主要特点。

参见2.2节
2．简述搜索引擎的作用。

参见2.1.1节
五．操作题
1．将浏览器的默认搜索引擎更改为自己常用的搜索引擎。

参见2.5.4节
2．利用搜索引擎搜索与自己公司业务相关的内容，注意结合高级查询方法与搜索指令。

参见2.5节。