布尔检索

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

检索词A和检索词B用“或”组配,检索式为:
A OR B,或者 A+B 它表示检出所有含有A词或者B词的记录。
2-4
逻辑“非”
逻辑“非”是一种具有概念排除关系的组配,用“–”或 “NOT”算符表示。
检索词A和检索词B用“非”组配,检索式为: A Not B,或者 A-B
它表示检出含有A词,但同时不含B词的记录。
常用的检索技术
检索技术是指应用于信息检索过程
的原理、技术、方法、策略的总称,是 检索系统为了提高检索效率,从概念相 关性、位置相关性等方面对检索提问进 行组配、加权、扩展、截词、邻近、限 定的比较和运算处理技术。
2-1
布尔检索
布尔检索(boolean retrieval)是用
布尔逻辑算符将检索词、短语或代码 进行逻辑组配的一种技术,也是目前 最常用的一种检索技术。
2-5
截词检索
截词检索(truncation retrieval)是指在检索词的适
当位置截断,用截断的词的一个局部进行的检索。由于 检索词与数据库所存储信息字符是部分一致性匹配,所 以又称部分一致检索。 由于西文的构词特性:单复数形式不一致、英美拼写不 一致 、词干+前缀、词干+后缀。 检索时,计算机会将所有含有相同部分标识的记录全部 检索出来。在西文检索系统中,使用截词符处理自由词, 对提高查全率的效果非常显著。 按截断的位置来分;按截断的字符数量来分。 截词符多采用通配符“?”、“$”、“*”等,因此, 截词检索有时也称为通配符(wildcard)检索。
构造检索式 (试验性检索) 1.简单提问式 2.上下文提问式 3.复合提问式 4.结构性提问式
2-15
1 分析检索课题
例如:查找有关消防的文献。 所有的“消防”文献?还是只需有关“消防事业”、“消防 队伍”、“消防设施”、“消防材料”、“消防器材”、 “消防方案”等中某一方面的文献?(主题分析和检索目的) 需要一般的文献资料?还是比较专深的文献?需要科技论文? 还是专利、标准、数据等?(信息类型) 需要新颖的信息?或者是与别人的研究进行先进性比较?还 是系统的学科知识?(时间范围) ——需要系统地掌握某学科的知识,可以选择图书; ——需要撰写研究项目的开题报告、论文,开展技术攻关,可以 选择研究报告、科技论文、学位论文、会议文献等; ——需要进行发明创造、工艺改革、新产品设计、引进设备、签 订合同,可以选择专利说明书、标准文献、产品资料等。
2-12
字段限定检索
使用邻近检索,只能限制检索词之间的相对位置, 不能完全确定检索词在数据库记录中出现的字段位 置,特别在使用自由词进行全文检索时,需要用字 段限制查找的范围。使用截词检索,简化了布尔检 索中的逻辑“或”功能,但并没有改善布尔检索的 性质。
字段限定检索(field limiting retrieval)是用于限
2-7
邻近检索
邻近检索(proximity retrieval),又称为
“位置检索”、“词位检索”、“全文检索” 是一种可以不依赖叙词表而直接使用自由词 进行检索的一种技术,它以数据库原始记录 中词语的相对次序或者位置关系为对象进行 组配运算。
2-8
(W)与(nW)算符
(W)算符是“With”的缩写,表示此算符两侧的检 索词必须按此前后邻接的顺序排列,顺序不可颠倒, 而且检索词之间不允许有其他的词或字母,但允许 有空格或连字符号。例如:输入gas(W)condensate 可检索出包含gas condensate 和gas-condensate的 记录。 (nW)算符是“nWords”的缩写,表示此算符两侧 的检索词之间允许插入n个实词或虚词,但两个检 索词的次序还是不能颠倒。例如:laser(1W) printer可检索出包含“laser printer”、“laser color printer”和“laser and printer”的记录。
2-11
(F)算符
(F) 算符是“Field”的缩写,表示在此运算符 两侧的检索词必须同时出现在文献记录的统 一字段内,如出现在篇名字段、文摘字段、 叙词字段、自由词字段,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。 要求被连接的检索词出现在统一的字段中, 字段类型和词序均不限。例如: environmental(F) impact/DE,TI表示这两个词 必须同时出现在叙词字段和篇名字段中。
2-16
2 选择检索系统
学科范围。对于交叉学科、新兴学科、应用研究、综合 研究,不应局限于某一学科范围,可根据情况适当扩大 检索系统的学科范围。例如,石油和矿业工程的力学计 算方面的课题,也可以考虑数学、物理学、计算机信息 科学、机械工程方面的数据库。扩大检索系统的学科范 围有时会带来意外的收获。 系统类型。首先,在不同的文献类型系统中选择。其次, 要在文摘、索引系统和全文数据库系统之间选择。第三, 在专业性数据库中去查找。 系统功能。一般说来,使用分类语言、主题语言的检索 系统,要优于使用自然语言的检索系统,专业检索系统 要优于搜索引擎。检索途径、检索方式(如分类浏览、 简单检索、高级检索、专家检索、自然语言检索)多, 收录时间跨度长,来源语种、国别多,文本(数据)质 量高,附加个性化服务,检索系统就更值得选择。
2-9
(N)与(nN)算符
(N)算符是“Near”的缩写,表示此算符两侧的检 索词彼此必须相邻接,但两个检索词的前后关系可 以颠倒, 即查找两个连在一起的单词,但两词之间 不能插入任何词。例如:money(N)supply可检 索出包含money supply和supply money两个词组的 记录。 (nN) 算符是“nNear”的缩写,表示此算符两边的 检索词之间插入词的最多数目是 n 个,且两个检索 词的次序可以任意颠倒。例如: economic(2N)recovery 可以检出包含economic recovery、recovery of the economy 、recovery from economic troubles的记录。
2-20

确定检索词
4.组合 ①概念相交组合。这个新概念是原来用以组合的两个概 念的下位概念,如曲柄连杆机构*发动机=汽车发动机。 ② 概念限定组合。这个新概念可用来表示这一事物的某 一属性或某一个方面。如电视机*数字化=数字电视机。 以上两种组配方式,所得到的新概念,都是原组和概念 的下位概念,缩小了检索范围,提高了概念的专指度,达 到提高检准率的目的。 ③概念并列组合。具有概念并列关系的自由词间的组配, 其结果使概念检索的范围扩大,如环境污染+环境保护= 环境污染和环境保护。 ④概念删除组合。是指两个具有上下位关系的自由词间的 组合,其结果使概念检索的范围缩小,如信息处理-模拟 信息处理=数字信息处理。
2-18
确定检索词
2.删除 删除是对自然语言中不具有实质性检索意义的虚词 (如介词、连词、副词等),或者使用频率较低的 词,或者专指性太高、过分宽泛的词,或者过分具 体的限定词、禁用词,或者不能表达课题实质的高 频词,或者存在蕴含关系可以合并的词,一律予以 删除,使自然语言转换成为关键词和主题词的集合。 如上例中的“与”、“的”、“关系”、“研究” 。 例2:检索“中国非常规天然气工业的发展前景研 究”方面的相关文献。进行拆分以后,工业、发展、 前景、研究这四个自由词具有一定的检索意义,但 是由于或者是意义过于宽泛、或者是不能表达课题 实质、或者是存在蕴含关系的原因,没有必要全部 作为检索词,根据需要可以保留1-2个作为检索词。
2-2
逻辑“与”
具有
概念交叉或概念限定关系的组配,用
“*”或“AND”算符表示(少数工具用“+”或空格表示)。
检索词A和检索词B用“与”组配,检索式为: A AND B,或者 A * B 它表示检出同时含有A、B两个检索词的记录。
2-3
逻辑“或”
逻辑“或”是一种具有概念并列关系的组配, 用“+”或“OR”算符表示(也有用“| ”或“/” 表示)。
2-19
确定检索词
3.替补 替补就是在进行切分、删除后,对检索词进行替换和补充。 “公交”应替换为:公共交通; “绿色包装”中的“绿色”,应替换为:环保、无污染、可 降解; “煤气中毒”应替换为:一氧化碳中毒; “非典”应考虑补充:SARS、非典型肺炎、传染性非典型 肺炎、严重急性呼吸综合征(severe acute respiratory syndrome); “非常规天然气”(nonconventional natural gas) 应考虑补 充:煤层气、(天然气)水合物、页岩气、深层气、致密岩 气、水溶气、沼气,同时考虑将“气”应替换为:天然气 (natural gas)、甲烷(methane)、 CH4 、CH4; 含硫气田的“硫”应考虑补充:sulfur、sulf*、sulfur*、 sulphur、sulphur *、H2S、H2S,同时考虑将“硫”替换 为:硫化氢(sulfured hydrogen)、含硫化合物(sulfur
2-14
5 信息检索的基本步骤
分析检索课题 1.主题概念 2.信息类型 3.时间范围 4.检索目的 选择检索系统 1.学科范围 2.系统类型 3.系统功能 确定检索词 1.切分 2.删除 3.替补 4.组合 5.增加
用户评价 调整检索策略 (正式检索) 1,信息量过多时 2.信息量太少时
输出检索结果 1.文摘 2.全文
有限截断
sulfur woman sul*ur sulphur women 前后截断 如: ?computer?可检出: computer、computers、
computerize、computerized、minicomputer、 minicomputers、microcomputer、microcomputers
定提问关键词在数据库记录中出现的区域,控制检 索结果的相关性,是提高检索效果的一种有效检索 方法。
2-13
例如: (minicomputer/DE, TI OR personal computer/ID, TI)AND PY=2008 AND LA=English 这个检索式所表达的检索要求是:查找2008年出版 的关于微电脑或者个人电脑的英文文献,并要求 “微电脑”一词在命中文献的叙词字段、标题字段 出现,“个人电脑”一词在命中文献的自由词字段 出现。 在互联网搜索引擎中,限定字段也是常用的语法。 例如, “filetype:”表示在某种文件类型(如doc、 pdf)中查找资料。详细的介绍请参见搜索引擎部分。
2-6

来自百度文库

截词检索与截词检索算符
无限截断
economic
economics economicst economicalism economic economics economicst
无限截断
后截断
如: economic*
有限截断
如: economic?? ? 前截断 中截断 如:wom?n 如: ?lish
2-10
(S)算符
(S)算符是“Sub-field/Sentence”的缩写,表示在 此运算符两侧的检索词只要出现在记录的同一个子 字段内(例如在文摘中的一个句子就是一个子字 段),此信息即被命中。要求被连接的检索词必须 同时出现在记录的同一句子(同一子字段)中,不 限制它们在此子字段中的相对次序,中间插入词的 数量也不限。例如,“high(W)strength(S)steel” 表示只要在同一句子中检索出含有“high strength 和steel”形式的均为命中记录。
2-17
3 确定检索词
1.切分 切分是对课题的语句以自由词为单位进行拆分,转 换为检索的最小单元。自由词切分仅适用于自然语 言检索。 例1:检索“妇女吸烟与肺癌的关系研究”相关文 献。 直接切分:妇女|吸烟|与|肺癌|的|关系|研究) 注意,当词切分后将失去原来的意思时,不应再切 分,即必须注意保持意义的完整。如“中国科学 院”、“电子邮件”不可再切分。
相关文档
最新文档