Entrez 检索系统的简介

合集下载

pubmed数据库

注：如果在上述4个表或索引中仍找不到相匹配的词时，PubMed就将短语
五、PubMed基本检索规则
如： single cell 系统会自动将其分成两个词：single和 cell检索，其检索表达式为：“single AND cell ”。
五、PubMed基本检索规则
强制检索功能
• 强迫短语检索，在检索词上加双引号，将不执行自动转换匹配和扩展检索.
收录PubMed中未经标引的最新记录。经过主题词、文献类型、基因库存取号等加工索引后，添加到 Medline数据库中，并从PreMedline库中删除。
[PubMed-in process]
Publisher-Supplied Citations
出版商直接提供的文献，每条记录都标有 [PubMed-as supplied by publisher]。
二、Entrez资源整合系统
Entrez是NCBI为广大生物研究人员提供的一个基于文本的集成检索系统。通过该平台可以检索到NCBI提供的28个数据库，这些数据库包括文献数据库、DNA和蛋白质序列数据库、三维蛋白质结构数据库、种群研究库、表达库、完全人类基因组库、分类信息等。
二、Entrez资源整合系统
主题检索
• 《医学主题词表》是对生物医学文献进行主题分析、标引和检索的权威性词表，它的作用是使医学文献的主题标引和检索达到统一和一致，并指导用户高质量地检索医学文献。它可以指导用户从同义词发现主题词，告诉用户主题词如何使用，显示主题词之间的相互关系。
基本概念
• 主题词表：PubMed采用的主题词表是美国国立医学图书馆的医学主题词表(Medical Subject Headings，简称MeSH) 。 • MeSH ：是美国国立医学图书馆编制的权威性主题词表。它是一部规范化的可扩充的动态性叙词表。美国国立医学图书馆以它作为生物医学标引的依据，编制《医学索引》（Index Medicus）及建立计算机文献联机检索系统MEDLINE数据库。《MeSH》汇集约24，357多个医学主题词(2007年)。

pubmed(文献检索)

自动扩展检索系统自动对主题词、副主题词进行扩展检索输入 “hypertension therapy（高血压治疗）,系统自动检索高血压的药物治疗、饮食疗法

2.著者检索(authors)：
著者姓名,姓在前,名首字母在后限定加字段符如: genbacev o[AU] smith ab [AU]

运算符

字段限定符：[] （教材86页）例如：Stem [ti] AND neuroscience 截词符：”*”作为通配符进行截词检索。(教材89页) 例如：bacter * （系统会找到前一部分是bacter的单词，如： bacteria、bacterium等）强迫短语符：用双引号来强制系统进行短语检索。（教材89页）例如： “oxygen free radicals” （不再自动转换匹配和扩展检索）

PMC（Pubmed Center）
生命科学期刊资源中心（教材105页）免费提供近200种期刊的10多万篇全文（不包括PubMed动态免费全文）

PubChem

PubChem是免费的公共化合物结构信息网络数据库，提供小分子生物活性的有关信息，与化学密切相关。PubChem由 NCBI’s Entrez信息检索系统内三个相互链接的数据库组成的，包括PubChem Substance、PubChem ComPound和 PubChem BioAssay。
检索限定：字段限制：著者、刊名、篇名、滤过（filter原文收藏处）等数据输入时间：默认检索可回溯到1950年，限制选择30天-10年文献类型限制语种限制子文档

Mesh主题词表

pubmed数据库

Entrez中集成的重要数据库
• • • • • • • • • • • • • • • Books 出版社提供之数字生物医学图书与医生参考书籍数据库 Cancer Chromosomes 美国国立癌症研究所的Mitelman Database of Chromosome Aberrations in Cancer数据库里已经整合好的cytogenetic、临床与文献相关数据 Conserved Domain Database（CDD），蛋白质功能区块保留序列数据库 3D Domains，蛋白质功能区块立体结构数据 Gene，包含许多物种的基因数据库 Genome，包含超过800种物种的基因组数据库 GENSAT，小鼠中枢神经系统基因表现图谱 GEO Datasets，基因表现实验与生物芯片数值结果数据 GEO Profiles，基因表现图谱 HomoloGene，同源基因批注数据库 Journals，期刊文献（包含PubMed） MeSH，医学主题词 NCBI Web Site，所有NCBI网页 NLM Catalog，美国国立医学图书馆馆藏目录 Nucleotide sequence database，核酸序列数据库（包含GenBank、RefSeq和PDB等三大序列数据库）
Entrez中集成的重要数据库
Online Mendelian Inheritance in Man (OMIM)，孟德尔人类遗传疾病相关文献数据库 • PopSet，族群演化分析相关研究资料 • Protein sequence database，蛋白质序列数据库（包含Swiss-Prot、PIR、PRF、 PDB等数据库与从GenBank、RefSeq核酸序列转译之蛋白质序列资料） • PubChem BioAssay，化学成分之生物活性筛选资料 • PubChem Compound，小分子化学物质结构 • PubChem Substance，具生物活性之化学物质筛选数据 • PubMed，生物医学文献题录数据库 • PubMed Central，科学文献数字全文免费数据库 • Site Search，可搜寻NCBI的网页与FTP • SNP，单点核酸多样性数据库(dbSNP) • Structure，分子模型数据(MMDB) • Taxonomy，以核酸或蛋白质为基础的分类学信息 • UniGene，人类unique基因序列数据库 • UniSTS，unique序列卷标地址数据库

生物信息学名词解释

1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科模型;处理及分析，并以生物学知识2.二级数据库：3.FASTA序列格式：是将DNA始，其他无特殊要求。

4.genbank序列格式：是GenBank身，以“//”结尾。

5.Entrez检索系统：是NCBI点。

6.BLAST：7.查询序列（query sequence）索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2918.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。

（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。

）19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。

(书：由于基因)UPGMA）：最初，每个序列归为一类，然后找到）：是一种不仅仅计算两两比对距算法要求进化速率保持恒定的缺陷。

）：在一系列能够解释序列差异的的进化树中找）：它对每个可能的进化位点分配一个概率，然tree）：在同一算法中产生多个最优树，合并这）：放回式抽样统计法。

通过对数据集多次）：开放阅读框是基因序列的一部分，包含一段codon bias）：氨基酸的同义密码子的使用频率与相量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。

30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。

31.结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。

NCBI-PubMed-检索简介与检索技巧集锦

NCBI PubMed 检索简介与检索技巧集锦注：在本文中的叙述中，所有输入PubMED检索框中的内容均用<>符号括起来，如以基因治疗为主题词检索，在检索框中的输入内容表示为<"Gene Therapy"[MESH]>。

PubMed简介PubMed是由隶属于美国国家卫生部（NIH, National Institues of Health）的国家医学图书馆（NLM, Nationa Library of Medicine）下属的国家生物技术信息中心（NCBI, National Center for Biotechnology Information）提供，可通过NCBI网站的Entrez检索系统（Entrez retrieval system）进行MEDLINE和PreMEDLINE引文数据库的在线免费检索。

此外，PubMed还提供引文与其它数据库的接入服务，与提供期刊全文的出版商网址的链接，来自第三方的生物学数据，序列中心的数据，提供与综合分子生物学数据库的链接与接入服务，这个数据库归NCBI所有，其内容包括：DNA 与蛋白质序列，基因图数据、3D蛋白构象，人类孟德尔遗传在线。

Entrez检索系统是NCBI在线提供的一类基于文字进行搜索与索取的检索系统，可检索NCBI网站的主要数据库，如PubMed，核酸与蛋白序列，基因组序列，蛋白结构，OMIM等等。

PubMed是一类提供生物医学文献资料检索的数据库，此外，它还针对网上资源，提供全文地址及其它相关的NCBI提供的网上资源，如核酸蛋白序列、OMIM入口等，以及其它生命科学数据库。

其文献内容的提供方式，由各期刊出版商在期刊发表前可发表时提供给NCBI。

如果该出版商有网站，则NCBI会提供相应的网络出口。

MEDLINE 及PubMed引文数据库中的新条目在每周周二至周六每日更新。

PubMed服务内容概括基于互联网及PreMEDLINE引文数据库免费检索系统。

NCBI中Blast种类及使用简介

NCBI中Blast种类及使用简介NCBI中Blast种类简介1． Blast Assembled Genomes在一个选择的物种基因组序列中去搜索。

2．Basic Blast2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索，包括3个程序2.1.1 Blastn----核酸序列（n）到核酸序列数据库中搜索，是一种标准的搜索。

2.1.2 megablast----该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。

可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较2.1.3 discontiguous megablast----与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。

2.2 Protein Blast2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索，是一种标准的搜索。

2.2.2 psi-blast---位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。

所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐，从这个对齐，一个位置特异的分值矩阵建立起来。

这个矩阵被用来搜索资料库，以找到额外的显著对齐，这个过程可能被反复迭代一直到没有新的对齐可以被发现。

2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。

2.3 Translating BLAST2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。

2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。

GenBank数据库检索及其应用——Entrez检索功能

限制数据来源
限制数据发布日期
限制数据发布日期
限制数据修订日期
限制数据修订日期
简介检索界面
基本检索功能
特征栏辅助检索
限制检索（Limits）预检索/索引检索（Preview/Index）
预检索输入框
hepatitis b
索引检索输入框
序列特性关键词索引
ras[GENE]
简介检索界面
基本检索功能
（一）字段限制检索、强制短语检索（二）特殊标志符检索（三）序列长度检索（四）范围检索
简介检索界面基本检索功能
（一）字段限制检索、强制短语检索
ras
ras[GENE]
检索限定词：
1、基因名称的检索限定词：[GENE] or [GENE NAME] 2、生物体名称的检索限定词：[ORGN] or [ORGANISM] 3、作者姓名的检索限定词：[AUTH] or [AUTHOR]
简介检索界面
1、基本检索界面
Nucleotide 数据库分为三个子数据库：
EST :表达序列标记数据库
GSS :基因组测序序列数据库
CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列
简介
检索界面
1、基本检索界面 2、跨库检索界面
简介检索界面
penicillin-binding AND “mycobacterium tuberculosis”[ORGN]
简介检索入口基本检索功能特征栏辅助检索检索结果的显示
GenBank记录中特性表中的主要关键词:
关键词
解释
关键词
解释
misc_feature
生物学特性无法用特性表 promoter 关键词描述的序列

entrez 检索实例

entrez 检索实例摘要：一、Entrez 简介二、检索方式1.关键词检索2.作者检索3.文献标题检索4.高级检索三、检索结果1.结果排序2.结果展示3.查看摘要和全文四、其他功能1.生物信息检索2.高级检索功能正文：Entrez 是一个生物医学搜索引擎，为用户提供生命科学领域的文献检索服务。

用户可以通过输入关键词、作者姓名、文献标题等进行检索，检索结果按照相关性排序，方便用户找到所需信息。

一、Entrez 简介Entrez 是国立生物技术信息中心（NCBI）开发的一款生物医学搜索引擎，旨在为生命科学研究者提供便捷的文献检索服务。

除了文献检索功能外，Entrez 还提供基因、蛋白质等生物信息检索功能，满足用户多样化的需求。

二、检索方式Entrez 支持多种检索方式，包括关键词检索、作者检索、文献标题检索以及高级检索。

1.关键词检索：用户输入关键词后，Entrez 会检索包含这些关键词的所有文献。

关键词之间可以用空格分隔，也可以使用布尔操作符（AND、OR、NOT）进行组合。

2.作者检索：用户输入作者姓名，Entrez 会检索该作者发表的所有文献。

支持输入作者的全名或部分名字。

3.文献标题检索：用户输入文献标题，Entrez 会检索包含该标题的文献。

4.高级检索：Entrez 支持高级检索功能，用户可以限制检索范围（如文献类型、发表年份等）、使用布尔操作符组合关键词等。

三、检索结果Entrez 会根据检索词的相关性对检索结果进行排序，用户可以轻松找到最相关的文献。

检索结果页面会展示文献的标题、作者、期刊名称、发表年份等信息，用户还可以查看文献的摘要和全文。

四、其他功能除了基本的文献检索功能外，Entrez 还提供基因、蛋白质等生物信息检索功能，满足用户在生物医学领域的多样化需求。

此外，Entrez 的高级检索功能让用户可以更精确地定位所需信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、Entrez 检索系统的简介
Entrez 检索系统是储存和分析关于分子生物学、生物化学和遗传学知识的自动化系统, 是美国国家生物技术信息中心(National Center for Bio technology Information, NCBI) 网站http:// www. Ncbi. nlm. nih. gov/建立的最受欢迎的检索系统之一，它允许用户从NCBI 整合的多个数据库中同时检索文献题录和分子生物学数据。

Entrez系统中的数据库均有同样的检索界面, 遵循相同的检索规则。

这些数据库包含: PubMed: 生物医学文献数据库
Nucleotide: 核酸序列数据库, 包括GenBank, RefSeq,和PDB中的序列数据
Protein sequence database: 蛋白质序列数据库, 包括来自SwissProt, PIR, PRF, PDB, 以及自GenBank and RefSeq 解码转译的数据
Structure: 大分子三维结构数据库
Genome: 完整的基因组数据, 包括已经完成基因组测序和正在进行基因组测序的800 多种生物体;
PopSet: 人口研究数据集, 指已搜集到的分析人类进化关联的DNA序列集
OMIM: 人类孟德尔遗传数据库
Taxonomy: GenBank中的物种分类学数据库
Books: 在线生物医学图书
ProbeSet: 基因表达和微阵列数据集
3D Domains: Entrez Structure中特定功能域的三维结构
UniSTS: 标记物和遗传学图谱数据(mapping data)
SNP: 单核苷酸多肽性数据库
1．Entrez系统的检索
1.1 Entrez 检索的基本原理
PubMed用查询词自动映射(Automatic Term Mapping)功能将检索词与主题词转换表(MesH Translation Table)、期刊刊名转换表、短语表、作者索引表进行对照、匹配和转换.检索词被作为主题词和文本词分别检索，并自动形成相应的检索式。

1. 1.1 基本检索:是文献检索查全率的基本方法
自由词检索:进人PubMed检索主页面.检索字段为所有字段，在检索框内键人一个或多个检索词语，按Enter或点击c>o按钮。

截词检索:也是在所有字段检索的方便方法，它只适用于单词，检索格式是“X*”, X表示一个词的开始部分。

如:"immunoglob*”就会检索出immunoglobulin ,immunoglobulins, immunoglobin, and immunoglobins等。

1.1. 2高级检索:主要用于提高文献的查准率
逻辑组配检索:逻辑组配使用大写的布尔逻辑运算符AND,OR,NOT将检索词连接形成检索式进行检索。

预览/索引检索:在预览/索引页面的文本框进行多个词语的添加，再点击运算符，就可组配检索。

点击预览/索引的预览选择历史记录将显示最新连续检索的三个结果，提供观察检索策略的相互影响。

限定检索如果检索结果过多，可采用限定检索范围。

Entrez的不同数据库因记录内容不同，各限定检索的条件也将随之而变。

PubMed的限定(Limits)检索页面中，提供了字
段、文献类型、年龄、出版年份、语种、物质名称、人或动物、性别、子库及分类数据库等多种限定方向的检索形式。

常用的字段主要有文章题目[T1]、主题词[MeSH]、[MH]、副主题词[SH]、文本词语[TW]、作者姓名[AU]、期刊号[IP]、期刊名称[TA]、出版卷号[VI]、页码[PG]、出版日期[DP]、出版类型[PT].在默认状态下为所有字段[ALL]。

字段英文简称大小1. 2 Entrez 系统的基本检索
用户可通过/Entrez 直接访问Entrez系统或登录NCBI网站主页的”Entrez”按钮进入Entrez 系统。

Entrez允许两种检索方式，一种是指定的识别号（unique identifier, UID）,一种是按自由词（text term）检索。

也支持通过e-mail进行检索，如检索MEDLINE, 获得关于“angiostatin”的文献，显示20条记录，若前面path设置了e-mail,结果可以自动发送到邮箱中。

1. 3 特征栏介绍
在检索框下提供了四项选择: Limits, Preview/Index, History, Clipboard。

①Limits(条件限定): 允许用户根据不同的数据库, 进行特定字段的检索。

②Preview/Index(预览/索引): 提供用户预览检索结果和索引检索、修改检索式的方便;
③History(检索史): 点击History 可浏览检索史, 并能进行组配检索;
④Clipboard（剪贴版）: 因为Entrez 系统检索结果输出时只输出显示界面的结果, 因此, 可
将多次检索结果分别粘贴到Clipboard, 一并打印或存盘; Clipboard 中允许存放的检索结果最多是500 条; 如果不用, 1 小时后就自动清除。

因此应及时存盘或打印。

1. 4结果输出
Entrez 系统提供了三种输出途径, 即显示(display) , 存盘(save)和打印(print)。

(1) 显示(Display)
①Show 在检索结果的display下, 选择限定每屏显示的记录数, 从每屏5 条到500 条。

因为系统默认的存盘或打印均以每屏为单位, 因此以设定500 为宜。

②Clipboard因为Entrez 系统检索结果输出时只输出显示界面的结果, 因此, 可将检索结果粘贴到Clipboard, 一并打印或存盘; 另外, Clipboard 还允许将不同检索式中获得的检索结果, 一起放在Clipboard 中, 存盘或打印。

Clipboard 存放的检索结果最多是500 条,如果
不用, 1 小时后就自动清除。

③Sort (排序) 系统可将PubMed 的检出结果, 按作者姓名、杂志名称或出版日期排序, 方便阅读。

④Text (文本) 点击“Display”框右侧的“text”按钮, 则显示全文。

(2) 存盘(save)
点击save 存盘, 存盘记录与设定的显示记录格式相同。

(3) 打印(print)
通过浏览器的print 功能, 可以打印页面显示
的检索结果, 也可以打印存放在“Clipboard”中的记录。

二、SRS检索系统简介
SRS（Sequence Retrieval System）由位于英国的欧洲生物信息学研究所开发，是目前生物信息学领域中最常用的数据库检索系统之一。

该研究所的SRS系统建于1997年，目前共整合了100多个各类数据库。

核酸序列数据库EMBL和蛋白质三维结构数据库PDB进行每日同步更新。

连接方式：
华工主页——网格计算——华南理工大学生物信息网格平台——特色服务——SRS——点击进入
或者登陆网站/
实用功能：
具多种数据库, 提供关键词查询序列信息
可以通过检索号码为索引
提供分析应用程序(BLAST, FASTA)
整合EMBOSS (2003)
1．SRS系统的检索
Quick Searches：可进行核算序列或蛋白序列的快速搜索，或根据已有的序列搜索相类似或者是同源的序列
Select Databanks: 确定搜索的数据库。

Tools：提供序列比对(Alignment Tools)、显示(Display Tools)、编辑(Edit Tools)、进化分析(Phylogeny Tools)等工具。

Result:有显示搜索历史记录、显示搜索结果排列方式、删除或保存搜索结果、限制搜索条件等功能。

三、DBGET/LinkDB检索工具
DBGET/LinkDB检索工具是日本京都大学化学研究所建立的GenomeNet数据库服务主页(http://www.genome.ad.jp)，包括KEGG（京都基因和基因组百科全书）和
DBGET/DB(http://www.genome.ad.jp/deget/dbget_manual.html)两套主要系统。

前者注重代谢途径(metabolic and regulatory pathway)，后者处理数据库检索。

而且，该服务器提供了对有关资源进行整合后的综合信息检索界面，包括：核酸序列、蛋白质序列、三维结构、序列motif、酶和复合物、蛋白质-蛋白质相互作用、通路和复合体、基因分类、种属、遗传病、蛋白质突变、氨基酸索引、蛋白质/肽的文献、生物医学文献等。

DBGET与Entrez、SRS相区别的一大特征在于关键字不是在数据库安装或更新时建立的，而是根据关键字将数据储存在特定区域。

这样对于在数据库中快速查找是有利的，但是并不精细。