关于RefSeq：NCBI参考序列

合集下载

refseq名词解释

refseq名词解释的表达很多人都会问，到底什么是Refseq？RefSeq是Reference Sequence的缩写，它是一种将特定生物体基因组中的基因和蛋白质信息组织与标记的系统。

简而言之，RefSeq是指为帮助跨物种向导研究提供数据库的标准，它能够捕获和汇总特定生物体基因组中的大量不同信息。

refseq是一个非常重要的数据库，对于遗传学和生物学研究尤为重要。

它包含来自不同物种的数据信息，并能够将这些信息有效地组织起来。

使用refseq，科学家们可以更加有效地研究不同物种之间的转录（RNAs）调控，发现新基因，以及更详细地了解特定物种中基因分布和进化关系。

RefSeq是National Center for Biotechnology Information（NCBI）开发的一种特殊数据库格式，可以将种子，基因组，蛋白质和其他信息进行有效的建模，推动基于互联网的基因组学研究工作。

refseq包含大量的蛋白质，基因，mRNA和大量的细粒度基因数据，这些数据来自所有的物种的数据源，而且可以为研究者提供高质量的有效数据，促进科学研究和技术发展。

通过refseq可以快速简便地检索与特定物种相关的基因，这大大提高了研究者的效率和可信度。

此外，refseq还可以帮助科学家更准确地预测基因的生物功能，以及基因间的互作关系。

总的来说，refseq是研究特定生物体的转录（RNAs）调控及其它相关数据的一个非常方便的互联网资源。

它可以捕获大量基因信息，使研究者能够更快更准确地找到所需要的信息，帮助他们更好地揭示整个生物体的组学关系。

RefSeq不仅是基因组学研究的必备资源，它对分子生物学，遗传学，发育生物学等物种演化相关科学研究也起着至关重要的作用。

ncbi的使用方法

NCBI(美国国立生物技术信息中心)资源介绍及使用手册作者：未知来源：中科院上海生命科学研究院生物信息中心时间：2006-12-27NCBI 资源介绍本文目录：NCBI(美国国立生物技术信息中心) 简介NCBI 站点地图NCBI癌症基因组研究NCBI－Coffee BreakNCBI－基因和疾病NCBI－UniGeneCluster of Orthologous Groups of proteins（COG）介绍Gene Expression Omnibus （GEO）介绍LocusLink介绍关于RefSeq：NCBI参考序列NCBI(美国国立生物技术信息中心)简介介绍理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。

通过只有四个字母来代表DNA化学亚基的字母表，出现了生命过程的语法，其最复杂形式就是人类。

阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。

数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。

挑战在于发现新的手段去处理这些数据的容量和复杂性，并且为研究人员提供更好的便利来获得分析和计算的工具，以便推动对我们遗传之物和其在健康和疾病中角色的理解。

国立中心的建立后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性，发起了在1988年11月4日建立国立生物技术信息中心（NCBI）的立法。

NCBI是在NIH的国立医学图书馆（NLM）的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

它的使命包括四项任务：建立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的，先进方法的研究加速生物技术研究者和医药治疗人员对数据库和软件的使用。

NCBI的名词解释

NCBI的名词解释NCBI（National Center for Biotechnology Information）是美国国家生物技术信息中心的缩写。

作为一个重要的生物信息学资源，NCBI提供了丰富的数据库和工具，以支持生物学、生物医学和生物信息学的研究工作。

在本文中，将对NCBI常见的名词进行解释，帮助读者更好地理解这个重要的生物信息学平台。

1. PubMed：PubMed是NCBI的一个免费搜索引擎，它主要提供了生物医学领域的文献检索服务。

研究人员可以在PubMed中搜索全球各种医学、生物学和生物信息学期刊的摘要和引用信息。

通过关键词搜索、作者搜索和期刊搜索等功能，研究者可以方便地获取与自己研究领域相关的最新科研成果和文献资料。

2. GenBank：GenBank是NCBI管理的一个全球性的基因序列数据库，其中包含了来自各种生物体的数十亿条DNA和RNA序列。

研究人员可以通过GenBank来获取和下载特定基因的序列信息，以进行基因功能、进化和表达等研究。

GenBank的数据资源非常丰富，有助于推动生物学和生物信息学领域的科学研究。

3. BLAST：BLAST（Basic Local Alignment Search Tool）是NCBI的一个重要的序列比对工具。

它可以帮助研究人员在GenBank等数据库中找到与已知序列相似的序列，进而推测其可能的功能和起源。

BLAST提供了多种比对算法和参数设置，允许用户根据自己的研究需要进行灵活的序列比对分析。

4. Entrez：Entrez是NCBI的一个综合性搜索平台，涵盖了多个数据库和工具。

研究人员可以通过Entrez来进行文献检索、基因序列搜索、蛋白质搜索、三维结构搜索、基因组浏览等多种操作。

通过Entrez，研究者可以根据自己的研究目的，全面地了解和利用NCBI提供的多样化的生物信息资源。

5. RefSeq：RefSeq是NCBI的一个参考序列数据库，主要收集并注释了多种生物物种的基因组、转录本和蛋白质序列。

NCBI功能详介分解

GenBank Overview基本信息∙什么是GenBank？GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。

每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。

GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

∙纪录样本 - 关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

∙访问GenBank - 通过Entrez Nucleotides来查询。

用accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。

关于Entrez更多的信息请看下文。

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez和BLAST可以通过Query 和BLAST服务器。

另外一种选择是可以用FTP下载整个的GenBank和更新数据。

∙增长统计 - 参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank 增长）小节。

∙公布通知，最新 - 最近和即将有的变化，GenBank的分类，数据增长统计，GenBank的引用。

∙公布通知，旧 - 同上相同，是过去公布的统计。

∙遗传密码 - 15个遗传密码的概要。

用来确保GenBank中纪录的编码序列被正确的翻译。

（向）GenBank提交（数据）∙关于提交序列数据，收到accession number，和对纪录作更新的一般信息。

∙BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。

（请在提交前用VecScreen去除载体）∙Sequin - 提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。

可以独立使用，或者用基于TCP/IP的“network aware”模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。

NCBI使用方法介绍

NCBI使用方法介绍一、Map viewer查找基因序列，RNA，启动子下面以人的IL6（白细胞介素6）为例讲述一下具体的操作步骤1、A. 打开Map viewer页面，网址为在search的下拉菜单里选择物种，for后面填写你的目的基因。

2、B. 点击“GO”：C. 在步骤二图示的右下角有一个Quick Filter,下面是让你选择的几个复选框，在Gene前面的小方框里打勾，然后点击Filter：说明一下：1.1、染色体的红色区域即为你的目的基因所处位置。

1.2、下面参考序列给出了三个，是不同的部门做出来的，经我验证，序列有微小的差异，但总体来说基本相同。

尽管你分别点击后，序列代码、序列代码等有所差异，但碱基基本一致，不影响大家研究分析序列。

现在普遍采用的是最上面的那个序列，这一条是世界范围的生物科学家用计算机合成的一个序列。

我也推荐大家使用这个序列。

1.3、点击上述三条序列第一条序列（即reference）对应的"Genes seq"，出现新的页面，1.4、点击上图出现的“Download/View Sequence/Evidence ”，即下载查看序列等功能，先对上面这张图做点简要的说明，在Sequence Format（序列输出格式）后面是一个下拉式选择菜单，默认的为FASTA格式，还有一个是GenBank 格式。

我推荐大家选择GenBnak格式，因为这个格式提供了很多该基因的信息，而FASTA格式只有基因序列。

1.5、在Sequence Format后选择GenBank，然后点击下面的Display，目的基因的相关信息和序列就出现在眼前了。

在上述打开的网页中，你可以看到基因长度，基因序列，以及这个基因是如何被报道出来的等各种信息。

你会看到: mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) 这代表了从基因的3598位开始就是转录区了，即我们常说的mRNA 片断，由于内含子的存在，所以mRNA在DNA序列上分成了几段。

RefSeq：NCBI参考序列

关于RefSeq：NCBI参考序列N CBI的参考序列计划（RefSeq）将为中心法则中自然存在的分子，从染色体到mRNA到蛋白提供参考序列标准。

RefSeq标准为人类基因组的功能注解提供一个基础。

它们为突变分析，基因表达研究，和多态发现提供一个稳定的参考点。

范围：目前，RefSeq记录为下列分子类型和基因组提供：脊椎动物mRNA/蛋白构建步骤：RefSeq记录通过以下步骤创建：确定代表不同基因的序列建立正确的基因名字到登录号的联系确定完整范围的可以获得的序列数据创建一个新的有以下状态的参考序列(RefSeq)记录预测的临时的临时的RefSeq记录被一个生物学家再检查，他确定一开始的名字到序列的关联，加上一些包括基因功能概要的信息，更重要的是用其他可获得的GenBank记录来更正，重新注解，或扩充序列数据。

预测的，临时的和检查过的RefSeq记录通过NCBI Entrez检索系统，BLAST数据库，FTP，和LocusLink网站让公众获得。

最近发表的文章1. Introducing RefSeq and LocusLink: curated human genome resources at the NCBI. Pruitt KD, Katz KS, Sicotte H, Maglott DR Trends Genet. 2000 Jan;16(1):44-47.2. NCBI's LocusLink and RefSeq Maglott DR, Katz KS, Sicotte H, Pruitt KD Nucleic Acids Res 2000 Jan 1;28(1):126-128FAQ什么是参考序列？NCBI 参考序列计划提供了校正的序列数据和相关的信息，给同行提供使用的标准。

GenBank是一个序列的存储池，RefSeq数据库将是一个参考序列的非冗余集合，包括构建的基因组contig，mRNA，蛋白，和，在未来，整个染色体。

ncbi使用手册

NCBI 资源介绍本文目录：NCBI（美国国立生物技术信息中心) 简介NCBI 站点地图NCBI癌症基因组研究NCBI－Coffee BreakNCBI－基因和疾病NCBI－UniGeneCluster of Orthologous Groups of proteins（COG）介绍Gene Expression Omnibus （GEO）介绍LocusLink介绍关于RefSeq：NCBI参考序列NCBI(美国国立生物技术信息中心)简介介绍理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。

通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法，其最复杂形式就是人类。

阐明和使用这些字母来组成新的“单词和短语"是分子生物学领域的中心焦点.数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须.挑战在于发现新的手段去处理这些数据的容量和复杂性，并且为研究人员提供更好的便利来获得分析和计算的工具，以便推动对我们遗传之物和其在健康和疾病中角色的理解。

国立中心的建立后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性，发起了在1988年11月4日建立国立生物技术信息中心(NCBI）的立法。

NCBI是在NIH的国立医学图书馆（NLM）的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划.NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

全世界范围内的生物技术信息收集的合作努力。

NCBI使用方法

王路敏1天NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心/NCBI是NIH的国立医学图书馆（NLM）的一个分支。

NCBI提供检索的服务包括：1．GenBank（NIH遗传序列数据库）：一个可以公开获得所有的DNA序列的注释过的收集。

GenBank 是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库的。

它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。

这三个组织每天交换数据。

其中的数据以指数形式增长，最近的数据为它已经有来自47000个物种的30亿个碱基。

2．Molecular Databases（分子数据库）：Nucleotide Sequence（核酸序列库）：从NCBI其他如Genbank数据库中收集整理核酸序列，提供直接的检索。

Protein Sequence （蛋白质序列库）：与核酸类似，也是从NCBI多个不同资源中编译整理的，方便研究者的直接查询。

Structure（结构）-——关于NCBI结构小组的一般信息和他们的研究计划，另外也可以访问三维蛋白质结构的分子模型数据库（MMDB）和用来搜索和显示结构的相关工具。

MMDB：分子模型数据库—一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。

Taxonomy（分类学）——NCBI的分类数据库，包括大于7万余个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

其目的是为序列数据库建立一个一致的种系发生分类学。

3．Literature Databases（文献数据库）（1）PubMed是NLM提供的一项服务，能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问，并可以连接到参与的出版商网络站点的全文文章和其他相关资源。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关于RefSeq：NCBI参考序列N CBI的参考序列计划（RefSeq）将为中心法则中自然存在的分子，从染色体到mRNA到蛋白提供参考序列标准。

RefSeq标准为人类基因组的功能注解提供一个基础。

它们为突变分析，基因表达研究，和多态发现提供一个稳定的参考点。

预测的，临时的和检查过的RefSeq记录通过NCBI Entrez检索系统，BLAST数据库，FTP，和LocusLink网站让公众获得。

GenBank是一个序列的存储池，RefSeq数据库将是一个参考序列的非冗余集合，包括构建的基因组contig，mRNA，蛋白，和，在未来，整个染色体。

RefSeq记录是有三种可以获得的状态：预测的，临时的和检查过的。

检查过的记录代表了我们目前关于一个基因和它的转录子的知识的汇编。

在检查的过程中，我们整合了更多的信息，只要是可以获得，如序列数据，发表物，命名，和特征注解，都来自于很多GenBank记录，人类基因组命名委员会，和OMIM。

The initial release of RefSeq records includes human mRNA and protein reference sequences. The current scope is limited to human sequences but other organisms will be added in the future.最开始的RefSeq记录版本包括人类mRNA和蛋白参考序列。

目前的范围只局限于人类序列，但是其他物种的将在未来加入。

我如何引用RefSeq记录？引用RefSeq登录号和LocusID以及RefSeq网页（/LocusLink/refseq.html）是恰当地。

特定的使用RefSeq网页的引用格式依据你文章将发表的刊物的编辑方法而定。

可以参考这个网站，列出了许多电子文件引用指南：/I/training/citation/citing.htm。

我如何访问RefSeq记录？RefSeq记录可以通过各种NCBI资源来访问，包括：BLAST NM_######记录是在核苷酸非冗余数据库中NP_######记录是在蛋白非冗余数据库中Entrez NM_######和NT_######记录是在Entrez核酸中NP_######记录是在Entrez蛋白中。

Entrez基因组部分NC_######记录代表完整的基因组，和染色体，完成的和正在进行的，出现在基因组页面上。

FTP NM_*和NP_*记录是在/refseq目录下；对人类的NT_*记录可以按染色体数字从/genbank/genomes/H_sapiens/*目录下下载，当第一次的完整版本建立后还将加到refseq目录下。

将来NC_*记录将被加入。

参考FTP README文件获得更多的信息。

人类基因组测序为人类contigs的NT_######记录只有在人类基因组测序页面上通过BLAST查询可以被图形的看到，下载，或访问LocusLink LocusLink记录提供链接到NM_######和NP_######记录。

LocusLink可以通过文本条件的RefSeq登录号被查询，参见LocusLink FAQ取得查询技巧。

通过Entrez查询检索NM_和NP_ RefSeq记录：RefSeq记录可以被通过不同的Entrez查询来检索：查询结果样本NM_003988 一个关于PAX2，isoform c 的RefSeq记录被返回。

PAX2[Gene Name] 这返回17记录包括5个PAX2 RefSeq记录。

PAX2[Gene Name] AND srcdb_refseq[properties] 这个查询仅检索含有5个不同剪切本的PAX2 RefSeq记录的集合。

srcdb_refseq[prop] AND provisional[all] 这个查询返回所有临时的RefSeq记录集合。

srcdb_refseq[prop] AND biomol_mRNA[prop] NOT provisional[all] 这个查询返回所有检查过的RefSeq记录集合。

确定在BLAST结果中的NM_和NP_ RefSeq记录：这个不同的RefSeq登录号的格式（它们包括一个下划线）提供一个快捷的指示：这个BLAST结果包括了一个RefSeq记录。

Score ESequences producing significant alignments: (bits) Valueref|NM_000014.1|A2M| Homo sapiens alpha-2-ma... 9073 0.0^ ^| || RefSeq登录号有一个不同的格式“ref”表明了RefSeq数据库什么是一个RefSeq记录与其他区别的特点？RefSeq记录区别与其他GenBank记录在：使用一个特殊的登录号显示来源信息，由RefSeq打头，在Comment字段的第一行一致的使用可获得的官方命名包括OMIM和LocusLink dbxrefs在基因特性中蛋白记录指明RefSeq作为DBSOURCE登录号格式序列类型NT_123456 构建的基因组contigsNM_123456 mRNAsNP_123456 proteinsNC_123456 chromosomes我如何在BLAST和Entrez搜索结果中快速的确定RefSeq？Entrez和BLAST结果同时提供下面格式文本作为返回结果的一部分：gi|4557284|ref|NM_000646.1||[4557284]数据元素注解Gi “GenBank Identifier”，或序列ID号。

“gi|”表示这个序列ID是一个唯一的号码。

任何对这个序列的改变将导致一个新的gi号码。

4557284是gi号码。

Ref指明RefSeq是来源数据库。

NM_000646是RefSeq登录号。

预测的，临时的，和检查过的RefSeq记录有什么区别？RefSeq记录只有在我们有来源序列记录注解忧完整的编码区时才做的。

如果来自于同一转录本的多种序列在本地对齐市被发现，那么最长的被自动选来作为开始的记录。

预测的记录：预测的RefSeq记录是来自于那些未知功能的cDNA序列，它们有一个预测的蛋白编码区。

预测的RefSeq记录是由自动的程序产生，并不被检查。

一个预测的记录描述，对于大多数部分，用来产生它们的GenBank记录中的注解。

GenBank来源的记录与预测的RefSeq记录最大的不同在于RefSeq条目包括了：一个稳定的LocuID号码和一个在Comment字段中这个条目是预测的申明。

这个申明出现在预测的RefSeq记录：预测的RefSeq：这个参考序列记录是来源于一个未知功能的cDNA。

CDNA的存在提供了这个基因的实验证据，但是，开放阅读框的定位和相应的蛋白序列都是预测的并且随着可获得的新增序列和实验数据会改变。

临时的记录：临时的RefSeq记录还没有被检查过。

它们是有自动的程序产生的，有一些初步的质量检测来复查我们提供的“name-to-sequence data”关联的正确性。

一个临时的记录提供了，对大部分来说，用来产生它们的GenBank记录中的注解。

GenBank来源的记录与临时的RefSeq记录最大的不同在于RefSeq条目包括了：命名（基因名字和别名），一个稳定的LocuID号码，这个基因地OMIM 号码和一个在Comment字段中这个条目是临时的申明。

这个申明出现在预测的RefSeq记录：临时的RefSeq：这是一个临时的参考序列记录，还没有被工作人员检查过。

最后校正的参考序列记录将会与这个记录有所不同。

检查过的记录：检查过的记录被NCBI的工作人员或合作小组手工检查过，来创建一个类似于“review article”的序列记录。

一些在检查过的记录中的改变/增强可能包括：增加DNA序列数据（扩充的UTRs）去除DNA序列数据（如载体或接头序列）增加与这个基因一般相关的文章增加核酸和蛋白特性增加概要文本描述基因功能当一个记录被检查，来自于一个以上的记录的序列数据可能被合并，用来构建一个更完整的mRNA记录，这辈认为是合理的。

所有在基因组合mRNA的可获得的序列数据记录都用了，我们没有使用EST序列数据。

检查的过程常常包括阅读原始文献来交叉证明正确和决定是否有更多的可以扩充UTR的可获得的数据。

转录本变化记录只有在检查过文献后和在专家的帮助下才建立。

所有用来产生序列组合的序列都被在RefSeq记录和LocusLink中报道。

我们同时试图去校正一系列其他代表这个基因GenBank记录。

然而，这个列表不是为了完全广泛的，别的相关序列信息将总是在Entrez相关序列（或临近）记录中，BLAST搜索结果中可获得。

查看下面记录来获得检查过的RefSeq记录的样本：GeneSymbolLocusID CommentsAGL 178 关于剪切变体处理的样本。

只有那些有实验和文献充分证明的有全长的转录本的剪切变体我们才做RefSeq。

在提供对那些由于有改变得编码区而造成的转录本变体的RefSeq记录时有着重的强调。

PAX2 5076剪切变体处理的样本。

MICA4276 注意一些参考文献包括了，这个记录类似于一个“review aritcle”。