NCBI分子数据库介绍

合集下载

ncbi介绍

• 在1992年10月，NCBI承担起对GenBank DNA 序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。 GenBank是NIH遗传序列数据库，一个所有可以公开获得的DNA序列的注释过的收集。 GenBank同日本和欧洲分子生物学实验室的 DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。
向GenBank提交数据 · 关于提交序列数据，收到 accession number，和对纪录作更新的一般信息。 · BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。（请在提交前用 VecScreen 去除载体） · Sequin - 提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。可以独立使用，或者用基于 TCP/IP的"network aware"模式，可以链接到其他 NCBI的资源和软件比如Entrez和PowerBLAST。（请在提交前用VecScreen去除载体）
NCBI提供的附加的软件工具
• 开放阅读框寻觅器（ORF Finder），电子 PCR，和序列提交工具，Sequin和BankIt。所有的NCBI数据库和软件工具可以从 WWW或FTP来获得。 NCBI还有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。
教育和训练
• NCBI通过赞助会议，研讨会，和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学交流。一个科学访问学者项目已经成立，来培养同外部科学家的合作。作为NIH内部的部分研究项目，也提供博士后工作位置。 •

ncbi中文说明书

NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心[url]/[/url]NCBI是NIH的国立医学图书馆（NLM）的一个分支。

NCBI提供检索的服务包括：1．GenBank（NIH遗传序列数据库）：一个可以公开获得所有的DNA序列的注释过的收集。

GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库的。

它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。

这三个组织每天交换数据。

其中的数据以指数形式增长，最近的数据为它已经有来自47000个物种的30亿个碱基。

2．Molecular Databases（分子数据库）：Nucleotide Sequence（核酸序列库）：从NCBI其他如Genbank数据库中收集整理核酸序列，提供直接的检索。

Protein Sequence （蛋白质序列库）：与核酸类似，也是从NCBI多个不同资源中编译整理的，方便研究者的直接查询。

Structure（结构）-——关于NCBI结构小组的一般信息和他们的研究计划，另外也可以访问三维蛋白质结构的分子模型数据库（MMDB）和用来搜索和显示结构的相关工具。

MMDB：分子模型数据库—一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。

Taxonomy（分类学）——NCBI的分类数据库，包括大于7万余个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

其目的是为序列数据库建立一个一致的种系发生分类学。

3．Literature Databases（文献数据库）（1）PubMed是NLM提供的一项服务，能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问，并可以连接到参与的出版商网络站点的全文文章和其他相关资源。

ncbi使用指导

ncbi使用指导摘要：一、NCBI简介1.NCBI的定义与作用2.NCBI的主要数据库二、NCBI数据库的使用1.基因数据库1.1 基因序列数据库1.2 基因表达数据库1.3 基因调控数据库2.蛋白质数据库2.1 蛋白质序列数据库2.2 蛋白质结构数据库3.核酸序列数据库3.1 核酸序列数据库概述3.2 核酸序列数据库的使用方法4.文献数据库4.1 PubMed简介4.2 如何利用PubMed进行文献检索三、NCBI工具的使用1.基因芯片数据分析工具2.基因序列比对工具3.蛋白质结构预测工具四、NCBI的进阶使用技巧1.如何利用NCBI进行基因注释2.如何利用NCBI进行基因家族分析3.如何利用NCBI进行共表达网络分析正文：一、NCBI简介CBI（National Center for Biotechnology Information，美国国家生物技术信息中心）是一个提供生物信息学资源的网站，它为全球科研工作者提供了大量的生物学数据和工具。

NCBI的主要数据库包括基因数据库、蛋白质数据库、核酸序列数据库和文献数据库等。

二、NCBI数据库的使用1.基因数据库基因数据库包括基因序列数据库、基因表达数据库和基因调控数据库。

基因序列数据库提供了大量的基因序列信息，用户可以通过关键词搜索、序列相似性搜索等方式找到需要的基因序列。

基因表达数据库则提供了基因在不同生物体、不同组织、不同发育阶段的表达信息。

基因调控数据库则包含了基因调控相关的信息，如启动子、转录因子结合位点等。

2.蛋白质数据库蛋白质数据库包括蛋白质序列数据库和蛋白质结构数据库。

蛋白质序列数据库提供了蛋白质的氨基酸序列信息，用户可以通过序列相似性搜索找到相似的蛋白质序列。

蛋白质结构数据库则提供了蛋白质的三维结构信息，用户可以通过结构域、功能域等关键词搜索需要的蛋白质结构。

3.核酸序列数据库核酸序列数据库包括DNA序列数据库和RNA序列数据库。

NCB介绍

FASTA

FASTA程序是第一个广泛使用的数据库相似性搜索程序。程序引用取代矩阵实行局部比对以获得最佳搜索。但众所周知，使用这种策略会非常耗费工作时，为了提高速度，在实施耗时的最佳搜索之前，程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡选择依赖于ktup参数。它决定了字串的大小。增大ktup参数就会减少字串命中的数目，也就会减少所需要的最佳搜索的数目和搜索的速度。从2.0版本开始，FASTA对每一个检索的比对都提供一个统计学显著性的评估。 Ftp：///pub/fasta/
完整的基因组
参见下面Genome和Maps部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。人

OMIM：在线人类孟德尔遗传

经常更新的人类基因和遗传失调的目录，有链接到其它相关的文献参考，序列记录，和相关数据库。

蛋白序列

Entrez蛋白 —用accession number,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索蛋白序列记录（在 GenPept + Swiss-Prot + PIR + RPF + PDB 中）。更多的关于Entrez的信息见下。如果要检索大量数据，也可使用 Batch Entrez（批量Entrez）。
核酸序列 Entrez核酸 — 用accession number,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索核酸序列记录（在 GenBank + PDB中）。更多的关于Entrez 的信息见下。如果要检索大量数据，也可使用Batch Entrez（批量Entrez）。

NCBI功能详介

NCBI功能详介NCBI（National Center for Biotechnology Information）是美国国家生物技术信息中心，是全球最大的生物信息学数据库之一，也是生物医学研究领域最重要的资源之一、NCBI提供了广泛的生物学和医学数据库和工具，以帮助科学家们进行基因组学、蛋白质学、遗传学、药物研发等方面的研究。

NCBI的主要功能包括：1. PubMed：NCBI的PubMed是最大的生物医学文献数据库。

它收录了全球范围内的生物医学文献，并提供了非常强大的功能，以帮助科学家们找到自己感兴趣的论文。

3. BLAST：BLAST（Basic Local Alignment Search Tool）是NCBI 提供的一种重要的生物信息学工具。

它可以用来比对生物序列（如DNA、RNA或蛋白质序列），以找到相似的序列或已知的序列。

BLAST对生物学研究非常重要，可以用于序列比对、功能注释、物种分类等各种应用。

4. Entrez数据库：Entrez是NCBI提供的一种综合性数据库工具，可以用来访问和多个数据库，如PubMed、GenBank、Protein、Nucleotide等。

用户可以使用Entrez来查找和获取各种类型的生物学数据，如文献、序列、蛋白质结构等。

5. PubChem：PubChem是一个提供生物化学信息的数据库，包含大量的有关化合物的实验数据、化学结构、药物作用等信息。

它可以帮助研究人员进行药物发现、化合物筛选和毒性评估等方面的研究。

6. dbSNP：DBSNP（Single Nucleotide Polymorphism Database）是一个用于存储和查询单核苷酸多态性数据的数据库。

它收集了全球范围内各种不同物种的单核苷酸变异信息，包括单核苷酸变异的位点、变异类型、频率等。

7. GEO：GEO（Gene Expression Omnibus）是一个用于存储和共享基因表达数据的数据库。

分子生物学相关数据库

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统，它综合了下述各大数据库的信息，包括核酸、蛋白以及Medline 文摘数据库，在这三个数据库中建立了非常完善的联系。

因此，可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息，详见NCBI(美国国立生物技术信息中心) 简介。

EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部，位于英国Hinxton 的Wellcome Trust Genome Campus。

EBI维护和发布的数据库：✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库，由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库：EBI还提供网络服务，通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据，同时也提供数据库和序列相似性的搜索工具。

核酸数据库：GenBankGenBank是NIH的基因序列数据库，由美国国立卫生研究院全国生物技术信息中心（NCBI）建立并维护，是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7)，GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献，是世界上的权威序列数据库。

NCBI分子生物学数据库应用简介

Nucleotide 包含： • 所有的核苷酸及蛋白质序列 • 与之相关的生物学信息 • 参考文献
二 . Genome
即基因组数据库，提供了多种基因组、完全染色体、临近序列图谱以及一体化基因物理图谱。
三. Structures
即结构数据库或称分子模型数据库〔MMDB〕，包含来自 X 线晶体学和三维结构的实验数据。 MMDB 的数据从 PDB〔Protein Data Bank〕获得。
3. 向GenBank递交数据
GenBank数据的一个主要来源是通过作者直接递交；目前许多期刊也希望刊登的文章中的DNA或氨基酸序列能在发表前输入数据库。
NCBI为此设计了方便、快捷的数据递交软件：
BankIt: 直接通过WWW进行简便、快捷的递交。
Sequin:
可供MAC、PC\Windows、UNIX 用户使用的递交软件，可输入有关数据的详细资料。
四. Taxonomy
即生物学门类数据库，可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。
五. PopSet
包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。PopSet既包含核酸序列数据又包含蛋白质序列数据。
六. OMIM
孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。该数据库包括原文信息、图片和参考信息，同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。
…………..
2. BLAST相似性检索系统
BLAST 〔Basic Local Alignment Search Tool〕
是用于序列相似性检索的一个重要数据库，是区分基因和基因特征的工具。该软件能在15秒内完成整个DNA数据库的序列检索。

ncbi分子生物学数据库网络生物医学

NCBI分子生物学数据库网络生物医学1. 引言生物医学研究的进展离不开大量的数据资源和分析工具的支持。

NCBI (National Center for Biotechnology Information) 是一个旨在促进生物信息学和分子生物学研究的重要组织。

它提供了多个分子生物学数据库，这些数据库存储了大量的生物信息学数据，并提供了丰富的分析工具，以帮助科学家进行生物医学研究。

本文将介绍一些常用的NCBI分子生物学数据库及其在网络生物医学研究中的应用。

2. NCBI基因数据库2.1 GenBankGenBank 是全球最大的基因序列数据库之一，它存储了大量的DNA和RNA序列数据。

研究者可以通过GenBank访问到已被发表的基因序列数据，以及一些未发表的序列数据。

这些数据对于研究基因功能、生物进化以及人类疾病等方面都非常重要。

2.2 RefSeqRefSeq (Reference Sequence) 是一个注释完整的、高质量的基因序列数据库。

与GenBank不同，RefSeq仅收录了经过验证且与蛋白质对应的基因序列，这使得研究者可以更加准确地进行基因结构和功能的研究。

RefSeq还提供了基因组、转录组和蛋白质序列的相关信息。

2.3 dbSNPdbSNP (database of Single Nucleotide Polymorphisms) 存储了人类和其他物种中的单核苷酸多态性数据。

这些多态性位点是基因组中常见的变异，对于人类疾病的研究和个体之间的遗传差异分析非常重要。

dbSNP收集了来自各种来源的单核苷酸多态性数据，包括人类单核苷酸多态性计划 (HapMap) 和千人基因组计划 (1000 Genomes Project)。

3. NCBI蛋白质数据库3.1 UniProtUniProt 是全球最大的蛋白质序列和注释数据库。

它整合了来自不同来源的蛋白质序列数据和相关的注释信息。

UniProt 提供了蛋白质序列、结构、功能、亚细胞定位和表达等方面的详细信息，帮助研究者理解蛋白质的结构和功能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

NCBI分子数据库介绍
信息来源：中国生命科学论坛更新时间：2003-10-12 2:33:00
核酸序列(nucleotides)
·Entrez核酸- 用accession number,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索核酸序列记录（在GenBank + PDB中）。

更多的关于Entrez的信息见下。

如果要检索大量数据，也可使用Batch Entrez （批量Entrez）。

·RefSeq - NCBI数据库的参考序列。

校正的，非冗余集合，包括基因组DNA contigs，已知基因的mRNAs和蛋白，在将来，整个的染色体。

Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

·dbEST - 表达序列标签数据库，短的、单次（测序）阅读的cDNA序列。

也包括来自于差异显示和RACE实验的cDNA序列。

·dbGSS -基因组调查序列的数据库，短的、单次（测序）阅读的cDNA序列，exon trap获得的序列，cosmid/BAC/YAC 末端，及其他。

·dbSTS -序列标签位点的数据库，短的在基因组上可以被唯一操作的序列，用于产生作图位点。

·dbSNP - 单核苷酸多态性数据库，包括SNPs，小范围的插入/缺失，多态重复单元，和微卫星变异。

完整的基因组
·参见Genome 和Maps 部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。

·UniGene - 被整理成簇的EST和全长mRNA 序列，每一个代表一种特定已知的或假设的人类基因，有定位图和表达信息以及同其它资源的交叉参考。

序列数据可以以cluster 形式在Unigene 网页下载，完整的数据可以从FTP站点repository/UniGene 目录下下载。

1.奶牛UniGene
2.人类UniGene
3.小鼠UniGene
4.大鼠UniGene
5.斑马鱼UniGene
·BLAST - 将你的序列同核酸库中的的序列比较，检索相似的序列。

（更详细的信息见下面Tools/Sequence 相似搜索部分）
蛋白序列(proteins)
· Entrez蛋白-用accession number,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索蛋白序列记录（在GenPept + Swiss-Prot + PIR + RPF + PDB中）。

更多的关于Entrez的信息见下。

如果要检索大量数据，也可使用Batch Entrez（批量Entrez）。

·RefSeq - NCBI数据库的参考序列。

Curated, 非冗余集合包括基因组DNA contigs,已知基因的mRNAs和蛋白，在将来，整个的染色体。

Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

·FTPGenPept - 下载"genpept.fsa.Z"文件，这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA 格式的氨基酸序列，这些记录都有一到两个CDS特性的描述。

·Conserved Domain Database (CDD) - 蛋白质经常包含若干模块或域，每个有不同的进化源及功能。

CD-Search 服务可用来标记保存域中的蛋白质序列。

完整的基因组
·参见Genome 和Maps 部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。

·Entrez基因组- 提供了一个编码区的概要和各种物种的分类表（TaxTable）。

编码区概要列出了在基因组中所有的的蛋白，并提供链接到FASTA文件和BLAST。

分类表总结了蛋白BLAST分析的结果，建议他们的可能功能，并用颜色编码的图来显示物种同其它物种之间的关系（参见下面'Genomes和Maps,'部分Entrez基因组的一般描述）
·FTP基因组蛋白- 从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。

参见readme文件。

蛋白表也可以在Entrez基因组中看到。

·PROW - Web上的蛋白资源，关于大约200种人类的CD细胞表面分子的简短官方向导。

互相检索，为每个CD 抗原提供大约20中标准信息的分类（生化功能，配体，等等）
·BLAST - 将你的序列同蛋白库中的的序列比较，检索相似的序列。

（更详细的信息见下面Tools/Sequence 相似搜索部分）
结构(structures)
·结构主页- 关于NCBI结构小组的一般信息和他们的研究计划，另外也可以访问分子模型数据库（MMDB）和用来搜索和显示结构的相关工具。

·MMDB：分子模型数据库- 一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。

MMDB是来源于Brookhaven蛋白数据库（PDB）三维结构的一部分，排除了那些理论模型。

MMDB重新组织和验证了这些信息，从而保证在化学和大分子三维结构之间的交叉参考。

数据的说明书包括生物多聚体的空间结构，这个分子在化学上是如何组织的，以及联系两者的一套指针。

利用将化学，序列，和结构信息整合在一起，MMDB 计划成为基于结构的同源模型化和蛋白结构预测的资源服务。

MMDB的记录以ASN.1格式存储，可以用Cn3D, Rasmol, 或Kinemage来显示。

另外，数据库中类似的结构已经被用VAST确认，新的结构可以用VASTsearch 来同数据库进行比较。

·Cn3D - "See in 3-D"，一个用于NCBI数据库的结构和序列相似显示工具，它允许观察3-D结构和序列-结构或结构-结构同源比较。

Cn3D用起来就象你浏览器上的一个帮助工具。

· VAST - 矢量同源比较搜索工具-一个在NCBI开发的计算算法，用于确定相似的蛋白三维结构。

每一个结构的"结构邻居"都是预先计算好的，而且可以通过MMDB的结构概要页面的链接访问。

这些邻居可以用来确认那些不能被序列比较识别的远的同源性。

·VAST 搜索- 结构-结构相似搜索服务。

比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。

VAST搜索计算一系列可能会被交互浏览的结构邻居，用分子图形来观察重叠和同源相似。

分类学(taxonomy)
·NCBI的分类数据库主页- 关于分类计划的一般信息，包括分类资源和同NCBI分类学家合作的外部管理者的列表。

·分类浏览器- 搜索NCBI的分类数据库，包括大于70000个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

可以检索一个特定种或者更高分类（如属，科）的核酸，蛋白，和结构记录。

如果有新物种的序列数据被放到数据库中，这个物种就北加到（分类）数据库中。

NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。

·分类BLAST - 详细的信息见下面Tools/Sequence 相似搜索部分。