分子生物学中常用数据库

合集下载

一步一步教你使用NCBI数据库资源解读

一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现，NCBI已经成为科研工作者必不可少的资料查找，数据分析的工具。

那么NCBI 数据如何使用，新手入门一步一步教你认识和使用NCBI数据库。

一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information)，即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于1988年创办。

创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。

除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库，其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外，NCBI还可以提供众多功能强大的数据检索与分析工具。

目前，NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能，而且都可以在NCBI的主页上找到相应链接，其中多半是由BLAST功能发展而来的。

1 NCBI最新进展1.1 PubMed搜索功能的增强去年，NCBI对PubMed进行了几项改进工作，改动最大的是搜索界面和摘要浏览界面。

其中，搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合)，并且增加了一个新的窗口，用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。

而且，“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。

现在，在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要：在后基因组时代生物信息学的研究当中，离不开各种生物信息学数据库。

尤其在蛋白质从序列到功能的研究当中，目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。

随着计算机技术及网络技术的发展，目前的蛋白质数据库不论是所包含数据量还是功能都日新月异，新的数据库层出不穷。

一个新手面对如此浩瀚的数据量往往无从下手。

本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓，作为自己蛋白质研究入门的一个引导。

关键词：蛋白质；数据库0 引言随着科技的发展，个人的知识往往赶不上快速膨胀的信息量，人们为了解决这个问题，便创建了形形色色的数据库。

蛋白质数据库是指：在蛋白质研究领域根据实际需要，对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建出具有特殊生物学意义和专门用途的数据库。

蛋白质数据库总体上可分为两大类：蛋白质序列数据库和蛋白质结构数据库，蛋白质序列数据库来自序列测定，结构数据库来自X-衍射和核磁共振结构测定（详见图1）。

这些数据库是分子生物信息学的基本数据资源。

上世纪90年代，我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。

信息的传播储存甚为不便。

随着蛋白质研究的发展飞快，同时伴随着计算机和因特网发展，蛋白质数据库的储存传播方式也发生的巨大的变化。

进入21世纪后，我们所用的各种蛋白质数据库都发展成为存储在网络服务器上，基于“服务器—客户机”的访问查询方式。

伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。

但是面对如此浩瀚的数据，新手往往感到无从下手，在需要时找不到自己需要的合适数据库。

本文从目前蛋白质数据库建立的的逻辑层次出发，系统地简绍了常用蛋白质数据的概况，它们的查询方法以及它们相互之间的联系。

同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术，为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

分子生物学课程教学资源数据库的建设

摘要分子生物学教学资源数据库是为了满足分子生物学课程建设以及教学需要，整合优秀的教学资源，实现资源共享，提高教学质量，将进一步促进科研、教学及其他相关领域的发展。

关键词分子生物学教学资源数据库在线学习试题库The Construction of Teaching Resource Database for Molecular Biology Course //He Xiaohong,Chang Ping 'an,Xie YongfangAbstract In order to satisfy the course construction and the requirement of the molecular biology course,the database of molecular biology has been development.In the meanwhile,integrating outstanding teaching resources,sharing of resources and improve the quality of teaching also has been become the destination.These works will further promote the development of scientific research,teaching,and other related fields.Key words molecular biology;teaching resource database;on －line learning;item bankAuthor 's address College of Bio-information,Chongqing Uni －versity of Posts and Telecommunications,400065,Chongqing,China分子生物学是一门国际前沿性强、发展迅速、对生命科学领域各分支学科具有广泛和深入影响的学科，是学习和学好专业课程的必要前提。

生物信息数据库

NCBI：
二、重要生物信息数据库
生物信息学数据的表示形式
生物信息学数据的表示形式
平面文件 (flat-file)
– 信息在文件中顺序存放且具有特定格式 – 记录(Entry)通过“获得号”(accession #)
唯一确定 – 同一文件间和不同文件间信息的联系均
通过ac认为这些蛋白质具有相同的折叠方式。在这些情况下，结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。
蛋白质结构分类数据库CATH
类型Class、构架Architecture 、拓扑结构Topology和同源性Homology 。
分类基础是蛋白质结构域。与SCOP不同的是，CATH 把蛋白质分为4类，即a主类、b主类，a-b类（a/b型和a+b型）和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。
描述了结构和进化关系。 SCOP数据库从不同层次对蛋白质结构进行分类，以反
映它们结构和进化的相关性。第一个分类层次为家族，通常将序列相似性程度在30%
以上的蛋白质归入同一家族，有比较明确的进化关系。超家族：序列相似性较低，结构和功能特性表明它们有
共同的进化起源，将其视作超家族。折叠类型：无论有无共同的进化起源，只要二级结构单
EMBL格式：欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件，每一行最前面是由两个大写字母组成的识别标志，常见的识别标志列举在后面的表中。识别标志 “特性表”FT包含一批关键字，它们的定义已经与 GenBank和DDBJ统一。下欧洲国家的许多数据库如 SWISS-PROT、ENZYME、TRANSFAC等，都采用与EMBL一致的格式。
1）头部包含关于整个序列的信息（描述字符），从 LOCUS行到 ORIGIN行；

真菌分子生物学鉴定方法

真菌分子生物学鉴定方法
真菌的分子生物学鉴定方法通常包括以下步骤：
DNA 提取：首先需要从真菌样本中提取DNA。

这可以通过商业DNA 提取试剂盒或自制的DNA 提取方法来实现。

PCR 反应：利用聚合酶链反应（PCR）扩增特定的真菌基因片段。

常用的标记基因包括核糖体RNA基因（rRNA）和线粒体DNA等。

对于真菌，常用的靶标基因包括18S rRNA、ITS（内转录间隔区）和28S rRNA等。

测序：对扩增得到的DNA片段进行测序，可以使用Sanger测序或者更先进的下一代测序技术。

序列分析：将测序得到的DNA序列与数据库中的真菌序列进行比对，以确定真菌的物种。

常用的数据库包括GenBank、UNITE等。

构建系统发育树：利用比对后的序列数据构建系统发育树，以了解真菌的亲缘关系和分类位置。

生物数据库介绍

GenPept Sequence Records (which contain the amino acid translations from GenBank/EMBL/DDBJ records that have a coding region feature annotated on them)
各种登录号（索引号）的类型（续） Type of Record Protein Sequence Records from PRF RefSeq Nucleotide Sequence Records Sample Accession Format A series of digits (often six or seven) followed by a letter, e.g.:1901178A Two letters, an underscore bar, and six digits, e.g.: mRNA records (NM_*):NM_000492 genomic DNA contigs (NT_*):NT_000347 complete genome or chromosome (NC_*):NT_000907 genomic region (NG_*):NG000019 Two letters (NP), an underscore bar, and six digits, e.g.:NP_000483
生物信息学数据库的分类：
生物信息学数据库
一级数据库
二级数据库
一级数据库
直接来源于实验获得的原始数据（DNA序
列、蛋白质序列、蛋白质结构等），只经过简单的归类、整理和注释。
一级核酸数据库（3）：GenBank数据库、EMBL数
据库、DDBJ数据库一级蛋白质序列数据库（2）：SWISS-PROT库、PIR 蛋白信息数据库一级蛋白质结构数据库（1）：PDB数据库

2025届高三一轮复习生物：基因库和基因文库、基因数据库讲义

基因库和基因文库、基因数据库问题的提出：试题中出现，“PCR扩增前，可以中获取基因的碱基序列，然后设计含相应酶切位点的引物。

”答案为“基因数据库”，但许多学生的答案是“基因文库”，那么，什么是基因数据库？什么是基因文库？它们之间有什么区别？和必修2教材中出现的基因库又有什么区别？1.基因库和基因文库基因库是群体遗传学中的概念，指某生物群体中所具有的所有基因。

它不用提取出来，而是存在于生物群体中。

是以种群为单位，而不是物种为单位。

基因文库是分子遗传学或基因工程中的概念，指贮存某物种基因的一个微生物群体。

它包括基因组文库和CDNA文库，其中基因组文库含有一种生物的全部基因，而CDNA文库含有一种生物的部分基因。

例如，假设我们有一个包含100个个体的种群，每个个体有10个不同的等位基因。

那么这个种群的基因库就是这1000个等位基因的总和。

如果我们用限制酶切割这些个体的DNA，并将片段导入细菌细胞形成基因文库，这个文库将包含这1000个等位基因的克隆。

基因文库的构建步骤：（1）从含有目的基因的供体生物的细胞或组织中提纯获得高质量的基因组DNA。

（2）用特定的限制性内切酶将含有目的基因的供体基因组DNA切割成许多片段。

（3）用能产生互补粘性末端的限制性内切酶将载体(噬菌体)DNA切开并去除其中的填充片段。

（4）用专一性强的DNA连接酶将供体DNA片段分别与载体DNA连接(供体DNA片段克隆到载体中)。

（5）经包装繁殖而产生重组噬菌体克隆(DNA重组体)，建成供体基因组DNA文库成员。

（6）当制备的克隆数多到足以把某种供体生物的全部基因都包含在内时，这些克隆的总体就称为该生物的基因文库。

（7）有了基因文库，在分离带有目的基因的DNA重组体时就可以从文库中筛选而不必重复地进行全部操作。

2.基因数据库及其功能基因数据库存储有基因和基因组的序列、结构、变异和功能等多维度数据。

这些信息是基因表达、调控及进化研究的基础。

ncbi 基因序列

ncbi基因序列引言NCBI（National Center for Biotechnology Information）是美国国家生物技术信息中心，致力于生物医学和遗传学研究。

其数据库中包含了大量的基因序列数据，为生命科学研究提供了重要的资源。

本文将全面、详细、完整地探讨NCBI基因序列，包括其数据库结构、数据内容以及应用等方面。

NCBI基因序列数据库结构NCBI基因序列数据库主要由以下几个部分组成：1. GenBankGenBank是NCBI最重要的数据库之一，存储了大量的基因序列数据。

它包含了来自不同生物物种的DNA、RNA以及蛋白质序列的信息。

GenBank中的数据被分为多个不同的类别，例如转录本（transcript）和基因（gene）等。

用户可以通过GenBank来查询、浏览和下载基因序列信息。

2. RefSeqRefSeq是NCBI维护的一个基因序列数据库，与GenBank不同的是，它主要包含了一些已知的、已经经过验证的基因序列。

RefSeq数据库提供了高质量的基因注释信息，可以帮助研究者更好地理解基因的结构和功能。

3. SRASRA（Sequence Read Archive）是NCBI的一个存储测序数据的数据库。

它包含了来自不同生物物种的DNA和RNA测序数据，包括原始的测序片段（reads）以及组装好的序列。

SRA数据库为研究者提供了丰富的数据资源，可以用于各种生物信息学和基因组学分析。

NCBI基因序列数据内容NCBI基因序列数据库中的数据内容非常丰富。

除了基因序列本身外，还包括了基因的注释信息、功能预测、调控元件等。

下面列举了部分常见的数据内容：1. 基因序列基因序列是NCBI基因序列数据库中最基本的数据内容之一。

它包含了DNA、RNA或蛋白质的碱基序列信息。

基因序列可以通过基因的唯一标识符进行查询，研究者可以通过分析基因序列来了解基因的结构和功能。

2. 基因注释基因注释是对基因序列进行解读和注释的过程，旨在揭示基因的结构和功能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

分子生物学中常用数据库综合数据库：来源：/news/science/article/90048.html生物信息学网址链接：http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue：/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal：/esignal/信号传导系统蛋白的结构域预测工具，凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP：http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具，适合定位于非胞质位置的蛋白质Emotif：/emotif-search/结构域预测工具，由于其用motif电子学习的方法产生结构域模型，故预测效果比Prosite好Ematrix：/ematrix/是用Matrix的方法创建的结构域数据库，可与emotif互相印证。

其速度快，可快速搜索整个基因组InterPro：/InterProScan/EBI提供的服务，用图形的形式表示出搜索的结构域结果TRRD：http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。

但不会用Protscale：/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性（Kyte&Doolittle）、抗原性（Hopp&Woods）等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断，其概念比Domain小PROSITE：/tools/scanprosite/是专门搜索蛋白质Motif的数据库，其中signature seqs是最重要的motif信息B. Domain：若干motif可形成一个Domain，每个Domain形成一个球形结构，Domain与Domain之间通常像串珠一样相连Pfam：可以搜索某段序列中的Domain，并以图形化表示出来。

这个数据库非常重要。

用法：在搜索栏中输入蛋白的swissprot的序列号CDD：/interpro/NCBI搜索时在每个蛋白质Link旁都有Blink，Domains两个链接。

Domains可以直接看到这个蛋白的确定的结构域。

如果要在CDD数据库寻找Domain信息，则可进入Blink链接，再进行CDD搜索，就可以了。

看Domain的详细信息可以到：/interpro/上进行搜索查看蛋白跨膜序列分析kyte-Doolittle疏水性分析：每个等于或高于1.8的峰都可能是跨膜结构域蛋白质结构预测工具PREDATOR：http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/n psa_preda.html蛋白质二级结构预测工具蛋白质糖基化位点的预测/browse/mesh/C0017982L1222670.ht ml这是个综合连接。

包括：DictyOGlyc prediction server，NetOGlyc prediction server，YinOYang server，META II PredictProtein server，O-GLYCBASE，GlycoMod tool蛋白质结构数据库MMDB：/Structure/MMDB/mmdb.shtmlNCBI的蛋白质结构数据库，要使用Cn3D v4.1软件观看PDB：/pdb/Protein Data Bank, 要使用Swiss PDB viewer软件观看蛋白质综合数据库PIR：Uniprot 二、核酸相关数据库三大主要核酸序列数据库：EMBL：/embl/GenBank：/Genbank/DDBJ：http://www.ddbj.nig.ac.jpRNA二级结构及非编码区功能预测：RNA二级结构预测：http://www.genebee.msu.su/services/rna2_reduced.html速度快，生成图像最好的RNA二级结构预测软件：mfoldUTR功能区预测：r.it/BIG/UTRHome/预测mRNA翻译能力的在线工具：http://wwwmgs.bionet.nsc.ru/programs/acts2/ma_mRNA.htm其说明书在：http://wwwmgs.bionet.nsc.ru/mgs/papers/kochetov/bioinf/ RegRNA:.tw/RegRNA2/website/ RFAM：/Software/Rfam/RNA world：http://www.imb-jena.de/RNA.htmlRNA resource Links：.tw/RegRNA2/website/references/基因转录调控相关数据库EPD http://www.epd.isb-sib.ch真核生物启动子，好用TRRD：Transcription Regulatory Regions Database可搜索某一基因的调控区及相关转录因子TRANSFAC：http://www.generegulation.de可搜索所有转录因子的数据，好用启动子数据库：http://www.epi.isb-sib.ch转录因子结合位点/content/vol3/issue3/full/2/bip/电子延伸相关在线软件意大利CAP3软件：http://bio.ifom-firc.it/ASSEMBLY/assemble.html强烈推荐使用，使用时只需将整个Unigene全部序列文件输入就可以了序列比对在线软件Multialin：http://prodes.toulouse.inra.fr/multalin/multalin.html最好的多序列比对在线工具FASTA：/fasta/，BLAST：/BLAST/Motif的发现与利用Motif发现新的功能基因MEME：/meme/website/intro.html可以发现几个序列所共有的motif以及根据已知的motif搜索est 数据库以发现新的基因，此软件输出结果不好读懂BLOCK Maker：in which Block maker is Very Goodhttp://bioinformatics.weizmann.ac.il/blocks/blockmkr/www/make_blocks.html可通过蛋白多序列比对寻找其中的保守区域，非常好用，易学IRES及其他UTR功能序列的预测UTRscan：r.it/BIG/UTRScan/，r.it/BIG/UTRScan/需要先注册email三、表达数据库EST聚类表达数据资源Unigene：/unigene/不用说了，老牌的EST聚类程序，数据库质量很好，但毛病也不少，不过我常用它TIGR：/tdb/tgi/按独一无二的剪接体对EST进行聚类，并从中得出独一无二的共有的序列，每个Cluster的EST都有图形排列显示Allgenes：其EST聚类要求比较严格，但每个Cluster都有一个质量极高的mRNA序列，可轻松定位到基因组上MIPS：http://mips.gsf.de/proj/human/MIPS的EST聚类数据库。

其中有个工具特别好，就是在BLAST 服务中有个可以得到与BLAST基因相近EST的组织分布的程序特殊的表达数据库前列腺表达数据库：膀胱癌EST数据库：.twMicroarray和SAGE表达数据库及其分析工具全身正常组织microarray数据（U133A, U133B）：较全的全身正常组织microarray数据库，推荐，要搜索表达数据需在search中数据探针名称（U133A, U133B），注意必须安装Adobe SVG Viewer，得到的数据需要用photoshop颠倒过来才能观看。

斯坦福大学生物芯片数据库：/最好的生物芯片数据库，不仅数据源丰富，而且数据搜索软件功能齐全，但要学会也需要点时间CleanEX：http://www.cleanex.isb-sib.ch用于分析比较来源于不同技术平台的表达数据EBI array database：/arrayexpress/欧洲生物信息学会主办的基因芯片数据库RAD：/RAD/php/功能与CleanEX近似，推荐使用Gene Expression Db：提供60多个肿瘤细胞系的基因芯片数据NIAID：ONCOMINE：http://141.214.6.50/oncomine/main/AWR1Uko AND MY EMAIL非常好的肿瘤microarray数据库GENEHOPPER：http://genehopper.lumc.nl/db/利用accession num将microarray数据与Genebank进行连接的软件NetAffx：https:///analysis/netaffx/index.affxMicroarray Anotation Database：探针注释数据库四、其它数据库免疫学相关数据库MHCI结合表型预测：/molbio/hla_bind/已经试过，非常好用两种常用表位预测数据库ProPred-I：http://www.imtech.res.in/raghava/propred1/SYFPEITHI：http://www.uni-tuebingen.de/uni/kxi/MHCI表型预测与蛋白酶体降解分析SYFPEITHI的MHCI表型预测工具：/Scripts/MHCServer.dll/Epit opePrediction.htmSEREX数据库：/CancerImmunomeDB/CT抗原数据库：/CTdatabase/Immunology相关工具综合：特殊数据库McGill：http://ww2.mcgill.ca/androgendb/雄激素受体数据库肿瘤数据库染色体突变数据库：biogen.fr/services/chromcancer/内源性逆转录病毒数据库：包含100多个内源性逆转录病毒家族，每个家族都给出了共有序列基因注释数据库ensemble：/Homo_sapiens/综合各种基因注释的平台OE：/Projects.html基因功能注释的重要工具，提供每个注释的生物学意义的评分GENMAPP：将基因芯片数据综合在各种生物通路上，帮助分析表达数据的生物学意义GeneCard：http://bioinformatics.weizmann.ac.il/cards/很全的基因卡片突变数据库HGMD突变数据库：/uwcm/mg/hgmd/search.html包含各种疾病和基因的突变数据肿瘤基因数据库：/ermb/tgdb/tgdb.html搜索起来不是很方便源地址：/news/science/article/90048.html 比较基因组学数据库VISTA：/vista/最重要的比较基因组学在线软件，强烈推荐使用PCR相关网站引物数据库：/primerbank/含180000条mRNA特异引物，非常好用方便的实验室运算软件MOLBIOL.RU：http://molbiol.ru/eng/scripts/可以进行随机核酸序列的产生，PCR条件优化运算等密码子使用频度数据库：http://www.kazusa.or.jp/codon/。