利用NCBI进行同源性一级结构分析
一步一步教你使用NCBI数据库资源解读

一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的资料查找,数据分析的工具。
那么NCBI 数据如何使用,新手入门一步一步教你认识和使用NCBI数据库。
一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information),即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于1988年创办。
创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。
除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。
目前,NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能,而且都可以在NCBI的主页上找到相应链接,其中多半是由BLAST功能发展而来的。
1 NCBI最新进展1.1 PubMed搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。
其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。
而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。
现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。
NCBI中Blast种类及利用简介

NCBI中Blast种类及利用简介NCBI中Blast种类简介1. Blast Assembled Genomes在一个选择的物种基因组序列中去搜索。
2.Basic Blast2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索,包括3个程序2.1.1 Blastn----核酸序列(n)到核酸序列数据库中搜索,是一种标准的搜索。
2.1.2 megablast----该程序利用“模糊算法”加速了比较速度,能够用于快速比较两大系列序列。
能够用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或其他缘故形成的轻微的不同的序列之间的比较2.1.3 discontiguous megablast----与megablast不同的是要紧用来比较来自不同物种之间的相似性较低的不合序列。
2.2 Protein Blast2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索,是一种标准的搜索。
2.2.2 psi-blast---位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
所有被BLAST发觉的统计有效的对齐被总和起来形成一个多次对齐,从那个对齐,一个位置特异的分值矩阵成立起来。
那个矩阵被用来搜索资料库,以找到额外的显著对齐,那个进程可能被反复迭代一直到没有新的对齐能够被发觉。
2.2.3 PHI-BLAST---以常规的表达模型为专门位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。
2.3 Translating BLAST2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。
2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。
ncbi使用指导

ncbi使用指导摘要:一、NCBI简介1.NCBI的定义与作用2.NCBI的主要数据库二、NCBI数据库的使用1.基因数据库1.1 基因序列数据库1.2 基因表达数据库1.3 基因调控数据库2.蛋白质数据库2.1 蛋白质序列数据库2.2 蛋白质结构数据库3.核酸序列数据库3.1 核酸序列数据库概述3.2 核酸序列数据库的使用方法4.文献数据库4.1 PubMed简介4.2 如何利用PubMed进行文献检索三、NCBI工具的使用1.基因芯片数据分析工具2.基因序列比对工具3.蛋白质结构预测工具四、NCBI的进阶使用技巧1.如何利用NCBI进行基因注释2.如何利用NCBI进行基因家族分析3.如何利用NCBI进行共表达网络分析正文:一、NCBI简介CBI(National Center for Biotechnology Information,美国国家生物技术信息中心)是一个提供生物信息学资源的网站,它为全球科研工作者提供了大量的生物学数据和工具。
NCBI的主要数据库包括基因数据库、蛋白质数据库、核酸序列数据库和文献数据库等。
二、NCBI数据库的使用1.基因数据库基因数据库包括基因序列数据库、基因表达数据库和基因调控数据库。
基因序列数据库提供了大量的基因序列信息,用户可以通过关键词搜索、序列相似性搜索等方式找到需要的基因序列。
基因表达数据库则提供了基因在不同生物体、不同组织、不同发育阶段的表达信息。
基因调控数据库则包含了基因调控相关的信息,如启动子、转录因子结合位点等。
2.蛋白质数据库蛋白质数据库包括蛋白质序列数据库和蛋白质结构数据库。
蛋白质序列数据库提供了蛋白质的氨基酸序列信息,用户可以通过序列相似性搜索找到相似的蛋白质序列。
蛋白质结构数据库则提供了蛋白质的三维结构信息,用户可以通过结构域、功能域等关键词搜索需要的蛋白质结构。
3.核酸序列数据库核酸序列数据库包括DNA序列数据库和RNA序列数据库。
ncbi使用方法

ncbi使用方法(原创版4篇)《ncbi使用方法》篇1CBI(National Center for Biotechnology Information)是美国国家生物技术信息中心的缩写,它提供了许多生物学和生命科学相关的数据库和工具。
以下是使用NCBI 的一些基本方法:1. 核酸序列数据库(Nucleotide Sequence Database):在NCBI 主页上,可以选择核酸序列数据库,输入序列名称或序列号,然后点击“Search”按钮即可查询序列信息。
2. 蛋白质序列数据库(Protein Sequence Database):在NCBI 主页上,可以选择蛋白质序列数据库,输入蛋白质名称或蛋白质号,然后点击“Search”按钮即可查询蛋白质信息。
3. 基因组数据库(Genome Database):在NCBI 主页上,可以选择基因组数据库,输入基因组名称或基因组号,然后点击“Search”按钮即可查询基因组信息。
4. 代谢通路数据库(Metabolic Pathway Database):在NCBI 主页上,可以选择代谢通路数据库,输入代谢通路名称或代谢通路号,然后点击“Search”按钮即可查询代谢通路信息。
5. 生物投影数据库(BioProject Database):在NCBI 主页上,可以选择生物投影数据库,输入生物投影名称或生物投影号,然后点击“Search”按钮即可查询生物投影信息。
6. 序列比对工具(Sequence Alignment Tool):NCBI 提供了一款名为“Clustal Omega”的序列比对工具,可以在NCBI 主页上使用该工具进行序列比对。
7. 基因表达数据库(Gene Expression Database):NCBI 提供了一款名为“GEO”的基因表达数据库,可以在NCBI 主页上查询基因表达数据。
8. 蛋白质结构数据库(Protein Structure Database):NCBI 提供了一款名为“RCSB PDB”的蛋白质结构数据库,可以在NCBI 主页上查询蛋白质结构信息。
生物信息学NCBI的使用

开始
按照工作要求,直接选择 Blast方法
蛋白质-蛋白质序列比对 也可以选择tblastn
序列输入方式
序列主体
选择搜索区域,这里我们 填入序列(copy+ 要搜索整个序列,不填 paste)Fasta格式, 第1个是”>”不能忘记! 序列信息描述 或者纯序列
选择搜索数据库,这 里我们选nr(非冗余的 设置搜索的范围,选择特定 蛋白序列库)。 物种,或者Entrez关键词 选择BLAST程序
空位罚分 对打分矩阵的调整过滤简单重复序列检索结果
图形示意结果
检索结果-匹配序列列表
目标序列描述部分
带有genbank的链接, 点击可以进入相应的 genbank序列
进入相应的genbank序列
物种来源
Graphics结果
检索结果
具体匹配情况
E值为0,不可能随机匹配 残基完全相同 空位为0
NCBI-BLAST的介绍
常用的Blast工具
在此进入蛋白质数据 库搜索P03958序列
核苷酸-核苷酸序列比对 蛋白质-蛋白质序列比对 蛋白质序列-核酸数据库翻译后的 核酸序列翻译成蛋白质序列-蛋白 核酸翻译成蛋白质序列-核酸数据 蛋白质序列比对 质数据库中的序列比对 库中的核酸译成的蛋白质序列比对
如果接受其他参数默认 设置,点击开始搜索
与核酸相关的数据库
与蛋白质相关的数据库
详细参数设置 最多显示100条序列
E值上限10如果联配的统计显著性值(E 值)小于该值
匹配要求更严格,结果报告中随机产生的匹配序列减少。
Word长度 (10),则该联配将被检出,换句话说,比较低的阀值将使搜索的
打分矩阵,取默认
谢谢
生物信息学
关于分子生物学中的同源性分析

在分子生物学的教学及研究中,经常对核苷酸或氨基酸序列进行比对以确定基因之间或蛋白质之间的同源关系,进而根据同源性来推测物种间的亲缘关系。
基因或蛋白质之间的同源关系包括直系同源和旁系同源,序列间的同源性可用相似性或一致性来进行量化,用相似性(一致性)来判断序列是否同源。
一、同源性的概念在生物学中,同源性(homology)是指在进化过程中源于同一祖先的分支之间的关系。
我们可以在生物学的不同层次(如形态性状、分子性状等)上进行同源性分析,形态性状由于进行上或个体发育上的共同来源而呈现出本质上的相似性,但其功能不一定相同,那么它们就是同源的,如马的前肢与鸟的翅就是同源器官。
在分子水平上同源性主要是指基因的核苷酸序列或蛋白质的氨基酸序列之间的相似程度。
同源基因或蛋白质(homolog)指遗传上从某一共同祖先经趋异进化而形成的具有不同序列的基因或蛋白质。
同源性是一个相对的概念,在一定水平和范围内对其研究才有意义[1]。
二、直系同源与旁系同源同源关系包括两种类型:直系同源(ortholog)和旁系同源(paralog)。
这里我们主要以同源基因为例来进行讨论,同源蛋白质是同样的情况。
同源基因是遗传上来自某一共同祖先DNA序列的基因,包括直系同源基因和旁系同源基因。
直系同源基因,又称直向或垂直同源基因,指的是这样一些基因,它们起源于这些基因所在物种的最近共同祖先的一个祖先基因。
这些基因通常具有相同的功能,但并不是绝对的,当我们比较直系同源基因时,可能会发现有的基因失去了原来的功能或者进化出了新的功能[2-5]。
因此,直系同源基因描述在不同物种中来自于共同祖先的基因。
旁系同源基因,又称横向或并行同源基因,指在一个特定的基因组中由于基因复制产生的同源基因。
当我们比较旁系同源基因时,发现它们可能彼此具有了新的功能,也可能成为假基因了[2-4]。
旁系同源基因描述在同一物种内由于基因复制而分离的同源基因。
如图1所示,祖先球蛋白基因(globin gene)经过复制后分离产生了α球蛋白和β球蛋白基因,这两类基因就是旁系同源基因。
NCBIblast使用教程[1]
![NCBIblast使用教程[1]](https://img.taocdn.com/s3/m/0f001b46910ef12d2bf9e73e.png)
E值范围
3.设置结果输出显示格式
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号(request id) 修改完显示格式后点 击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
分析过程(一)
1.登陆ncbi的blast主页
2.选择程序,因为 查询序列是蛋白序 列可以选择blastp,
点击进入
也可以选择tblastn
作为演示, 我们这里选blastp
NCBIblast使用教程[1]
分析过程(二)
3.填入序列(copy+pa索整个序列,不填
w 其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点:
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。
NCBI功能详介分解

GenBank Overview基本信息∙什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。
每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。
GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
∙纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
∙访问GenBank - 通过Entrez Nucleotides来查询。
用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。
用BLAST来在GenBank和其他数据库中进行序列相似搜索。
用E-mail来访问Entrez和BLAST可以通过Query 和BLAST服务器。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
∙增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank 增长)小节。
∙公布通知,最新 - 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
∙公布通知,旧 - 同上相同,是过去公布的统计。
∙遗传密码 - 15个遗传密码的概要。
用来确保GenBank中纪录的编码序列被正确的翻译。
(向)GenBank提交(数据)∙关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
∙BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。
(请在提交前用VecScreen去除载体)∙Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。
可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1首先把与比对的序列输入或导入下面的query sequence序列框中
2然后点勾选上所比对的项目与显示结果在新窗口中
3在新窗口中变出现比对的结果图,从上往下依次是Graphic Summary界面,Descriptions界面,Alignments内容界面中query是自己的序列,下面很多细红线条就是库里的同源序列了,根据此可以推测自己的编码序列的大小。
4新窗口中的比对图示下部是Descriptions界面,描述的同源序列
5如果勾选上比对出的几个序列前面的方框,然后点击Alignments Download GenPept Graphics Distance tree of results Multiple alignment等选项,分别会出
现两个序列比对结果,下载所勾选的序列,对应的蛋白序列,基因图示,进化树图像和所有勾选的序列的同源性比对结果图。