NCBI资源的使用及进化树的构建

合集下载

一步一步教你使用NCBI数据库资源解读

一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现，NCBI已经成为科研工作者必不可少的资料查找，数据分析的工具。

那么NCBI 数据如何使用，新手入门一步一步教你认识和使用NCBI数据库。

一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information)，即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于1988年创办。

创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。

除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库，其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外，NCBI还可以提供众多功能强大的数据检索与分析工具。

目前，NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能，而且都可以在NCBI的主页上找到相应链接，其中多半是由BLAST功能发展而来的。

1 NCBI最新进展1.1 PubMed搜索功能的增强去年，NCBI对PubMed进行了几项改进工作，改动最大的是搜索界面和摘要浏览界面。

其中，搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合)，并且增加了一个新的窗口，用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。

而且，“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。

现在，在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。

应用PHYLIP构建进化树的完整详细过程

一、获取序列一般自己通过测序得到一段序列（已知或未知的都可以），通过NCBI的BLAST获取相似性较高的一组序列，下载保存为FASTA格式。

用BIOEDIT等软件编辑序列名称，注意PHYLIP在DOS下运行，文件名不能超过10位，超过的会自动截留前面10位。

二、多序列比对目前一般应用CLASTAL X进行，注意输出格式选用PHY格式。

生成的指导树文件（DND文件）可以直接用TR EEVIEW打开编辑，形式上和最终生成的进化树类似，但是注意不是真正的进化树。

三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。

具体步骤如下：（1）打开seqboot.exe输入文件名：输入你用CLASTAL X生成的PHY文件（*.phy）。

R为bootstrap的次数，一般为1000 （设你输入的值为M，即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000）odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile（在phylip文件夹内）改名为2（2）打开Dnadist.EXE输入2修改M值，再按D，然后输入1000（M值）y得到outfile（在phylip文件夹内）改名为3（3）打开Neighboor.EXE输入3M=1000（M值）按Y得到outfile和outtree（在phylip文件夹内）改outtree为4，outfile改为402(4)打开consense.exe输入4y得到outfile和outtree（在phylip文件夹内）Outfile可以改为*.txt文件，用记事本打开阅读。

四、进化树编辑和阅读outtree可改为*.tre文件，直接双击在treeview里看；也可以不改文件扩展名，直接用treeview、PHYLODRAW 、NJPLOT等软件打开编辑。

NCBI资源介绍及使用手册

NCBI资源介绍及使用手册NCBI 资源介绍本文目录：NCBI(美国国立生物技术信息中心) 简介NCBI 站点地图NCBI癌症基因组研究NCBI－Coffee BreakNCBI－基因和疾病NCBI－UniGeneCluster of Orthologous Groups of proteins（COG）介绍Gene Expression Omnibus （GEO）介绍LocusLink介绍关于RefSeq：NCBI参考序列NCBI(美国国立生物技术信息中心)简介介绍理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。

通过只有四个字母来代表DNA化学亚基的字母表，出现了生命过程的语法，其最复杂形式就是人类。

阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。

数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。

挑战在于发现新的手段去处理这些数据的容量和复杂性，并且为研究人员提供更好的便利来获得分析和计算的工具，以便推动对我们遗传之物和其在健康和疾病中角色的理解。

国立中心的建立后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性，发起了在1988年11月4日建立国立生物技术信息中心（NCBI）的立法。

NCBI是在NIH的国立医学图书馆（NLM）的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

它的使命包括四项任务：建立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的，先进方法的研究加速生物技术研究者和医药治疗人员对数据库和软件的使用。

全世界范围内的生物技术信息收集的合作努力。

应用PHYLIP构建进化树的完整详细过程

应用PHYLIP构建进化树的完整详细过程一、获取序列一般自己通过测序得到一段序列（已知或未知的都可以），通过NCBI的BLAST 获取相似性较高的一组序列，下载保存为FASTA格式。

用BIOEDIT等软件编辑序列名称，注意PHYLIP在DOS下运行，文件名不能超过10位，超过的会自动截留前面10位。

二、多序列比对目前一般应用CLASTAL X进行，注意输出格式选用PHY格式。

生成的指导树文件（DND文件）可以直接用TREEIEW打开编辑，形式上和最终生成的进化树类似，但是注意不是真正的进化树。

三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。

具体步骤如下：（1）打开seqboot.exe输入文件名：输入你用CLASTAL X生成的PHY文件（*.phy）。

R为bootstrap的次数，一般为1000 （设你输入的值为M，即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000）odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile（在phylip文件夹内）改名为2（2）打开Dnadist.EXE输入2修改M值，再按D，然后输入1000（M值）Y得到outfile（在phylip文件夹内）改名为3（3）打开Neighboor.EXE输入3M=1000（M值）按Y得到outfile和outtree（在phylip文件夹内）改outtree为4，outfile改为402(4)打开consense.exe输入4Y得到outfile和outtree（在phylip文件夹内）Outfile可以改为*.txt文件，用记事本打开阅读。

三、进化树编辑和阅读outtree可改为*.tre文件，直接双击在treeiew里看；也可以不改文件扩展名，直接用treeiew、PHYLODRAW、NJPLOT等软件打开编辑。

NCBIblast使用教程[1]

E值范围
3.设置结果输出显示格式
选择需要显示的选项以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号（request id）修改完显示格式后点击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score：使用打分矩阵对匹配的片段进行打分，这是
对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大。
E value:在相同长度的情况下，两个氨基酸残基（或
碱基）随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
分析过程（一）
1.登陆ncbi的blast主页
2.选择程序，因为查询序列是蛋白序列可以选择blastp，
点击进入
也可以选择tblastn
作为演示，我们这里选blastp
NCBIblast使用教程[1]
分析过程（二）
3.填入序列（copy＋pa索整个序列，不填
w 其他问题：实际使用时选择哪种方式（网络，本地化），参数的选择，结果的解释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点：
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库，这里我们选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库（cdd），蛋白序列搜索才有。

NCBI资源的使用及进化树的构建

序列搜索，比对以及进化树的构建
• NCBI (National Center for Biotechnology Information ) 美国国立生物技术信息中心
• NCBI负责管理GenBank。 GenBank是
美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸序列。
• 自引导评估(bootstrap)： Bootstrap是由 Felsenstein （PHYLIP的编写者）引入分子分类领域的，现己成为分析分子树置信区间最常用的方法。
• 可以对任何建树方法进行评估。模拟研究表明，在合适的条件下也就是各种替换速率基本相等，树枝基本对称的条件下，如果自引导数值大于70，那么所得的系统发育进化树能够反映真实的系统发生史的可能性要大于95 % 。
• GenBank与日本DNA数据库（DNA Data Bank of Japan, DDBJ）以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库（European Molecular Biology Laboratory, EMBL），所有这 3个中心都可以独立地接受数据提交，而3个中心

• blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询；
blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询；
blastx:先将待查询的核酸序列按六种可读框架（逐个向前三个碱基和逐个向后三个碱基读码）翻译成蛋白质序列，然后将翻译结果对蛋白质序列数据库进行查询；
• 将XXX.phy文件拷到PHYLIP文件夹中的 exe文件夹下
4

2
3 1
依次使用seqboot，dnadist，neighbor，consense

手把手教你构建系统进化树(2021年)

97 NR 116489.1 Pseudomonas stutzeri strain VKM B-975 16S ribosomal RNA partial sequence NR 113652.1 Pseudomonas stutzeri strain NBRC 14165 16S ribosomal RNA partial sequence
进化分析流程
测序组装
• 将克隆扩增测序得到的基因进行测序。
Blast
• 比对找到相似度最高的几个基因，将这几个基因的序列（Fasta格式文件）下载下来，整合在一个*.txt 文档中。
比对序列
• 用Mega 7.0的ClustalW做多序列联配，比对结果用*.meg格式保存。或者用Clustal X软件进行比对，比对结果保存为*.aln, 再用Mega 转化为*.meg格式。
DNA→ DNA
ezbiocloud https:///identify
cDNA→蛋白质
蛋白质 →cDNA
蛋白质→蛋白质
NCBI
输入测序组装后的序列
ezbiocloud
输入序列名称输入测序组装后的序列
比对序列
MEGA可识别fasta格式文件比对前将xxx.txt 重命名为xxx.fasta
构建系统进化树
1）在构建系统树时，使用了Bootstrap法进行检验。在做Bootstrap时，以原序列为蓝本随机重组生成新的序列，重复估算模型。如果原序列计算得到的分枝在新Bootstrap中依然频繁出现，则该分枝的可信度高。分枝在 Bootstrap中出现的频率就是表征分枝可信度的参数。 2） Original Tree是应用估算模型形成的最优系统树。在Original Tree上有计算得到的距离数据，可以表征两个基因的亲缘远近；MEGA形成的Original Tree上也有频率参数，实际来自Bootstrap Consensus Tree的对应分枝。 3） Bootstrap Consensus Tree 是很多次Bootstrap得到的平均结果，它不包含进化距离信息（在设置View时无法调用，也没有意义），分枝上的数字代表该分枝的频率参数。另外，它的拓扑结构也可能与Original Tree很不相同。

如何用MEGA5.0和Clustalx1.83构建进化树

如何用MEGA5.0和Clustalx1.83构建进化树MEGA是一个关于序列分析以及比较统计的工具包，从3.1版本到后来的4.0版本一直都广为大家熟悉，现在推出了Mega5.0版本。

功能比以前多有改进。

现主要介绍使用Mega 5.0构建系统进化树的方法。

供大家参考。

用MEGA构建进化树有以下步骤：1、测序：将克隆扩增测序得到的16S rDNA序列进行测序。

2、NCBI上做Blast/blast/Blast.cgi找到相似度最高的几个序列，确定一下你分离的细菌大约属于哪个科哪个属，如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个，然后寻找相似性最高的细菌，通常把该属的序列（Fasta格式文件）下载下来，或点击GenBank登录号，复制FSA TA 格式，整合在一个*.txt文档中（单独建立一个文件夹存放，后面的很多文件会自动装入该文件夹），如>XXXXAGGCTTAACACA TGCAAGTCGAGCGGAGCGAGGGTGCTTGCACCTTAGCTTAGCGGCG GACGGGTGAGTAA TGCTTAGGAA TCTGCCTA TTAGTGGGGGACAACA TTCCGAAAGGA A TGCTAA TACCGCA TACGCCCTACGGGGGAAAGCAGGGGA TCTTCGGACCTTGCGCTAA TAGA TGAGCCTAAGTCGGA TTAGCTAGTTGGTGGG>gi|289469964|gb|GU388381.1| Acinetobacter tandoii strain DSM 14970 16S ribosomal RNA gene, partial sequenceACTTAGCGGCGGACGGGTGAGTAA TGCTTAGGAA TCTGCCTA TTAGTGGGGGACAACA TTCCGAAAGGGA TGCTAA TACCGCA TACGCCCTACGGGGGAAAGCAGGGGA TCTTCGG ACCTTGCGCTAA TAGA TGAGCCTAAGTCGGA TTAGCTAGTTGGTGGGGTAAAGGCCTAC CAAGGCGACGA TCTGTAGCGGGTCTGAGAGGA TGA………………………….参考序列选择注意事项：1、不选非培养(unclutured)微生物为参比；2、不选未定分类地位的微生物，最相近的仅作参考；c，在保证同属的前提下，优先选择16S rDNA全长测序或全基因组测序的种；d，每个种属选择一个参考序列，如果自己的序列中同一属的较多，可适当选择两个参考序列。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• dnadist 计算核苷酸距离矩阵 • 把刚才的outfile改名，如dnadistinfile • 双击dnadist，输入dnadistinfile，回车
输入D，选择模型，如改成kimura-2 输入M，然后输入 D，再输入1000，和上面步骤要一致即自举值 bootstrap=1000
进化分析的流程
收集数据寻找同源基因多重联配模型选择
系统发育分析
假设检验
• 建立一个序列的数据集 • Cluxtal-X比对，生成一个XX.phy文件 • 将XX.phy文件拷入PHYLIP文件夹中的exe 文件夹 • 若是核酸序列使用邻接法做进化树，依次使用seqboot, dnadist, neighbor, consense 四个程序做进化树 • 蛋白质序列，则使用prodist
• 自引导评估(bootstrap)： Bootstrap是由 Felsenstein （PHYLIP的编写者）引入分子分类领域的，现己成为分析分子树置信区间最常用的方法。 • 可以对任何建树方法进行评估。模拟研究表明，在合适的条件下也就是各种替换速率基本相等，树枝基本对称的条件下，如果自引导数值大于70，那么所得的系统发育进化树能够反映真实的系统发生史的可能性要大于95 % 。
• GenBank与日本DNA数据库（DNA Data Bank of Japan, DDBJ）以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库（European Molecular Biology Laboratory, EMBL），所有这 3个中心都可以独立地接受数据提交，而3个中心之间则逐日交换信息，并制成相同的充分详细的数据库向公众开放。因此他们是相等的。
其他不管，输入Y，回车。Random number seed”(随机种子数)，数值必须是 4n+1(n为正整数)，例如输入“5 or 9 or 13等等”，此为随机数，对结果没影响。然后再回车。可以看到计算过程。
看到exe文件夹中出现一个 outfile 文件，然后可以把 seqboot关掉了
• consense 构建一致树 • 此时，exe文件夹中又多了一个outfile和一个outtree文件。现在一共有dnadistinfile， neighborinfile，outfile，outtree 等4个文件。 • 将outtree改名，如neighborintree • 将outfile改名，如beighboroutfile • 双击consense
序列搜索，分析和比对以及使用 Cluxtal, phylip用邻接法做进化树的简易教程
唐明
• BLAST (Basic Local Alignment Search Tool)即碱基局部对准检索工具，
是一种序列类似性检索工具。它采用统计学记分系统，能将真正配对的序列同随机产生的干扰序列区别开来；同时采用启发式算法系统，即采用的是局部对准算法 (Local Alignment Algorithm)，而不是全序列对准算法(Global Alignment Algorithm)。
Clustalx的输出结果
• .aln格式文件
– 这个文件是默认输出，可以转换成各种格式，而且很多软件都支持这种格式。
• .dnd格式文件
– 引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树 – 不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应，因此应该用.aln格式文件专门做进化分析。
输入1000后，回车。再输入y，回车。可见运算过程。运算完成后，再次出现一个outfile文件。关掉dnadist程序。
• neighbor 邻接法建树 • 将outfile改名，如neighborinfile。 • 双击neighbor，然后输入neighborinfile
输入n，选择neighbor-joining，使用邻接法做树，不要选UPGMA。输入m，再输入1000，回车。Random seed，还是输入9。然后输入y，回车。可见运算过程。算完后，文件夹中多了outtree和 outfile两个文件。然后关闭neighbor程序。
不要改动参数，直接输入y，回车然后可以看见多了两个文件，outtree和outfile
• outtree就是最终得到的一致树，使用 treeview打开outtree，然后可以编辑
将序列粘帖进去
• nr: 所有非冗余的GenBank+EMBL+DDBJ+PDB 序列；但不包括EST、STS、GSS或HTGS序列。
month: 最近30天注释的新增加的或修订的 GenBank+EMBL+DDBJ+PDB序列 dbEST: GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。 dbSTS: GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。 htgs: 高允许能力(High Throughput)基因序列。
PowerBlast是用于大规模分析基因序列的网络 BLAST客户应用软件，它可以通过 • CBI• 名 N 匿的FPT服务器(ftp://)下的 /blast/network/blast2 /powerBLAST/获取。
• blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询；
序列搜索，比对以及进化树的构建
• NCBI (National Center for Biotechnology Information ) 美国国立生物技术信息中心
• NCBI负责管理GenBank。 GenBank是
美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸序列。
• Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列。通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。 • 序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索，找出与之相似的序列，从而评判新测定的序列是重复别人的工作，还是在前人的基础上有所创新，或是发现了新的序列。
• 什么是fasta格式？怎么建立？ • 新建一个txt文本文件，命名如: bph.txt • Fasta的格式： >序列名称序列
Clustalw/clustalx计算过程的三步曲
• Clustal-W是网页版本，Clustal-X是ClustalW的图形版本。 • 所有序列两两比较，得出两两间差异值（最粗的距离） • 根据序列间的差异把差异越小的序列放在一起构建一个分类树（有点像进化树） • 最终操作是以这个分类树作为引导树，从各个相似序列的组作为起点做多重联配，直到所有序列被联配上。
blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询； blastx:先将待查询的核酸序列按六种可读框架（逐个向前三个碱基和逐个向后三个碱基读码）翻译成蛋白质序列，然后将翻译结果对蛋白质序列数据库进行查询；
• tblastn：先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列，然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询； tblastx：先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列，然后再将两种翻译结果从蛋白质水平进行查询。
• yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。
E.coli: 大肠杆菌(E.coli)基因核酸序列。
pdb: 蛋白质数据库。 Kabat[Kabatnuc]: 免疫学上感兴趣的核酸序列 Kaba体数据库。
• mito: 线粒体序列数据库。 alu: 从重复序列数据库(REPBASE)选取的Alu 重复序列，适用于过滤查询序列中Alu重复序列。通过匿名FTP从下的 /pub/jmc/alu目录中获取。 epd: 真核生物的启动子数据库。 gss: 基因搜寻序列，包括单递基因数据、外切核酸酶捕获序列和Alu PCR序列。
• 将XXX.phy文件拷到PHYLIP文件夹中的 exe文件夹下
4 2
3
1
依次使用seqboot，dnadist，neighbor，consense
• seqboot 重复抽样：双击seqboot，输入 BPH.phy，回车
输入R，回车，把数字改为1000。代表自举值 bootstrap = 1000。如果bootstrap值太低，则树不可靠
• (1)经由WWW使用的BLAST ，进入NBCI主页，然后链接到BLAST主页。 • (2)网络版的BLAST BLAST2 是标准的网络BLAST客户软件，它可以通过NCBI匿名的FTP服务器 (ftp://)下的/blast /network/blast2/获取。
• Blastn : 应该是出现较早的算法。比对的速度慢，但允许更短序列的比对（如短到7个碱基的序列）。 • MEGABLAST : 主要用来鉴定一段新的核酸序列，它并不注重比对各个碱基的不同和序列片断的同源性，而只注重被比对序列是否是数据库未收录的，是否为新的提交序列或基因。速度快。同一物种间的。 • Discontiguous MEGABLAST : 灵敏度（sensitivity）更高，用于更精确的比对。主要用于跨物种之间的同源比对。