序列相似性搜索

合集下载

生物信息学中的相似序列搜索算法研究

生物信息学中的相似序列搜索算法研究序言生物信息学在生物学中扮演着重要的角色，通过基因、蛋白质、氨基酸等大量数据分析，被广泛应用于许多领域，包括分子生物学、代谢组学以及人类病理学等。

为了更好地分析这些数据，生物信息学家们需要应对大规模的生物序列数据并提取有关其中信息的算法。

本文将着重讨论在生物信息学中常用的相似序列搜索算法。

一、概述相似序列搜索算法是一种在生物信息学中非常重要的工具，用于在大量的序列数据中寻找相似的序列。

例如，在基因组测序中，基因组往往很大，所以需要找到其中与已知基因或蛋白质相似的序列。

相似序列搜索算法在这种情况下能够快速找到匹配项。

二、BLAST算法BLAST（基本局部序列比对搜索工具）是生物信息学领域中最常用的相似序列搜索算法。

BLAST算法可以快速在序列数据库中查找与查询序列相匹配的序列。

BLAST算法实现了多种局部序列比对算法，如肋骨结构比对（ribosomal S1 RNA匹配比对），LD periodicity比对（Leucine-rich repeat蛋白质匹配比对）以及Gapped Local Alignment和Smith-Waterman比对等。

BLAST算法基于一种快速搜索比对算法，即块搜索算法，这种算法使用了某些方法来缩小与查询序列可能匹配的序列空间，这有助于算法的快速运行。

BLAST算法通过提高搜寻速度，提升了生物研究的效率。

三、HMMER算法HMMER（隐马尔科夫模型比对搜索工具）是另一种常见的相似序列搜索算法，主要用于清晰比对和隐式匹配。

HMMER算法使用隐马尔科夫模型来比对不同的序列，这种算法可以计算出不同序列之间的相对分数。

例如，HMMER算法可以用于比对蛋白质序列，然后提供这些蛋白质的相对结构的预测。

这些结构可以被用于判断物种之间的相关性，或者将蛋白质与不同的化合物进行比对。

四、Smith-Waterman算法Smith-Waterman算法是另一种常见的相似序列搜索算法。

NCBIblast使用教程

1.基本概念相似性，同源性 2.Blast介绍 Blast资源和相关问题 3.Blast的应用网络版，单机版 4.深入了解Blast(改进程序，算法基础) 5.其他的序列相似性搜索工具（fasta）
3
生物序列的相似性
相似性(similarity)：是指一种很直接的数量关系，比如部分相同或相似的百分比或其它一些合适的度量。比如说，A序列和B序列的相似性是80％，或者4/5。这是个量化的关系。当然可进行自身局部比较。
10
Blast相关的问题
怎么获得blast服务,怎么使用的问题？
为什么使用blast，可以获得什么样的信息？其他问题：实际使用时选择哪种方式（网络，本地化），参数的选择，结果的解释…
11
Blast资源
1.NCBI主站点：
/BLAST/(网络版) ftp:///blast/ (单机版)
单机版单机版的blast可以通过NCBI的ftp站点获得，有适合不同平台的版本（包括linux，dos 等）。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。单机版的优点是可以处理大批的数据，可以自己定义数据库，但是需要耗费本地机的大量资源，此外操作也没有网络版直观、方便，需要一定的计算机操作水平。
6
序列相似性比较和序列同源性分析
序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；
序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；

实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验二：序列查询(Entrez)、BLAST序列相似性搜索实验目的：1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容：一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。

用户不仅可以方便地检索Genbank的核酸数据，还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

网址：/Entrez/（或在NCBI主页默认All Databases时点击搜索框右边的Search进入）。

如Figure 2.1所示：Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮，即可进入Entrez帮助页面。

在搜索栏输入你要查找的关键词，点击“GO”即可开始搜索。

如果输入多个关键词，它们之间默认的是“与”（AND）的关系。

Ｔｉｐｓ：搜索的关键词可以是一个单词，短语，句子，数据库的识别号，基因名字等等，但必须明确，不能是“ｇｅｎｅ”，　“ｐｒｏｔｅｉｎ”等没有明确指向的词语。

但“ｔｒａｎｓｃｒｉｐｔｉｏｎ　ｆａｃｔｏｒ”这样有一定范围的词是可以接受的。

可以用你感兴趣的领域的专业术语，也可以是非专业术语，比如：ｈ１ｎ１，ｌｕｎｇ　ｃａｎｃｅｒ，ａｌｂｉｎｉｓｍ；　ｓｕｂｔｉｌｉｓｍ，　ｐｅｒｏｘｉｄａｓｅ，　ｍｙｏｇｌｏｂｉｎ。

　输入关键词，点击“GO”之后，每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。

点击进入对应的数据库，可以查看搜索到的条目。

如果在数据库图标前面为灰色，显示“none”,说明在对应的数据库里没有搜索到任何结果。

也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。

点击“search”后面的下拉菜单，选择数据库，在下面的文本框里输入关键词，点击“Search”即可(Figure 2.2)。

BLAST数据库相似性搜索

BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基（HBB_HUMAN）为检测序列，搜索Swiss-Prot数据库，找出灵长目动物（Primates）中与HBB_HUMAN序列相似性高于90%（Identity>90%）的beta珠蛋白（beta globin）。

2.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用BlastP搜索Swiss-Prot数据库，改变种子序列字长（Word size）和计分矩阵（Scoring matrix），找出人珠蛋白家族12个成员。

3.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用PSI-Blast搜索Swiss-Prot数据库，找出人珠蛋白家族成员脑红蛋白（Neuroglobin）。

4.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用DELTA-Blast搜索Swiss-Prot数据库，找出人珠蛋白家族成员脑红蛋白（Neuroglobin）。

5.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列，提取其编码区序列，进行多序列比对，分析结果。

6.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列，提取其编码区序列，进行多序列比对，分析结果。

7.查阅Blast网站帮助文档和相关文献，结合Blast算法，归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例，说明Blast具体应用。

9.本地BLAST（选做题）1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据，构建本地BLAST数据库。

2)以拟南芥转录因子SPL3蛋白质序列为检索序列，用BlastP搜索玉米转录因子蛋白质序列中相似序列，用tBlastN搜索玉米转录因子编码区序列中相似序列，分析结果。

生物序列的同源性搜索blast简介及其应用

用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；
序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；
生物序列的同源性搜索blast简介及其应用
PPT文档演模板
2020/11/26
生物序列的同源性搜索blast简介及其应用
•生物信息学常见的应用与软件
PPT文档演模板
序列数据的保存格式与相关数据库资源在数据库中进行序列相似性搜索多序列比对进化树构建与分子进化分析 Motif的寻找与序列的模式识别 RNA二级结构，蛋白质二、三级结构的预测基因芯片的数据分析
核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。
蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。
核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。
PPT文档演模板
生物序列的同源性搜索blast简介及其应用
Blast相关的问题
结果页面（一）
•图形示意结果
PPT文档演模板
生物序列的同源性搜索blast简介及其应用
结果页面（二）
PPT文档演模板
•目标序列描述部分
•带有genbank的链接，点击可以进入
•匹配情况，分值，e
相应的genbank序列
生物序列的同源性搜索blast值简介及其
应用
结果页面（三）
PPT文档演模板

blast分类及特点

blast分类及特点BLAST是“局部相似性基本查询工具”（Basic Local Alignment Search Tool）的缩写，是由美国国立生物技术信息中心（NCBI）开发的一个基于序列相似性的数据库搜索程序，是目前最常用的数据库搜索程序。

BLAST实际上是综合在一起的一组工具的统称，它不仅可用于直接对核酸序列数据库和蛋白质序列数据库进行搜索，而且可以将带搜索的核酸序列翻译成蛋白质序列后再进行搜索，或反之，以提高搜索效率。

BLAST的分类主要有以下几种：1. 标准BLAST：包括Blastn、Blastp、Blastx、tBlastn、tBlastx。

2. PSI-BLAST：PSI-BLAST（Position-Specific Iterated BLAST，位点特异性迭代BLAST）的特色是每次用位置特异权重矩阵（Position-Specific Scoring Matrix，PSSM）搜索数据库后再利用搜索的结果重新构建PSSM，然后用新的PSSM再次搜索数据库，如此反复（iteration）直至没有新的结果产生为止。

3. PHI-BLAST：PHI-BLAST（Pattern-Hit Initiated BLAST，模式识别BLAST）能找到与输入序列相似的并符合某种特定模式（Pattern）的序列，这种序列特征模式可能代表某个翻译后修饰的发生位点，也可以代表一个酶的活性位点，或者一个蛋白质家族的结构域、功能域。

此外，BLAST还有以下特点：1. BLAST基本原理很简单，它的要点是片段对的概念。

所谓片段对是指两个给定序列中的一对子序列，它们的长度相等且可形成无空位的完全匹配。

2. BLAST从头至尾将两条序列扫描一遍并找出所有片段对，并在允许的阈值范围内对片段对进行延伸，最终找出高分值片段对（high-scoring pairs, HSPs）。

这样的计算复杂度是n的一次方（n是序列的长度）。

实验2 序列查询(Entrez)、BLAST序列相似性搜索

网址：/Entrez/（或在NCBI主页默认All Databases时点击搜索框右边的Search进入）。

如Figure 2.1所示：Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮，即可进入Entrez帮助页面。

在搜索栏输入你要查找的关键词，点击“GO”即可开始搜索。

如果输入多个关键词，它们之间默认的是“与”（AND）的关系。

但“ｔｒａｎｓｃｒｉｐｔｉｏｎ　ｆａｃｔｏｒ”这样有一定范围的词是可以接受的。

　输入关键词，点击“GO”之后，每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。

点击进入对应的数据库，可以查看搜索到的条目。

如果在数据库图标前面为灰色，显示“none”,说明在对应的数据库里没有搜索到任何结果。

也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。

点击“search”后面的下拉菜单，选择数据库，在下面的文本框里输入关键词，点击“Search”即可(Figure 2.2)。

Blast和Fasta的应用与原理

相似性：是指一种很直接的数量关系，比如部分相同或相似的百分比或其它一些合适的度量。比如说，A序列和B序列的相似性是80％，或者4/5。这是个量化的关系。当然可进行自身局部比较。
3
生物序列的同源性
同源性：指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论，属于质的判断。就是说A和B的关系上，只有是同源序列，或者非同源序列两种关系。而说 A和B的同源性为80％都是不科学的。
16
Blast任务提交表单（二）
2.设置各种参数部分
设置搜索的范围，entrez关键词，或者选择特定物种
一些过滤选项，包括简单重复序列，人类基因组中的重复序列等
E值上限窗口大小如果你对blast的命令行选项熟悉的话，可以在这里加入更多的参数
17
Blast任务提交表单（三）
3.设置结果输出显示格式 E值范围选择需要显示的选项以及显示的文件格式显示数目 Alignment的显示方式
12
两种版本的Blast比较（一）
网络版本包括NCBI在内的很多网站都提供了在线的blast服务，这也是我们最经常用到的 blast服务。网络版本的blast服务就有方便，容易操作，数据库同步更新等优点。但是缺点是不利于操作大批量的数据，同时也不能自己定义搜索的数据库。
13
两种版本的Blast比较（二）
5
序列相似性比较和序列同源性分析
序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；
序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

600
Query 599
HIVQSPQGLVLNATALPLPDKEFLSSCGYVSTDQLNKIMP 638 HIVQSPQGLVLNATALPLPDKEFLSSCGYVSTDQLNKIMP
Sbjct 601
HIVQSPQGLVLNATALPLPDKEFLSSCGYVSTDQLNKIMP 640
BLAST format options: multiple sequence alignment
We will get to the bottom of a BLAST search in a few minutes…
EVD parameters
BLOSUM matrix gap penalties 10.0 is the E value Effective search space = mn = length of query x db ponents to a BLAST search
(1) Choose the sequence (query)
(2) Select the BLAST program (3) Choose the database to search (4) Choose optional parameters Then click “BLAST”
tblastx
DNA
DNA
DNA potentially encodes six proteins
5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’
三、序列的BLAST分析
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and webaccessible. 基本局域联配搜寻工具
Website of BLAST /BLAST/ (BLAST2.0) /blast2/ (WU-Blast2)
/ (WU-Blast2)
Why use BLAST?
Query 421
ADLLCLDQKNQNNSPSNDAAPATQQPSVILAEENKPRPLIISGTDSTHQTAHT--QLSNP AD LCLDQKN NNSPSNDAAP +QQPSV+L EENKPR L+ GT+STHQ HT QLSNP
478
Sbjct 421
ADRLCLDQKNLNNSPSNDAAPDSQQPSVLLGEENKPRSLLTGGTESTHQAGHTQQQLSNP
Query 1 Sbjct 1 Query 61 Sbjct 61 tttttttttttGGTGGGGAAGAGGACTTTTATTGGGATGTTAGTGGGGGACTCCAGGGAA 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| TTTTTTTTTTTGGTGGGGAAGAGGACTTTTATTGGGATGTTAGTGGGGGACTCCAGGGAA 60 CA-C-AACACTAGGACCCAGCTCCCCAGACCACTCAGGGACCTGTGGACAGCTCAGCTCA 118 || | ||||||||||||||||||||||||||||||||||||||||||| ||||||| CAACAAACACTAGGACCCAGCTCCCCAGACCACTCAGGGACCTGTGGA-----CAGCTCA 115
第六章序列相似性搜索
一、序列相似性搜索的任务和目的
1. 序列相似性搜索的任务 2. 序列相似性搜索的目的
二、同源和相似三、序列的BLAST分析四、专门的BLAST服务器
一、序列相似性搜索的任务和目的
1. 序列比较的任务：
发现序列之间的相似性辨别序列之间的差异
2. 目的：
相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
Step 3: choose the database
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
Step 1: Choose your sequence
Sequence can be input in FASTA format, plain text format or as accession number
Example of the FASTA format for a BLAST query
Query 119 CCGGCTGTGATGGCTGCAGGCCCTCGGACCTCCGTGCTCCTGGCTTTCGCCCTGCTCTGC 178 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 116 CCGGCTGTGATGGCTGCAGGCCCTCGGACCTCCGTGCTCCTGGCTTTCGCCCTGCTCTGC 175 Query 179 CTGCCCTGGACTCAGGAGGTGGGCGCCTTGGGAGCCATGCCCTTGTCCAGCCTATTTGCC 238 ||||||||||||||||||||||||||||| |||||||||||||||||||||||||||| Sbjct 176 CTGCCCTGGACTCAGGAGGTGGGCGCCTTCCCAGCCATGCCCTTGTCCAGCCTATTTGCC 235 Query 239 AACGCCGTGCTCCGGGCCCAGCACCTGCACCAACTGGCTGCCGACACCTACAAGGAGTTT 298 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 236 AACGCCGTGCTCCGGGCCCAGCACCTGCACCAACTGGCTGCCGACACCTACAAGGAGTTT 295
二、同源和相似
1. 同源（homology）- 具有共同的祖先
直向同源（Orthologous ）共生同源（paralogous ）
2.相似（similarity）
同源序列一般是相似的
相似序列不一定是同源的
一般认为，蛋白质序列间至少有 80个氨基酸左右的区域有25%或更高的同源性；DNA序列具有 75%以上的同源性有潜在的生物学意义。
tblastx (translated BLAST)
Choose the BLAST program Program Input
1 blastn blastp blastx tblastn DNA DNA
Database 1
protein 6 DNA
protein protein
6
protein 36 DNA
480
Query 479
SSLANIDFYAQVSDITPAGSVVLSPGQKNKAGISQCDMHLEVVSPCPANFIMDNAYFCEA SSLANIDFYAQVSDITPAGSVVLSPGQKNKAG+SQCDMH EVVSPC ANFIMDNAYFCEA
538
Sbjct 481
SSLANIDFYAQVSDITPAGSVVLSPGQKNKAGMSQCDMHPEVVSPCQANFIMDNAYFCEA
filtering
Step 4b: optional formatting parameters
Alignment view Descriptions Alignments
program
query database taxonomy
taxonomy
BLAST format options
cut-off parameters
BLASTP Searching with a multidomain protein, pol
Searching bacterial sequences with pol
BLAST program selection guide
Pig growth hormone mRNA Sequence ID: gb|M22761.1|PIGGHMALength: 878Number of Matches:
organism
BLAST: optional parameters
You can... • choose the organism to search • turn filtering on/off • change the expect (e) value • change the word size • change the output format
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST)
blastp (protein BLAST)