BLAST序列相似性检索

BLAST序列相似性检索
BLAST序列相似性检索

E值意义:

当用查询序列搜索一个数据库时,完全由机会击中对象的平均数。即,因为随机性造成获得这一联配结果的可能次数。例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.

从搜索角度讲,E值越小,联配结果越显著(E越接近0,说明发生这一事件的可能性越小);E值越大,说明这些匹配结果很有可能是随机产生的,而且绝大部分序列来自其他生物。

目前,通过数据库查询、cDNA文库直接测序、mRNA差别显示 (DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的 EST序列有数百万个之多。由于 EST代表着一段表达基因序列,这样就可用其与公共数据库进行同源性检索,检索与其同源的核酸序列。典型分析是采取NCBI的Blast 软件对 GenBank 中的非冗余数据库(non-redundant database,nr)进行查询。该数据库是对GenBank EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库,其中包括部分基因组序列。联网至“https://www.360docs.net/doc/f017427202.html,/blast/blast.cgi选择数据库“Nucleotide”,利用blastn程序进行同源性检索。”, 按照提示进行查询。

相似的蛋白序列很可能具有相似的功能。因此,蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。此方法应至少80个氨基酸长度范围内具有25%以上的序列一致才提示可能的显著意义。目前一般方法是基于NCBI/Blast软件的蛋白质同源性分析

类似于核酸序列的同源性分析,用户直接将待分析的蛋白质序列输入NCBI/Blast软件(https://www.360docs.net/doc/f017427202.html,/blast/)的序列输入框内,选择程序:Blastp”就可联网进行相应分析。

至于具体参数设置,还请仔细阅读说明,记得有一本blast的中文教程,您可以搜搜看。

BLAST序列相似性检索

==============

Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。

1. BLAST简介

BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。

在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。BLAST 2.0是一种新的BLAST检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。Gapped BLAST允许在对准的序列中引入空位 (碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST的全称是

Specific Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌Position-

BLAST仅用(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。目前,PSI-

于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。

2. 使用NCBI BLAST服务的四种基本方法

(1)经由WWW使用的BLAST

使用BLAST最容易的方法是WWW方式。在用户的浏览器中键入NCBI的URL地址:

BLAST主页提供了http//https://www.360docs.net/doc/f017427202.html,,进入NBCI主页,然后链接到BLAST主页。

好几种BLAST检索软件,包括BLAST、BLAST 2.0、Gapped BLAST和PSI-BLAST等,其中BLAST和BLAST 2.0提供了基本检索和高级检索两种模式。

(2)网络版的BLAST

BLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器

(ftp://https://www.360docs.net/doc/f017427202.html,)下的/blast/network/blast2/获取。

NCBI匿PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过

名的FPT服务器(ftp://https://www.360docs.net/doc/f017427202.html,)下的/blast/network/blast2/powerBLAST/获取。

(3)独立运行的BLAST

BLAST 2.0可以在本地计算机上独立运行,也可以在自建的序列数据库中进行BLAST检索,

还可以下载NCBI数据库中的记录。BLAST运行的软硬件环境为IRIX 6.2、Solaris 2.5、 PEC OSF1(第四版)和Win32系统。可独立运行的BLAST 2.0在NCBI匿名的FTP服务器(ftp://https://www.360docs.net/doc/f017427202.html,)下的/blast/executables/获取。

(4) 电子邮件的BLAST

通过电子邮件对基因库进行BLAST检索。

3. BLAST的检索方法

(1) BLAST数据库的选择

BLAST检索的数据库包括两大类:一类是肽序列数据库,另一类是核酸序列数据库。

①肽序列数据库包括:

nr: 所有无冗余基因库CDS转录产物、PDB、SwissProt以及PIR序列

SwissProt和PIR month: 最近30天注释的所有新增的或修订的基因库CDS转录产物、PDB、

序列。

SwissProt: SwissProt蛋白质序列数据库中最新的主要注释(无更新)序列。

yeast: Yeast(Saccharomyces Cerevisiae)蛋白质序列。

E.coli: E.coli基因CDS转录产物。

pdb: 从Brookhaven蛋白质序列数据和三维结构衍生出来的序列。

Kabat [Kabatpro]: 免疫学上感兴趣的蛋白质序列Kabat数据库。

alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从https://www.360docs.net/doc/f017427202.html,下的/pub/jmc/alu目录中获取。

②核酸序列数据库包括:

nr: 所有无冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。

month: 最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列

dbEST: GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。

dbSTS: GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。

htgs: 高允许能力(High Throughput)基因序列。

yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。

E.coli: 大肠杆菌(E.coli)基因核酸序列。

pdb: 蛋白质数据库。

Kabat[Kabatnuc]: 免疫学上感兴趣的核酸序列Kabat数据库。

Vector: GenBank载体数据库。

mito: 线粒体序列数据库。

alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从https://www.360docs.net/doc/f017427202.html,下的/pub/jmc/alu目录中获取。

epd: 真核生物的启动子数据库。

gss: 基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和Alu PCR序列。

(2) BLAST程序的选择

blastp、BLAST是一种碱基局部对准检索工具,实质上是一种序列类似性检索工具,它运行

tblastx等五种程序的启发式检索算法;这五种程序是利用改进的blastn、blastx、tblastn、

Karlin和Altschul的统计学方法来描述检索结果的显著性。这些程序不支持主题形式检索,也就是不支持主题词、自由词、文本词等检索。

下面介绍五种程序的基本功能。

blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;

blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;

blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;

tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;

tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。

因此,根据你查询的目的和序列选择合适的blast程序,有助于获得满意的检索结果。

(3) BLAST参数的设置

BLAST提供了许多参数可限制你的检索,以达到满意的结果。对于BLAST基本检索, 系统预设的参数默认值即可满足需要,不需要你重新设定。但是对于BLAST高级检索,可开窗选择如下几种参数,也可在输入框增加其它参数。

①直方图(Histogram):显示每次检索评分的直方图。有yes、no两种选择,默认值为yes

②描述(Descriptions):限定描述性类似序列的条数。有default、0、10、50、100、250、500等七种选择,默认值为100。

③对准(Alignments):限定检出高积分片断配对(High-scoring Segment Pairs,HSPs)的数据库序

列的条数,有default、0、10、50、100、250、500等七种选择,默认值为50。如果检索到的数据库序列超出设定值,BLAST仅显示最具统计学意义的配对序列,直到设定值。

④期望值(Expect,E值):它是期望数据库中具有某一统计学意义配对序列的值。有default、

0.001、0.01、0.1、1、10、100、1000等选择值, 默认值为 10,一般地,期望值越低,限制越严格,甚至会导致无随机配对序列。

⑤Cutoff:设定高积分片断配对(HSPs)的Cutoff值。有default、60、70、80、90、100、110等七种选择值,其默认值一般通过期望值来计算得出。一般地,Cutoff值越高,其限制就越严格,甚至会导致无随机配对序列。

⑥矩阵(Matrix):为BLAST、BLASTX、TBLASTN和TBLASTX程序指定一个交替记分矩阵。其默认值为BLOSUM62,有PAM40、PAM120、PAM250和IDENTITY等四种有效选择。但交替记分矩阵对BLASTN不起作用。

⑦股(Strand):把BLASTN检索限定在数据库序列的股的首端或末端;或者把BLASTN、BLASTX、TBLASTX检索限定在查询序列股的首端或末端的机读部分。

⑧过滤器

(Low Compositional (Filter):过滤器可以过滤查询序列中低成分复杂性 Complexity)片断。它只过虑查询序列及其转录产物中的低成分复杂性片断, 不能过虑数据库序列中的低成分复杂性片断。用户可以在BLAST和BLAST 2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。但是在BLAST和BLAST 2.0基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn 程序,其默认值为“DUST”,对于其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。

值得注意的是,过滤器中的SEG和XUN程序不能过滤SWISS-PROT数据库中的低复杂性片断,因此,虽然过滤器可以应用于SWISS-PROT数据库序列,但并未起作用。

⑨NCBI-GI:在输出结果中除存取号和位点名称(Locus Name)外,还可以选择NCBI-GI标识号。有yes 和no两种选择,其默认值为no。

(4) BLAST检索结果

BLAST程序用大致相同的格式显示检索结果,它包括四个部分:一是程序的介绍;二是一系列配对数据库序列的描述,从积分高到低排列,一行描述一条序列;三是实际的序列对准;四是检索中设定的参数及其它统计数据。

BLAST_核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较 Blast (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLA ST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。 BLAST的功能 BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(19 90)),在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NC BI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要 么都是蛋白数据库要么都是核酸数据库。 所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。 BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。 如何访问在线的BLAST功能服务? 您只要通过浏览器访问Blast主页(https://www.360docs.net/doc/f017427202.html,/) 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

时间序列相似性度量

讨论一般时间序列相似的度量方式 1、概念: 时间序列的相似性度量是衡量两个时间序列的相似程度的方法。它是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础;也是时间序列挖掘的核心问题之一。 2、意义: 时间序列式进行序列查询、分类、预测的基本工作,寻求一种好的度量对提高挖掘任务的效率和准确性有着至关重要的意义。 3、影响因素: 两个序列是否相似,主要看它们的变化趋势是否一致。由于时间序列数据的复杂性特点,实际中不可能存在两条完全相同的时间序列,即使相似的时间序列往往也会呈现出各种各样的变化。所以,任何两个序列之间都存在着某种差异,影响这种差异的主要因素有: (1)噪声:现实的大多数时间序列数据都存在噪声,体现在图形上式指数据的曲线不光滑,即存在“毛刺”。 (2)振幅平移:即两条形态相似的时间序列分别绕高低不同的均值波动。(3)振幅伸缩:即两条时间序列的变化趋势相同,但其中一条时间序列在纵轴上似乎被拉伸或者压缩过一样,即两个序列的振幅不同。 (4)时间轴伸缩:是指两条时间序列的波形相似,但其中一条时间序列在时间轴上按比例伸缩。 (5)线性漂移:是指两条时间序列的波动节奏相似,但其中一条时间序列呈现线性递增或递减趋势。 (6)不连续性:是指两条时间序列整体的波动趋势相同,只是在别的时间点或段出现间断。

然而,在实际应用中情况要复杂得多,往往是以上多种因素交织在一起。时间序列的相似性并没有一个客观的定义,具有一定的个人偏好性,也就是说,不同的人或不同的应用场合对各种差异影响的重视程度是不一样的。给定两条时间序列 {}12,,....,n X x x x =和{}12=,,....m Y y y y ,相似性度量的问题就是在各种各样差异因素的影响下,寻求一个合适的相似性度量函数(),Sim X Y ,使得该函数能很好地反映时间序列数据的特点。 4、方法:目前时间序列相似性度量,最常用的有Minkowski 距离和动态时间弯曲。 一、Minkowski 距离 给定两条时间序列{}{}1 212....=....n n X x x x Y y y y =和 它们之间的Minkowski 距离如下: ()11,n p p i i i d X Y x y =??=- ???∑ Minkowski 距离是一种距离度量,因为它满足距离的三个条件: (1) 非负性:()(),0,,,0d X Y X Y d X Y ≥==当且仅当; (2) 对称性:()(),,;d X Y d Y X = (3) 三角不等式:()()(),,,d Y Z d X Y d X Z ≤+ 大多简单的相似性度量是Minkowski 距离及其它的变种,Minkowski 距离的优点是简单、直观且计算复杂度不高,与时间序列的长度成线性关系即序列长度的增加不会造成计算复杂程度的迅速提高。所以当训练集比较大时,Minkowski 距离比其他更有效。但是Minkowski 距离不支持时间序列的线性漂移和时间弯曲,且无法处理不等长的时间序列。

生物信息学中的序列比对算法

生物信息学中的序列比对算法 张永1,王瑞2 (1.南昌航空大学计算机学院,江西南昌330063;2.江西大宇职业技术学院,江西南昌330038) 摘要:生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。序列比对是生物信息学中的一个基本问题,设计快速而有效的序列比对算法是生物信息学研究的一个重要内容,通过序列比较可以发现生物序列中的功能、结构和进化的信息,序列比较的基本操作是比对。本文介绍了序列比对算法的发展现状,描述了常用的各类序列比对算法,并分析了它们的优劣。 关键词:生物信息学;双序列比对;多序列比对 中图分类号:TP301文献标识码:A文章编号:1009-3044(2008)03-10181-04 SequenceAlignmentAlgorithmsinBioinformatics ZHANGYong1,WANGRui2 (1.SchoolofComputing,NanchangHangkongUniversity,Nanchang330063,China;2.JiangxiDayuVocationalInstitute,Nanchang330038,China) Abstract:Bioinformaticsisthesubjectofusingcomputertostore,retrieveandanalyzebiologicalinformation.Sequencealignmentisaba-sicprobleminBioinformatics,anditsmainresearchworkistodeveloprapidandeffectivesequencealignmentalgorithms.Wemaydiscov-erfunctional,structuralandevolutionaryinformationinbiologicalsequencesbysequencecomparing.Thispaperintroducesthedevelop-mentactualityofsequencealignmentalgorithms,describesvarietyofsequencealignmentalgorithmandanalysestheadvantagesanddisad-vantagesofthem. Keywords:Bioinformatics;PairwiseSequenceAlignment;MultipleSequenceAlignment 1引言 生物信息学是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白组学两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达结构与功能的生物信息。 生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析,也就是研究新的计算机方法,从大量的序列信息中获取基因结构、功能和进化等知识。在从事分子生物学研究的几乎所有实验室中,对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定,拼接,基因的表达分析,到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列的相似性比较。例如,有关病毒癌基因与细胞癌基因关系的研究,免疫分子相互识别与作用机制的研究,就大量采用了这类比较分析方法。这种相似性比较分析方法就称为系列比对(SequenceAlignment)。目前,国际互联网上提供了众多的序列比对分析软件。然而,不同的分析软件会得到不同的结果,同时所使用的参数在很大程度上影响到分析的结果。有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息,导致随后的实验研究走弯路。因此,生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。 序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。双序列比对有比较成熟的动态规划算法,而多序列比对目前还没有快速而又十分有效的方法。一般来说,评价生物序列比对算法的标准有两个:一为算法的运算速度,二为获得最佳比对结果的敏感性或准确性。人们虽已提出众多的多序列比对算法,但由于问题自身的计算复杂性,它还尚未得到彻底解决,是 收稿日期:2007-11-25 基金资助:南昌航空大学校自选(EC200706086) 作者简介:张永(1977-),男,硕士,辽宁铁岭人,南昌航空大学计算机学院讲师,研究方向:生物信息学、信息处理;王瑞(1977-),男,江西大宇职业技术学院外语系助教。

时间序列相似性度量的研究

《时间序列相似性度量的研究》读书笔记 一、文章主要内容 时间序列的相似性度量是时间序列数据挖掘研究中的一个重要问题,是进行序列查询、分类、预测的一项基础工作。寻求一种好的度量对提高挖掘任务的效率和准确性有着至关重要的意义。目前从事这方面的研究除了少许理论论述外,几乎都采用一种固定的方法,即提出具体要求并提供实验数据。然而,大多数实验方法不是使用范围有限就是侧重点不同。为了提供一个比较全面的实验验证,用INN分类算法进行了大量的时间序列交叉验证实验。重新评估了其中的弹性度量,并使用不同应用领域的28个时间序列数据集进行比较,结果表明,该方法具有更高的准确性。 二、文章重点内容 1、时间序列的相似性度量 时间序列的相似性度量是时间序列数据挖掘研究中的一个重要问题,能反映数据中基本的相似性,这一点为时间序列的相似性检索、分类、预测等尤其可取。因此合理的相似性度量能够提高数据挖掘的有效性和准确性。 目前时间序列相似性度量,最常用的有欧氏距离(ED)和动态时间弯曲(DTW)。其它许多度量及它们的扩展已被广泛引用到文献和用于便利查询处理和时间序列数据挖掘。本文根据降维和压缩的方法定义距离度量。保证约简后的距离小于或等于原数据的真实距离。即满足无漏报原则,就是要求数据表示满足条件:DF(q,s)≤D(q,s),其中:q是查询序列;s是数据集中的任意序列;是约简空间中的两序列距离;D是真实的两序列距离。 2、DTW DTW允许时间序列的延伸或压缩,查找结果要优于ED。而且可采用下界函数加速查找速度。带有动态窗口的时间弯曲s,不仅能提高计算效率而且能提高相似性测量精度。

另一组时间序列的相似性度量是在编辑距离概念的基础上形成的。它的思想是两个序列越相似,则将其中的一个序列通过插入、删除等操作变换成另一个序列所要做的功就越少。它们为时间序列的匹配定义了一系列操作及一个衡量这些操作所需的代价函数,事件序列间的相似距离就可以定义为将一个序列变换为另一个序列所需要操作的代价之和。然后,通过动态变换来计算编辑距离。最好的是LCSS,它利用最长公共子序列模型,适应设置的时间序列匹配字符的概念。阈值参数8已知,如果它们的距离少于£。说明两个时间序列的两个点是匹配的。EDR是基于编辑距离的另一个相似性度量.和LCSS相比,EDR也用了一个阈值参数8,参数的作用是量化一对点0或1之间的距离。EDR根据空白的长度增强数据率.分配两个匹配部分间的差距。ERP距离包括了DTW 和EDR的优点。通过连续变化的参考点计算两个时间序列差距的距离。实质上,如果两个点之间的距离太大,ERP简单使用这些点中的一个和参考点计算之间的距离值。最近,计算编辑距离的一种新方法在文献『9] 4、数据世系分类 按照数据世系包含的数据源类型不同,数据的世系可分为在不同数据源间的数据演化过程和相同数据源内部数据的演化过程,即模式级和实例级数据演化过程。 (1)模式级数据世系:异构数据源间的数据共享问题一直是数据集成的核心问题之一。不同模式的数据源间进行的数据演化过程是数据集成的关键部分,由于不知道数据的具体形式从而无法标注数据项的世系,只能利用模式级数据问的对应关系追踪数据在不同模式间的演化过程。 (2)实例级数据世系:用户通过查询所有可能的映射关系,找到模式级数据的世系,想要获取更细粒度的世系,还需要在某数据源内部考察数据的演化过程,即实例级数据的世系。和模式级数据的世系不同,实例级的数据项可以被显式地表达出来,通过对数据进行标注得到更细粒度的数据世系。 5、数据世系的应用 在科学数据管理、商业应用等领域,特别是在分布式环境下,数据世系的管理获得了一些成果,R. Bose将数据处理过程分为以下几种方式:基于脚本或程序运行的、基于查询的、基于工作流管理系统的和基于服务的方式。 下表是典型的世系研究项目:

核酸、氨基酸序列和蛋白质二级结构之间关系的探究

核酸、氨基酸序列和蛋白质二级结构之间关系的探究 马鹏,王联结 陕西科技大学生命科学与工程学院,陕西咸阳(712081) E-mail:04mapeng@https://www.360docs.net/doc/f017427202.html, 摘要:核酸序列中是否存在蛋白质空间结构信息?根据通常情况下遗传密码表中密码子中间位的碱基配对时产生的氢键数目,尝试将20种氨基酸划分为两类,并用自编的计算机软件对蛋白质二级结构数据库中两类氨基酸的类聚现象进行了统计分析。结果表明,使用这种方法对氨基酸进行划分后,氨基酸残基具有较大概率与划入同一类的氨基酸残基相邻出现,并且这种聚集体对二级结构具有一定的偏好性。 关键词:核酸,氨基酸序列,二级结构,预测 1. 引言 过去的几十年中,出现了多种多样的蛋白质二级结构预测方法。其中一部分,也是最早出现的,后来出现低谷的研究方法是统计序列中氨基酸残基对结构的倾向性[1~3]。但近年来,通过氨基酸序列预测蛋白质二级结构的研究又有复苏。长期以来,人们也试图通过分析核酸序列找到蛋白质空间结构的信息,例如从氨基酸的密码子出发来研究序列和结构之间的关系[4~6]。对氨基酸残基聚集体的研究也有报道[3,7~9]。本文根据氨基酸密码子和反密码子配对时中间位碱基之间正常情况下形成的氢键数目(以下简称为氢键数法)的不同对氨基酸残基进行了重新分类,并对分类后可能在蛋白质序列中存在的类聚现象(同一类氨基酸残基的连续分布)做了初步研究。 2. 方法 2.1 氢键数方法 根据20种氨基酸三联密码子中间位的碱基在正常情况下能够形成的氢键数目为2或3的不同,将20种氨基酸分为两大类,其中:第一类氨基酸残基包括A、G、C、T、P、R、S和W;而第二类包括D、E、F、I、K、L、N、Q、V、H、Y和M。 2.2 数据库 选用DSSP数据库,并使用相似性小于25%的蛋白质选择列表,最后取得了923个非同源蛋白质数据。在DSSP二级结构8态分类到3态分类转换中借鉴前人工作采用如下划分:α螺旋h(H,G,I),β折叠e(E)和卷曲c(B,T,S,C)。将B结构划入卷曲中是因为它作为一个独立的连接键,很难被认为是一种规则结构[3]。再将3种二级结构按照其是否属于规则结构划为两大类:第一类为非规则结构(c);第二类为规则结构(h,e)。 2.3 统计方法 根据氢键数方法将氨基酸分类后,为了研究这种分类方法在蛋白质二级结构预测中的应用意义,我们进行了一些统计计算。早期观察表明,分类后某些氨基酸残基在一些蛋白质中具有类聚倾向。那么这种类聚是否在蛋白质中具有普遍性?在不考虑二级结构的情况下,对蛋白质中类聚出现概率的统计给这个问题做出了衡量。类聚的出现如果有相当大的可能性,对类聚和蛋白质二级结构之间对应关系的研究则是必要的。这种对应关系的研究包括两个方面:类聚中的残基是否具有特定的二级结构;具有特定二级结构的氨基酸残基是否处于特定的类聚中。 在不考虑二级结构情况下,统计出处于类聚的残基数量N,该数值与残基总数N t的比值P作为衡量类聚现象是否具有普遍性的统计量,表示一个氨基酸残基处于类聚的概率,有:P=N/N t

实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验二:序列查询(Entrez)、BLAST序列相似性搜索 实验目的: 1.学会用Entrez系统查找目标序列 2.学会使用BLAST在数据库中搜索相似序列 3.学会分析数据库搜索结果 实验内容: 一、Entrez Entrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。 网址:https://www.360docs.net/doc/f017427202.html,/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。如Figure 2.1所示: Figure 2.1 entrez 检索系统子数据库 点击搜索框右边的help按钮,即可进入Entrez帮助页面。 在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。如果输入多个关键词,它们之间默认的是“与”(AND)的关系。 Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。但“transcription factor”这样有一定范围的词是可以接受的。可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。  输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。点击进入对应的数据库,可以查看搜索到的条目。如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建 作者:佚名来源:生物秀时间:2007-12-31 【实验目的】 1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识; 2、掌握使用Clustalx进行序列多重比对的操作方法; 3、掌握使用Phylip软件构建系统发生树的操作方法。 【实验原理】 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。 对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行比对(alignment)。⑵要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);

多序列比对

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。 由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。 渐进比对方法 CLUSTAL W CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.

生物序列比对算法分析与比较

文章编号"#$$#%&’’()*$$’+$,%$*#’%$- 生物序列比对算法分析与比较 钟 诚#.宋 彬* )#/广西大学计算机与电子信息学院.广西南宁(,$$$’0*/中国科学技术大学计算机科学技术系.安徽合肥*,$$*&+ 摘要"序列比对是生物信息学的一个非常重要的操作/它可以预测生物序列的功能1结构和进化过程等/文中首先介绍双序列比对的基本算法0接着分析和比较多序列比对的四个常用模型和三类算法以及并行比对算法0最后.给出一些研究问题/ 关键词"生物信息学0双序列比对0多序列比对0精确算法0近似算法0启发式算法中图分类号"23,$#04-##文献标识码"5 生物信息学是一门综合数学1计算机科学和生物学的交叉学科6#7 / 生物信息学内涵非常丰富.其核心是基因组信息学.包括基因组信息的获取1处理1存储1分配和解释/基因组信息学的关键是8读懂9基因组的核苷酸顺序.即全部基因在染色体上的确切位置以及各:;5片段的功能0 在发现新基因信息之后模拟和预测蛋白质空间结构. 然后依据特定蛋白质的功能进行药物设计/生物序列中的信息在系统进化1生态守恒1疾病控制1病毒起源甚至<=>病毒统计和传播等的研究中是一个非常重要的基本工具6*7 .因此.序列比对是生物信息学的基础/序列比对分为全局比对)?@A B C @5@D E F G H F I +和局部比对)J A K C @5@D E F G H F I +/全局比对要求把一个序列中的所有符号和另一个序列中的所有符号进行匹配比较. 它描述整个序列的相似性/将两个序列进行比对就是双序列比对.它是比较两个生物序列相似性的重要工具/ 这个分析工具已经成功地运用到预测生物序列的结构1功能和进化例程中/随着生物医学中有更多的序列合成出来.人们开始用多序列比对来更好地研究生物序列/将多个序列进行比对就是多序列比对问题.它是一个将不等长的多个序列通过插入空格变成等长的过程.这些位 置上的空格代表着相比较的序列从共同的祖先通过插入L 删除操作的进化过程6,7 / 求解多序列比对问题的算法主要分为精确算法1近似算法和启发式算法三种/ #双序列比对 对于两个长度分别为M 的序列有*M N O M P )*M +Q )M Q +)M Q +R **M S T M 种比对情况.这是一个指数级复杂度的计算问题/#U &$年.;H H V @H G C F 和WX F Y K Z 基于动态规划方法6’7提出了第一个双序列比对算法6(7 #U -*年.?A I A Z 对其做了进一步的改进6[7/A @/*U .;A /, _H m I /.*$$’ ! 收稿日期"*$$’$’*#0修订日期"*$$’$-#& 基金项目"广西自然科学基金)桂科自$,,U $$-+0国家-[,计划)*$$#55###$’#+作者简介"钟诚)#U [’+. 男.广西桂平人.广西大学教授.博士/万方数据

有关信号卷积的相似性概念

有关信号卷积的相似性概念 02094025 陈亚杰 摘要 本文主要研究的是离散信号的相似性。本文阐述了信号卷积和信号相关的概念,通过比较,可以用信号卷积来判断信号的相关性即本文所说的相似性。本文还利用向量内积投影来说明相似性,最后用matlab 语言对本文提出的相似性进行仿真分析。 1.引言 卷积方法在信号与系统理论中占有重要地位。这里所要讨论的卷积积分是将输入信号分解为众多的冲激响应之和(这里是积分)。在LTI (Linear Time Invariant )系统中的零状态响应是激励与系统的冲击响应的卷积积分。为比较信号与另一延时信号之间的相似程度,需引入相关函数的概念。相关函数是鉴别信号的有力工具,被广泛应用于雷达回波的识别,通信同步信号的识别等领域。本文分四章讨论,第二章将给出所需要的数学工具的说明,并介绍本文方法。第三章给出实验仿真。最后一章是对本文的一个总结。 2.理论 在向量中为了表示两向量的相似性,可以用向量的内积来说明 设存在两个向量,分别为a,b.其在平面为: 两向量的相关性就看夹角的大小,如果两个向量平行说明两个向量最相似。如果两个信号垂直说明两个向量相似性差。用公式表示为:>=<=θ 我们只通过角度判断其相似性,但当角度一定,长度发生变化时他们的相似程度明显不一样,所以我们通过下面的公式计算。 ) ||,|max (|cos ||||)||,|max (|,2222b a b a b a b a R θ=><=

这样我们就可以将两个非零向量的相似程度给表示出来。 因为不存在信号幅度为负值的信号,所以信号的相似性我们定义其在[0,1]间取值,所以 |) ||,|m ax (|cos ||||||)||,|m ax (|,|2222b a b a b a b a R θ=><= 卷积与傅里叶变换有着密切的关系。利用一点性质,即两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换,能使傅里叶分析中许多问题的处理得到简化。一般而言,给定两函数f1(t),f2(t),则积分 为f1(t)和f2(t)的卷积,常表示为 f(t)=f1(t)*f2(t) 而dt t f t f dt t f t f R )()()()()(212112τττ+=-=?? ∞∞-∞∞- dt t f t f dt t f t f R )()()()()(12 1221τττ+=-=??∞∞-∞ ∞- 如果上式两个函数的积分存在,我们将其称为)(1t f 和)(2t f 的互相关函数。 由式可见,互相关函数是两信号之间的时间差τ的函数。其值越大表明这两信号经过时移τ之后的相似程度越大。其离散形式为: )()()()()(212112k f n k f n k f k f n R k k +=-=∑∑∞ ∞-∞∞ - )()()()()(121221k f n k f n k f k f n R k k +=-=∑∑∞∞ -∞∞- 由卷积的性质可知,上式可写为: )(*)()(2112t f t f R =τ, )(*)()(1221t f t f R =τ; )(*)()(2112k f k f n R =, )(*)()(1221k f k f n R =; ()()()()ττ-τ=?∞ ∞-d t f f t f *t f 2121

实验二 序列相似性查询工具的使用

实验二序列相似性搜索软件—BLAST的使用 一、实验目的:掌握序列相似性查询工具—BLAST使用方法和技巧,理解与序列相似性查询相关的几个基本概念。 二、实验原理:BLAST是基本的局部对位排列搜索工具,它通过搜索序列数据库来找出最优的无空位局部对比,从数据库中找出与查询序列的某些子序列相似的子序列。 三、实验器材:计算机,NCBI、EMBL生物信息学数据库的核苷酸序列、BLAST序列相似性搜索软件。 四、实验内容:应用上次或本次实验查找到的不同物种的不同基因组的核苷酸序列,在NCBI数据库中进行核苷酸序列的BLAST相似性搜索。 五、实验步骤: 1、打开NCBI网站的主页,然后点击网页左侧工具栏中的Sequence analysis项,进入到序列分析的主页面。 2、然后点击序列分析工具栏中的BLAST选项,进入相似性搜索的界面,然后选择核苷酸序列搜索软件BLASTn。 3、在进入核苷酸序列相似性搜索的界面后,在界面上Enter Query Sequence后面的方框中输入需要进行相似性搜索的序列,然后点击BLAST检索按钮,就可以进行搜索。 4、在进入搜索结果的界面后,就可以得到搜索结果的可视化图像和搜索得到的相关序列。 六、实验要求:每个组每个同学至少用4条核苷酸序列进行BLAST相似性搜索。将相似性搜索结果中的可视化图像和搜索的相关序列拷贝下来作为实验内容。 七、实验结果: 例1: (物种名、基因名)

实验结果: 1. (冬虫夏草,18S-ITS1-5.8S-ITS2-28S) Legend for links to other resources:UniGene GEO Gene Structure Map Viewer PubChem BioAssay Sequences producing significant alignments: Accession Description Max score Total score Query coverage E value Max ident Links HQ918290.1 Paecilomyces sinensis 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence 11221122 98% 0.0 100%

第三章 序列比较

第三章序列比较 序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结构,结构决定功能。研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。这里,将序列看成由基本字符组成的字符串,无论核酸序列还是蛋白质序列,都是特殊的字符串。本章着重介绍通用的序列比较方法。 序列的相似性 3.1 3.1序列的相似性 序列的相似性可以是定量的数值,也可以是定性的描述。相似度是一个数值,反映两条序列的相似程度。关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直向同源、共生同源等。在进行序列比较时经常使用“同源”(homology)和“相似”(similarity)这两个概念,这是两个经常容易被混淆的不同概念。两条序列同源是指它们具有共同的祖先。在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。而相似则是有程度的差别,如两条序列的相似程度达到30%或60%。一般来说,相似性很高的两条序列往往具有同源关系。但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。直向同源(orthologous)序列是来自于不同的种属同源序列,而共生同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。

BLAST序列相似性检索

E值意义: 当用查询序列搜索一个数据库时,完全由机会击中对象的平均数。即,因为随机性造成获得这一联配结果的可能次数。例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1. 从搜索角度讲,E值越小,联配结果越显著(E越接近0,说明发生这一事件的可能性越小);E值越大,说明这些匹配结果很有可能是随机产生的,而且绝大部分序列来自其他生物。 目前,通过数据库查询、cDNA文库直接测序、mRNA差别显示 (DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的 EST序列有数百万个之多。由于 EST代表着一段表达基因序列,这样就可用其与公共数据库进行同源性检索,检索与其同源的核酸序列。典型分析是采取NCBI的Blast 软件对 GenBank 中的非冗余数据库(non-redundant database,nr)进行查询。该数据库是对GenBank EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库,其中包括部分基因组序列。联网至“https://www.360docs.net/doc/f017427202.html,/blast/blast.cgi选择数据库“Nucleotide”,利用blastn程序进行同源性检索。”, 按照提示进行查询。 相似的蛋白序列很可能具有相似的功能。因此,蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。此方法应至少80个氨基酸长度范围内具有25%以上的序列一致才提示可能的显著意义。目前一般方法是基于NCBI/Blast软件的蛋白质同源性分析 类似于核酸序列的同源性分析,用户直接将待分析的蛋白质序列输入NCBI/Blast软件(https://www.360docs.net/doc/f017427202.html,/blast/)的序列输入框内,选择程序:Blastp”就可联网进行相应分析。 至于具体参数设置,还请仔细阅读说明,记得有一本blast的中文教程,您可以搜搜看。 BLAST序列相似性检索 ============== Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。 1. BLAST简介 BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。

实验二_数据库相似性搜索与序列比对

实验二数据库相似性搜索与序列比对 实验原理: 数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。搜索结果显示出与最佳匹配序列的对位排列及匹配记分。序列数据库搜索对发现基因的功能非常有效。FASTA和BLAST是两个著名的用于数据库相似性搜索的软件包。其中BLAST(Basic Local A1ignment Search Tool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括BLASTP,BLASTN,BLASTX,TBLASTN 和TBLASTX程序。 实验目的与要求: 学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。 (1)要求学生运用已经学习过的数据库检索方法在数据库中检索特定的基因 (2)掌握数据库相似性搜索工具BLAST的基本比对方法,参数设置及结果分析 (3)掌握核酸和蛋白质两序列比对方法、参数设置及结果分析 实验材料: 未知核酸序列;未知氨基酸序列;SOD基因 工具软件: (1)数据库检索工具ENTREZ (2)数据库相似性搜索工具BLAST (https://www.360docs.net/doc/f017427202.html,/blast) (3)两序列比对工具Align two sequences (bl2seq) 一、利用BLAST中的Special类下的Align two sequences (bl2seq) 比较人与老鼠的SOD 基因蛋白质序列的相似性程度 (1)利用NCBI的ENTREZ检索蛋白质数据库获得人AAB27818.1和老鼠3GTT_E的SOD 基因氨基酸序列或者登录号(SOD分为SOD1或SOD2等,注意检索时选择完全相同的SOD基因)(2)进入NCBI 的BLAST 网页,选择Specialized BLAST下的Align two sequences(bl2seq)程序进行两序列比对 (3)选择blastp子程序,将序列或登录号分别粘贴到序列框中 (4)其他选项采用默认的设置,运行程序 (5)分析结果,并回答以下问题 在NCBI的ENTREZ检索中使用的关键词是什么?

数据挖掘之相似性度量

数据挖掘之相似性度量 机器学习或数据挖掘,就是在数据中寻求答案的算法。 而寻求的答案就是训练完成的数据模型。 大部分的数据建模方法都属于这两种: 1)数据汇总,对数据进行简洁的近似描述 如pagerank、聚类 2)特征抽取 如频繁项集(同时频繁出现的元素子集)、相似项(共同元素比例较高的集合对) 在机器学习或数据挖掘之前,还需要概率,或信息论的一些相关知识,现实世界的对象需要转换为计算机的度量方式。 1. TF.IDF 2. 熵的相关概念 3. 相似度的度量及计算 4. 对文本相似度的分析 5. 局部敏感Hash的分析LSH 6. 查找相似项的处理流程 7. 几种距离度量方式 相关知识: 1. TF.IDF 文本分类时,一个重要指标:TF.IDF,分为两个阶段:同一文档中的统计;以文档为粒度,所有文档的统计。 TF: term frequency 词项频率,同一篇文档中,所有词项出现频率的归一化 IDF:inverse document frequency 逆文档频率,所有文档数目,与某一词出现的

文档的数目的比率关系 其中的关系: 不仅仅是一个公式,里面包含了信息论中熵的概念。IDF就是一个特定条件下关键词的概率分布的交叉熵。应用了对数运算。 2. 熵的相关概念 熵,表示信息量的大小,与概率相关。随机变量的不确定性越大,即概率小,其熵也就越大,将其搞清楚,所需的信息量也就越大。 -Pi * log(2, Pi) 求和。一个系统越混乱,则每个变量的概率越小,其熵也就越大。 信息论在通信编码的表示也是一样的,一个变量,在系统中的概率越小,其编码也就越长,因为短的编码要留给概率大的变量。即熵越大,其编码也就越长,这样压缩的效率就比较高。发送一段信息,其需要的编码长度(二进制),也就是 -Pi * log(2, Pi) 求和。或者,可以说,熵越大,信息量越大,一个概率较低的词,可能就是系统信息比较关键的词。 互信息:两个随机变量的相关/依赖程度,可以用来解释一个变量已知时,另外一个变量的不确定的变化。即不确定信息的减少量。 自信息:一个随机变量(信源)发出的信息,这个信息所带来的信息量的度量。一次事件发生的提供的信息量-log(2, Pi),有时与熵的含义相同(当事件只发生一次时)。 而熵是平均信息量,所有自信息的期望。当信息确定时,确定场(无随机性)的熵最小。等概场的熵最大。 熵率:又称字符熵、词熵。信息量的大小随着消息长度的增加而增加。-(1/n)(求和Pi*log(2, Pi)) 联合熵:同联合分布函数的形式类似,联合随机变量所表示的平均信息量(期望)。H(x, y) = -求和P(x,y) log(2, P(x, y)) 条件熵:H(y|x) = -求和P(x,y) log(2, P(y|x)) 联合熵 = 条件熵 + 单变量熵, H(x, y) = H(y|x) + H(x) 互信息的熵 I (x; y) = H(x) - H(y | x) = H(y) - H(y|x), 描述了X中包含有多少Y的信息量,或者是Y中包含了多少X的信息量。 当X, Y相互独立,则其互信息为0. 当I(x; y) >> 0,则两个事件X,Y高度相关;当I(x; y)<<0,则两个事件X,Y 互补分布。

相关文档
最新文档