核酸蛋白序列比对分析

合集下载

蛋白质序列比较中的图形表示及其相似性分析

蛋白质序列比较中的图形表示及其相似性分析

摘要摘要蛋白质结构预测是生物信息学中的重要课题,而蛋白质序列是蛋白质结构预测的基础。

由此蛋自质序列的比较分析就显得尤为重要。

我们在这里主要探讨的就是蛋白质序列比较中的图形表示方法和在此基础上的相似性分析方法。

本文总结了蛋白质序列比较的一些已有方法和算法后,就其中的蛋白质序列的图形表示进行了详细研究,给出了3维和6维这两种图形表示方法,一种方法具有直观的优点,另一种方法具有完备描述序列特征的长处。

接着,在6维图形表示的基础上,做出其相似性分析,给出某个蛋白质序列的各种距离矩阵,并就L/L矩阵给出它的最大特征值和信息熵这两个量,由于6维图形表示有三种不同形式,所以每一个蛋白质序列的最大特征值和信息熵都是一个三维向量,然后就这些向量来进行序列间的比。

较。

得出的比较结果与已有的结果很相似。

最后就相似性补充了两个蛋白质序列间最长公共子序列问题。

这种图形表示方法及其相似性分析对于蛋白质序列的比较是一种新的推动力。

关键词:序列比较,图形表示,相似性分析,最长公共子序列————查堡墨三茎兰堡圭兰焦堡塞AbstractThestmct'LEepredictionofproteinsistheimportantproblemofbiologyinformatics.Andtheproteinsequenceisthebaseofthestructurepredictionofproteins.Sothecomparisonandanalysisofproteinsequenceareprovidedwithsignificance.2Themethodsofgraphicalrepresentationandtheanalysisofsimilarityaretheleadingstudyobjectsinthispaper.ThispaperSuITISupthemethodsandalgorithmsoftheproteinsequencescomparison.Then3Dand6I)graphicajrepresentationalerespectivelypresented.Theformerrepresentationhasintuitionalmerit.Theotherhasthethestrongpointthatitcancompletely&scribethesequencecharacters.Basedonthe6DFapMcalrepresentation,theauthorgivestheanalysisofthesimilarity.Atfirstmanydistancen1撕ccsofaproteinsequencearegiven.ThentheleadingeigenvalueandtheinformationentropycomefromtheL/Lmatrices.Sincetherearethreedifferentpatternsaboutthe6D乒aphicalmpmsemafion,theleadingeigenvatueandtheinformationehtropyofaproteinsequencebotharea3-dimensionvector.Thentheauthorcomparestheproteinsequencesusingthese3-dimensionvectors.Theresultsfromthecomparisonaccordwithresultsinexistence.At1&st,forthesimilarity,theauthorgiveshowtogetthelongestcommonsubsequencebetweentwoproteinsequences.TheFapMcalrepresentationsandtheanalysisofsimilarityarenewimpulsetothecomp缸eofproteinsequences.Keywords:sequencescomparison,graphicalrepresentation,analysisofsimilarity,longestcommonsubsequenceH蛋白质序列比较中的图形表示及其相似性分析0前言0.1引言随着人类基因组计划(HGP)实施的进一步深入,生命科学已步入后基因组时代。

序列比对的目的

序列比对的目的
6个读码框翻译
5’端到3’端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始:
上机实习1:网上运行blastx和blastn
(NCBIblast网址:/BLAST/)
>lesson.seq.screen.Contig34
TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGC CACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTC TGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGC CTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGC CTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTC AGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGA GACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGC ACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTC AGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGC CTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCA TAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGT AGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGT GTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC

Blast使用方法攻略

Blast使用方法攻略

Blast使⽤⽅法攻略结果12列Query id,Subject id,% identity,alignment length,mismatches,gap openings,q. start,q. end,s. start,s. end,e-value,bit scoreBlast,全称Basic Local Alignment Search Tool,即"基于局部⽐对算法的搜索⼯具",由Altschul等⼈于1990年发布。

Blast能够实现⽐较两段核酸或者蛋⽩序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对⽐对区域进⾏打分以确定同源性的⾼低。

Blast的运⾏⽅式是先⽤⽬标序列建数据库(这种数据库称为database,⾥⾯的每⼀条序列称为subject),然后⽤待查的序列(称为 query)在database中搜索,每⼀条query与database中的每⼀条subject都要进⾏双序列⽐对,从⽽得出全部⽐对结果。

Blast是⼀个集成的程序包,通过调⽤不同的⽐对模块,blast实现了五种可能的序列⽐对⽅式:blastp:蛋⽩序列与蛋⽩库做⽐对,直接⽐对蛋⽩序列的同源性。

blastx:核酸序列对蛋⽩库的⽐对,先将核酸序列翻译成蛋⽩序列(根据相位可以翻译为6种可能的蛋⽩序列),然后再与蛋⽩库做⽐对。

blastn:核酸序列对核酸库的⽐对,直接⽐较核酸序列的同源性。

tblastn:蛋⽩序列对核酸库的⽐对,将库中的核酸翻译成蛋⽩序列,然后进⾏⽐对。

tblastx:核酸序列对核酸库在蛋⽩级别的⽐对,将库和待查序列都翻译成蛋⽩序列,然后对蛋⽩序列进⾏⽐对。

Blast提供了核酸和蛋⽩序列之间所有可能的⽐对⽅式,同时具有较快的⽐对速度和较⾼的⽐对精度,因此在常规双序列⽐对分析中应⽤最为⼴泛。

可以毫不夸张的说,blast是做⽐较基因组学乃⾄整个⽣物信息学研究所必须掌握的⼀种⽐对⼯具。

实验三蛋白序列比对到基因组

实验三蛋白序列比对到基因组

实验三蛋白序列比对到基因组(GeneWise and exonerate)实验目的1)了解基因结构,acceptor, sponsor 等概念2)理解将蛋白序列比对到基因组的应用3)掌握利用GeneWise 将蛋白序列定位到基因组上并得到基因结构实验数据及软件ftp://172.28.137.55/pub/lab_materia/biosoft/lab03/1、Genewise 简介Genewise 是EBI 的Ewan Birney <birney@> 和他的同事们开发的一套软件系统,用来做蛋白质序列和DNA 序列之间的比对,软件比对过程中会考虑剪切位点信息,所以能够定义出intron/exon 结构,同时它和blast 的最大区别是它能够把基因的多个exon 的链接起来,从而得到基因整体的比对情况。

Genewise 只能一次进行一条蛋白序列和一条核酸序列的比对,同等运算量的情况下,运行时间较blast,blat,sim4 等慢,由于进行的是蛋白质水平的比对,所以敏感性比blat,sim4 等要高。

2、下载可从EBI 网站上下载,下载地址:ftp:///pub/software/unix/wise2/wise2.2.0.tar.gz(FTP 服务器上已经下载有)3、安装1)解压缩2)编译,$ cd src$ make all3)设置环境变量:WISECONFIGDIR4、使用语法genewise <protein-file> <dna-file>genewise –genesf [other options] <protein-file> <dna-file>参数提示1.默认情况下,蛋白序列和dna 序列的正链进行比对,即-tfor 参数;如果用户不确定蛋白质序列是在dna 序列的正链上还是反链上,可以改用-both 参数;2.当用户需要使用genewise 比对得到的dna 序列时,可以通过添加-cdna 得到;可以通过-trans参数得到对应的氨基酸序列;应用1—确定基因结构genewise –both –genesf input-protien3.fa input-dna3.fa > output3.genewise.out 结果(部分)当序列比对中有移码出现时(非3 整数倍的插入、缺失),genewise 会在dan 翻译的氨基酸序列行显示一个“!”,如下:应用2 检验假基因当比对的结果里面出现“!”时说明dna 序列中出现了移码突变,当比对中出现X 时说明出现了premature stop codon。

实验四 基于CLUSTAL算法的多重序列比对分析

实验四 基于CLUSTAL算法的多重序列比对分析

实验四基于CLUSTAL算法的多重序列比对分析1. CLUSTAL简介CLUSTAL是对核苷酸或蛋白质进行多序列比对的程序,也可以对来自不同物种的功能相同或相似的序列进行比对和聚类,通过构建系统发生树判断亲缘关系,并对序列在生物进化过程中的保守性进行估计。

CLUSTAL有CLUSTALX和CLUSTALW之分,CLUSTALW 是以命令行格式运行,CLUSTALX则通过窗口格式进行操作。

目前最新版本为CLUSTAL 1.83,均可以从ftp:///pub/software/下载。

这里我们主要介绍CLUSTAL W,从ftp直接下载DOS文件夹下的CLUSTAL W到本地磁盘解压,其中有两个exe文件,CLUSTALW.exe是进行多序列比对和生成亲缘树的程序,而njplotWIN95则是对CLUSTALW.exe运行结果进行察看的程序。

另外还有许多在线的Clustal W服务,例如:/Clustalw/2 . 本地运行Clustal WClustal W程序能自动识别输入的序列,通常当读入的序列字母85%以上为A、C、G、T、U或N时,则被认为是核苷酸序列,反之为蛋白质序列。

进行多序列比对时,要求所有输入的序列按顺序储存于一个文件中。

当有大量的序列文件时,可以在Unix操作系统下用cat file1.seqfile2.seq……>multiseq.seq命令合并成一个文件序列的储存格式必须为以下7种格式之一,他们分别是:NBRF/PRI、EMBL/SWISSPORT、Pearson(Fasta)、Clustal(*.aln)、GCG/MSF(Pileup)、GCG9/RSF和GDE,除了“-”和“.”外所有的非字母都将被忽略。

这里我们将不同来源的15条甲硫酰胺tRNA 合成酶的氨基酸序列,保存在单一文件multiseq.file中。

进入程序安装目录,双击CLUSTALW.exe文件,进入Clustal W的主菜单界面(见图1)。

核酸氨基酸序列相似性比较

核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较Blast (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

BLAST程序能迅速与公开数据库进行相似性序列比较。

BLA ST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

如果您想进一步了解B LAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。

BLAST的功能BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。

BLAST还能发现具有缺口的能比对上的序列。

BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。

从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。

BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。

所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。

BLAST包含的程序:1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

3-1,序列比对

3-1,序列比对

E -22 S -33
Needleman-Wunsch算法;
L -44
Sij = max of Si-1, j-1 + σ(xi, yj)
C -55
Si-1, j - d左到右)
Needleman-Wunsch算法
Gap V D S C Y Gap 0 4 -11 -22 -33 -44 -55
1,点阵法
1970年,Gibbs & McIntyre; 寻找两条序列间所有可能的比对; 发现蛋白质或者DNA序列上正向或者反向的
重复; 发现RNA上可能存在的互补区域。 工具:
http://myhits.isb-sib.ch/cgi-bin/dotlet /molkit/dnadot/
FASTA和BLAST算法
第二节:打分矩阵及其含义 第三节:多序列比对
第一节,双序列比对算法
1. Dot Matrix,点阵法 2. 动态规划算法:
Global: Needleman-Wunsch Local: Smith-Waterman
3. Word or k-tuple算法:FASTA, BLAST
例1:比对结果得分
序列1:
VDS–CY
序列2:
VESLCY
替代矩阵中的分数: 4 2 4 -11 9 7
两序列比对的总分: Score=Σ(AA pair scores) – gap penalty = 15
本例:线性罚分
r(g) gd
S… L
- - V .. VESLCY
C
- - - V ..
Y
VES-LCY
Needleman-Wunsch算法
Gap V D S C Y

第四章核酸序列分析

第四章核酸序列分析
相同的一些区域(motif)。
40
精品PPT
影响(yǐngxiǎng)相似性分数的因素
WORD SIZE 的设定 是否(shìfǒu)允许空位且空位罚分策略
相似性分数矩阵(PAM和BLOSUM)
41
精品PPT
点阵图
评估两条序列相似度最简单的方法之一是利用点阵图。 第一条被比较(bǐjiào)的序列排列在点阵图空间的横轴, 第二条序列则排列在纵轴。点阵空间中两条序列中的残基 相同时,在对应的位点上画上圆点,两条序列间连续相同 的区域在图中会形成由圆点组成的上斜线。
核酸序列组分分析(BioEdit、DNAMAN、 Dnastar) 分析核酸序列的分子质量、碱基组成、碱基分布等。
序列变换(BioEdit、DNAMAN 、 Dnastar)
根据分析需要,对核酸序列进行(jìnxíng)各种变换, 如寻找序列的互补序列、反向序列、反向互补序列等。
限制性内切酶分析(BioEdit、DNAMAN 、 Dnastar)
42
精品PPT
具有(jùyǒu)连续相似区域的 两条DNA序列的简单点阵图
精品PPT
对人类与黑猩猩的β球蛋白基因序 列(xùliè)进行比较的完整点阵图
43
滑动窗口技术
使用滑动窗口代替一次一个位点的比较是解决噪音 问题的有效方法。
假设窗口大小(dàxiǎo)为10,相似度阈值为8,则每 次比较取10个连续的字符,如相同的字符超过8个, 则标记
假设两条序列长度分别是12和9 假设这两条序列是真正的同源序列,那么它们之间长度的
差异可以解释为 (1)较长的序列有核苷酸的插入,或者 (2) 较短的序列发生了核苷酸的删除,或者(3) 两者都发 生了。 在不知道(zhī dào)原始父辈序列的情况下,无法判断导 致空位的原因是由于一条序列的插入事件还是另一条的删 除事件,通常把这类事件称为插入/删除事件。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

核酸\蛋白序列比对分析生物技术02级021402198 曾彪摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。

核酸与蛋白质序列分析是生物信息学的基本研究方法。

核酸与蛋白质序列分析是生物信息学的基本研究方法。

关键词核酸/蛋白质序列分析生物信息数据与查询序列比较DNA芯片质谱隐马尔可夫模型正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。

分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。

大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。

它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。

这些生物信息数据库可以分为一级数据库和二级数据库。

一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。

国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。

国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。

数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

常用的数据库查询系统有Entrez, SRS等。

数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。

面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。

线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。

核酸序列分析核酸序列的基本分析1.测定分子质量、碱基组成、碱基分布等基本数值;2.序列变换:反向序列、互补序列、互补反向序列;3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及参考文献。

4.克隆测序的分析:测序峰图的查看、核酸序列中载体的识别和去除、其他人工序列的分析和去除核酸序列的电子延伸---GenBank的UniGene数据库、意大利Tigem 的EST Machine、EMBL的EST Cluster Project等基因的电子表达谱分析---将待分析序列与EST数据库进行序列对库的检索,用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断,进而得到该基因的组织表达谱。

SAGE数据库、UniGene、Tigem等。

核酸序列的电子基因定位分析---染色体定位。

–通过序列标签STS数据库定位–利用UniGene/RH放射性杂交定位–直接利用基因组序列定位cDNA对应的基因组序列分析---EST和cDNA的基因组序列查询了解该基因的基因组结构:外显子/内含子结构、转录调控区。

基于核酸序列对齐分析的功能预测–利用数据库的核酸序列的同源性分析–两条核酸序列之间的同源性分析–核酸序列之间的多重比对分析及进化分析可读框架分析1)cDNA序列的可读框架分析2)基因组序列中的编码区/内含子结构分析3)cDNA序列与基因组序列的对齐及显示,Sim4程序。

5)基因启动子及其他调控位点分析---启动子、增强子、转录因子结合位点、内含子与外显子。

6)重复序列分析7)引物设计蛋白质序列分析1.蛋白质序列检索2.蛋白质基本性质分析1)氨基酸组分、分子质量、等电点2)疏水性分析3)跨膜区分析4)前导肽和蛋白质定位5)卷曲螺旋分析蛋白质功能预测6)基于序列同源性分析的蛋白质功能预测。

Blast、Blast2、FASTA。

7)基于模体、结构位点、结构功能域的蛋白质功能预测蛋白质结构预测8)蛋白质二级结构预测9)蛋白质三级结构预测——与已知结构的序列比较、同源模建、threading算法和折叠识别DNA 芯片技术与脱氧核糖核酸序列分析在分子生物学的许多研究领域,都需要对DNA分子进行序列分析,阐明DNA 分子的一级结构是进一步认识其功能的基础。

因此,分析测定DNA 序列的能力在很大程度上决定着人们获取遗传信息、认识生命奥秘的能力。

人类基因组计划的根本目标是分析人类基因组DNA 的全部核苷酸顺序,这项计划的实施极大地促进了DNA序列分析技术的发展,各种新的高速测序技术不断出现。

在这些新的DNA 序列分析技术中,DNA 芯片(DNA chip) :技术以其新颖的构思和诱人的应用前景而受到人们的广泛关注,它综合应用了生物学、化学以及工程技术科学等学科的众多相关技术,在微型芯片上合成了高密度的寡核苷酸探针阵列,将探针阵列与待分析DNA 序列同步杂交,用高分辨率的检测装置进行扫描检测,再结台计算机系统分析处理,可以快速获取所需的遗传信息这是一种全新的DNA序列分析技术,与传统测序技术相比,它的突出优点是整个检测过程快速高效。

由于探针阵列具有高度的序列多样性,它可以同时对大量基因、乃至整个基因组进行扫描分析,从而能够使人们从一个更高的层次来全面研究基因的功能,分析不同基因之间的生物相关性这些是传统的序列分析技术所无法企及的。

随着这项技术的广泛应用,将会给分子生物学的发展带来深远的影响,特别是将在以研究基因定位和基因功能为主的后基因组计划中发挥越来越太的作用。

DNA 芯片是生物芯片的一种,也称为微阵列(Microarray),是指由大量探针按一定的顺序排列在固相载体表面而形成的探针阵列,目前DNA 芯片主要包括eDNA 芯片和寡核苷酸芯片。

探针阵列的合成目前主要有两种方式:(1)离片合成法(Off-Chip Synthesis);(2)在片/原位合成法(On—Chip/in situ Synthesis)。

DNA 芯片是通过核酸杂交原理来进行序列分析的,将标过的未知序列与芯片上的探针阵列进行杂交,严格控制反应条件,如靶序列浓度、杂交温度及缓冲溶液浓度等,那么与靶序列完全互补的探针显示比较强的杂交信号,利用高分辨率的检测装置检测出完全互补的探针,经过计算机系统分析处理,即可确定待测序列。

DNA 芯片可广泛应用于涉及DNA 序列分析的众多研究领域。

目前DNA芯片技术主要应用于比较分析特定基因的遗传多样性,检测多态性位点用于基因定位,检测突变位点诊断遗传病,监测基因的表达水平,DNA 测序以及进行其它的序列比较等方面的研究。

1 检测多态性/突变位点利用DNA芯片技术,可以同时检测众多基因乃至整个基因组的多态性/突变位点。

在用寡核苷酸芯片扫描分析特定基因时,针对不同的检测目的,可以设计台成出不同形式的探针阵列,将待分析序列与这四个探针同时杂交,严格控制杂交条件,那么完全互补探针的杂交信号最强,从而可以确定位点;2 DNA 测序SBH(Sequencing by Hybridizati0n)法是近年来提出的一种新的DNA 测序方法,它用一系列较短的已知序列的寡核苷酸探针,与较长的待分析序列杂交,寻找其互补序列,根据杂交结果分析待测DNA 序列。

人类基因组计划的实施,对现代分析科学提出了严峻挑战,同时也给分析科学的发展带来了巨大的机遇,促进了分析科学与众多相关学科的渗透融合。

DNA芯片技术正是在此基础上发展起来的一种全新的DNA 序列分析技术,这一技术已在分子生物学的许多研究领域显示了巨大的潜力和诱人的应用前景。

目前DNA 芯片技术的研究与应用正处在一个迅猛发展、日趋完善阶段,在不断拓展其新的应用领域的同时,还需要进一步提高探针阵列的合成密度以及检测系统的分辨率与灵敏度,更重要的是要使这项技术逐步实现常规化与自动化。

随着这一技术的逐步完善与广泛应用,将会在二十一世纪的分子生物学中发挥更大的作用。

质谱及隐马尔可夫模型在肽和蛋白质序列分析中的应用了解肽和蛋白质的序列对理解其功能具有重要意义,测定其序列也是当前生命科学研究中的重要内容之一.质谱作为高灵敏度的测定分子结构的仪器,其高灵敏度、广泛的适用性及快速性等特性使它具有很大潜力发展成为辅助传统测序方法的新方法,并得到了广泛的关注.肽和蛋白质序列的质谱测定方法质谱用于肽和蛋白质的序列测定主要可以分为三种方法.一种方法叫蛋白图谱(protein mapping),即用特异性的酶解或化学水解的方法将蛋白切成小的片段,然后用质谱检测各产物肽分子量,将所得到的肽谱数据输入数据库,搜索与之相对应的已知蛋白,从而获取待测蛋白序列;第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子,通过分析相邻同组类型峰的质量差,识别相应的氨基酸残基.其中亚稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂;第三种方法与FAman法有相似之处,即用化学探针或酶解使蛋白或肽从N端或c 端逐一降解下氨基酸残基,形成相互间差一个氨基酸残基的系列肽,名为梯状测序(1adder sequencing),经质谱检测,由相邻峰的质量差知道相应氨基酸残基.隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域。

目前,人们已经得到大量的蛋白质序列和结构数据,传统研究蛋白质的方法已经不再实用,生物学家已经转向能够处理大量数据的统计方法来进行研究。

隐马尔可夫模型可以通过训练,识别同一特征的蛋白质序列。

从SCOP数据库中选择了一个蛋白质族,由它得到了能够代表该族特征的隐马尔可夫模型,并用该模型对一些蛋白质序列进行分析。

隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域,它的基础是计算机技术、统计学和分子生物学。

HMM 可被用于蛋白质同源性的研究。

它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markov链,另一个是与Markov链的每一状态相关联的观察结果的随机过程。

隐Markov链的特征要靠可观测到的信号揭示。

编码蛋白质的原始DNA 序列,在生物的进化过程中,会受到自然环境和各种因素的影响,使翻译出的蛋白质序列经历突变,遗失,或引入外源序列等变化,最后按不同的进化路径分化,形成多种功能相近的蛋白质。

相关文档
最新文档