生物信息学复习资料

合集下载

生物信息学重点tg

生物信息学重点tg

《生物信息学》复习要点红色表示为重点内容, 考试的比重较大.第一章生物信息学引论生物信息学;生物信息指哪些?contig;大规模测序的基本策略;功能基因组学;生物信息学的应用有哪些?什么事件大大促进了生物信息学的发展?(HGP);生物信息学中最重要的贡献是什么(序列比对算法)?基因组测序完成的主要物种(如人,水稻,大肠杆菌,酵母,拟南芥,果蝇等);我国自主产权的基因组测序有哪些?人类基因组计划的主要任务.第二章生物信息学的生物学基础碱性氨基酸和酸性氨基酸的种类;蛋白质二级结构有哪些?核苷酸序列中N表示什么?遗传密码的基本特征是什么?真核生物基因的一般结构?转录本;启动子(promoter);EST;cDNA;内含子;外显子;UTR;TATA-box;ORF;起始密码子;终止密码子; poly(A)加尾信号;TSS;中心法则;真核生物基因表达的调控水平有哪些?*第三章生物数据库资源及其应用三大核酸数据库有哪些?蛋白质序列数据库有哪些?蛋白质结构数据库有哪些?掌握文献的PubMED检索规则;掌握核酸/蛋白质记录的检索规则;UniGene;GEO;创建最早使用最广泛的蛋白质数据库是什么?(SWISSPROT和PIR);*第四章序列分析相似性;一致性;保守突变;同源性;序列比较的基本操作是什么?序列比较的方法有哪些?序列比较的矩阵作图法;最长公共子序列;空位罚分;打分矩阵;BLAST的全称;BLAST比对结果中图形颜色的意义以及score和E-value的含义;FASTA格式;BLAST几种工具的含义及其用途;nr数据库;EST数据库;检索某个基因序列的方法;如何通过生物信息学方法确定TSS?判断1个基因(EST)表达部位或特性的生物信息学方法有哪些?*第五章系统发生分析系统发生树;趋同进化;无根树;有根树;直系同源与旁系同源;系统发生树的构建方法种类;非加权组平均法原理;最大简约法原理;信息位点;Bootstrap;掌握非加权组平均法的构建方法;用ClustalX和MEGA软件构建进化树的流程是什么?第六章基因表达数据分析基因芯片聚类分析图中红色和绿色代表的含义*第八章电子克隆技术电子克隆(in silico cloning);电子克隆的基本思路;电子克隆的操作步骤;电子克隆的条件是什么?判断1个基因5'端是否完整的方法; Kozak规则是什么?内含子的剪切规则?(GU..AG)其他:1)要了解BLAST的一般步骤和意义;2)了解序列分析的基本内容和意义;3)上机操作中涉及的重要网站和程序名称等(不需要记得网址)。

生物信息复习资料

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中,我们需要掌握一些基本的概念、技术和工具。

下面,我将为大家整理一些生物信息学的复习资料,希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。

2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。

通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况,从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中,高通量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成本的特点,广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库:生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据,如基因序列、蛋白质序列、基因表达数据等,为生物信息学的研究和分析提供了基础。

生物信息学,复习资料

生物信息学,复习资料

第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。

检索和分析的科学。

1982年创建了GenBank数据库。

(1)序列数据资源:储存了生物信息学研究的原始数据,是生物信息学存在和发展的基础。

(2)序列比对与比对搜索:相似性分析是生物信息学最早涉及的问题之一。

常用的分析方法是序列比对。

(3)基因组结构注释(4)分子系统发生分析:系统发生关系是表示物种进化关系的参考依据。

通过分析分子水平的序列数据,可以了解物种系统发生的关系,目前常用树的形式来表示不同物种间的进化关系。

(5)蛋白质结构:蛋白质的空间结构是其行使功能的基础。

(6)蛋白质序列分析与功能预测。

(7)微阵列数据分析:微阵列是一种重要的基因表达高通量检测技术。

(8)蛋白质组数据分析:高通量的蛋白质组工程能够大范围地确定蛋白质功能,能确定蛋白质在哪种特殊的生理条件下会出现,还能确定那些蛋白质之间有相互作用。

(9)疾病相关研究:寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础,也是人类基因组研究的重要手段。

(10)SNP芯片及深度测序数据分析。

视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质,能结合血液中的视黄醇。

性质:①在多个物种中有许多蛋白质和RBP4同源,包括人、小鼠和鱼总的蛋白质。

②也有许多人类蛋白质额RBP4紧密相关,它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白,它们倾向于分泌到细胞外空间。

③有细南的lipealin 蛋白,它们在对抗生素的抗性中起作用。

编码细菌lipocalin 的基因可能是一古老基因,它通过水平基因转移的过程进人真核生物基因组。

④些lipocalin 蛋白的表达水平受到显著的调控。

⑤lipealin 蛋白小而丰富,并且是可溶性的,它们的生物化学性质已被详细研究,许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。

生物信息学考试复习

生物信息学考试复习

——古A.名词解释1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。

狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。

2. 基因芯片:将大量已知或未知序列的DNA 片段点在固相载体上,通过物理吸附达到固定化(cDNA 芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。

再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。

可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。

3. NCBI :National Center for Biotechnology Information. 是隶属于美国国立医学图书馆(NLM )的综合性数据库,提供生物信息学方面的研究和服务。

4. EMBL :European Molecular Biology Laboratory.EBI 为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。

5. 简并引物:PCR 引物的某一碱基位置有多种可能的多种引物的混合体。

6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST :Basic Local Alignment Search Tool. 是通过比对(alignment) 在数据库中寻找和查询序列(query) 相似度很高的序列的工具。

8. ORF :Open Reading Frame. 由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6 个ORF 。

9. 启动子:是RNA 聚合酶识别、结合并开始转录所必须的一段DNA 序列。

原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35 区( Sextama box ) TTGACA ,-10 区 (Pribnow Box ) TATAAT ,以及+1 区。

生物信息学复习大纲

生物信息学复习大纲

复习大纲1.生物信息学引论⏹了解生物信息学在生命科学研究中的作用和地位;⏹生物信息学与基因组学之间的关系;⏹了解生物信息学的主要研究内容;⏹认识生物信息,理解静态的生物信息与动态的生物信息,理解生物分子是基本的生物信息载体,认识基因组信息的组织与奥秘;⏹掌握生物信息学的主要研究对象及其关系。

2.生物信息资源及数据库⏹了解主要的生物信息资源网站;⏹生物信息学数据库,包括核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库、基因组数据库;⏹熟悉代表性数据库。

3.数据结构及算法⏹了解常用生物信息分析的计算机方法;⏹掌握基本的数据结构;数组、列表(链表、栈、队列)、树、图⏹掌握Hash表、树、图;⏹理解算法与程序的关系;⏹掌握算法评价的方法(时空复杂度)。

4.序列两两比对 *****⏹相似序列与同源序列(直向同源,共生同源);⏹序列的基本编辑操作和扩展操作;⏹打分函数;⏹打分矩阵(为什么要用打分矩阵?)⏹熟练掌握序列比对的点矩阵方法;⏹熟练掌握标准的基于动态规划的序列两两比对算法(反复求解两个前缀的最优比对),认识Needleman-Wunsch算法及Smith-Waterman算法与标准算法的关系;⏹了解准全局比对、连续Gap的处理方法;⏹了解相似序列比对算法的基本思想;⏹了解BLAST及其进行快速搜索的核心思想。

5.多序列比对⏹为什么不能用动态规划算法?其时空复杂度各位多少?⏹一般实现多序列比对的基本方法(转化为序列的两两比对);⏹星型比对的基本思想;⏹树型比对的基本思想;基本过程;⏹保守序列表示的三种形式(重点:consensus, PSFM/PSSM;了解sequence Logo)。

6.基因组序列拼接⏹序列拼接的生物学背景及数学定义;⏹掌握基于覆盖图的序列拼接的基本方法;⏹理解序列拼接问题的求解过程生物学问题→数学抽象→数据结构→问题转化→算法设计→求解7. 系统发生分析⏹了解现代(分子)系统发生分析的核心思想;⏹系统发生树的表示形式;⏹基于距离的系统发生分析的基本过程;⏹掌握连锁聚类分析方法;⏹了解UPGMA与NJ这两种方法的特点,它们与连锁聚类的差别。

[整理]《生物信息学》学生复习资料.

[整理]《生物信息学》学生复习资料.

《生物信息学》复习资料陈芳宋东光教材:《生物信息学简明教程》(钟扬编)1 绪论分子生物学与计算机、信息科学的结合-生物信息学(Bioinformatics);Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules.生物信息学及其分支学科分子生物信息学(molecular informatics)-即狭义的生物信息学,指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据;生物信息学(bioinformatics)-广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题,侧重于发展理论模型和有效算法;分子计算(molecular computing)-将DNA作为一种信息储存器,应用PCR 技术和生物芯片等来进行计算。

生物信息学的主要目的不是分子发展最精致的算法,其目的是发现生物体以怎样的方式生存。

生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型,到实现数据分析的新算法,以及开发数据库和访问数据库的Web工具。

生物信息学的功能是表示、存储和分布数据。

开发从数据中发现知识的分析工具处于第二位。

生物信息学发展阶段与研究方向前基因组时代-数据库建立、检索工具的开发和蛋白质序列分析;基因组时代-基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代-大规模基因组分析、蛋白质组分析、各种数据的比较和整合。

生物信息学复习资料(信息管理与信息系统)

生物信息学复习资料(信息管理与信息系统)

1.什么是生物信息学?生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。

2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么?任务:收集和管理生物分子数据;数据分析和挖掘;开放分析工具和实用软件;生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。

内容:(1)序列比对;(2)基因预测;(3)药物设计;(4)蛋白质结构预测;(5)基因调控网络的预测;(6)蛋白质相互作用预测;(7)分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库:NCBI、ENA、DDBJ蛋白质数据库:Expasy、Uniprot蛋白质结构数据库:SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库:GO 、David、String、InAct蛋白质信号通路数据库:KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些?Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些?GenBank核酸序列数据库;UniPROT蛋白质序列数据库;PDB生物大分子结构数据库;6.Genbank格式与FASTA格式Genbank序列以10个为一组,在序列上标注碱基或者氨基酸残基数,查找和检索方便FASTA格式序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。

从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。

通常核苷酸符号大小写均可,而氨基酸一般用大写字母,文件中和每一行都不要超过80个字符(通常60个字符)7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

Blastn:核酸序列对核酸库的对比,直接比较核酸序列的同源性。

《生物信息学》复习资料

《生物信息学》复习资料

超二级结构:是介于二级和三级结构之间的一个结构层次。

有的模体本身有一定的功能,有的与其他的结构成分协同发挥作用。

Conting(叠连群):又译作连续克隆系。

为搞清某段DNA的排列顺序而建立的一组克隆。

被克隆的DNA小片段有相互邻接并部分重叠的关系,从而可以完全覆盖该段DNA,一个这样的克隆群即为一个conting。

蛋白质组:对应于基因组的概念,指由一个细胞或一个组织的基因所表达的全部相应的蛋白质。

蛋白质组是一个动态的概念:①和基因不一样。

不同组织和不同发育时期都不一样②基因在转录后,还有一系列的修饰,翻译等过程都可以影响蛋白质的表达。

因此通过对蛋白质组的研究,在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题以及与人类健康和疾病相关的生物医学问题。

单核苷酸多态性:在DNA的某一个位点处的核苷酸,有一部分是A,另一部分是T,其他为G和C,如果各种情况的比例均为1%,则称该位点处的核苷酸为多态性的。

就一个位点而言,SNP最多为4种。

但人类基因组很多,估计平均每1000bp就有一个SNP,因此整个金一组可有3*1000000个SNP位点,因此产生多态性就是非常多了。

已知人类基因组DNA序列中最常见的变异形式是SNP。

非蛋白质编码区:非蛋白质编码区占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成分或由其表达的RNA成分:内含子、卫星DNA、小卫星DNA、微卫星DNA、非均一核RNA、短散置元、长散置元、伪基因等。

除此之外,顺式调控原件如启动子、增强子等也属于非编码序列。

分裂基因、割裂基因、不连续基因:基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

其中,编码的序列叫外显子,对应于心事RNA序列的区域。

不编码的叫内含子,通常比外显子大得多。

基因两端起始和结束于外显子,对应于转录产物RNA和5和3端。

如果一个基因含n个内含子,则n+1个外显子。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。

即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。

信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。

②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。

③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。

从传统的还原论研究生命过程转到了整体论思想。

2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。

原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。

药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。

、EMBL、DDBJ5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。

数据挖掘中的常见算法思想:判断、聚类、关联。

数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。

第二章:1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。

它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。

降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网络和编码基因的变异(3)通过RNA-seq分析可变剪切(4)通过RNA-seq分析小RNA第三章1.Fasta格式:DNA或Protein序列的最简单展示方式。

大于号(>)表示一个新文件的开始,起着分隔符作用2.GBFF格式:Genebank数据库的基本信息单位,是最广泛使用的生物信息序列格式之一。

特征1.每个条目都是一份纯文本文件。

每行左端为:空格或识别字,识别字均为完整英文字,不用缩写2.主体内容可以分成3个部分:①描述信息:从LOCUS开始②注释信息:从FEATURES开始③序列信息:从ORIGIN开始3.所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都是在最后一行以//结尾1.LOCUS:位点名/位置名,有8个字符,通常前面的字母代表特定物种名称2.DEFINITION:说明。

包括来源物种、基因/蛋白质名称、序列的完整性3.ACCESSION:检索号4.VERSION:版本号。

格式:检索号.版本号。

其后的GI号,一条核酸序列对应一个gi号,序列变化,gi号变化,但检索号不变5.KEYWORDS, SOURCE(序列来源的简称)和ORGANISM(序列来源的物种名称和分类学位置)6.Rerfence:与数据相关的参考文献收录在内7.Feature:特性表。

描述基因或基因的产物以及与序列相关的生物学特性8.Origin:序列信息的起始位置3.PubMed文献检索:Entrez系统中的数据库之一。

检索工具:特定文献检索、临床查询、专题查询第四章1.序列比对:①定义:序列比对是寻找两条或多条序列(核酸或蛋白质)之间所有位置上的所有匹配方式,然后筛选出最佳匹配②分类:(1)全局比对vs局部比对(决定于有最大相似度的最长子序列) (2)两两比对(待测序列与DNA或蛋白质序列库进行比较,找出与此序列相似的已知序列)vs 多重比对(将待测序列加入到一组与之同源,但来自不同物种的序列进行多序列同时比较,以确定该序列与其他序列的同源性大小)③作用:(1)未知序列与已知序列进行比对,预测其结构和功能(2) 已知序列与另一种的已知序列之间进行比对,预测两者的进化关系(3)从方法论上来讲,结构分析,功能分析和相关分析是生物研究中最基本的研究目的2.可接受的点突变:若两个不同aa背后的DNA水平上的点突变在进化过程中频繁发生,并能被进化接受。

通常认为这两个氨基酸是同源或相似的。

3.蛋白质的打分矩阵:①PAM 相同残基之间的相似性分数越高,该aa比较保守,不易突变;不同残基之间的相似性分数越高,它们的相似性越高,容易互变(PAM-1指表示100个残基中发生了1个残基突变) ②blousm(BLOcks SUbstitution Matrix)对亲缘关系较远的蛋白序列比较,不考虑差异巨大的序列。

只以相对保守的block为单位进行比对打分。

③区别(1)用于产生矩阵的蛋白质数目不同,BLOSUM比PAM大约多20倍(2)PAM:家族内的蛋白成员的序列比较;BLOSUM:首先寻找一段保守氨基酸片断,然后以保守氨基酸模式之间的进行序列比较,适用于远缘序列对比(3)PAM-n中,n 越小,表示氨基酸变异的可能性越大;BLOSUM-n中,n越小,表示氨基酸相似的可能性越小。

4.blast支持的格式:fasta、bare seq、indentifiers第五、六、七章1.Accepted Input Formats(可支持的格式):FASTA,Bare seq,Identifiers2.为什么要做序列比对?(序列比对原因):①未知序列与已知序列进行比对,预测其结构和功能。

②已知序列与另一种的已知序列之间进行比对,预测两者的进化关系。

③从方法论上来讲,结构分析,功能分析和相关分析是生物研究中最基本的研究目的。

3. NCBI中Basic BLAST工具有那些?:nucleotide blast、protein blast、blastx、tblastn、tblasts。

4.序列比对(两两比对)的算法思想:①输入两条序列②输出:打分最高的,即最佳路线(线路优化)5.如何使得S1和S2的比对得分最高:首先寻找两条条序列之间所有可能的匹配方式,逐一打分,然后筛选出最高分,即为最佳比对。

6.动态规划:一个大问题可以分成若干个子问题,寻找每个子问题的最优解,就是最优解。

7.动态规划矩阵(用矩阵来描述序列比对的动态过程):每个元素指长度为i与长度为j的两序列的最佳比对得分F(i,j)。

8. Needleman-Wunsch算法:全局比对(1970):9.局部比对的重要性:不同物种间的蛋白质序列具有大量的局部保守区域,RNA剪接后产生的转录本与原基因序列是局部匹配10. Smith-Waterman算法:局部比对(1981):①在初始化阶段,第一行和第一列全填充为0②在填充表格时,如果某个得分为负,那么就用0 代替③在回溯的时候,从得分最高的单元格开始,回溯到得分为0 的单元格为止。

11.BLAST/FASTA算法:启发式比对算法:以牺牲灵敏度为代价,提升计算速度;与Smith-Waterman 算法不同,不能保证找到最佳匹配。

12.FASTA算法:候选区域中的局部比对:①在矩阵中确定最佳路径可能经过的的区域,基于点阵图用对角线显示两条序列的局部公共片段。

②延长热点区域,形成更长的比对区域。

③给各自的比对区域赋值,获得得分更高的更长比对,确定候选区域。

④在候选区域中,采用smith-waterman 算法精确计算最佳比对。

由于候选区域所包含的元素数远小于整个矩阵的元素,因此带来计算速度的极大提升。

13. BLAST算法步骤:①种子序列的寻找:Seeding把长度为n的查询序列划分为不同的种子序列word,最后得到n-w+1个字串.(种子越短,灵敏度越高,计算速度越慢)②种子序列的定位:Seeding Mapping:用这些word来寻找超过某阀值的“近似匹配片段"③种子序列的延伸:Seeding Extending(利用打分矩阵沿左右两个方向延伸hit cluster直到打分低于一个临界值,得到的结果称为高分片段对)。

14.多序列比对(MSA):目的:寻找基因家族中不同序列间的共同特征,能够找到最多共同特征的比对为最优多序列比对。

15.多序列比对的算法复杂度:时间复杂度O(cmn),若m=n, 时间复杂度近似为O (n2),时间复杂度显指数增长。

相关文档
最新文档