生物信息学复习题及答案

合集下载

大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析一、单选题（每题 3 分，共 30 分）1、生物信息学中，用于分析 DNA 序列的常见软件是（）A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息（）A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中，开放阅读框（ORF）是指（）A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时，常用的构建进化树的方法是（）A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对（）A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中，用于分析基因表达数据的常用方法是（）A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式（）A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中，用于预测蛋白质二级结构的方法是（）A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时，常用的数据库是（）A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序（）A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析：1、答案：A解析：BLAST（Basic Local Alignment Search Tool）是用于比较生物序列相似性的工具，常用于分析 DNA 序列。

ClustalW 主要用于多序列比对；Primer Premier 常用于设计引物；MEGA 用于构建进化树。

2、答案：B解析：PDB（Protein Data Bank）是主要存储蛋白质结构信息的数据库。

GenBank 主要存储核酸序列；UniProt 和 SWISSPROT 主要存储蛋白质序列信息。

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科，它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题（每题2分，共20分）1. 生物信息学中，用于存储DNA序列的文件格式是：A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤？A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中，BLAST工具用于：A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的？A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的？A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题（每题10分，共30分）6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学，并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题（每题15分，共30分）9. 假设你有一个DNA序列，其组成为：ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列，序列A：A-B-C-D-E，序列B：A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题（每题20分，共20分）11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据，如基因组序列、蛋白质结构等，帮助科学家快速发现生物现象的规律，推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中，基因组学可以帮助我们了解疾病的遗传基础，为个性化医疗提供理论基础。

生物信息学复习题

名词解释1..生物信息学 :是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科。

2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有的数据库多，使用方便，能够进行交叉索引等特点。

6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2910.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

P3711.E值：衡量序列之间相似性是否显著的期望值。

河大生科院生物信息学考试复习题答案完整版

名词解释1)生物信息学:生物信息学(Bioinformatics)是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)人类基因组计划: 是由美国科学家于1985年率先提出，于1990年正式启动的，宗旨在于测定组成人类染色体（指单倍体）中所包含的30亿个碱基对组成的核苷酸序列，从而绘制人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

3)基因芯片:又称DNA阵列或DNA芯片是一块带有DNA微阵列（micorarray）的特殊玻璃片或硅芯片片，在数平方厘米之面积上布放数千或数万个核酸探针；检体中的DNA、cDNA、RNA等与探针结合后，借由荧光或电流等方式侦测。

4)中心法则:是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成DNA的复制过程。

5)一级数据库:一级数据库主要包括原始数据，例如DNA序列、蛋白质序列和蛋白质结构等信息。

数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。

名词辨析1)信息技术与生物信息学：信息技术是研究信息的获取、传输和处理的技术，由计算机技术、通信技术、微电子技术结合而成，即是利用计算机进行信息处理，利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。

生物信息学是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)基因与基因组：基因是指具有遗传效应的DNA片段。

而基因组指的是单倍体细胞中的全套染色体，或是单倍体细胞中的全部基因。

3)相似性与同源性：相似性是指不同染色体之间基因序列的相似或相异程度。

同源性是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。

2、表达序列标签是从mRNA 中生成的一些很短的序列（300-500bp），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别是整体比对和局部比对。

4、2-DE的基本原理是根据蛋白质等电点和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离,第二向是SDS-PAGE分离。

5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。

二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，C值越大，这是真核生物基因组的特点之一。

（对）2、CDS一定就是ORF。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源,就具有共同的祖先。

（错）4、STS，是一段200-300bp的特定DNA序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码DNA是“垃圾DNA”，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

( 对）8、对任意一个DNA序列，在不知道哪一个碱基代表CDS的起始时，可用6框翻译法，获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

生物信息学复习题及答案(陶士珩)剖析

生物信息学复习题名词解释1. (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

2（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。

3（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

4(异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。

5 ： ( ) a . 总是不计入总数中。

6.点矩阵（）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列（）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。

8值：得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的（高分片段对）得分的期望分布联系起来计算的。

通常使用低于0.05来定义统计的显著性。

19.打分矩阵（）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。

10．空位（）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

11：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有, 等工具，还具有文献数据库。

生物信息学复习题

⽣物信息学复习题⼀、名词解释1.bioinformatics：⽣物信息学，指从事对基因组研究相关的⽣物信息的获取、加⼯、储存、分配、分析和解释的⼀门科学，是⼀门⽣物学，数学和计算机相互交叉融合⽽产⽣的新兴学科。

2.molecular bioinformatics：指综合应⽤信息科学、数学的理论、⽅法和技术，管理、分析和利⽤⽣物分⼦数据的科学。

3.GenBank：是美国全国卫⽣研究所维护的基因序列数据库，汇集并注释了所有公开的核酸序列，与⽇本的DNA数据库DDBJ以及欧洲分⼦实验室核酸序列数据库EMBL⼀起，都是国际核苷酸序列数据库合作的成员。

4.EMBL：EMBL实验室—欧洲分⼦⽣物学实验室，EMBL数据库—是⾮盈利性学术组织EMBL建⽴的综合性数据库，EMBL核酸数据库是欧洲最重要的核酸序列数据库，它定期地与美国的GenBank、⽇本的DDBJ数据库中的数据进⾏交换，并同步更新。

5.DDBJ：⽇本DNA数据库，主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是⽇本的研究机构，也接受其他国家呈递的序列。

6.BLAST：基本局部⽐对搜索⼯具的缩写，是⼀种序列类似性检索⼯具。

BLAST采⽤统计学⼏分系统，同时采⽤局部⽐对算法， BLAST程序能迅速与公开数据库进⾏相似性序列⽐较。

BLAST结果中的得分是对⼀种对相似性的统计说明。

7.BLASTn：是核酸序列到核酸库中的⼀种查询。

库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。

8.BLASTp：是蛋⽩序列到蛋⽩库中的⼀种查询。

库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。

9.Clustsl X：是CLUSTAL多重序列⽐对程序的Windows版本，是⽤来对核酸与蛋⽩序列进⾏多序列⽐较的程序，也可以对来⾃不同物种的功能或结构相似的序列进⾏⽐对和聚类，通过重建系统发⽣树判断亲缘关系，并对序列在⽣物进化过程中的保守性进⾏估计。

生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第一学期《生物信息学》课程试题答案课程号： 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、简答题(一) 生物信息学及主要内容？(3)生物信息学是生物和信息技术的结合，这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。

(二) 生物信息学主要由哪三个组成部分？(6)1、建立可以存放和管理大量生物信息学数据集的数据库；2、开发确定大数据集中各成员关系的算法和统计方法；3、使用这些工具来分析和解释不同类型的生物数据，包括DNA ，RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。

(三) 存储在GenBank 中DNA 序列的类型？(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略？(6)1、霰弹测序法(shot gun sequencing)：随机打碎大DNA 分子，通过很多测序反应来覆盖整个分子，完整的序列通过使用计算机搜索重叠区来重新拼接。

2、克隆重叠群(clone contig)的方法中，DNA 片段用推理的方法亚克隆，并且进行系统的测序直到整个序列完成。

(五) 按制备方式分DNA 芯片的主要类型？(6)1、原位合成芯片：采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。

探针较短；2、 DNA 微集阵列：将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级：姓名：学号：试题共页加白纸 2张密封线GDOU-B-11-302片。

探针的来源较灵活。

(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异？(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA，分别用用Cy3标定一种RNA，而用Cy5标定另一种RNA。

Cy3发红色荧光，Cy5发绿色荧光。

3、用不同的激发光照射，测定两种样品中DNA的表达量。

《生物信息学》题集

《生物信息学》题集一、选择题（每题3分，共30分）1.生物信息学的主要研究对象是什么？A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术？A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中，进行多序列比对时常用的软件是什么？A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析？A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中，下列哪项不是常用的序列分析技术？A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用？A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测？A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中，下列哪项不是基因注释的内容？A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术？A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用？A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题（每题2分，共20分）1.生物信息学是一门交叉学科，它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中，______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中，______是一种常用的数据标准化方法。

5.生物信息学中，______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中，GenBank主要存储的是______数据。

生物信息学期末期末复习

■一、选择题：1.以下哪一个是mRNA条目序列号：A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗？■可能B.不可能4.下面哪种数据库源于mRNA信息：■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建：A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J：A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择：A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A.因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B.搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为：■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变：A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变：A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A.全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B.全局比对允许间隙，而局部比对不允许C.全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学复习题名词解释1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。

（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

(异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。

Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。

6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。

值：得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。

通常使用低于来定义统计的显著性。

P=1-e-E9.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。

10．空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有BLAST, Entrez ,GenBank等工具，还具有PubMed文献数据库。

另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc.序列格式：是将DNA或者蛋白质序列表示为一个带有大于号（>）开始的核苷酸或者氨基酸序列的新文件，其中大于号后可以跟上序列的相关信息，其他无特殊要求。

13genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释，主要包含生物功能或数据库信息；第三部分是feature，对序列的注释；第四部分是序列本身，以“统发生树（Phylogenetic tree ）是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系，是一种亲缘分支分类方法。

在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。

是用来研究物种进化与多样性的基础，是相近物种相关生物学数据的来源。

17.基因树与物种树：物种树反映一组物种进化历程的系统树，其中每一个内部节点就代表一个物种形成的过程，而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树，而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。

基因复制事件可能发生在物种形成之前或之后，造成基因树与物种树拓扑结构存在差异的（来自两个物种的两个基因的分化可能发生在物种形成事件之前）。

18. 有根树：包含一唯一的节点，将其作为树中所有物种的共同祖先，并且这一节点到其他节点的路径也是唯一的，最常用的确定树根的方法就是利用分子钟理论。

在相同序列数条件下，有根树的可能的形式要多于无根树，这就有根树出错的概率明显高于无根树；无根树：找不到代表祖先树根的唯一节点的系统树。

无根树只能确定之间的亲缘关系的远近，在相同序列数条件下，可能的构树形式相对有根树要少，并且无根树是没有方向的，其中线段的两个演化方向都有可能。

19.分子钟：认为在进化过程中物种间分子进化速率是恒定的或者几乎不变的假说，即蛋白序列间的氨基酸替换数正比于序列间的分歧世代数。

意义：利用蛋白质序列的恒定的进化速率，可以推算不同物种序列发生分化的时间，从而将一些不同物种的系统发生关系确定下来以及推断出物种起源的时间。

缺陷：不同生物体的分子进化速率差别是很大的，如病毒的一些序列；不同基因的分子钟一般不同；只能用于长期进化历程中仍保持其生物学功能的那些基因，那些进化丢失功能或基因复制后改变功能的不能适用；进化速率是可变的，某些基因在自我扩增后进化速率大大提高；20.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

21.邻接法（neighbor-joining method）：其首先确定距离最近的分类单元对。

然后使系统树的总距离达到最小，不断循环将相邻分类单元秉承一个新的分类单元，最终建立相应的系统发育树。

其是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。

需要理解的地方：window size dotplot1.序列的相似性与同源性有什么区别与联系？答：（1）相似性是指序列之间相关的一种统计学的量度，两序列的的相似性可以基于序列的一致性和相似度的百分比，也可以用相应的分数来衡量这种相似；而同源性是指序列所代表的物种具有共同的祖先，强调进化上的亲缘关系，不能用相应的数字去量化这种关系，我们只能说序列具有高的一致性的百分比的可能是同源的。

（2）相似的不一定是同源的，同源的则表现出一定的相似性。

因为在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕见。

相反同源序列由于来源于共通过祖先则表现出一定的相似性。

2. why the reliability of protein alignment is higher than that of DNA?(1)核酸序列有四种碱基构成，当用两条核酸序列比对时出现随机匹配的概率是25%，而蛋白序列由20种氨基酸序列组成，当用两条蛋白序列比对时出现随机匹配的概率是5%，因此用核酸序列比对时出现假阳性概率比较大，可靠性差。

（2）密码子的简并。

由于密码子存在简并现象，导致密码子的变化不一定会导致氨基酸的变化，即一个氨基酸可以有多个密码子，因而在进化过程中蛋白质序列比核酸序列更为保守，采用蛋白序列比对更具有实际的意义。

（3）当序列相似性很高时可以选择DNA序列进行比对。

矩阵的假设条件及PAM1与PAM250的关系。

（1）假设条件：a.临近突变独立。

相邻位置的突变是独立的互不影响的。

b.进化历程的独立。

每个位点的突变概率仅由当前状态决定。

c.位置独立。

某个氨基酸突变为另一个氨基酸仅有这两个氨基酸决定。

（2）基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。

一个PAM 就是一个进化的变异单位, 即100个氨基酸中有1个发生可能被自然选择接受的突变改变。

PAM250则是PAM1自乘250次后得到的，即100个氨基酸中发生250个可被自然选择接受的点突变，但这并不意味250次PAM 后，每个氨基酸都发生变化，最后仍然具有20%的相似性，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸；PAM1常用于近缘序列（85%），而PAM250用于相似度为20%左右的的远缘序列。

（3）PAM1-PAM250生物学意义：PAM250矩阵适用于20%一致性的的远相关蛋白的比对，而PAM1适用于85%的近缘序列，说明了生物进化是朝着趋异进化的，但总能彼此保持一定的相似性。

PAM 120: 40% similar; PAM 80: 50% similar; PAM 60: 60% similar;（4）PAM 矩阵的局限性：Basic assumption: No correlations in exchange frequencies between neighboring analysis has confirmed role of neighboring residues in 3D structure 。

Different sites within proteins show different levels of variability ； A phylogenetic tree must be constructed first, implying some circularity in the analysisThe original PAM1 matrix was based on a limited number of families, not necessarily representative of all protein families4. 此矩阵与PAM 矩阵的比较：相同之处是都在打分矩阵中使用对数比值；执行双序列比对时都基于查询序列和匹配序列的一致程度，然后选择矩阵。

（1）PAM 矩阵是建立在一个进化突变模型的基础上，他认为aa 的突变是一个马尔科夫的过程，即每个位点的aa 突变是相互独立的，且与该位点以前的突变无关；而BLOSUM 矩阵没有明确的进化模型，他根据同一蛋白家族中序列保守的aa 模块中观察到的替换情况得到。

（2）用于产生矩阵的蛋白质家族及多肽链数目，BLOSUM 比PAM 大约多20倍,结果将更加可靠。

（3）PAM 基于全局比对得到的，用于追朔蛋白的进化起源而BLOSUM 是基于局部比对，用于寻找局部的保守的区域。

（4） PAM-n 中，n 越小，表示氨基酸变异的可能性越小；相似的序列之间比较应该选用n 值小的矩阵，不太相似的序列之间比较应该选用n 值大的矩阵。