中国科学院大学生物信息学期末考试资料,陈润生老师

合集下载

《生物工程与Bioinformatics基础》2020-2021期末试题及答案

《生物工程与Bioinformatics基础》2020-2021期末试题及答案

《生物工程与Bioinformatics基础》2020-2021期末试题及答案一、选择题 (每题2分,共20分)1. 以下哪项是生物信息学的核心内容?A. 分子生物学B. 计算机科学C. 统计学D. 生物统计学答案:B. 计算机科学2. 以下哪个数据库是存储基因组序列的数据库?A. PubMedB. GenBankC. PDBD. SwissDock答案:B. GenBank3. 生物信息学中的数据分析方法不包括以下哪项?A. 机器学习B. 聚类分析C. 数据挖掘D. 量子化学计算答案:D. 量子化学计算4. 在生物信息学中,以下哪个工具用于序列比对?A. BLASTB. Clustal OmegaC. FASTAD. R答案:A. BLAST5. 以下哪个是生物信息学中的常用编程语言?A. PythonB. RC. MATLABD. C++答案:A. PythonB. R二、填空题 (每题2分,共20分)1. 生物信息学是运用计算机科学与生物学的交叉领域,旨在开发和应用计算机技术来理解生物数据。

2. 基因组学是研究生物体的全部基因及其表达和调控的学科。

3. 蛋白质组学是研究生物体内所有蛋白质的组成、结构、功能和相互作用的科学。

4. BLAST是一种常用的生物信息学工具,用于核酸或蛋白质序列的相似性搜索。

5. bioinformatics是一个跨学科领域,它结合了计算机科学、信息工程、分子生物学和统计学,以理解生物数据。

三、简答题 (每题10分,共30分)1. 请简要解释生物信息学的应用领域。

生物信息学的应用领域包括基因组学、蛋白质组学、系统生物学、药物设计和疾病建模等。

它被广泛应用于医学、生物学、农业和环境科学等领域,以推动科学发现和技术创新。

2. 请简要介绍生物信息学中的序列比对工具。

生物信息学中的序列比对工具用于比较两个或多个生物序列(如DNA、RNA或蛋白质序列)之间的相似性。

常用的序列比对工具包括BLAST(Basic Local Alignment Search Tool)、FASTA (FAST Allignment Search Tool for Proteins and Nucleotides)和Clustal Omega等。

《生物信息学》试卷(A)

《生物信息学》试卷(A)

武汉大学2007—2008学年度高校教师研修班《生物信息学》试卷(A)及答案一、翻译下列名词并解释。

(每题5分,共25分)1. EST2. ORF3. BLAST4. ANN5. HGP二、填空(每空2分,共20分)1、蛋白质空间结构测定常用的方法有和二维核磁共振技术。

2、BLAST对序列格式的要求是常见的格式。

3、系统发育树由一系列和组成,其中每个代表一个分类单元,而代表物种之间的进化关系。

、、等。

6. 目前已经是最广泛使用的系统发育程序。

三、解释说明: 请按要求对下列GenBank文件作解释说明。

(每小题4分,共20分)1、LOCUS行中的第3项mRNA linear表示,这里是。

2、DEFINITION行在GenBank记录中用以3 ACCESSION 是,是从数据库中检索一个记录的主要。

4. FEATURES后面部分是,直接表达了记录的生物背景知识,5 CDS 30…533 表示。

四、问答。

(共35分)1简述国际上有哪几个著名的核酸序列数据库?(10分)2何谓序列比对的相似性和同源性,它们之间有何联系和区别(10分)3试述发现基因的一般过程(15分)《生物信息学》试卷(A)答案一、翻译下列名词并解释。

(每题5分,共25分)1. EST expressed sequence tag 表达序列标签2. ORF Open Reading Frame, 开放阅读框3. BLAST Basic Local Alignment Search T ool 局部相似性基本查询工具4. ANN Artificial Neural Network, 人工神经网络5. HGP Human genome project 人类基因组计划二、填空(每空2分,共20分)1、蛋白质空间结构测定常用的方法有X射线晶体衍射法和二维核磁共振技术。

2、BLAST对序列格式的要求是常见的FASTA格式。

3、系统发育树由一系列节点和分支组成,其中每个节点代表一个分类单元,而节点之间的连线代表物种之间的进化关系。

生物信息学期末考试重点

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。

它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。

ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础。

6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

【免费下载】生物信息期末考试重要文件

【免费下载】生物信息期末考试重要文件

《生物信息学》课程复习思考题
蛋白质结构从头预测法 蛋白质折叠 FASTA-ALL NCBI EBI GenBank Entrez SRS 系统 同源性 homology、同一性 identity、形似性 similarity neutral theory of molecular evolution 最小二乘法 neighbor-joinning method maximum parsimony 基因组注释 基因组学 蛋白质组学 PDB MEGA 软件 PHYLIP 软件 动态规划算法 dynamic programming algorithm Smith-Waterman algorithm Needleman-Wunsch 算法
《生物信息学》课程复习思考题
一、名词解 生物信息学 bioinformatics Dotplot 算法 分子钟 molecular clock 隐马尔科夫模型 hidden Markov model, HMM Gene Ontology, GO molecular phylogenetic tree 序列比对 sequence alignment 空位罚分 线性空位罚分 constant gap penalty 多序列比对 关系数据库 Dayhoff 突变数据矩阵 BLOSUM 矩阵 blocks substitution matrix 蛋白质结构分类数据库 SCOP(structural classification of proteins) CATH 蛋白质结构分类数据库 系统发育树 物种树 基因树 有根数、无根树 最大似然法 同源建模蛋白质结构预测
《生物信息学》课程复习思考题
BLAST,BLASTn, BLASTp
复习思考题 1. 什么是生物信息学?其主要应用有哪些? 2. 简述生物信息学发展史上重大的标志性成果? 3. 有人说生物将是下一场技术革命的热土,你认为生物信息学将对生物产业化有哪些方面 的贡献?

生物信息学期末考试答案分析解析

生物信息学期末考试答案分析解析

一、名词Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。

Consensus sequence:共有序列——决定启动序列的转录活性大小。

各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。

EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。

Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology:同源性——是两个对象间的肯定或者否定的关系。

如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。

在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

新闻时事素材解读及适用话题

新闻时事素材解读及适用话题

新闻时事素材解读及适用话题作者:孙俊强来源:《作文成功之路·高考冲刺》2022年第10期29道题全选“A”:让学生“相信自己”也是一道必考题江德斌29道选择题答案全部是“A”!近日,山东青岛平度市某学校一名90后数学老师制作了一份这样的试卷,并在社交媒体发布了此事,引发网友讨论。

这位老师称自己曾经在备考时,做练习题遇到过连着七八个选择题都选A,当时特别怀疑自己,所以这次如此设置考题,是想帮助学生树立自信,让学生相信自己。

这确实是一份难得一见的试卷,选择题答案都是“A”,估计一辈子也遇不到一次。

这张别出心裁的试卷是数学老师为学生量身定做的,对数学题的选项进行了重新编排,花费了不少时间。

这张特殊的试卷,也是数学老师给学生出的一道必考题,借此考验学生的心理承受力,测试学生的临场应变能力,增强学生的自信心。

学生每个学期都要经历许多次考试,正所谓久考成精,卷子刷多了,也会揣摩出题者的思路,总结出应试套路,特别是针对选择题,有很多做题“口诀”,比如,“多选B,少选C,尽量不选A和D”,“三长一短就选短,三短一长就选长。

两长两短就选b,参差不齐c无敌”等。

显然,如果遇到选择题选项都一样的时候,这种做题“口诀”就失灵了,毫无作用,反而会害了迷信“口诀”的学生。

还有一些学生自信心不足,总是怀疑自己,甚至因为过度疑虑而选错答案。

这份特别的试卷能提醒学生,不要过于迷信“口诀”,不要赌概率,应该相信自己。

(摘自2022年10月25日东方网有删节)【素材解读】在人生的道路上,会遇到很多意外和不可预测的事,这些也是人生的“必考题”,无法绕过,只能面对。

在这些特别的时候,就需要葆有自信心,理性思考,勇敢地面对问题、解决问题。

由此可见,这份特别试卷凸显了老师的良苦用心,不管学生的考试成绩如何,都会给他们留下深刻的记忆,让他们知晓,无论何时都要“相信自己”!这才是最难能可贵的“考试口诀”。

适用话题:教育自信直面问题81岁院士被排队要签名,这样的星该追伍璨课程8:30开始,6点半已经没有座位,整个礼堂都是坐满的,几乎每一届学生都会去追院士的课、找院士要签名……近日,话题“81岁院士课后被学生排长队要签名”登上微博热搜,网友纷纷留言点赞:“这样的星应该被追,这样的课必须火爆”“这种景象才是追星的正确打开方式”。

生物信息学期末考试重点总结

生物信息学期末考试重点总结

第一章DNA、RNA和蛋白质序列信息资源生物信息学的概念:专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也称分子生物信息学。

三大核酸序列数据库GenBank(NCBI)美国国家生物技术信息中心,EMBL欧洲分子生物学实验,DDBJ日本DNA序列资料库序列信息通常用FASTA和GenBank两种格式显示第二章双序列比对数据库查询:指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。

数据库搜索:通过特定相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

区别:数据库搜索专门针对核酸和蛋白质序列数据库而言,其搜索对象不是数据库的注释信息,而是序列信息。

检测序列:新测定的,希望通过数据库搜索确定其性质或功能的序列目标序列:通过数据库搜索得到的和检测序列具有一定相似性的序列同源性的意义:具有共同祖先。

两个物种中有两个性状满足下列任一条件,就可称为同源性状:(1)它们与这些物种的祖先类群中所发现的某个性状相同(2)(2)它们是具有祖先一后裔的不同性状同源(homology)-具有共同的祖先同源序列:共同祖先趋异进化形成垂直同源(ortholog)种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列水平同源(paralog)由序列复制事件产生的相似(similarity)用来描述检测和目标序列之间相同DNA/蛋白质序列占比高低。

同源序列一般是相似的,但相似序列不一定是同源的。

相似性:大于50%可认为是同源性序列,小于20%无法确定同源性目的:通过数据库搜索,推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。

可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。

在序列数据库中对查询序列进行同源性比对.整体比对:从全长序列出发(分子系统学)局部比对:序列部分区域相似性(分子结构与功能性研究)数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。

生物信息学期末期末复习

生物信息学期末期末复习

■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A.全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B.全局比对允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学期末考试复习1.生物学中的7个数学故事(1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。

(2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。

(3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。

(4)关联分析通过假设检验看两个特征的关联有无统计显著性。

(5) 序列比对设计合适的算法可以有效降低计算复杂度。

(6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。

(7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。

2. DNA、protein、RNA序列比对及其算法序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

常用的方法有:点阵法,动态规划算法,k-tup 算法等。

(1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。

算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。

在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。

算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。

(2)动态规划算法:分为全局动态规划算法和局部动态规划算法。

保证了指定打分模型的情况下,两条序列能获得尽可能的最高分算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。

动态规划算法优缺点:优点:对于一个给定的计分函数集合,能找到最优的比对缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。

序列比对的定义,存在哪几种算法,打分矩阵是什么意思序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列;算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法;打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。

1.动态规划算法,给个表格可以把数字填出:3. 序列比对搜索工具FASTA和BLAST(这一部分我们没有讲,也看看吧)(1)FASTA EBI(European Bioinformatics Institute)的序列比对数据库搜索工具步骤:①找到所有的热点(hot-spots)(精确匹配的对数:1或2个氨基酸;4或6个核苷酸);②给热点打分,定位十个最好的diagonal run③将sub-alignments通过gap连接成一个alignment;④将动态规划算法应用于得分最高的alignment附近的局部区域,找到得分最高的alignment。

(2)BLAST NCBI(National Center for Biotechnology Information)的序列比对数据库搜索工具步骤:①预处理查询:从搜索中编译出short-hit得分的word list,对于BLOSUM打分,搜索词的长度w是3,阈值T是13;为每个搜索词建立neighborhood words)。

②扫描数据库,对于每一个word list,鉴定所有与数据库序列完全匹配的word(方法1:哈希表;方法2:有限状态机)。

③搜索最优的alignment。

④评估比对的统计显著性。

3.Dynamic Programming,FASTA,BLAST的算法比较动态规划算法:由于用到了两个序列的全部信息,因此敏感性最好由于计算了很多无用区域,浪费了时间,因此运行速度慢FASTA:不如动态规划算法和BLAST算法敏感,运行时间快于动态规划算法BLAST:比FASTA算法敏感性好,并且对结果进行了统计评估,BLAST 消除了搜索的噪音,因此运行比FASTA 更快。

4. 两种打分矩阵PAM矩阵:基于氨基酸进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。

PAM矩阵的制作步骤:①构建序列相似(大于85%)的比对;②计算氨基酸j 的相对突变率mj(j被其他氨基酸替换的次数);③针对每个氨基酸对i和j , 计算j被i替换次数;④替换次数除以相对突变率(mj);⑤利用每个氨基酸出现的频度对j进行标准化;⑥取常用对数,得到PAM-1(i,j);⑦将PAM-1自乘N次,可以得到PAM-n。

一个PAM就是一个进化的变异单位, 即1%的氨基酸改变(但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸),最常用的是PAM250,250%期望的突变,PAM250= (PAM1)250。

BLOSUM矩阵:根据蛋白质模块数据库BLOCKS 中蛋白质序列的高度保守部分的比对而得到的。

BLOSUM矩阵的数目(例如:BLOSUM 62)表示收集Blocks资料库中序列一致性为62%的序列,再由这些序列推导出计分矩阵,数目越低,差异越大。

5. 如何把写好的文件上传到服务器,并以网页的形式展现出来?1),安装并运行winscp,在session对话框输入主机名,端口号,用户名和密码,点击login,登陆2),将要运行的文件(如:test.html)拖到unix中的相应目录文件夹下,如:hanclass/2010280167150xx/目录下,然后在浏览器中输入:http://210.77.20.246/hanclass/2010280167150xx/test.html,即可运行。

6. 展示html要用什么服务器,什么浏览器?放在服务器特定的文件夹中(对放入什么文件夹不作要求)。

放在www底下。

7. R与Bioconductor有什么关系?R 是一个有着强大统计分析及作图功能的软件系统,在GUN 协议General Public Licence下免费发行。

R是S 语言的一个分支,R的使用与S-PLUS 有很多类似之处,两个软件有一定的兼容性。

不依赖于操作系统,可以在运行于UNIX, Windows和Macintosh 的操作系统上BioconductorR语言的延伸是一个开源和开放式的软件开发项目,目标是建立多方面的、强有力的基因组数据统计与图形分析方法。

Bioconductor的应用功能主要是以包(package)的集成形式呈现在用户面前,Bioconductor 提供了大量开放式的生物信息学软件包。

嵌入到R 中,进行各种生物信息学的数据处理和分析以及绘图。

8. 新一代测序技术如何影响进化基因组学的发展新一代测序技术,可用较低的成本产生大量的序列信息,解决了以前进化基因组学中难以解决的问题:①深入的群体调查;②研究正选择的基因座;③Standing变异和de novo突变:④通过系统发生重建研究致癌突变;⑤古基因组学;⑥靶向非模式生物;⑦转录组进化。

9. 数据库NCBI, ENSEMBLNCBI是美国国家生物技术信息中心。

该中心保存GenBank的基因测序数据。

Ensemble是一个全自动的基因注释软件。

由英国Sanger研究所和欧洲生物信息学研究所共同协作运营。

10. 分子进化研究方法距离法①邻接法:在所有可能拓扑结构中选择分支长度和S最小的作为最优树。

②UPGMA:基于层次聚类最大简约法:对所有可能的拓扑结构进行计算,计算出所需替代数最小的那个拓扑结构作为最优树。

最大似然法:以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其中最大似然率最大的拓扑结构,选为最终系统树。

软件:PAML(Phylogenetic Analysis by Maximum Likelihood),即最大似然法分析,是伦敦大学的杨子恒(Yang Ziheng)教授开发的一套基于最大似然估计来对蛋白质和核酸序列进行系统发育分析的软件,对学术使用是免费的。

PAML 可实现系统发育树的构建、祖先序列估计、进化模拟和KaKs 计算等功能。

其中分支及位点KaKs 的计算是本软件包的特色功能。

11. RNA二级结构(茎、环)答:RNA二级结构是由非共价键维持,包括氢键和碱基堆积力。

典型的碱基配对方式为A-U, G-C, G-U。

单链RNA分子中存在的反向重复序列,通过氢键形成碱基互补配对结构。

双链区称为茎(stem),而不能配对的单链区部分称为环(loop)。

茎内的其中一条链多出若干碱基不形成配对,这样的结构称为凸环(bulge loop);茎内的两条链都多出若干碱基不能配对,这样的结构称为内环(internal/interior loop);一条单链,其两端为茎,这样的结构称为发夹环(hairpin loop)12. 非编码RNA(Non-coding RNA)有哪些,分别起什么作用?蛋白质编码基因的数目与物种的复杂度不符,在人类和其他生物的基因组的大多数非蛋白编码区存在转录活性。

主要的非编码RNA及其功能,如下所述:(1)transfer RNAs (tRNA),即转移RNA:蛋白质翻译过程中,转运氨基酸分子,作为氨基酸与mRNA 上的接头分子。

(2)ribosomal RNAs(rRNA),即核糖体RNA:蛋白质合成的场所。

(3) small nuclear RNAs(snRNAs),即小核RNA:与蛋白质形成核糖核蛋白颗粒,在RNA剪接中发挥作用。

(4) small nucleolar RNAs,即小核仁RNA (snoRNAs):Pre-rRNA(即前体rRNA)在成熟而具有功能之前要进行修饰,如甲基化、尿嘧啶转变成假尿嘧啶。

snoRNAs就起这样的修饰作用。

(5) small interfering RNAs (siRNAs),即小干扰RNA:在RNA干扰中发挥作用,使双链RNA 降解,基因沉默。

(6) microRNAs (miRNAs),即微小RNA:类似于siRNAs,通过与靶基因mRNA碱基互补配对引导沉默复合体(RISC)降解mRNA或阻止其翻译。

(7) PIWI-interacting RNAs (piRNAs):是维持生殖细胞完整性和可育性所必须的一类小分子RNA。

相关文档
最新文档