生物信息学课后题及答案

合集下载

生物信息学复习题及答案

生物信息学复习题及答案

生物信息学复习题名词解释1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。

(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

(异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。

Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。

6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。

值:得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。

通常使用低于来定义统计的显著性。

共享——农业大学生物信息学课后练习题及答案汇总

共享——农业大学生物信息学课后练习题及答案汇总

1.美国核酸数据库GenBank从1979年开始建设,1982年正式运行(NCBI);
EMBL数据库也于1982年开始服务(EBI);
1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务(NIG)。
是一种经校阅过的蛋白质序列数据库,首先于1978年在瑞
EMBL)合作,目
1.同步法就是所有序列同时进行比对,而不是两两比对或分组进行比对。基
因此这类方法对于计算
由于利用多维动态规划矩阵对于实际数据进行序列比对不太现实,因此
、 blast程序用途,clustal程序用途。
系统发育分析
、什么是系统发育分析
系统发育分析是研究物种进化和系统分类的一种方法,研究对象为携带遗传
、什么是系统发育分析
、生物进化理论包括达尔文进化论、孟德尔遗传、中性进化论
、分子时钟假说及其重大意义
、DNA突变模式:替代,插入,缺失,倒位,核苷酸替代:转换,颠换
、系统发育树分为三种类型:分枝图、进化树、时间度量树
、系统发育树构建分为哪四步,结合所学软件,分别介绍每一步所用的程序或
EMBL和新成立的瑞士生物信息学研究所(SIB)共同维护。
是由NBRF蛋白质序列数据库、Munich蛋白质序列信息中心(MIPS)
(JIPID)共同维护的国际上最大的公共蛋白质序列
蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分,结构数
(Protein Data Bank)是国际上唯一的生物大分子结构数据档案库,
(人和鼠的α血红素),这样的基因应被称做直系同源基
orthologous。
在物种I和物种II中,基因a通过基因复制产生基因a1和基因a2。物

生物信息学复习题及答案(陶士珩)

生物信息学复习题及答案(陶士珩)

⽣物信息学复习题及答案(陶⼠珩)⽣物信息学复习题⼀、名词解释⽣物信息学, ⼆级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列⽐对,分⼦钟,系统发育(phylogeny),进化树的⼆歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最⼤简约法构树,最⼤似然法构树,⼀致树(consensus tree),bootstrap,开放阅读框(ORF),密码⼦偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠⼦,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。

⼆、问答题1)⽣物信息学与计算⽣物学有什么区别与联系?2)试述⽣物信息学研究的基本⽅法。

3)试述⽣物学与⽣物信息学的相互关系。

4)美国国家⽣物技术信息中⼼(NCBI)的主要⼯作是什么?请列举3个以上NCBI维护的数据库。

5)序列的相似性与同源性有什么区别与联系?6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx⼦⼯具的⽤途什么?7)简述BLAST搜索的算法。

8)什么是物种的标记序列?9)什么是多序列⽐对过程的三个步骤?10)简述构建进化树的步骤。

11)简述除权配对法(UPGMA)的算法思想。

12)简述邻接法(NJ)的算法思想。

13)简述最⼤简约法(MP)的算法思想。

14)简述最⼤似然法(ML)的算法思想。

15)UPGMA构树法不精确的原因是什么?16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。

生物信息学答案1111

生物信息学答案1111

一、名词解释(共15分,每个3分)1.生物信息学:(狭义)专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据的学科;(广义)指生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。

2.系统发生学:phylogenetics,研究物种之间的进化关系的一门学科,从生物信息的角度主要是利用核酸和蛋白质序列分析的方法进行。

3.BLAST:Basic Local Alignment Search Tool的缩写,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。

4.中心法则:是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA,即完成DNA的复制过程。

这是所有有细胞结构的生物所遵循的法则。

5.CHIP:又称微阵列(microarray),有多种形式,主要由大量cDNA、寡核苷酸探针或蛋白质密集排列所形成的探针阵列,其工作的基本原理是通过核酸或蛋白质杂交的远离了检测表达信息。

二、填空题(共10分,每空1分)1. 目前三大主要综合性基因序列数据库是:Genebank;DDBJ和EMBL。

2. 蛋白质的折叠预测方法:同源建模,折叠识别和从头预测。

3. 在Pubmed中进行如下检索W ANG ym [au],表明检索是依据作者姓名;4. 进化树构建过程中采用的主要方法有:UPGMA;Neighbor joining;maximum likelihood;三、选择题(共10分,每个2分)1. 下列哪个选项不是微阵列实验设计的内容?(A)A:贝叶斯网络法B:对照组的选择C:重复样本的使用D:随机化原则2. 构建序列进化树的一般步骤不包括:(A)A:建立DNA文库B:建立数据模型C:建立取代模型D:建立进化树3. 下列中属于一级蛋白质结构数据库的是:(D)A. EMBLB. DDBJC. PDBD.SWISS-PROT4. 蛋白质结构预测分为:(C)A.一级和三级结构预测 B. 二级和空间结构预测C. 三级和空间结构预测D. 二级和三级结构预测5. Cy3/Cy5双色芯片主要用来研究:(D)A.蛋白的定位; B. 基因在染色体上的位置;C. 基因的可变剪接;D. 基因表达模式;四、简答题(共3题,15分)1.生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能(1分)。

生物信息学试题及答案

生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第 一 学期《生物信息学 》课程试题答案课程号: 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、 简答题(一) 生物信息学及主要内容?(3)生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。

(二) 生物信息学主要由哪三个组成部分?(6)1、 建立可以存放和管理大量生物信息学数据集的数据库;2、 开发确定大数据集中各成员关系的算法和统计方法;3、 使用这些工具来分析和解释不同类型的生物数据,包括DNA ,RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。

(三) 存储在GenBank 中DNA 序列的类型?(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略?(6)1、霰弹测序法(shot gun sequencing):随机打碎大DNA 分子,通过很多测序反应来覆盖整个分子,完整的序列通过使用计算机搜索重叠区来重新拼接。

2、克隆重叠群(clone contig)的方法中,DNA 片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成。

(五) 按制备方式分DNA 芯片的主要类型?(6)1、 原位合成芯片:采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。

探针较短;2、 DNA 微集阵列:将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级:姓名:学号:试题共页加白纸 2张密封线GDOU-B-11-302片。

探针的来源较灵活。

(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异?(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA,分别用用Cy3标定一种RNA,而用Cy5标定另一种RNA。

Cy3发红色荧光,Cy5发绿色荧光。

3、用不同的激发光照射,测定两种样品中DNA的表达量。

生物信息学复习题及答案陶士珩

生物信息学复习题及答案陶士珩

生物信息学复习题及答案陶士珩Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。

二、问答题1)生物信息学与计算生物学有什么区别与联系2)试述生物信息学研究的基本方法。

3)试述生物学与生物信息学的相互关系。

4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI维护的数据库。

5)序列的相似性与同源性有什么区别与联系6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么7)简述BLAST搜索的算法。

8)什么是物种的标记序列9)什么是多序列比对过程的三个步骤10)简述构建进化树的步骤。

11)简述除权配对法(UPGMA)的算法思想。

12)简述邻接法(NJ)的算法思想。

13)简述最大简约法(MP)的算法思想。

生物信息学题库答案

生物信息学题库答案

生物信息学题库答案work Information Technology Company.2020YEARUTR的含义是(B )。

A. 编码区B. 非编码区C. 低复杂度区域D. 开放阅读框motif的含义是( D)。

A. 基序B. 跨叠克隆群C. 碱基对D. 结构域algorithm的含义是(B )。

A. 登录号B. 算法C. 比对D. 类推RGP是(D )。

A. 在线人类孟德尔遗传数据B. 国家核酸数据库C. 人类基因组计划D. 水稻基因组计划下列Fasta格式正确的是(B )。

A. seq1: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaB. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaC. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaD. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用( D)。

A. NDB数据库B. PDB数据库C. GenBank数据库D. SWISS-PROT数据库Bioinformatics的含义是(A )。

A. 生物信息学B. 基因组学C. 蛋白质组学D. 表观遗传学GenBank中分类码PLN表示是( D)。

A. 哺乳类序列B. 细菌序列C. 噬菌体序列D. 植物、真菌和藻类序列ortholog的含义是(A )。

A. 直系同源B. 旁系同源C. 直接进化D. 间接进化从cDNA文库中获得的短序列是(D )。

A. STSB. UTRC. CDSD. ESTcontig的含义是(B )。

《生物信息学》题集

《生物信息学》题集

《生物信息学》题集一、选择题(每题3分,共30分)1.生物信息学的主要研究对象是什么?A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术?A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中,进行多序列比对时常用的软件是什么?A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析?A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中,下列哪项不是常用的序列分析技术?A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用?A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测?A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中,下列哪项不是基因注释的内容?A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术?A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用?A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题(每题2分,共20分)1.生物信息学是一门交叉学科,它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中,______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中,______是一种常用的数据标准化方法。

5.生物信息学中,______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中,GenBank主要存储的是______数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。

Celera公司加入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。

2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。

2004,人类基因组完成图公布。

2.我国自主知识产权的主要基因组测序计划有哪些?水稻(2002),家鸡(2004),家蚕(2007),家猪(2012),大熊猫(2010)二.第一章1、生物信息指哪些?主要有从DNA序列、蛋白质序列、蛋白质结构和功能研究中解读的:遗传信息、进化信息、结构和功能信息。

2、基因组测序的基本策略有哪些?逐个克隆法:小片段针对图谱的!!全基因组鸟枪法:大片段-测序-组装3.什么叫contig?Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。

4、生物信息学中最重要的贡献是什么?1970: Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献;5、什么事件大大促进了生物信息学的发展?20世纪90年代后HGP促进生物信息学的迅速发展6、生物信息学研究有什么意义?(1)认识生物本质,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系(2)改变生物学的研究方式(3)改变传统研究方式,引进现代信息学方法(4)在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据三.第二章1、简述三干六界学说。

2.TSS,外显子和内含子的概念。

TSS是转录起始位点(Transcription Start Site)的英文缩写,是指DNA上一段与RNA聚合酶结合并起始转录的一段DNA序列。

真核生物结构基因,由若干个编码区和非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白质,这些基因称为断裂基因。

其中的编码区即为外显子,非编码区即为内含子。

3. 如何判断起始密码子?内含子?AUG甲硫氨酸(met)内含子(5’-GT……AG-3’)4.蛋白质二级结构有哪些?(1)螺旋(2)b折叠–平行折叠反平行折叠(3)b转角–连接作用”U”型结构(大多Phe, Gly组成)(4)无规卷曲-没有确定规律性的肽链构象,但仍是紧密有序的稳定结构(5)无序结构多肽链中有60%的区段为a螺旋和b折叠5、HGP选择作为研究人类的四大“模式生物“有哪些?酵母、线虫、果蝇、小鼠。

6、背诵生物信息数据库中的核苷酸代码?四.第三章(1)1、下列数据库分别是什么类型的数据库?序列数据库中的核酸数据库(GenBank PIR DDBJ SWISS-PROT EMBL)结构数据库(PDB)2、如何查找由Rao Y 实验室于2005以后发表的,文章主题中与brain有关的文献,写出检索语言。

Brain[ti] AND RaoY[au] AND 2005:2013[dp]3、如:我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的?正确①Rao Y[au] AND (Nature[Journal] OR Science[Journal])②Rao Y[au] AND Nature OR Science[Journal]③Rao Y[au] AND Nature[Journal] OR Science[Journal]④Rao Y[au] AND (Nature OR Science)[Journal]五.第三章(2)1、简述GenBank数据库中GBFF格式的结构?GenBank flatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。

GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列自身。

所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 //结尾.2、GBFF格式的特性表格式包括哪三个部分?特性表格式包含三个部分:第一,特性关键词(Feature key);第二,特性位置(Location);第三,限定词(Qualifiers)3、指出下列特殊标识符的格式?①序列辨认号(GI):一串阿拉伯数字②GenBank/EMBL/DDBJ序列接受号:1个字母+5个阿拉伯数字;1个字母+6个阿拉伯数字③RefSeq序列接受号:带“-”mRNA记录(NM*);完整的基因组或染色体(NC*)④PDB序列接受号:1个阿拉伯数字+3个字母4、指出下列GBFF格式中特性表含义?(23.45)..600 指明序列特征起始碱基在23和45碱基之间,终止于600号碱基145^177 指明145和177碱基之间的某个位点Complement(join(2691..4571,4918..5163)) 纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上六.第四章1、这两个序列的cost 和score分别是多少?(A)cost 2 score 9 (B)cost 4 score 62、在序列比对运算时最终结果是上面哪种运算方式?(A)3、给定一个DNA打分矩阵,假设空位罚分为2,按照以下的打分矩阵,对于下列对齐方案的计分值为多少?A T C GA1-1-1-1T-11-1-1C-1-11-1G-1-1-11GCGACTCG CTTGACT- AGA TAGAGACG CT- - ACTGTGA* * * * ** * * * * *0 04、判断题:(1)A序列和B序列的相似性是80% 对(2)A序列和B序列的一致性为39.4% 对(3)A序列和B序列的同源性是80% 错(4)两序列间的相似性越高。

它们的同源性就越高错5、名词解释:(1)同源性:两个基因或蛋白质序列具有共同祖先的结论;(2)直系同源:(Orthologous ):指不同物种中具有相同功能和共同起源的基因(3)旁系同源(Paralogous ):指在同一物种内具有不同功能,但也有共同起源的基因。

(4)空位罚分:在一条序列的残基间引入一个空位使得这条序列与第二条序列的相似残基对齐,引入空位的一个数值罚分(分值)称为空位罚分。

每个记分矩阵都有默认的空位罚分值(5)空位开放罚分:(Gap opening penalty)对起始缺失进行罚分(6)空位延长罚分:(Gap extension penalty) :当加入一个空位至已存在的空位时的罚分,使得大于一个残基不能对齐或者和空位对齐。

(7)PAM:代表可接受点突变,每一百个氨基酸中可接受的点突变。

⑻PAM1(1个PAM单位)被定义为每100个残基出现1个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)(9)PAM250矩阵:这个矩阵是指平均100个残基上固定会发生250次突变。

也就是很多残基都发生过一次以上的突变。

这种变化数量接近于检测遥远关系的极限。

(10)BLOSUM矩阵:BLOSUM矩阵:块替换矩阵,一种氨基酸替换矩阵,以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的,BLOSUM矩阵后面的数字表示构建此矩阵所用的序列的相似程度,如BLOSUM62表示由相似度为62%的序列构建。

6、简述PAM矩阵与BLUSUM矩阵的关系(1)两者都在打分系统中使用对数比值;(2)PAM矩阵是基于近相关蛋白家族数据的,并且假设高度相关蛋白的取代概率可以外推到远相关蛋白的概率。

BLOSUM矩阵是基于实际观测到的远相关蛋白比对。

(3)高值BLOSUM矩阵和低值PAM矩阵最适合于研究高度保守的蛋白;低值BLOSUM矩阵和高值PAM矩阵最适合检测远相关蛋白。

(4)一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好。

对于数据库搜索来说一般选择BLOSUM62矩阵。

PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域。

7.如何选择合适的评分矩阵?一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵对于数据库搜索来说一般选择BLOSUM62矩阵PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域8.掌握下列概念(英文对照):相似性、一致性、同源性、直系同源、旁系同源、空位罚分、空位开放罚分、空位延长罚分、PAM、PAM1、PAM250、9.打分矩阵有哪些?(1)核酸打分矩阵:等价矩阵、BLAST矩阵、转换-颠换矩阵(2)蛋白质打分矩阵:等价矩阵、氨基酸突变代价矩阵(遗传密码矩阵GCM)、疏水矩阵、PAM矩阵、BLOSUM矩阵。

1、序列比对分类有哪些?A、双序列比对:两条序列的比对B、多序列比对:三条或以上序列的比对2、简述序列比对两种类型。

(1)全局序列比:在全局范围内对两条序列进行比对打分的方法,适合于非常相似且长度近似相等的序列(2)局部序列比对:一种寻找匹配子序列的序列比对方法,适合于一些片段相似而另一些片段相异的序列3、双序列比对方法有哪些?①点阵序列比较(Dot Matrix Sequence Comparison)②动态规划算法(Dynamic Programming Algorithm)③词或K串方法(Word or K-tuple Methods)④贝叶斯统计方法(Bayesian Statistical Methods)4、Basic BLAST有哪些?它们的查询序列类型和数据库类型是怎样的?5、什么是动态规划算法?动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决,在序列比对尤其是双序列比对中非常重要,因为其提供了序列间最优的对位排列。

相关文档
最新文档