生物信息学复习题.doc

生物信息学复习题.doc
生物信息学复习题.doc

第一章生物信息学的概念及其发展历史

1.什么是生物信息学?

生物信息学是在生命科学研究屮发展起来的一门由分子生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取、处理、储存、传播、分析、模拟和解释的交叉学科。

2.生物信息学有哪些研究领域?

1)分子生物学与细胞主物学2)生物物理学3)脑和神经科学4)医药学5)农林牧渔学6)分子和生态进化

3.生物信息学有哪些主要应用?

1)生物信息学数据库

①数据库建设

②数据库整合和数据挖掘

序列分析

①序列比对

②基因序列注释

其他主要应用

①比较基因组学

②基因和蛋白质的表达分析

③生物芯片人规模功能表达谱的分析

④蛋口质结构的预测

⑤蛋白质与蛋白质的相互作用

⑥生物系统模拟

⑦代谢网络建模分析

⑧计算机进化生物学

⑨生物多样性研究

⑩合成生物学

4.生物信息学的发展经历了哪几个阶段?

1)前基因组吋代:该吋代是各种算法和法则的建立,生物数据库的建立以及DNA 和蛋白质的序列分析为主要工作;

2)基因组时代:该时代以齐种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作;

3)后基因时代:该阶段主要进行大规模基因组分析、蛋口质组分析以及其他各种基因组研究。

第二章生物学数据库存及其检索

1.什么是数据库?

数据库是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其存储形式有利于数据信息的检索与调用。

2?什么是一级数据库?

一级数据库是存储实验获得的原始数据,只经过简单的归纳、整理和注释。著名的一级核酸数据库有GenBank. EMBL. DDBJ等;蛋白质序列数据库Swiss-Port、P1R 等,蛋白质结构数据库冇PDB。

3 ?什么是二级数据库?

二级数据库是在一级数据库实验数据和理论分析的基础上针对特定口标延伸而来,

是对生物信息学知识和信息的进一步整理。

4.什么是FASTA序列格式?

FASTA序列格式是将DNA或蛋口质序列表示为一个带有一些标记基因的核甘酸或氨基酸的字符串,用〃〉〃表示一个新文件的开始。

5.什么是Genbank序列格式?

Genbank序列格式是Genbank数据库的基木信息单位,是最为广泛的生物信息学序列格式乙一,该序列格式包含4个部分,第一部分包含整个记录的信息,又叫描述符;第二部分包含注释,乂叫注释区;第三部分是引文区,提供记录的科学依据;第四部分是核昔酸序列木身,最后以‘7厂结尾。

6.什么是Entrez检索系统?

Entrez检索系统是由NCBI开发并提供维护的,它是目前应用最为广泛的生物学数据库检索系统Z—。它充分利用了众多公共数据库各个记录Z间本身就存在的逻辑关系,从而从多种类型数据的文本信息中找到所需要的信息。

7.什么是BLAST?

BLAST I具是一种有效的序列数据库搜索工具,通过BLAST序列对比算法,从核酸或蛋口质序列数据库中找出与待检序列具有一定程度相似性的序列。BLAST工具实际上是一个程序集合,包括基本BLAST工具和高级BLAST工具。

第三章序列比对原理

1.什么是序列比对?

序列比对就是运用某种特定的数学模型或算法,找出两个或多个序列之间的最人匹配碱基或残基数,比对的结杲反映了算法在多大程度上提供序列Z间的相似性关系及它们的生物学特征。

2 ?什么是序列的同源性?

序列的同源性是指某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,它是质的判断。

3.什么是序列的同一性?

序列的同一性是指两序列在同一位点核苜酸或氨基酸残基完全相同的序列比例。 4 ?什么是序列的相似性?

序列的相似性是指两序列间直接的数量关系,如部分相同、相似的百分比或其他一些合适的度量。

5.序列比对数据库搜索工具有哪些?

1)FAS TAI具

2)BL AST工具

①基木BLAST工具

②高级BLAST I具

6.多序列比对工具有哪些?

①ClustalX/W 工具

②T-Coffee工具

③MultAlin I具

④NAFFT工具

7.什么是多序列比对?

多序列比对就是对多条序列插入空位,使得插入空位后的全局比对结果具冇相同的氏度,并口比对结果中不能出现一列全为空位。

8.什么是序列比对的E值?

序列比对的E 值是衡量序列Z 间相似性是否显著的期望值,E 值大小说明可以找 到与查询序列相匹配的随机或无关序列的概率,E 值越接近0越不可能找到其匹 配序列;E 值越小意味着序列的相似性偶然发生的机会越小。

9. 什么是直系同源?

直系同源是指在不同物种中冇相同功能的同源基因,它是在物种形成过程中形成 的。 10. 什么是旁系(并系)同源?

旁系同源是指那些在一定物种中的来源于基因复制的蛋口,可能会进化出新的与 原来有关的功能。

11?什么是系统发育分析?

系统发育分析是指通过一组相关的基因或蛋口质的多序列比对和其他性状可以 研究推断不同物种或基因之间的进化关系。

12、多序列比对算法有哪些?

① 动态规划算法

② 渐进式算法

③ 迭代算法

④ 统计概率算法

13?什么是PAM 矩阵?

PAM 矩阵是指可接受突变百分率,一个氨基酸在进化屮变成另一种氨基酸的可能 性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对, 一个PAM 是一个进化的变异单位,即每100个残基中有1个可接受单点突变。

14. 什么是BL0SUM 矩阵?

BL0SUM 矩阵是指可以使用关系较远的序列来获取矩阵元素。突变数据矩阵得到 产生基于相似性较高的序列比对,那些进化距离的炬阵是从初始模型屮推算出来 而不是直接计算得到的,其准确率收到一定限制。

15. 什么是 PSI-BLAST?

PS1-BLAST 是位点特异性迭代BLAST,用来寻找远缘相关的蛋白质序列,对于蛋 口质的相似序列的寻找比常规blastp 更敏感。

第四章蛋白质结构分析

1.什么是蛋白质一级结构?

蛋口质一级结构是指多肽链的氨基酸残基的排列顺序,它是由氨基酸个体通过肽 键共价连接而成的。一级结构是蛋白质结构层次体系的基础,它是决定更高层结 构的主要因素。

2?什么是蛋白质二级结构?

蛋白质二级结构是指多肽链主链原子借助于氢键沿一维方向排列成具冇周期性 的结构构象,是多肽链局部的空间,主要有a 螺旋、B 折叠、13转角、无规卷曲 等形式。 3.蛋白质的结构层次有哪些? 一级结构 二级结构

超二级结构、结构域 三级结构

四级结构

4?什么是蛋白质结构比对?

它是对蛋白质三空间结构的相似性进行比较,一个标准的蛋白质结构比对结呆包 描①②

③④⑤

以下信息①产生一个参数来衡量蛋口质结构间的相似性②产生两个蛋口质的序列比对结果,同一比对位置上的氨基酸意味着它们在空间结构上具有相似性③ 产生结构叠加后的蛋白质结构文件(PDB文件格式),可根据叠加后的结构文件通过合适的蛋白质结构图形显示软件具体观测两个蛋白质结构的相似性。

5.蛋白质同源模建的步骤有哪些?

1)模板的选择

2)待测序列与模板序列的比对

3)同源建模的建立

①待测蛋白的主链模建

②Loop区的模建

③侧链安装

4)同源模型精修和评估

6.什么是蛋白质结构域(domain) ?

蛋白质结构域是指在超二级结构的基础上形成的三级结构的局部折叠区,它是相对独立的紧密球状实体,通常由50?300个氨基酸残基组成,其特点是在三维空间可以明显区分和相对独立,而月?具冇一定的生物功能。

7.什么是蛋白质超家族?

指如果序列相似性较低,但其结构和功能特征表明它们有共同的进化起源,则将其视为超家族。

8.什么是蛋白质模体(motif) ?

模体是结构域的亚单位,通常由2~3个二级结构单位组成,一般为a螺旋、B折叠和环。

9.简要介绍SCOP数据库?

SCOP数据库是由英国医学研究委员会的分子生物学实验室和蛋白质工程研究中心开发与维护的。该数据库是建立在蛋白质进化关系和折叠原理上,其对已知三维结构的蛋白质进行分类,并扫描了它们Z间的结构和进化关系。

10.简要介绍PROSITE?

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和口J靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋口质家族。有的情况卜',某个蛋口质与已知功能蛋口质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PR0S1TE 的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋片质结合的区域等;除了序列模式之外,PROSTTE 还包括±T多序列比对构建的profile,能更嫩感地发现序列与profile的相似性。PROSITE的主页上捉供各种相关检索服务。

11.试述蛋白质三维结构预测的三类方法?

①同源建模

②折叠识别

③从头计算

12.试述SCOP蛋白质分类方案?

1)家族

2)超家族

3)折叠

4)结构类型:Wfia螺旋结构域、B折叠结构域、a/B结构域、a+B结构域、多结构域蛋口、细胞膜和细胞表面蛋口,以及多肽、“小”蛋口、卷曲螺旋蛋白、已经获得低分辨率蛋白质结构的蛋白、多肽和多肽片段、人工设计的蛋白质和非天然蛋白序列。

第五章真核生物基因组的注释

1.一个完整的基因组注释包括哪些方面?

一个完整的基因组注释包描在基因组中鉴定出其各类功能元件,如编码蛋口质的基因、RNA基因、重复序列和假基因等,并确定这些元件所到对应的生物学功能(如果存在的话):①确定蛋片质编码基因及其外显子-内含子结构(亦称基因结构),并推断其生物学功能;②进行RNA基因的预测,并推断其功能和相互作用靶标分子;

③确定基因组屮重复序列的含量和分类;④进行假基因的识别和分类等。

2.基因功能注释包括哪些方面?

1)寻找同源基因;

2)结构域和GO注释;

3)代谢通路注释。

3.蛋白质编码基因注释的策略有哪些?

1)基于证据的基因注释是将已有的cDNA序列或者蛋白质序列与基因组进行比对,从而得到基因结构的一种注释策略。

2)从头开始的基因预测只根据基因组的DNA序列对蛋口质编码基因进行预测。

3)重新基因预测利用对照基因组与目标基因组的对比信息来进行基因预测。

4 ?什么是基因组学?

基因组学(genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学和工业领域的重大问题。

5.什么是比较基因组学?

比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对己知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。第六章蛋白质组学

1.什么是蛋白质组学?

蛋白质组学是对一个特定样本(细胞、组织或器官)所表达的一整套蛋白质进行研究,它不仅包括对表达蛋白的大规模鉴定及定量分析,也包括对蛋口质的功能、细胞定位、修饰,以及蛋白质的相互作用进行确定。

2.蛋白质组学研究的新进展有哪些?

1)蛋口质的分离与鉴定2)蛋口质互作或蛋白质复合体研究3)蛋白质翻译后修饰分析4)蛋白质功能鉴定研究5)蛋白质复合体整体结构分析

3.蛋白质的大规模分离鉴定技术有哪些?

1)蛋白质二维电泳一质谱技术2)一维(二维)色谱一质谱技术3)荧光差异凝胶电泳技术4)同位索亲和标签技术5)表面增强激光解吸电离飞行吋间质谱技术6)蛋口质芯片技术7)通过数据库搜索鉴定蛋口质

第九章分子进化与系统发育

1.分子系统发育树的构建方法有哪些?

1)最大简约法2)距离法3)最大似然法4)贝叶斯推断

2 ?什么是系统发育树?

在研究牛物进化和系统分类中,常用一种类似树枝状分支的图形来概插各种生物之间的亲缘关系的图形。

3.什么是分子进化?

通过分了系统发育分析,从相应的核酸和蛋口质组成成分的差异上就可推断不同物种间的亲缘关系。彼此核莒酸或氨基酸愈相似,其亲缘关系就愈接近。根据各种生物间在分子水平上的进化关系,可建立分子进化的系统树。

4 ?什么是物种树?

基于物种进化历史不同,表达某一特定类群进化路径的系统发育树。

5.什么是基因树?

基于单个或多个同源基因差异构建的系统发生树。

6 ?什么是分子系统树?

通过比较生物大分子序列差异的数值构建的系统树。

7.什么是分子钟?

认为分了进化速率是恒定的或者几乎恒定的假说,从而可以通过分了进化推断出物种起源的时间。

8.什么是有根树和无根树?

有根树是具有方向的树,包含唯一的节点,将其作为树屮所有物种的最近共同祖先。无根树是指树系中代表时间上最早的部位(最早的共同祖先)不能确定,只反映分类单元Z间的距离而不涉及谁是谁的祖先的问题,冇根数去掉根即成无根树。

9.分子进化的特点有哪些?

1)生物大分子进化速率相对恒定;

2)生物大分子进化的保守性。

10常用的系统发育树软件介绍?

1)PHYL1P

是目前应用较多的免费构建系统发育树的软件包,是由美国华盛顿大学的Joseph Felsenstein教授开发的。PHYLIP主要包括几个程序组:分子序列组、距离矩阵组、基因频率组、离散字符组、进化树绘制组。

2)PAUP

PAUP是最著名的进行系统发育分析的商业软件。主要应用简约法进行系统发育分析。

3)MEGA

MEGA是曲美国亚利桑那州立大学的Kumar教授编写的进行分子进化遗产分析的免费软件包。

4)TREE-PUZZLE

TREE-PUZZLE是对分子序列采用最大似然法构建系统发育树的软件包,包含有可以在Windows> Linux和Macintosh等多个平台下运彳亍的版木。

5)MrBayes

MrBaycs是一种采用贝叶斯方法进行系统发育树构建的软件。

6)PhyML

2003年,Guindon等根据最大似然法原理,采用更加简便的爬山算法来同时估计树的拓扑结构和树的分枝长度。

11系统发育树的构建步骤?

1)选择适合分子序列;

2)多序列比对;

3)选择适合建树方法;4)系统发育树的评估。

相关主题
相关文档
最新文档