1-生物信息学背景知识

生物信息学课后题及答案-推荐下载

生物信息学课后习题及答案（由10级生技一、二班课代表整理）一、绪论 1.你认为，什么是生物信息学？采用信息科学技术，借助数学、生物学的理论、方法，对各种生物信息（包括核酸、蛋白质等）的收集、加工、储存、分析、解释的一门学科。2.你认为生物信息学有什么用？对你的生活、研究有影响吗？（1）主要用于：在基因组分析方面：生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面：新药物设计、基因芯片疾病快速诊断、流行病学研究：SARS 、人类基因组计划、基因组计划：基因芯片。（2）指导研究和实验方案，减少操作性实验的量；验证实验结果；为实验结果提供更多的支持数据等材料。 3.人类基因组计划与生物信息学有什么关系？人类基因组计划的实施，促进了测序技术的迅猛发展，从而使实验数据和可利用信息急剧增加，信息的管理和分析成为基因组计划的一项重要的工作。而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。 4简述人类基因组研究计划的历程。通过国际合作，用15年时间（1990-2005）至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA 的全部核苷酸序列，定位约10万基因，并对其他生物进行类似研究。 1990，人类基因组计划正式启动。 1996，完成人类基因组计划的遗传作图，启动模式生物基因组计划。 1998完成人类基因组计划的物理作图，开始人类基因组的大规模测序。Celera 公司加入，与公共领域竞争启动水稻基因组计划。 1999，第五届国际公共领域人类基因组测序会议，加快测序速度。 2000，Celera 公司宣布完成果蝇基因组测序，国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。 2001，人类基因组“中国卷”的绘制工作宣告完成。 2003，中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功，人类基因组计划的.目标全部实现。2004，人类基因组完成图公布。 2.我国自主知识产权的主要基因组测序计划有哪些？水稻（2002），家鸡（2004），家蚕（2007），家猪（2012），大熊猫（2010） 2．第一章、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题，而且可保障各类管路习题到位。在管路敷设过程中，要加强看护关于管路高中资料试卷连接管口处理高中资料试卷弯扁度固定盒位置保护层防腐跨接地线弯曲半径标高等，要求技术交底。管线敷设技术包含线槽、管架等多项方式，为解决高中语文电气课件中管壁薄、接口不严等问题，合理利用管线敷设技术。线缆敷设原则：在分线盒处，当不同电压回路交叉时，应采用金属隔板进行隔开处理；同一线槽内，强电回路须同时切断习题电源，线缆敷设完毕，要进行检查和检测处理。、电气课件中调试对全部高中资料试卷电气设备，在安装过程中以及安装结束后进行高中资料试卷调整试验；通电检查所有设备高中资料试卷相互作用与相互关系，根据生产工艺高中资料试卷要求，对电气设备进行空载与带负荷下高中资料试卷调控试验；对设备进行调整使其在正常工况下与过度工作下都可以正常工作；对于继电保护进行整核对定值，审核与校对图纸，编写复杂设备与装置高中资料试卷调试方案，编写重要设备高中资料试卷试验方案以及系统启动方案；对整套启动过程中高中资料试卷电气设备进行调试工作并且进行过关运行高中资料试卷技术指导。对于调试过程中高中资料试卷技术问题，作为调试人员，需要在事前掌握图纸资料、设备制造厂家出具高中资料试卷试验报告与相关技术资料，并且了解现场设备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况，然后根据规范与规程规定，制定设备调试高中资料试卷方案。、电气设备调试高中资料试卷技术电力保护装置调试技术，电力保护高中资料试卷配置技术是指机组在进行继电保护高中资料试卷总体配置时，需要在最大限度内来确保机组高中资料试卷安全，并且尽可能地缩小故障高中资料试卷破坏范围，或者对某些异常高中资料试卷工况进行自动处理，尤其要避免错误高中资料试卷保护装置动作，并且拒绝动作，来避免不必要高中资料试卷突然停机。因此，电力高中资料试卷保护装置调试技术，要求电力保护装置做到准确灵活。对于差动保护装置高中资料试卷调试技术是指发电机一变压器组在发生内部故障时，需要进行外部电源高中资料试卷切除从而采用高中资料试卷主要保护装置。

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些？并简要说明构建分子进化树得一般步骤。（20分）答：（1）构建进化树得方法包括两种：一类就是序列类似性比较，主要就是基于氨基酸相对突变率矩阵（常用PAM250）计算不同序列差异性积分作为它们得差异性量度（序列进化树）；另一类在难以通过序列比较构建序列进化树得情况下，通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制具体如下： a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast：比对相似度较高得基因，并以fast格式下载，整合在*txt文档中。 c比对序列，比对序列转化成*meg格式 d打开保存得*meg格式文件，构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义？它们各自得规律就是什么？（10分）（1）PAM矩阵：基于进化得点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵：首先寻找氨基酸模式，即有意义得一段氨基酸片断，分别比较相同得氨基酸模式之间氨基酸得保守性（某种氨基酸对另一种氨基酸得取代数据），然后，以所有60％保守性得氨基酸模式之间得比较数据为根据，产生BLOSUM60；以所有80％保守性得氨基酸模式之间得比较数据为根据，产生BLOSUM80。

（2）PAM用于家族内成员相比，然后把所有家族中对某种氨基酸得比较结果加与在一起，产生“取代”数据（PAM-1 ）；PAM-1自乘n次，得PAM-n。 PAM-n中，n 越小，表示氨基酸变异得可能性越小；相似得序列之间比较应该选用n值小得矩阵，不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中，n越小，表示氨基酸相似得可能性越小；相似得序列之间比较应该选用 n 值大得矩阵，不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62％相似度得序列，BLOSUM-80用来比较80％左右得序列。 3、蛋白质三维结构预测得主要方法有哪些？试选择其中得一种方法，说明蛋白质三维结构预测得一般步骤。（10分）（1） a同源建模（序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。（2） 4、您所熟悉得生物信息学软件有哪些？请选择其中得至少一种软件，结合自己得研究课题，谈谈您所选择软件得基本原理，使用

生物信息学软件及使用概述

生物信息学软件及使刘吉平 liujiping@https://www.360docs.net/doc/f77866853.html, 用概述生物秀-专心做生物！ w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念：科，它将数学和计算机知识应用于生物学，以获取、加工、存储、分类、检索与分析生物大分子的信息，从而理解这些信息的生物学意义。生物秀-专心做生物！ w w w .b b i o o .c o m

分析和处理实验数据和公共数据，生物信息学软件主要功能 1.2.提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测（三维建模，目前研究的焦点和难点）生物秀-专心做生物！ w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据，加快研究进度，缩短科研时间 ?核酸：序列同源性比较，分子进化树构建，结构信息分析，包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框（ORF ），蛋白编码区（CDS ）及外显子预测、RNA 二级结构预测、DNA 片段的拼接； ?蛋白：序列同源性比较，结构信息分析（包括Motif ，限制酶切点，内部重复序列的查找，氨基酸残基组成及其亲水性及疏水性分析)，等电点及二级结构预测等等； ?本地序列与公共序列的联接，成果扩大。生物秀-专心做生物！ w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系生物秀-专心做生物！ w w w .b b i o o .c o m

生物信息学的主要研究内容

常用数据库在DNA序列方面有GenBank、EMBL和等在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等在蛋白质和其它生物大分子的结构方面有PDB等在蛋白质结构分类方面有SCOP和CATH等生物信息学的主要研究内容 1、序列比对（Alignment）基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础，非常重要。两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的比对软件包BLAST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测，包括2级和3级结构预测，是最重要的课题之一从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建（Homology）和指认（Threading）方法属于这一范畴。虽然经过30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。 5、非编码区分析和DNA语言研究，是最重要的课题之一在人类基因组中，编码部分进展总序列的3~5%，其它通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。 6、分子进化和比较基因组学，是最重要的课题之一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群（Contigs）装配一般来说，根据现行的测序技术，每次反应只能测出500或更多一些碱基对的序列，这就有一个把大量的较短的序列全体构成了重叠群（Contigs）。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明，这是一个NP-完备

生物信息学作业1实验2

上海师范大学实验报告实验二一、实验原理答：利用Blast全球联网数据库，对输入的序列进行生物信息学分析，给出与输入序列相关性最大的对应的基因信息，比较两者的同源性。二、操作步骤答：（1）先打开网址https://www.360docs.net/doc/f77866853.html,/ （2）点击右边的Blast链接，打开Blast数据库，进入Blast界面（3）在Basic Blast中选择nucleotide blast （4）在对话框中输入核苷酸序列，在choose search set下的Database选项中选择Others (nr etc.) （5）把网页拉到最下方，点击Blast按钮（6）在Descriptions 栏下找到Max ident 百分率最高的序列名称（7）再往下拉，找到Alignments项下第一个序列，可以找到输入序列相关信息（8）点击Accession，即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答：属于Hepatitis C virus （丙型肝炎病毒） 1.2它属于哪类基因？答：属于non-structural protein 5B gene 1.3它在该基因的什么位置？答：它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性（Identities）是多少？答：同源性100% 2．（1）ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答：属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene （A型流感病毒，A型伊朗型261鸡流感病毒，H9N2病毒，血细胞凝集素抗原基因为依据） 1.2它属于哪类基因？答：属于ssRNA negative-strand viruses Orthomyxoviridae （单链RNA，负义链病毒，正粘病毒科） 1.3它在该基因的什么位置？答：它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性（Identities）是多少？

生物信息学复习题及答案(陶士珩)

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E值, 低复杂度区域，点矩阵（dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree），bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。二、问答题 1）生物信息学与计算生物学有什么区别与联系 2）试述生物信息学研究的基本方法。 3）试述生物学与生物信息学的相互关系。 4）美国国家生物技术信息中心（NCBI）的主要工作是什么请列举3个以上NCBI 维护的数据库。￥ 5）序列的相似性与同源性有什么区别与联系 6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7）简述BLAST搜索的算法。 8）什么是物种的标记序列 9）什么是多序列比对过程的三个步骤 10）简述构建进化树的步骤。 11）简述除权配对法（UPGMA）的算法思想。 12）简述邻接法（NJ）的算法思想。 13）简述最大简约法（MP）的算法思想。 14）简述最大似然法（ML）的算法思想。 ? 15）UPGMA构树法不精确的原因是什么 16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。 17）试述DNA序列分析的流程及代表性分析工具。 18）如何用BLAST发现新基因 19）试述SCOP蛋白质分类方案。 20）试述SWISS-PROT中的数据来源。 21）TrEMBL哪两个部分 22）试述PSI-BLAST 搜索的5个步骤。[ 3）三、操作与计算题 1）如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息： LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence： Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence： Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对，而Water则是局部比对。全局比对因为是比对全长序列，所以空位罚分多，得分较局部比对低。

生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。 3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。 4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。 5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。 6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E 值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。 13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列， Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。 15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。 18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。） 19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。 21.有根树：能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。 23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。 26.一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。 27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。

《生物信息学》上机作业

《生物信息学》上机作业题目：对人血红蛋白（HBA1）编码基因序列的生物信息分析

目录引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程息的存贮、信息的涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。 2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。 5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度） 6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。（来自百度） 7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度） 9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。 10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度） 11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。（来自文献） 12.Gene Ontology 协会： 13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度） 18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度）

生物信息学复习题及答案

一、名词解释： 1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。 13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。 15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。 18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。） 19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。 21.有根树：能够确定所有分析物种的共同祖先的进化树。

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析姓名：学号：专业： 1前言细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2)，又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase)，其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp，这部分中有7个外显子和6个内含子，7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中，该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译，属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中，变体1长度为2325bp，编码298个氨基酸；变体2长度为2223bp，编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白，功能相同，具有调控细胞分裂的功能，主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中，但只在进行分裂的细胞中行使功能，这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后，参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症，故CDK2基因可以被看作癌基因，其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控，还能与类Rb蛋白p107或转录因子E2F结合，促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。在CDK2分子中，被称为T环的氨基酸环阻断了活性部位，妨碍激酶履行它的酶功能，而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时，周期蛋白将T环转出2nm以上，又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关，还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下，与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化，但此时复合体还没有活性，只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后，复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节，此外还存在对其活性起负性调控的蛋白质，即CDK激酶抑制物，例如p21CIP/WAF1、p27KIP2等。前面提到，CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成，而变体2缺失外显子5，由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法： 2.1序列数据来源采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索，CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索，CDK2蛋白的记录有680个。采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

生物信息学名词解释

1.计算生物信息学（Computational Bioinformatics）是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科，以生物数据作为研究对象，研究理论模型和计算方法，开发分析工具，进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术：在测序过程中对每个碱基判读两遍，从而减少原始数据错误，提供内在的校对功能。代表测序方法：solid 测序。 4.焦磷酸测序法：焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如：454测序仪：用蛋白质序列查找核苷酸序列。 :STS是序列标记位点（sequence-tagged site）的缩写，是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断，一般长200bp －500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时，当各个实验室发表其DNA测序数据或构建成的物理图时，可用STS来加以鉴定和验证，并确定这些测序的DNA片段在染色体上的位置；还有利于汇集分析各实验室发表的数据和资料，保证作图和测序的准确性。 :表达序列标签技术（EST，Expressed Sequence Tags）EST技术直接起源于人类基因组计划。：生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理，剔除冗余部分，将同一基因的序列，包括EST序列片段搜集到一起，以便研究基因的转录图谱。UniGene除了包括人的基因外，也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框（ORF，open reading frame )是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验：只有分子钟的，没听过分子钟检验。一种关于分子进化的假说，认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学网站网址(全)

生物信息学网站分子生物学数据库综合目录 1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/ 2. 分子生物学数据库及服务器概览https://www.360docs.net/doc/f77866853.html,/people/pkarp/mimbd/rsmith.html 3. BioMedNet图书馆https://www.360docs.net/doc/f77866853.html, 4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html 5. 哈佛基因组研究数据库与精选服务器https://www.360docs.net/doc/f77866853.html, 6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器https://www.360docs.net/doc/f77866853.html,/Dan/proteins/owl.html 7. 生物网络服务器索引，USCS https://www.360docs.net/doc/f77866853.html,/network/science/biology/index.html 8. 分子生物学数据库列表(LiMB) gopher://https://www.360docs.net/doc/f77866853.html,/11/molbio/other 9. 病毒学的WWW服务器，UW-Madison https://www.360docs.net/doc/f77866853.html,/Welcome.html 10. UK MRC 人类基组图谱计划研究中心https://www.360docs.net/doc/f77866853.html,/ 11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html 12. 其他生物网络服务器的链接https://www.360docs.net/doc/f77866853.html,/biolinks.html 13. 分子模型服务器与数据库https://www.360docs.net/doc/f77866853.html,/lap/rsccom/dab/ind006links.html 14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html 15. 蛋白质科学家的网络资源https://www.360docs.net/doc/f77866853.html,/protein/ProSciDocs/WWWResources.html 16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc 17. 抗体研究网页https://www.360docs.net/doc/f77866853.html, 18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html 19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业https://www.360docs.net/doc/f77866853.html,/~michaels/Bioinformatics/ 20. INFOBIOGEN数据库目录https://www.360docs.net/doc/f77866853.html,biogen.fr/services/dbcat/ 21. 国家生物技术信息研究室https://www.360docs.net/doc/f77866853.html,/data/data.html 22. 人类基因组计划情报https://www.360docs.net/doc/f77866853.html,/TechResources/Human_Genome 23. 生物学软件及数据库档案https://www.360docs.net/doc/f77866853.html,/Dan/software/biol-links.html 24. 蛋白质组研究：功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html 序列与结构数据库一．主要的公共序列数据库 1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html 2. Genbank 数据库查询形式(得到Genbank的一个记录) https://www.360docs.net/doc/f77866853.html,/genbank/query_form.html 3. 蛋白质结构数据库WWW服务器(得到一PDB结构) https://www.360docs.net/doc/f77866853.html, 4. 欧洲生物信息学研究中心(EBI) https://www.360docs.net/doc/f77866853.html,/ 5. EBI产业支持https://www.360docs.net/doc/f77866853.html,/ 6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html