生物信息学期末复习资料（小字）

合集下载

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。

2、表达序列标签是从mRNA 中生成的一些很短的序列（300-500bp），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别是整体比对和局部比对。

4、2-DE的基本原理是根据蛋白质等电点和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离,第二向是SDS-PAGE分离。

5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。

二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，C值越大，这是真核生物基因组的特点之一。

（对）2、CDS一定就是ORF。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源,就具有共同的祖先。

（错）4、STS，是一段200-300bp的特定DNA序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码DNA是“垃圾DNA”，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

( 对）8、对任意一个DNA序列，在不知道哪一个碱基代表CDS的起始时，可用6框翻译法，获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

生物信息学考试复习

生物信息学考试复习．名词解释生物信息学：广义是指从事对基因组研究相关的生物信息的获取，加工，储存，分配，基因芯片：将大量已知或未知序列的DNA片段点在固相载体上，通过物理吸附达到固cDNA芯片），也可以在固相表面直接化学合成，得到寡聚核苷酸芯片。

再将待研究经过计算机扫描和数据处理，进行定性定量的分析。

可以反映大量基因：National Center for Biotechnology Information.是隶属于美国国立医学图书NLM）的综合性数据库，提供生物信息学方面的研究和服务。

：European Molecular Biology Laboratory.EBI为其一部分，是综合性数据库，简并引物：PCR引物的某一碱基位置有多种可能的多种引物的混合体。

序列比对：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规：Basic Local Alignment Search Tool. 是通过比对(alignment)在数据库中寻找(query)相似度很高的序列的工具。

：Open Reading Frame.由起始密码子开始，到终止密码子结束可以翻译成蛋白质6个ORF。

启动子：是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。

原核生物启动-35区（Sextama box）TTGACA，区（Pribnow Box）TATAAT，以及+1区。

真核生物启动子包括远上游序列和启动子基启动子基本元件包括启动子上游元件（GC岛，CAAT盒），核心启动子（TATA，+1区帽子位点）组成。

motif：模体，基序，是序列中局部的保守区域，或者是一组序列中共有的一小段序列分子进化树：通过比较生物大分子序列的差异的数值重建的进化树。

相似性：序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残同源性：两个基因或蛋白质序列具有共同祖先的结论。

非编码RNA：是指没有编码蛋白质功能的所有RNA，它缺乏ORF，常有编码蛋白质的miroRNA：是含有茎环结构的miRNA前体，经过Dicer加工之后的一类非编码的小分子（21-23 nt）。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库(Database）是按照数据结构来组织、存储和管理数据的仓库，它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库，因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列，可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列，并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构，也叫初级结构或基本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

【免费下载】生物信息期末考试重要文件

《生物信息学》课程复习思考题
蛋白质结构从头预测法蛋白质折叠 FASTA-ALL NCBI EBI GenBank Entrez SRS 系统同源性 homology、同一性 identity、形似性 similarity neutral theory of molecular evolution 最小二乘法 neighbor-joinning method maximum parsimony 基因组注释基因组学蛋白质组学 PDB MEGA 软件 PHYLIP 软件动态规划算法 dynamic programming algorithm Smith-Waterman algorithm Needleman-Wunsch 算法
《生物信息学》课程复习思考题
一、名词解生物信息学 bioinformatics Dotplot 算法分子钟 molecular clock 隐马尔科夫模型 hidden Markov model, HMM Gene Ontology, GO molecular phylogenetic tree 序列比对 sequence alignment 空位罚分线性空位罚分 constant gap penalty 多序列比对关系数据库 Dayhoff 突变数据矩阵 BLOSUM 矩阵 blocks substitution matrix 蛋白质结构分类数据库 SCOP（structural classification of proteins） CATH 蛋白质结构分类数据库系统发育树物种树基因树有根数、无根树最大似然法同源建模蛋白质结构预测
《生物信息学》课程复习思考题
BLAST，BLASTn, BLASTp
复习思考题 1. 什么是生物信息学？其主要应用有哪些？ 2. 简述生物信息学发展史上重大的标志性成果？ 3. 有人说生物将是下一场技术革命的热土，你认为生物信息学将对生物产业化有哪些方面的贡献？

生物信息学期末考试答案

生物信息学期末考试答案Bioinformatics：生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法；以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析；并进一步挖掘和解读生物学数据。

Consensus sequence：共有序列——决定启动序列的转录活性大小。

各种原核启动序列特定区域内（通常在转录起始点上游-10及-35区域）存在共有序列；是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining：数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

数据挖掘通常是利用计算方法分析生物数据；即根据核酸序列预测蛋白质序列、结构、功能的算法等；实现对现有数据库中的数据进行发掘。

EST：(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段；长度大约为200~600bp。

Similarity：相似性——是直接的连续的数量关系；是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology：同源性——是两个对象间的肯定或者否定的关系。

如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

Alignment：比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点；以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性；而将它们按照一定的规律排列。

BLOSUM：模块替换矩阵——是指在对蛋白质数据库搜索时；采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础；从蛋白质模块数据库BLOCKS中找出一组替换矩阵；用于解决序列的远距离相关。

在构建矩阵过程中；通过设置最小相同残基数百分比将序列片段整合在一起；以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

生物信息学期末期末复习

■一、选择题：1.以下哪一个是mRNA条目序列号：A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗？■可能B.不可能4.下面哪种数据库源于mRNA信息：■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建：A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J：A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择：A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A.因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B.搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为：■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变：A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变：A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A.全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B.全局比对允许间隙，而局部比对不允许C.全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

生物信息学复习重点

生物信息学就是一门交叉学科, 包含了生物信息得获取、加工、存储、分配、分析、解释等在内得所有方面, 它综合运用数学、计算机科学与生物学等得各种工具来阐明与理解大量数据所包含得生物学意义。

生物信息学宗旨在揭示基因组信息结构得复杂性及遗传语言得根本规律。

从生物分子获得与挖掘深层次生物学知识。

人类基因组计划（HGP）：获得遗传图、物理图、序列图、转录图；终极目标：阐明人类基因组全部DNA序列；识别基因；建立储存这些信息得数据库；开发数据分析工具；研究HGP实施所带来得伦理、法律与社会问题。

其中我国承担了人类3号染色体短臂。

记录：一个数据库记录一般由两部分组成：原始序列数据与描述这些数据生物学信息得注释。

冗余：在一个数据库存在着多个相同得项，如两个或者更多得记录中有一个相同序列Fasta格式开始于一个标识符：">"，然后就是一行描述。

GenBank格式：每个基因描述可有多个描述行，包含一行以LOUCUS开头描述行，基因序列以ORIGN开头，以//结尾。

EMBL：入口标识符ID，序列开始标识符SQ，结束就是//。

数据库得特点：①数据库就是可以检索得，即具有检索功能；②数据库应该就是定时更新得，即不断有新版内容发布；③数据库就是交叉引用得，特别就是在互联网时代，数据库应该通过超链接与其她数据库相连。

EST序列：表达序列标签对cDNA文库测序得到得，就是转录得DNA序列。

STS序列：序列标签位点染色体上位置已定得、核苷酸序列已知得、且在基因组中只有一份拷贝得DNA短片断,(200bp－500bp)。

STS序列标签位点就是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作得短得、单拷贝DNA 序列，用于产生作图位点。

GSS序列：基因组概览测序基因组DNA克隆得一次性部分测序得到得序列。

HTG序列：高通量基因组序列三大数据库：NCBI(GenBank)：美国生物技术中心，建立了一系列生物信息数据与各种服务。

生物信息学期末考试答案

生物信息学期末考试答案rmatics是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等多个学科的理论方法，以互联网为媒介、数据库为载体，利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

Consensus sequence是决定启动序列的转录活性大小的序列。

在各种原核启动序列特定区域内（通常在转录起始点上游-10及-35区域）存在共有序列，这是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

数据挖掘通常是利用计算方法分析生物数据，即根据核酸序列预测蛋白质序列、结构、功能的算法等，实现对现有数据库中的数据进行发掘。

EST（Expressed Sequence Tag）是某个基因cDNA克隆测序所得的部分序列片段，长度大约为200~600bp。

相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

同源性是两个对象间的肯定或者否定的关系，如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

比对从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

BLOSUM（模块替换矩阵）是指在对蛋白质数据库搜索时，采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础，从蛋白质模块数据库BLOCKS中找出一组替换矩阵，用于解决序列的远距离相关。

在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

在每一片段中，计算出每个残基位置的平均贡献，使得整个片段可以有效地被看作为单一序列。

通过设置不同的百分比，产生了不同矩阵。

生物信息学是一门综合学科，主要研究生物学系统和生物学过程中信息流的综合系统，运用生物学、数学、物理学、信息科学以及计算机科学等多学科的理论方法，以互联网为媒介、数据库为载体，利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学期末复习资料（小字）名词解释或辨析。

1.生物信息学：生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.基因芯片：固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交，可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划：HGP，是一项规模宏大，跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体（指单倍体)中所包含的30亿个碱基对组成的核苷酸序列，从而描绘人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

4.中心法则：分子生物学的基本法则，是1958年由克里克（Crick）提出的遗传信息传递的规律，包括由DNA到DNA的复制，由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的发现，表明还有由RNA逆转录形成DNA的机制，是对中心法则的补充和丰富。

5.相似性和同源性：相似性（similarity）和同源性（homology）是两个完全不同的概念。

同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。

相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。

当两条序列同源时，他们的氨基酸或核苷酸序列通常有显著的一致性（identity）。

如果两条系列有一个共同进化的祖先，那么他们是同源的。

这里不存在同源性的程度问题，两条序列要么是同源的要么是不同源的。

1.生物信息学：综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟，基因组遗传和物理图谱的处理，核苷酸和氨基酸序列分析，新基因的发现和蛋白质结构的预测等。

2.蛋白质组：指由一个基因组，或一个细胞、组织表达的所有蛋白质。

蛋白质组的概念与基因组的概念有许多差别，它随着组织、甚至环境状态的不同而改变。

3.电子克隆：是近年来发展起来的一门快速克隆基因的新技术，其核心技术是利用生物信息学技术的组装延伸ESTs序列，获得基因的部分乃至全长cDNA序列进一步利用RT_PCR的方法进行克隆分析、验证。

4.CDS和cDNAcDNA序列：互补DNA序列，指的是mRNA为在逆转录酶的作用下将形成DNA的过程。

CDE序列：编码序列，从起始密码子到终止密码子的所有序列。

5.有义链和无义链：正义链，负义链一般是指的DNA 的两条链。

与mRNA序列相同的那条就是正义链或有义链，与它互补的也就是翻译出它的那条是编码链或负义链或反义链或模板链或无义链。

判断1.生物信息学可以理解为生命科学中的信息科学（√）2.DNA分子和蛋白质分子都含有进化信息。

（√）3.目前生命科学研究的重点和突破点已完全转移到生物信息学上，已不需要实验做支撑。

（×）4.基因组与蛋白质组一样，都处于动态变化之中。

（×）5.生物信息学的发展大致经历了：前基因组时代，基因组时代和后基因组时代。

（√）6.蛋白质三维结构都是静态的，在行使功能的过程中其结构不会改变。

（×）7.生物信息学中研究的生物大分子主要是脂类和多糖。

（×）8.一个数据库记录由两部分构成：原始序列数据及其注释。

（√）9.SWISS－PROT是目前国际上比较权威的核酸序列数据库。

（×）10.生物信息学中一级数据库与二级数据库之间并无明确的界限。

（√）1.生物信息学可以简单的理解为利用计算机进行生命科学的研究。

（×）2.生物信息学的研究范围不包括新药研究和生物进化。

（×）3.DNA携带有进化信息，而蛋白质则不携带进化信息。

（×）4.中心法则中遗传信息的传递只能是单向的。

（×）5.DDBJ是重要的蛋白质结构数据库。

（×）6.一个数据库记录一般由两部分组成：原始序列数据及其注释。

（√）7.一级数据库与二级数据库之间并无明确的界限。

（√）8.相似性和同源性为同一个概念。

（×）9.蛋白质三维结构都是静态的，在行驶功能的过程中其结构不会改变。

（×）10.生物信息学的发展大致经历了：前基因组时代，基因组时代和后基因组时代。

（√）简答题。

1、生物信息学的主要研究内容是什么？①生物分子数据的收集与管理。

②数据库搜索及序列比较。

③基因组序列分析。

④基因表达数据的分析与处理。

⑤蛋白质结构预测。

2.生物信息学在基因芯片中的应用有哪些？①确定芯片检测目标②芯片设计③实验数据管理与分析。

3.简要介绍GenBank中的DNA序列格式。

GenBank数据库（包括NCBI核酸和蛋白质序列数据库）中条目格式如下：给出描述每一个系列的信息，包括文献参考、系列的功能信息、mRNA和编码区域的位置，以及重要突变的位置。

这些序列信息以字段的形式进行组织，每一行最前端都有一个标识符。

在某些条目中，标识符可能缩写成两个字母（例如RF代表reference），某些字段可能还有次级字段。

计算机程序中的序列条目位于标识符ORIGIN和//之间。

4国际上权威的核酸序列数据库有哪些？①欧洲分子生物学实验室的EMBL②美国生物技术信息中心的GenBank。

③日本遗传研究所的DDBJ。

5.序列分析的任务和目的分别是什么？任务：①发现序列之间的相似性②辨别序列之间的差异。

目的：①相似序列：相似的结构，相似的功能。

②判别序列之间的同源性。

③推测序列之间的进化关系。

简答题2.生物信息学数据库的要求和基本特征是什么？应满足的要求：（1）时效性。

（2）注释。

（3）支撑数据。

（4）数据质量。

（5）集成性。

特征：（1）数据库的更新速度不断加快数据量成指数增长趋势。

（2）数据库使用频率增长更快。

（3)数据库的复杂程度不断增加。

（4）数据库网络化。

（5）面向应用。

（6）先进的软硬件配置。

3.简要介绍FASTA序列格式FASTA 序列格式包括三个部分：（1）在注释行的第一列用字符“＞”标识，后面是序列的名字和来源；（2）标准的单字符标记的序列。

（3）可选的“*”表示序列的结束，它可能出现也可能不出现。

但它是许多序列分析程序正确读取序列所必须的。

FASTA格式是序列分析软件最常用的格式。

这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径，因为序列中没有数字或其他非字符。

FASTA序列格式和蛋白质信息资源NBRF格式很相似。

4.什么是基因识别。

基因识别，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

基因识别的对象主要是蛋白质编码基因。

也包括其他具有一定生物学功能的因子，如RNA 基因和调控因子。

论述题。

1、生物序列相似性搜索的blast程序blastn、blastp、blastx、Tblastn、Tblastx各自有何区别和用途？Blastp：①检测序列：蛋白质。

②数据库类型：蛋白质。

③方法：用检测序列蛋白质搜索蛋白质序列数据库。

Blastn：①检测序列：核酸。

②数据库类型：核酸。

③方法：用检测序列核酸搜索核酸序列数据库。

Blastx①检测序列：核酸。

②数据库类型：蛋白质。

③方法：将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库。

Tblastn①检测序列：蛋白质。

②数据库类型：核酸。

③方法：用检测系列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。

Tblastx①检测序列：核酸②数据库类型：核酸③方法：将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。

2.掌握蛋白质结构有什么意义，为什么要进行蛋白质结构预测？（1）研究蛋白质的结构意义重大，分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。

研究蛋白质结构，有助于了解蛋白质的作用，了解蛋白质如何行使其生物功能，认识蛋白质与蛋白质（或其他分子)之间的相互作用，这无论是对于生物学还是对于医学和药学，都是非常重要的。

（2）对于未知功能或者新发现的蛋白质分子，通过结构分析，可以进行功能注释，指导设计进行功能确认的生物学实验。

通过分析蛋白质的结构，确认功能单位或者结构域，可以为遗传操作提供目标，为设计新的蛋白质或改造已有蛋白质提供可靠的依据，同时为新的药物分子设计提供合理的靶分子结构。

2.简述人类基因组计划与生物信息学之间的相互促进关系。

人类基因组计划是美国在1990年提出实施的一项伟大的科学计划，与阿波罗登月计划、曼哈顿原子弹计划统称为人类自然科学史上的三大计划。

自实施以来，该计划在世界各国引起了很大反响。

在人类基因组计划中，人们准备用15年时间，投入30亿美元完成人类全部24条染色体中的3×109个碱基对（bp,base pair）的序列测定，其主要任务包括作图（遗传图谱、物理图谱的建立及转录图谱的绘制）、测序和基因识别，还包括模式生物（如大肠杆菌、酵母、线虫、小鼠等）基因组的作图和测序，以及信息系统的建立。

随着人类基因组计划的提出和实施，实验数据和可利用信息急剧增加，人类基因组计划提供了以往不可想象的巨量的生物学信息资源。

基因组信息的收集、储存、分发、分析显得越来越紧迫和重要，信息的管理和分析成为人类基因组计划实施过程中的一项重要工作，人类基因组计划向信息学提出了巨大的挑战。

值得庆幸的是，人类基因组计划一开始就与计算机技术信息、高速公路同步发展，信息技术为生物信息学的发展提供了非常好的条件，为生物信息学的研究和应用提供了非常好的支撑。

生物信息学与人类基因组计划紧密结合，互相渗透，生物信息学成为基因组计划不可分割的一部分。

事实证明，人类基因组计划在生物信息学的支持下，前进步伐大大加快，已经提前完成计划，功能基因组研究也已经全面展开。

而人类基因组计划反过来又大大促进了生物信息学的发展，HGP丰富了生物信息学的研究内容促进生物信息学新思想新方法的产生，生物信息学在最近十年迅速发展的历程证明了这一点。

名词解释或辨析。

2.基因芯片：固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交，可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划：HGP，是一项规模宏大，跨国跨学科的科学探索工程。