生物信息学复习题及答案陶士珩

合集下载

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科，它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题（每题2分，共20分）1. 生物信息学中，用于存储DNA序列的文件格式是：A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤？A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中，BLAST工具用于：A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的？A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的？A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题（每题10分，共30分）6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学，并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题（每题15分，共30分）9. 假设你有一个DNA序列，其组成为：ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列，序列A：A-B-C-D-E，序列B：A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题（每题20分，共20分）11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据，如基因组序列、蛋白质结构等，帮助科学家快速发现生物现象的规律，推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中，基因组学可以帮助我们了解疾病的遗传基础，为个性化医疗提供理论基础。

生物信息学复习题及答案(陶士珩)剖析

生物信息学复习题名词解释1. (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

2（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。

3（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

4(异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。

5 ： ( ) a . 总是不计入总数中。

6.点矩阵（）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列（）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。

8值：得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的（高分片段对）得分的期望分布联系起来计算的。

通常使用低于0.05来定义统计的显著性。

19.打分矩阵（）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。

10．空位（）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

11：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有, 等工具，还具有文献数据库。

生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第一学期《生物信息学》课程试题答案课程号： 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、简答题(一) 生物信息学及主要内容？(3)生物信息学是生物和信息技术的结合，这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。

(二) 生物信息学主要由哪三个组成部分？(6)1、建立可以存放和管理大量生物信息学数据集的数据库；2、开发确定大数据集中各成员关系的算法和统计方法；3、使用这些工具来分析和解释不同类型的生物数据，包括DNA ，RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。

(三) 存储在GenBank 中DNA 序列的类型？(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略？(6)1、霰弹测序法(shot gun sequencing)：随机打碎大DNA 分子，通过很多测序反应来覆盖整个分子，完整的序列通过使用计算机搜索重叠区来重新拼接。

2、克隆重叠群(clone contig)的方法中，DNA 片段用推理的方法亚克隆，并且进行系统的测序直到整个序列完成。

(五) 按制备方式分DNA 芯片的主要类型？(6)1、原位合成芯片：采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。

探针较短；2、 DNA 微集阵列：将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级：姓名：学号：试题共页加白纸 2张密封线GDOU-B-11-302片。

探针的来源较灵活。

(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异？(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA，分别用用Cy3标定一种RNA，而用Cy5标定另一种RNA。

Cy3发红色荧光，Cy5发绿色荧光。

3、用不同的激发光照射，测定两种样品中DNA的表达量。

《生物信息学》题集

《生物信息学》题集一、选择题（每题3分，共30分）1.生物信息学的主要研究对象是什么？A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术？A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中，进行多序列比对时常用的软件是什么？A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析？A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中，下列哪项不是常用的序列分析技术？A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用？A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测？A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中，下列哪项不是基因注释的内容？A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术？A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用？A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题（每题2分，共20分）1.生物信息学是一门交叉学科，它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中，______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中，______是一种常用的数据标准化方法。

5.生物信息学中，______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中，GenBank主要存储的是______数据。

生物信息学期末期末复习

■一、选择题：1.以下哪一个是mRNA条目序列号：A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗？■可能B.不可能4.下面哪种数据库源于mRNA信息：■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建：A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J：A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择：A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A.因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B.搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为：■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变：A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变：A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A.全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B.全局比对允许间隙，而局部比对不允许C.全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即2、表达序列标签是从 mRNA 中生成的一些很短的序列（ 300-500bp ），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别— 和局部比对。

4、 2-DE 的基本原理是根据蛋白质和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离 ,第 —S D S-P AGE 分离 o5、蛋白质组研究的三大关键核心技术是质谱鉴定技术、计算机图像数据处理与蛋白质数据库二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，是真核生物基因组的特点之一。

（对）2、 CDS 一定就是 ORF 。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源，就具有共同的祖先。

（错）4、 STS,是一段 200-300bp 的特定 DNA 序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码 DNA 是“垃圾 DNA'，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。

&对任意一个 DNA 序列，在不知道哪一个碱基代表 CDS 的起始时，可用获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

生物信息学期末复习题与答案

一、单选题1、总的来说，位于染色体内超过( )个碱基的DNA，构成了人类基因组。

A.30000000000B.3000000000C.300000000D.30000000正确答案：B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。

A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案：B3、RefSeq数据库是由哪个组织开发和维护的？( )A.NIGB.NCBIC.EMBLD.SIB正确答案：B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。

A.150B.250C.300D.200正确答案：D5、tBLASTx分析是用核酸序列检索核酸序列数据库，下列说法正确的是？（）A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案：D6、要搜索编码蛋白质序列的核酸序列，适宜的分析方法是？（）A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案：A7、下列对于PCR引物修饰的说法正确的是？（）A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案：C8、下列哪个在线分析工具可以预测DNA的外显子-内含子？（）A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案：A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径？（）A.1B.2C.3D.4正确答案：D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是？（）A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案：A11、当分类单元至少为3时，下列对“有根树与无根树的数目”判断正确的是？（）A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案：C12、下列哪种算法建树时，选择代价最小或者枝长最短的树？A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案：B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。

生物信息学及应用复习题

生物信息学及应用复习题《生物信息学及应用》课程复习题1、生物信息学的基本定义，阐述它的主要研究目标、研究内容及研究方法。

生物信息学：Bioinformatics is the combination of biology and information technology. It is the branch of science that deals with the computer-based analysis of large biological data sets.生物信息学研究的最终目的--揭示蕴藏在DNA和蛋白质氨基酸序列中具有普遍性、真实性的生物遗传本质，掌握复杂的生命现象——生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡的规律和时空联系.生物信息学的主要研究内容1. 生物信息的收集、存储、管理与提供；2. 基因组序列信息的提取和分析；3. 功能基因组相关信息分析；4. 生物大分子结构模拟和药物设计；5. 生物信息分析的技术与方法研究；6. 应用与发展研究方面方法：（1）建立生物数据库：核苷酸顺序数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组数据库(YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)等；（2）数据库检索：如Blast等；（3）序列分析：序列对位排列、同源比较、进化分析等；（4）统计模型：如隐马尔可夫模型(hidden Markov model, HMM)――基因识别、药物设计；最大似然模型(maximun likelihood model, ML)、最大简约法(Maximun Parsimony, MP)――分子进化分析等；（5）算法：如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network)等。

(完整版)生物信息学复习题及答案(陶士珩)

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E 值, 低复杂度区域，点矩阵（dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree），bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。

二、问答题1）生物信息学与计算生物学有什么区别与联系？2）试述生物信息学研究的基本方法。

3）试述生物学与生物信息学的相互关系。

4）美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举3个以上NCBI维护的数据库。

5）序列的相似性与同源性有什么区别与联系？6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？7）简述BLAST搜索的算法。

8）什么是物种的标记序列？9）什么是多序列比对过程的三个步骤？10）简述构建进化树的步骤。

11）简述除权配对法（UPGMA）的算法思想。

12）简述邻接法（NJ）的算法思想。

13）简述最大简约法（MP）的算法思想。

14）简述最大似然法（ML）的算法思想。

15）UPGMA构树法不精确的原因是什么？16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。

生物工程概论第二版陶兴无考试题

生物工程概论第二版陶兴无考试题一、选择题：（每题2分，共30分）L.cDNA法获得目的基因的优点是(B)A,成功率高B.不含内含子C.操作简便D.表达产物可以分泌E.能纠正密码子的偏爱性2.DNA双链是通过下列那种化学键连接的(E)A.共价键B.离子键C.疏水键D.配位键E.氢键3.基因工程的单元操作顺序是(E)A,酶切，连接，转化，筛选，验证B,酶切，转化，连接，筛选，验证C,连接，转化，筛选，验证，酶切D,验证，酶切，连接，筛选，转化E,酶切，连接，筛选，转化，验证4.以下哪项不属根据培养基的营养来源划分的培养基分类类型(D)A.天然培养基B.合成培养基C.综合培养基D.液体培养基5.以下哪项不是微生物的营养来源(E)A.能源B.碳源C.无机盐D.氮源E.温度6.与化学工程相比，以下哪项是发酵工程反应特点(D)A.反应条件剧烈B.多部反应，要在多个反应器内进行C.不能进行较复杂的反应D.要特别注意发酵过程中杂菌的污染7.以下除哪项外，都是动物细胞的培养方式(E)A.贴壁培养B.悬浮培养C贴壁-悬浮培养D.搅拌培养E.原代培养8.下列哪项是酶生产的方法(E)B.化学合成法C发酵生产D.以上都不是E.以上都是9,DNA连接酶是通过形成磷酸二酯键将两段DNA片段连接在一起，其底物的关键基团是(D)A.2'-0H和5-PB.2'-OH和3'-PC.3-OH和2'-PD.3'-OH和5'-PE.5'-OH和3'-P10.某一重组质粒位点。

用Smal酶切后凝胶电泳上出现4条长度不同的条带，其长度总和与已知数据吻合，该重组质粒中插入的外源心NA片段上的SmaI 酶切位点共有(D)A.5个B.4个C.3个D.2个E.至少2个11。

分子杂交的化学原理是形成.(E）A。

共价键览与源文档一致下载高清无御离子键D.配位键E。

氢键12。

转录开始前RNA聚合酶识别的DNA序列称作(B)A.操纵子B.启动子C.引物结合部位D.加强子E结构基因13。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学复习题及答
案陶士珩
Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】
生物信息学复习题
一、名词解释
生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E值, 低复杂度区域，点矩阵（dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree），bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。

二、问答题
1）生物信息学与计算生物学有什么区别与联系
2）试述生物信息学研究的基本方法。

3）试述生物学与生物信息学的相互关系。

4）美国国家生物技术信息中心（NCBI）的主要工作是什么请列举3个以上NCBI维护的数据库。

5）序列的相似性与同源性有什么区别与联系
6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么
7）简述BLAST搜索的算法。

8）什么是物种的标记序列
9）什么是多序列比对过程的三个步骤
10）简述构建进化树的步骤。

11）简述除权配对法（UPGMA）的算法思想。

12）简述邻接法（NJ）的算法思想。

13）简述最大简约法（MP）的算法思想。

14）简述最大似然法（ML）的算法思想。

15）UPGMA构树法不精确的原因是什么
16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。

17）试述DNA序列分析的流程及代表性分析工具。

18）如何用BLAST发现新基因
19）试述SCOP蛋白质分类方案。

20）试述SWISS-PROT中的数据来源。

21）TrEMBL哪两个部分
22）试述PSI-BLAST 搜索的5个步骤。

三、操作与计算题
1）如何获取访问号为U49845的genbank文件解释如下genbank 文件的LOCUS行提供的信息：
LOCUS SCU49845 5028 bp DNA linear PLN
21-JUN-1999
2）利用Entrez检索系统，对核酸数据搜索，输入如下信息，将获得什么结果：
AF114696:AF114714[ACCN]。

3) 相比使用BLAST套件搜索数据库，BLAST2工具在结果呈现上
有什么优点
4）MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件
5）什么简约信息位点Pi
6）以下软件的主要用途是什么
RepeatMasker, CpGPlot, Splice View, Genscan, ORF
finder, neural network promoter prediction.
7) 为下面的序列比对确定比对得分：匹配得分= +1，失配得分= 0，空位得分= -1。

TGTACGGCTATA
TC - -CGCCT –TA
8) 用UPGMA重建系统发生树，距离矩阵如下：
9）画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标
出最可能的候选核苷酸，3棵可能的无根树中有几棵是一样
简约的(因为他们有最小替换数)有几棵树的替换树是2有大
于2个替换的树吗
10）如何将所研究的蛋白质与其他相关蛋白质做结构比对。

答案部分
一、名词解释：
生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

P11，第2段。

FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“
42，有大于2个替换
2棵一样简约，替换树为2；2棵；没有。

21) 以下软件的主要用途是什么
RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction.
答：
RepeatMasker：是对重复序列进行分析的软件
GpGPlot：用来查找一条DNA序列中CpG岛，使用Gardine-Garden和Frommer描述的方法
Splice View：是对一段序列进行剪接位点的分析即其中的受体和供体位点
Genscan：是一种从头分析工具
ORF finder：是用来分析序列ORF的工具
neural networkpromoter prediction：神经网络启动子预测是另外一种分析启动子的方法
22）试述SWISS-PROT中的数据来源。

答：
（1）从核酸数据库经过翻译推导而来；
（2）从蛋白质数据库PIR挑选出合适的数据；
（3）从科学文献中摘录；
（4）研究人员直接提交的蛋白质序列数据。

23）TrEMBL哪两个部分
答：
（1）SP-TrEMBL(SWISS-PROT TrEMBL)
包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。

（2）REM-TrEMBL(REMaining TrEMBL)
包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。

24）试述PSI-BLAST 搜索的5个步骤。

答：
[1] 选择待查序列（query）和蛋白质数据库；
[2] PSI-BLAST 构建一个多序列比对，然后创建一个序列表谱（profile）又称特定位置打分矩阵（PSSM）；
[3] PSSM被用作 query搜索数据库
[4] PSI-BLAST 估计统计学意义 (E values)
[5] 重复 [3] 和 [4] , 直到没有新的序列发现。

25）试述蛋白质三维结构预测的三类方法
（1）同源建模，对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型，序列相似性低于30%的蛋白质难以得到理想的结构模型；
（2）在已知结模板的序列一致率小于25%时，使用折叠识别方法进行预测；
（3）在找不到已知结构的蛋白质模板时使用从头预测的方法。

P178-181
26）列举5种常用的系统发育分析软件。