生物信息学总结复习题包括答案.docx

合集下载

生物信息学复习题

生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科，它利用计算机技术来处理和分析生物数据。

以下是一些生物信息学复习题，供同学们参考：1. 生物信息学的定义和应用领域- 生物信息学是如何定义的？- 生物信息学在哪些领域有应用？2. 基因组学基础- 什么是基因组学？- 基因组测序的基本原理是什么？3. 序列比对- 序列比对的目的是什么？- 简述局部比对和全局比对的区别。

4. BLAST算法- BLAST算法的原理是什么？- 如何使用BLAST进行序列相似性搜索？5. 基因表达数据分析- 基因表达数据有哪些类型？- 描述基因表达数据的预处理步骤。

6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么？- 简述几种常见的蛋白质结构预测方法。

7. 系统生物学和网络分析- 系统生物学研究的是什么？- 网络分析在系统生物学中的应用。

8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。

- 解释数据库在生物信息学研究中的作用。

9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用？- 简述Python在生物信息学中的应用。

10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题？- 如何保护生物信息数据的隐私？11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。

- 分析该案例中使用的方法和技术。

12. 未来趋势- 预测生物信息学未来的发展趋势。

- 讨论生物信息学如何影响未来的科学研究和医疗保健。

通过这些问题的复习，同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。

希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科，它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题（每题2分，共20分）1. 生物信息学中，用于存储DNA序列的文件格式是：A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤？A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中，BLAST工具用于：A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的？A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的？A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题（每题10分，共30分）6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学，并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题（每题15分，共30分）9. 假设你有一个DNA序列，其组成为：ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列，序列A：A-B-C-D-E，序列B：A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题（每题20分，共20分）11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据，如基因组序列、蛋白质结构等，帮助科学家快速发现生物现象的规律，推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中，基因组学可以帮助我们了解疾病的遗传基础，为个性化医疗提供理论基础。

河大生科院生物信息学考试复习题答案完整版

名词解释1)生物信息学:生物信息学(Bioinformatics)是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)人类基因组计划: 是由美国科学家于1985年率先提出，于1990年正式启动的，宗旨在于测定组成人类染色体（指单倍体）中所包含的30亿个碱基对组成的核苷酸序列，从而绘制人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

3)基因芯片:又称DNA阵列或DNA芯片是一块带有DNA微阵列（micorarray）的特殊玻璃片或硅芯片片，在数平方厘米之面积上布放数千或数万个核酸探针；检体中的DNA、cDNA、RNA等与探针结合后，借由荧光或电流等方式侦测。

4)中心法则:是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成DNA的复制过程。

5)一级数据库:一级数据库主要包括原始数据，例如DNA序列、蛋白质序列和蛋白质结构等信息。

数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。

名词辨析1)信息技术与生物信息学：信息技术是研究信息的获取、传输和处理的技术，由计算机技术、通信技术、微电子技术结合而成，即是利用计算机进行信息处理，利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。

生物信息学是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)基因与基因组：基因是指具有遗传效应的DNA片段。

而基因组指的是单倍体细胞中的全套染色体，或是单倍体细胞中的全部基因。

3)相似性与同源性：相似性是指不同染色体之间基因序列的相似或相异程度。

同源性是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。

生物信息学复习题

生物信息学复习题### 生物信息学复习题#### 一、选择题1. 生物信息学主要研究的是什么？A. 生物学数据的收集和存储B. 生物学数据的分析和解释C. 生物学实验的设计和执行D. 生物学仪器的操作和维护2. 下列哪一项不是生物信息学中常用的数据库？A. GenBankB. PDBC. PubMedD. Google Scholar3. 序列比对的目的是什么？A. 确定序列间的同源性B. 预测蛋白质的三维结构C. 鉴定基因的功能D. 计算基因的表达量#### 二、填空题1. 生物信息学中的BLAST工具主要用于__________。

2. 基因表达分析中常用的芯片技术包括__________和__________。

3. 在蛋白质结构预测中，同源建模依赖于__________数据库中的已知结构。

4. 转录组测序（RNA-Seq）可以用于研究__________和__________。

#### 三、简答题1. 描述基因组注释的一般流程。

2. 阐述生物信息学在药物设计中的应用。

3. 解释什么是系统发育树，并说明其在进化研究中的意义。

#### 四、计算题1. 给定一段DNA序列，计算其GC含量。

（示例序列：ATCGTACGTAGCTAGCTAG）2. 如果一个蛋白质序列的分子量为12345 Da，其氨基酸的平均分子量为110 Da，计算该蛋白质序列中氨基酸的数量。

#### 五、论述题1. 讨论生物信息学在个性化医疗中的作用和挑战。

2. 分析高通量测序技术对生物信息学领域的影响。

通过以上题目的复习，可以帮助学生掌握生物信息学的基础知识和技能，包括对生物数据的分析、解释和应用。

这些知识点不仅涵盖了生物信息学的基础理论，还涉及到实际应用，如药物设计、个性化医疗等，为学生提供了一个全面的复习框架。

《生物信息学》题集

《生物信息学》题集一、选择题（每题3分，共30分）1.生物信息学的主要研究对象是什么？A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术？A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中，进行多序列比对时常用的软件是什么？A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析？A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中，下列哪项不是常用的序列分析技术？A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用？A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测？A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中，下列哪项不是基因注释的内容？A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术？A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用？A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题（每题2分，共20分）1.生物信息学是一门交叉学科，它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中，______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中，______是一种常用的数据标准化方法。

5.生物信息学中，______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中，GenBank主要存储的是______数据。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即2、表达序列标签是从 mRNA 中生成的一些很短的序列（ 300-500bp ），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别— 和局部比对。

4、 2-DE 的基本原理是根据蛋白质和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离 ,第 —S D S-P AGE 分离 o5、蛋白质组研究的三大关键核心技术是质谱鉴定技术、计算机图像数据处理与蛋白质数据库二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，是真核生物基因组的特点之一。

（对）2、 CDS 一定就是 ORF 。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源，就具有共同的祖先。

（错）4、 STS,是一段 200-300bp 的特定 DNA 序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码 DNA 是“垃圾 DNA'，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。

&对任意一个 DNA 序列，在不知道哪一个碱基代表 CDS 的起始时，可用获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

中科院生物信息学期末考试复习题

中科院生物信息学期末考试复习题陈润生老师部分：1.什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？答：生物信息学有三个方面的含义：1)生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。

2)生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。

3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA 基因的编码区；同时阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。

同时在发现了新基因信息之后，其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

2.如何利用数据库信息发现新基因，基本原理？答：利用数据库资源发现新基因，根据数据源不同，可分2种不同的查找方式：1)从大规模基因组测序得到的数据出发，经过基因识别发现新基因：（利用统计，神经网络，分维，复杂度，密码学，HMM，多序列比对等方法识别特殊序列，预测新ORF。

但因为基因组中编码区少，所以关键是“数据识别”问题。

）利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。

可分为：①基于信号，如剪切位点、序列中的启动子与终止子等。

生物信息学期末复习题与答案

一、单选题1、总的来说，位于染色体内超过( )个碱基的DNA，构成了人类基因组。

A.30000000000B.3000000000C.300000000D.30000000正确答案：B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。

A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案：B3、RefSeq数据库是由哪个组织开发和维护的？( )A.NIGB.NCBIC.EMBLD.SIB正确答案：B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。

A.150B.250C.300D.200正确答案：D5、tBLASTx分析是用核酸序列检索核酸序列数据库，下列说法正确的是？（）A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案：D6、要搜索编码蛋白质序列的核酸序列，适宜的分析方法是？（）A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案：A7、下列对于PCR引物修饰的说法正确的是？（）A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案：C8、下列哪个在线分析工具可以预测DNA的外显子-内含子？（）A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案：A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径？（）A.1B.2C.3D.4正确答案：D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是？（）A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案：A11、当分类单元至少为3时，下列对“有根树与无根树的数目”判断正确的是？（）A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案：C12、下列哪种算法建树时，选择代价最小或者枝长最短的树？A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案：B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学复习题
一、名词解释
生物信息学 , 二级数据库 , FASTA序列格式 , genbank 序列格式 , Entrez ，BLAST，查询序列（ query ），打分矩阵（ scoring matrix ），空位（ gap），空位罚分， E 值, 低复杂度区域，点矩阵（ dot matrix ），多序列比对，分子钟，系统发育
（ phylogeny ），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，
除权配对算法（ UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（ consensus tree ），bootstrap ，开放阅读框（ORF），密码子偏性（codon
bias ），基因预测的从头分析法，结构域（ domain），超家族，模体（ motif ），序列表谱
（profile ），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子， TrEMBL， MMDB， SCOP， PROSITE， Gene Ontology Consortium ，表谱（profile ）。

二、问答题
1）生物信息学与计算生物学有什么区别与联系
2）试述生物信息学研究的基本方法。

3）试述生物学与生物信息学的相互关系。

4）美国国家生物技术信息中心（ NCBI）的主要工作是什么请列举 3 个以上 NCBI 维护的数据库。

5）序列的相似性与同源性有什么区别与联系
6）BLAST套件的 blastn 、 blastp 、 blastx 、tblastn和tblastx子工具的用途
什么
7）简述 BLAST搜索的算法。

8）什么是物种的标记序列
9）什么是多序列比对过程的三个步骤
10）简述构建进化树的步骤。

11）简述除权配对法（ UPGMA）的算法思想。

12）简述邻接法（ NJ）的算法思想。

13）简述最大简约法（ MP）的算法思想。

14）简述最大似然法（ ML）的算法思想。

15）UPGMA构树法不精确的原因是什么
16）在 MEGA2软件中，提供了多种碱基替换距离模型，试列举其中 2 种，解释其
含义。

17）试述 DNA序列分析的流程及代表性分析工具。

18）如何用 BLAST发现新基因
19）试述 SCOP蛋白质分类方案。

20）试述 SWISS-PROT中的数据来源。

21）TrEMBL哪两个部分
22）试述 PSI-BLAST 搜索的 5 个步骤。

三、操作与计算题
genbank 文件的1）如何获取访问号为U49845的 genbank 文件解释如
下
LOCUS行提供的信息：
LOCUS SCU498455028bp DNA linear PLN
21-JUN-1999
2）利用Entrez检索系统，对核酸数据搜索，输入如下信息，将获得什
么结果：
AF114696:AF114714[ACCN]。

3)相比使用 BLAST套件搜索数据库， BLAST2工具在结果呈现上有什
么优点
4）MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件
5）什么简约信息位点Pi
6）以下软件的主要用途是什么
RepeatMasker,CpGPlot,Splice View,Genscan, ORF finder,
neural network promoter prediction.
7)
为下面的序列比对确定比对得分：匹配得分。

= +1 ，失配得分= 0 ，空位得分 = -1
TGTACGGCTATA
TC - -CGCCT–TA
8)用 UPGMA重建系统发生树，距离矩阵如下：
物种A B C D
B9
C811
D121510
E1518135
9）画出 4 个物种的 3 棵不同的无根树 . 这 4 个物种在某位置上的核苷酸分别是 T,T,C 和 C,为每个内部节点推断的祖先序列标出最可能的候选核
苷酸， 3 棵可能的无根树中有几棵是一样简约的 ( 因为他们有最小替
换数 ) 有几棵树的替换树是 2 有大于 2 个替换的树吗
10）如何将所研究的蛋白质与其他相关蛋白质做结构比对。

答案部分
一、名词解释：
生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互
联网为媒介，数据库为载体。

利用数学知识建立各种数学模型 ; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

P11，第 2 段。

FASTA序列格式：是将 DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

genbank 序列格式：是 GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为 4 个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学
依据；第四部分是核苷酸序列本身，以“
D D
E E
D E(AC)(DE)A C
4 个物种在某位置上的核苷酸分别是T,T,C 和 C, 为每个内部节点推断的祖先序
D E B A C
列 , 标出最可能的候选核苷酸. 3((AC)B)(DE)( 因为
棵可能的无根树中有几棵是一样简约的
他们有最小替换数 ) 有几棵树的替换树是2，有大于 2 个替换的树吗
答：
A(T)C(C)
(T)(C)
B (T) D (C)
A (T)
B (T)
(T)(T)
C (C)
D (C)
C (C) A (T)
(T)(T)
B (T) D (C)
2 棵一样简约，替换树为2； 2 棵；没有。

21)以下软件的主要用途是什么
RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural
network promoter prediction.
答：
RepeatMasker：是对重复序列进行分析的软件
GpGPlot：用来查找一条 DNA序列中 CpG岛，使用 Gardine-Garden 和 Frommer 描述的方法
Splice View ：是对一段序列进行剪接位点的分析即其中的受体和供体位点Genscan：是一种从头分析工具
ORF finder ：是用来分析序列ORF的工具
neural networkpromoter prediction：神经网络启动子预测是另外一种分析启
动子的方法
22）试述 SWISS-PROT中的数据来源。

答：
（1）从核酸数据库经过翻译推导而来；
（2）从蛋白质数据库 PIR 挑选出合适的数据；
（3）从科学文献中摘录；
（4）研究人员直接提交的蛋白质序列数据。

23）TrEMBL哪两个部分
答：
（1） SP-TrEMBL(SWISS-PROT TrEMBL)
包含最终将要集成到 SWISS-PROT的数据，所有的 SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。

（2） REM-TrEMBL(REMaining TrEMBL)
包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。

24）试述 PSI-BLAST 搜索的 5 个步骤。

答：
[1]选择待查序列（ query ）和蛋白质数据库；
[2]PSI-BLAST 构建一个多序列比对，然后创建一个序列表谱（ profile ）又称特定位置打分矩阵（ PSSM）；
[3]PSSM 被用作 query 搜索数据库
[4]PSI-BLAST 估计统计学意义 (E values)
[5] 重复 [3]和[4] ,直到没有新的序列发现。

25）试述蛋白质三维结构预测的三类方法
（1）同源建模，对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，
以该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型，序列相似性低于30%的蛋白质难以得到理想的结构模型；
（2）在已知结模板的序列一致率小于 25%时，使用折叠识别方法进行预测；（3）在找不到已知结构的蛋白质模板时使用从头预测的方法。

P178-181
26）列举 5 种常用的系统发育分析软件。