生物信息学习题

合集下载

生物信息学复习题及答案

生物信息学复习题名词解释1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。

（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

(异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。

Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。

6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。

值：得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。

通常使用低于来定义统计的显著性。

生物信息学习题

第六章分子系统发生分析（问题与练习）
1、构建系统发生树，应使用
A、BLAST
B、FASTA
C、UPGMA
D、Entrez
2、构建系统树的主要方法有
、
、
等。
3、根据生物分子数据进行系统发生分析有哪些优点？
4、在 5 个分类单元所形成的所有可能的有根系统发生树中，随机抽取一棵树是反映真实关
系的树的可能性是多少？从这些分类单元所有可能的无根系统发生树中，随机选择一棵
库
8、TreeBASE 系统主要用于
A、发现新基因 B、系统生物学研究 C、类群间系统发育关系研究 D、序列比对
二、问答题
1、为什么说 SWISS-PROT 是最重要的蛋白质一级数据库？
2、构建蛋白质二级数据库的基本原则是什么？
3、构建蛋白质二级数据库的主要方法有哪些？
4、叙述 SCOP 数据库对蛋白质分类的主要依据
第八章后基因组时代的生物信息学（问题与练习）
1、比较生物还原论与生物综合论的异同 2、简述“后基因组生物信息学”的基本研究思路 3、后基因组生物信息学的主要挑战是什么？ 4、功能基因组系统学的基本特征是什么？ 5、说明后基因组生物信息学对信息流动的最新理解 6、列举几种预测蛋白质-蛋白质相互作用的理论方法 7、解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
1、蛋白质得分矩阵类型有、
、、
和
等。
2、对位排列主要有局部比对和三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上，将第二条序列放在 y

生物信息学课后题及答案

生物信息学课后习题及答案（由10级生技一、二班课代表整理）一、绪论1.你认为，什么是生物信息学？采用信息科学技术，借助数学、生物学的理论、方法，对各种生物信息（包括核酸、蛋白质等）的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用？对你的生活、研究有影响吗？（1）主要用于：在基因组分析方面：生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面：新药物设计、基因芯片疾病快速诊断、流行病学研究：SARS、人类基因组计划、基因组计划：基因芯片。

（2）指导研究和实验方案，减少操作性实验的量；验证实验结果；为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系？人类基因组计划的实施，促进了测序技术的迅猛发展，从而使实验数据和可利用信息急剧增加，信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作，用15年时间（1990-2005）至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其他生物进行类似研究。

1990，人类基因组计划正式启动。

1996，完成人类基因组计划的遗传作图，启动模式生物基因组计划。

1998完成人类基因组计划的物理作图，开始人类基因组的大规模测序。

Celera公司加入，与公共领域竞争启动水稻基因组计划。

1999，第五届国际公共领域人类基因组测序会议，加快测序速度。

2000，Celera公司宣布完成果蝇基因组测序，国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001，人类基因组“中国卷”的绘制工作宣告完成。

2003，中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功，人类基因组计划的.目标全部实现。

2004，人类基因组完成图公布。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。

2、表达序列标签是从mRNA 中生成的一些很短的序列（300-500bp），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别是整体比对和局部比对。

4、2-DE的基本原理是根据蛋白质等电点和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离,第二向是SDS-PAGE分离。

5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。

二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，C值越大，这是真核生物基因组的特点之一。

（对）2、CDS一定就是ORF。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源,就具有共同的祖先。

（错）4、STS，是一段200-300bp的特定DNA序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码DNA是“垃圾DNA”，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

( 对）8、对任意一个DNA序列，在不知道哪一个碱基代表CDS的起始时，可用6框翻译法，获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

《生物信息学》练习题

1、在Genbank中查找以下6个植物蛋白序列：protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。

（1）用EBI上的ClustalW2工具对其进行多序列比对，分析各蛋白序列之间的同源性。

序列比对结果比对结果表明：protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。

（2）利用Phylip软件，选择距离法构建其进化树（要求写出具体的建树步骤）。

1．将蛋白序列保存为FASTA格式，存于txt文档；2.用Clustalx打开txt文本，保存为*.phy文件；3.用seqboot程序打开phy文件，输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件，输出为*_protdist文件5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件6. 用consense程序打开*_neighbor文件,输出为*_consense文件7.用dratree程序打开*_consense文件得到进化树。

（注：由于seqboot软见无法正常运行，因此进化树无法显示）（3）任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。

选择protein3: NP_190855.1一级结构网址：/tools/protparam.htmlNumber of amino acids: 456 氨基酸数目Molecular weight: 51154.5 相对分子质量Theoretical pI: 8.69 理论 pI 值Amino acid composition 氨基酸组成Ala (A) 30 6.6%Arg (R) 28 6.1%Asn (N) 15 3.3%Asp (D) 27 5.9%Cys (C) 5 1.1%Gln (Q) 18 3.9%Glu (E) 28 6.1%Gly (G) 37 8.1%His (H) 16 3.5%Ile (I) 16 3.5%Leu (L) 42 9.2%Lys (K) 32 7.0%Met (M) 5 1.1%Phe (F) 17 3.7%Pro (P) 16 3.5%Ser (S) 46 10.1%Thr (T) 21 4.6%Trp (W) 8 1.8%Tyr (Y) 19 4.2%Val (V) 30 6.6%Pyl (O) 0 0.0%Sec (U) 0 0.0%(B) 0 0.0%(Z) 0 0.0%(X) 0 0.0%正/负电荷残基数Total number of negatively charged residues (Asp + Glu): 55Total number of positively charged residues (Arg + Lys): 60Atomic composition: 原子组成Carbon C 2270Hydrogen H 3531Nitrogen N 645Oxygen O 686Sulfur S 10Formula: C2270H3531N645O686S10 分子式Total number of atoms: 7142 总原子数Extinction coefficients: 消光系数Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.Ext. coefficient 72560Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reducedEstimated half-life: 半衰期The N-terminal of the sequence considered is M (Met).The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).>20 hours (yeast, in vivo).>10 hours (Escherichia coli, in vivo).Instability index: 不稳定系数The instability index (II) is computed to be 48.99This classifies the protein as unstable.Aliphatic index: 75.26 脂肪系数Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性/tools/protscale.html蛋白质亲疏水性分析所用氨基酸标度信息Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490分析所用参数信息Weights for window positions 1,..,9, using linear weight variation model:1 2 3 4 5 6 7 8 91.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00edge center edge跨膜结构预测结果（没有跨膜结构）信号肽分析：二级结构预测三级结构预测网站/~phyre2、在拟南芥基因组数据库中（/）查找编号分别为At4G33050, At3G13600，At3G52870或At2G26190基因，针对所查找的基因进行初步的生物信息学分析（每人任选其中一个基因）。

生物信息学习题

1单选(以下哪位科学家获得了两次诺贝尔奖？A.桑格（Frederick Sanger）B.沃森（James Waston）C.霍利（Robert W.Holley）D.克里克（Francis Crick）2单选(‍被称为“DNA之父”的是哪位科学家？A.摩尔根（Thomas H.Morgen）B.沃森（James Waston）C.查加夫（Erwin Chargaff）D.桑格（Frederick Sanger）3单选(被称为“计算机之父，人工智能之父”的是哪位科学家？A.莱布尼兹（Gottfried W Leibniz）B.图灵（Alan Mathison Turing）C.帕斯卡（Blaise Pascal）D.桑格（Frederick Sanger）4单选(‍被称为“现代实验生物学奠基人”的是哪位科学家？A.摩尔根（Thomas H.Morgen）B.达尔文（Charles Darwin）C.桑格（Frederick Sanger）D.孟德尔（Gregor J.Mendel）5单选(被称为“遗传学的奠基人，现代遗传学之父”的是哪位科学家A.孟德尔（Gregor J.Mendel）B.沃森（James Waston）C.查加夫（Erwin Chargaff）D.摩尔根（Thomas H.Morgen）1单选(‍从GenBank的哪一项注释中可以找到关于编码蛋白的信息？A.CDSB.SOURCEC.RBSD.ORIGIN2单选(以下关于GenBank的描述，哪个是正确的？A.GenBank里的一条数据库记录对应一个完整的基因。

B.真核生物的基因经常是分段存储在多条GenBank数据库记录里。

C.真核生物的基因都是整个存储在GenBank的一条数据库记录里。

D.原核生物的基因都是分片段存储在多条GenBank数据库记录里。

3多选(以下关系式正确的是？A.1T=1,000GB.1G=1,000MC.1G=1,000,000KD.1T=1,000,000M4(GenBank数据库中的检索号（Accession）和基因座名（Locus）指的都是一条序列在数据库中的编号，他们永远都是相同的。

分子生物学复习题1

生物信息的传递（上）——从DNA到RNA一、名词解释1、增强子：DNA上能强化转录起始的序列，能够在启动子任何方向以及任何位置（上游或下游）作用。

2、RNA编辑：某些RNA，特别是mRNA的一种加工方式，发生编辑后，导致DNA所编码的遗传信息的改变。

3、不对称转录：DNA片段转录时，双链DNA中只有一条链作为转录的模板，这种转录方式称为不对称转录。

4、转录泡：是由DNA双链，RNA聚合酶与新合成的转录本RNA局部形成的结构，它贯穿于延长过程的始终。

5、转录单位：DNA链上从启动子直到终止子为止的长度称为一个转录单位。

一个转录单位可以包括一个基因，也可以包括几个基因。

6、选择性剪接：在mRNA前体的剪接过程中，参加剪接的外显子可以不按其线性次序剪接，内含子也可以不被切除而保留，即一个外显子或内含子是否出现在成熟mRNA中是可以选择的，这种剪接方式称为选择性剪接。

二、选择题1、有关RNA转录合成的叙述，其中错误的是 A 。

A、转录过程RNA聚合酶需要引物B、转录时只有一股DNA作为合成RNA的模板C、RNA链的生长方向是5＇3＇D、所有真核生物RNA聚合酶都不能特异性地识别promoter2、以下有关大肠杆菌转录的叙述，哪一个是正确的？ B 。

A、-35区和-10区序列间的间隔序列是保守的B、-35区和-10区序列距离对转录效率非常重要C、转录起始位点后的序列对于转录效率不重要D、-10区序列通常正好位于转录起始位点上游10bp处3、真核生物转录过程中RNA链延伸的方向是 A 。

A、5＇3＇方向B、3＇5＇方向C、N端C端D、C端N端4、真核生物mRNA转录后加工不包括 A 。

A、加CCA—OHB、5＇端“帽子”结构C、3＇端poly（A）尾巴D、内含子的剪接5、以下对DNA聚合酶和RNA聚合酶的叙述中，正确的是： B 。

A、RNA聚合酶的作用需要引物B、两种酶催化新链的延伸方向都是5＇3＇C、DNA聚合酶能以RNA作模板合成DNAD、RNA聚合酶用NDP作原料三、判断题1、在真核生物中，所有rRNA都是由RNA聚合酶Ⅱ转录的。

生物信息学基础考试试题

生物信息学基础考试试题生物信息学基础考试试题回答一、选择题（每题5分，共20题）1. 生物信息学的定义是什么？A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案：B2. 以下哪个是常用的生物信息学数据库？A. NCBIB. C++C. DNAD. Photosynthesis答案：A3. 在DNA序列中，碱基A配对的是？A. TB. CC. GD. U答案：A4. 以下哪个是生物信息学中常用的序列比对算法？A. BLASTB. MATLABC. PCRD. ELISA答案：A5. 基因组学是研究什么的科学？A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案：C6. 哪种技术可用于测定DNA序列？A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案：C7. 生物信息学中的序列模拟是指什么？A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案：A8. 以下哪个是生物信息学的一个重要应用领域？A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案：C9. 哪个工具常用于分析生物信息中的调控网络？A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案：B10. 蛋白质结构预测是生物信息学的一个重要研究方向，以下哪种是蛋白质的一级结构？A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案：C11. 生物信息学与生物医学工程有什么相似之处？A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案：C12. 在基因组测序中，什么是基因组装？A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案：A13. 以下哪个不属于生物信息学的软件工具？A. BLASTB. PhotoshopC. RD. Python答案：B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究？A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案：A15. 生物信息学中的反向遗传学用于研究什么？A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案：B16. 哪种方法可用于鉴定基因表达谱中的关键基因？A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案：B17. 生物信息学研究中常用的基因表达定量方法是什么？A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案：C18. 生物信息学中的系统生物学研究的是什么？A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案：C19. 下面哪个数据库不是用于蛋白质结构预测的？A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案：D20. 生物信息学中常用的序列对比方法是什么？A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案：B二、简答题（每题10分，共5题）1. 编程语言在生物信息学中的作用是什么？编程语言在生物信息学中扮演着重要角色。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一：名词解释
1.生物信息学
2.NCBI
3.PubMed
4.生物芯片
5.BLAST
6.UniProt
7.电子克隆
8.EMBL
二：填空题
1.基因芯片可以分为
2. 人类基因组全序列分析分两大步骤即制图和测序，并最终绘制出四张
图谱：
3. 分子系统发生分析主要分为三个步骤即
4. 国际上最主要的三大核酸序列数据库分别是
5. 蛋白质得分矩阵有
7. 文献是掌握科研进展的最直接方式，目前由NCBI维护的大型文献资源
是。

3. 用于核酸序列比对中常见的三种得分矩阵，分别为
4. 根据生物芯片探针分子类型的不同，可以将生物芯片哪三种，
5. 核酸序列分析所获得的信息主要有（举例说明四个）
6. 限制性酶切分析是分子生物学实验中的日常工作之一，这方面最好的
限制酶数据库是
三：选择题
1、如果试图确定一个新蛋白质序列属于哪一个蛋白质家族，或该序列
可能包含何种结构域或功能位点，应使用：（）
A: PROSITE数据库 B: DDBJ数据库
C: PIR数据库 D: PDB数据库
2、构建序列进化树的一般步骤不包括：（）
A：建立DNA文库 B：建立数据模型 C：建立取代模型 D：建立进化树3、BLAST教案所程序中，哪个方法是不存在的？（）
A：BLASTP B：BLASTN C：BLASTX D:BLASTQ
4. 以下常见的几个物种，哪一个目前还没有完成全基因组测序：（）A: 茶树 B: 玉米 C: 水稻 D: 小鼠
5、向核酸序列数据库（GenBank/EMBL/DDBJ）提交数据，应该使用下面
哪个软件：（）。

A： Blast B：Sequin C：SRS D：Swiss-Model
6、在蛋白质序列数据库中比较查询手头未知的蛋白质序列，应使用Blast中哪个具体的算法：（）。

A：BLASTX B：tBLASTN C：BLASTP D：BLASTN
7、下列中属于一级蛋白质结构数据库的是：（）
A：EMBL B：DDBJ C：PDB D：SWISS-PROT
8、下面不属于SWISS-PROT蛋白质数据库的注释范畴的是：（）A: 与其它蛋白质的相似性 B: 蛋白质的二级结构
C: 由于缺乏该蛋白质而引起的疾病 D: 核酸的功能描述
9、下列属于蛋白质二级结构预测的软件程序是（）
A： BLASTX B：SOPMA C：DNAstar D：GO
10. 如果做DNA结构分析，应该考虑用下面哪个数据库：（）A：GenBank B： PIR C：NDB D：UniProt
四：简单题
1．简述Entrez的设计概念和使用方法？
2. 简述生物大分子PDB存储的生物分子种类和数据结构特点？
3.简述生物信息学的研究意义？
4 简述蛋白质序列分析的基本内容以及常用的软件？
5. 简述Swiss-Prot的数据结构？
6、简述序列多重比对的意义？
7、简述生物信息学的发展历史？
五：论述题
1.论述蛋白质相互作用研究的意义，传统的实验方法和计算预测方法的
应用？
2.论述后基因组时代生物信息学面临的挑战和研究策略？
3．论述生物信息学的应用？
4. 论述如何利用基因芯片数据做聚类分析。