生物信息学

合集下载

生物信息学概念与主要内容

生物信息学概念与主要内容生物信息学是一门交叉学科，它综合运用了生物学、计算机科学、数学和统计学等多个学科的理论和方法，来研究和分析生物分子（如 DNA、RNA 和蛋白质）的结构、功能、演化以及它们之间的相互关系。

生物信息学的主要内容包括以下几个方面：1. 基因组学：基因组学是生物信息学的核心领域之一。

它涉及基因组的测序、组装、注释和比较分析。

通过基因组学的研究，可以了解生物体的基因组结构、基因功能、基因表达调控等信息。

2. 转录组学：转录组学关注的是转录水平上基因表达的研究。

它包括对 RNA 转录本的测序、表达量分析、差异表达基因的鉴定等。

转录组学有助于理解基因在不同条件下的表达模式和调控机制。

3. 蛋白质组学：蛋白质组学研究蛋白质的表达、结构、功能和相互作用。

它包括蛋白质的鉴定、定量分析、蛋白质-蛋白质相互作用网络的构建等。

蛋白质组学对于揭示蛋白质的功能和生物学过程具有重要意义。

4. 生物信息学算法和工具：生物信息学涉及到大量的数据处理和分析，因此需要开发各种算法和工具来处理和解读生物数据。

这些工具包括序列比对算法、基因注释工具、蛋白质结构预测算法等。

5. 数据库和知识库：生物信息学依赖于各种生物数据库和知识库，这些数据库存储了大量的生物分子数据、文献信息和实验结果。

例如，基因组数据库（如 GenBank）、蛋白质数据库（如 PDB）等。

6. 系统生物学：系统生物学是将生物信息学与系统科学相结合的学科领域。

它旨在研究生物系统中各个组成部分之间的相互作用和调控机制，从而构建生物系统的模型和网络。

总的来说，生物信息学为生物研究提供了强大的计算和数据分析工具，帮助科学家更好地理解生物分子的结构、功能和相互关系，进而推动生命科学的发展。

生物信息学专业学什么

生物信息学专业学什么生物信息学是一门交叉学科，结合了生物学、计算机科学和统计学的知识，旨在开发和应用计算工具和方法来解决生物学研究中的问题。

这个领域涉及到大规模的生物数据分析、基因组学、蛋白质组学以及生物信息学算法的开发和应用。

在这个数字时代，生物信息学在生物学研究和医学领域起着至关重要的作用。

学科概述生物信息学专业需要掌握生物学、计算机科学和统计学的基本理论和知识，并将其应用到生物信息学的研究和应用中。

主要的学科内容包括：1.蛋白质、基因和DNA序列的分析。

2.基因组学和转录组学的研究。

3.生物数据库的搭建和管理。

4.生物信息学算法和工具的开发。

5.生物信息学在基因工程和药物研发中的应用。

同时，学生还需要学习计算机程序设计、数据库管理、算法分析等相关的计算机科学和统计学知识，以及生物学实验的基本操作技能。

学习目标学习生物信息学专业的目标主要有以下几个方面：1.掌握基本的生物学理论和知识，理解生物学研究中的基本问题和挑战。

2.熟悉常用的生物数据库和工具，能够使用它们进行基因和蛋白质序列的分析。

3.熟练掌握计算机科学和统计学的基本理论和技术，能够开发和应用生物信息学算法和工具。

4.理解生物信息学在基因工程、药物研发和医学中的应用，并具备解决相关问题的能力。

5.具备科学研究的基本素养，能够进行生物信息学实验并分析实验结果。

就业方向生物信息学专业毕业生可以在多个领域找到就业机会，包括学术界、医药公司、生物科技公司、生物医药研究机构、政府部门等。

具体的就业方向包括：1.生物信息学研究员：在学术界从事生物信息学研究，开展研究项目并发表学术论文。

2.生物数据库管理员：负责搭建和管理生物数据库，维护数据的完整性和安全性。

3.生物信息分析师：使用生物信息学工具和算法对生物数据进行分析，提取有用的信息。

4.生物信息技术支持工程师：提供生物信息学工具和系统的技术支持和维护。

5.生物信息学项目经理：负责领导和管理生物信息学项目，确保项目按时完成，并满足客户需求。

生物信息学的定义

生物信息学的定义
生物信息学是一门综合性的科学，它涉及到计算机科学、数学、统计学以及生命科学等多个学科领域，致力于利用计算机手段对生物学的相关信息进行收集、存储、分析和解释，以探究生命科学中各种生物体系的生物学、化学、物理和遗传学等方面的基本规律。

生物信息学广泛涉及诸如基因组学、蛋白质组学、代谢组学、转录组学、表观基因组学等方面。

在生命科学的不断发展过程中，生物信息学成为了新时期生命科学研究中不可或缺的重要工具，被广泛应用于基因诊断、新药研制、生物技术、生态学和农业等多个领域。

生物信息学的研究范畴非常广泛，包括了从DNA序列到蛋白质结构的计算模拟、生物分子交互的模拟和预测、用于疾病诊断的生物标志物筛选、用于发现新的药物分子的虚拟筛选技术等。

而这些技术在生命科学领域中的应用，极大地促进了人类对于生命科学的认知与理解。

在生物信息学的研究过程中，常用的计算方法包括了基于高通量数据的挖掘、模式识别、人工智能、机器学习等技术。

这些技术可以大大提升人类创新研究的能力，同时也为生物医学、新药研制提供了更高效、低成本的解决方案。

总而言之，生物信息学是连接计算机科学、数学、统计学和生命科学的一门科学，其对于生物学研究的颠覆性影响将持续展现。

通过广泛运用生物信息学技术，我们可以更好地探寻生命科学中的各项规
律，大大提高生物科技的水平和效率，为实现“健康中国”的目标做出重要贡献。

生物信息学分析

生物信息学分析随着科技的不断进步，生物信息学已成为现代生物学研究的重要工具。

生物信息学分析不仅帮助我们更好地理解生命现象，还在疾病诊断、药物研发等领域发挥着重要作用。

本文将介绍生物信息学分析的基本概念、方法和应用。

一、生物信息学分析的基本概念生物信息学分析是指利用计算机技术、数学和统计学方法对生物数据进行分析、处理和解释的过程。

生物数据包括基因组序列、蛋白质序列、基因表达谱、蛋白质蛋白质相互作用等。

通过对这些数据进行生物信息学分析，我们可以揭示生物分子之间的相互关系，了解生命现象的内在规律。

二、生物信息学分析的方法1. 序列比对：序列比对是生物信息学分析中最基本的方法，用于比较不同生物分子之间的相似性。

常用的序列比对工具有BLAST、Clustal Omega等。

2. 蛋白质结构预测：蛋白质结构预测是根据蛋白质序列预测其三维结构的过程。

常用的蛋白质结构预测工具有AlphaFold、Rosetta等。

3. 基因表达谱分析：基因表达谱分析用于研究基因在不同生物过程、不同环境条件下的表达水平变化。

常用的基因表达谱分析工具有DESeq2、EdgeR等。

4. 蛋白质蛋白质相互作用网络分析：蛋白质蛋白质相互作用网络分析用于研究蛋白质之间的相互作用关系，揭示生命活动的分子机制。

常用的蛋白质蛋白质相互作用网络分析工具有Cytoscape、Gephi等。

三、生物信息学分析的应用2. 药物研发：生物信息学分析可以帮助我们筛选潜在的药物靶点，预测药物分子的生物活性，加速药物研发过程。

例如，通过蛋白质结构预测，可以筛选出具有特定功能的蛋白质作为药物靶点。

3. 个性化医疗：生物信息学分析可以帮助我们了解个体的基因组、蛋白质组等信息，为个性化医疗提供依据。

例如，通过对个体基因组的分析，可以预测个体对特定药物的反应，为临床用药提供指导。

生物信息学分析在生命科学研究中发挥着越来越重要的作用。

随着生物数据量的不断增加和计算技术的不断进步，生物信息学分析将为我们揭示生命现象的奥秘提供更多有力工具。

生物信息学介绍

生物信息学介绍生物信息学是一门综合性的学科，结合了生物学、计算机科学和统计学的知识与技术，旨在解决生物学领域中的复杂问题。

它的出现使得研究者能够更加高效地进行基因组学、蛋白质组学以及生物信息的分析和解读。

生物信息学的研究对象主要是生物信息，即通过DNA、RNA和蛋白质等生物分子的序列、结构和功能等信息。

通过对这些信息的分析与挖掘，可以深入了解生物体的基因组组成、基因调控、蛋白质相互作用等生物学过程。

同时，生物信息学也为研究生物的进化、疾病机制以及药物研发等提供了重要的工具和方法。

生物信息学的研究内容包括基因组学、转录组学、蛋白质组学、代谢组学和系统生物学等。

基因组学是研究生物个体基因组的全套基因信息，可以通过测序和比对等技术来研究基因的序列、结构和功能。

转录组学则研究基因组内的转录过程，即基因的表达情况和调控机制，可以通过RNA测序等技术来研究基因的表达水平和剪接变异等。

蛋白质组学研究蛋白质的表达、结构和功能，可以通过质谱和蛋白质互作等技术来研究蛋白质的组成和相互作用关系。

代谢组学则研究生物体内代谢物的组成和变化，可以通过质谱和核磁共振等技术来研究代谢物的水平和调控机制。

系统生物学则研究生物体内的生物网络和调控机制，可以通过网络分析和模拟等技术来研究生物体的整体特性和相互作用关系。

生物信息学的研究方法主要包括数据库和软件的开发与应用、序列比对与比较、结构预测与模拟、数据挖掘与分析以及网络建模与模拟等。

数据库和软件的开发与应用是生物信息学研究的基础，通过建立和维护丰富的生物信息数据库，并开发相应的软件工具，可以方便研究者进行数据的存储、查询和分析。

序列比对与比较是生物信息学中常用的方法，通过比对不同物种或个体的基因组或蛋白质序列，可以寻找相似性和差异性，进而研究序列的保守性和功能。

结构预测与模拟则是研究蛋白质结构和功能的重要手段，通过计算方法和实验验证，可以预测蛋白质的三维结构和相互作用模式。

数据挖掘与分析是生物信息学中的核心技术之一，通过统计学和机器学习的方法，可以从大量的生物数据中挖掘出有意义的信息和模式。

生物信息学

生物信息学生物信息学是植物学、生物学、化学、数学、计算机科学等多学科交叉的一个新兴学科，其主要研究内容是如何获得、存储、传输、分析和应用生物信息数据。

生物信息学涉及到生物信息的采集、整合、处理、分析和应用等多个方面，包括大量生物数据的处理、生成和管理，数据的挖掘、重建和应用，基于计算机辅助的生物数据分析和建模等。

一、生物信息学的基本概念1. 生物信息学：是指将计算机科学、生物学、统计学、数学和物理学等多学科交叉的技术，用于对生物学数据进行收集，整合，存储，分析和模拟等。

2. 生物数据：是指在基因组、转录组、蛋白质组、代谢组、细胞组等层次，通过实验技术获得的关于生物的各种信息，包括基因序列、蛋白质序列、代谢产物组成、RNA表达水平等的各种数据。

3. 生物数据库：是指在系统地整合和存储生物数据的基础上为生物信息学研究提供的数据资源。

生物数据库一般包含了基因、蛋白质、代谢产物、表观遗传学等方面的数据，主要用于生物信息学的数据挖掘和分析。

4. 生物信息学技术：是指将生物数据通过计算机技术进行处理、分析和建模的技术手段。

包括基于算法的生物序列分析技术、分子建模和仿真技术，基于数据挖掘的分析技术、图像分析等。

二、生物信息学的发展历程生物信息学的发展历程可以从20世纪50年代开始，当时人们通过研究DNA、RNA和蛋白质的结构，探索生物学以及分子生物学的基本问题。

19世纪70年代到80年代，开始有科学家通过计算机分析生物序列数据，这是生物信息学的萌芽阶段；90年代，信息技术大爆发，计算机性能的不断提升奠定了生物信息学发展的基础，同时，国际人类基因组计划的启动和完成，也推动了生物信息学领域的迅速发展。

近年来，生物数据的爆炸式增长和高通量测序技术迅速发展，使得生物信息学成为一个新兴的领域，其研究范围涵盖了全球相关领域的学者。

三、生物信息学在生物学领域的应用1. 生物序列分析：通过处理生物序列数据，研究生物学中基因结构、调控、蛋白质结构和功能等基础方面，以及富含信息内容的非编码RNA和代谢物等，目前已成为一个成熟的技术。

什么是生物信息学

什么是生物信息学生物信息学是一门综合性的学科，是应用计算机、数学、物理、化学、生物学等学科知识，研究生命系统中信息的采集、存储、管理、处理、分析、应用和传播的一门学科。

它是以高通量技术、计算机辅助技术和统计学方法为基础，研究生物学信息的获取、处理和应用，为生命科学的研究和应用提供支持和服务。

生物信息学涉及的范围非常广，包括基因组学、蛋白质组学、代谢组学、表观基因组学、转录组学、系统生物学等多个方面。

生物信息学的发展始于20世纪70年代，并在21世纪经历了爆发式的发展，随着人类基因组计划等生物学研究的迅速发展，生物信息学逐渐成为生命科学领域中的重要分支和研究热点。

生物信息学通过从大量的生物学数据中提取信息，探索诸如基因功能、蛋白质相互作用、新药开发、疾病诊断和治疗、生命演化等诸多方面的问题。

生物信息学的主要研究内容包括：1.基因组学：对生物体基因组的序列和结构进行分析和解读，探究基因与性状、疾病的关系。

2.转录组学：对生物体转录产物实现高通量测序和分析，分析在不同生理和病理状态下基因的表达模式，在分子机制上研究调控基因表达的过程。

3.蛋白质组学：研究蛋白质组在不同生理和病理状态下的变化及其功能，寻找与疾病相关的蛋白质标志物，以及蛋白质相互作用、修饰和结构等方面的特征。

4.代谢组学：对生物体在代谢通路中产生的化合物进行鉴定和定量，研究代谢组在不同生理和病理状态下的变化及其与人类健康的关系。

5.系统生物学：通过对生物体多维度数据的集成分析，建立生物体系的数学计算模型，从宏观和微观两个层次深入研究生物体系的整体特征和生命规律。

生物信息学在基础研究和应用领域均有重要的意义和价值。

在基础研究方面，生物信息学可以加速基因定位、基因功能解析、进化研究等过程。

在应用方面，生物信息学可以为新药研发、疾病预测、定制医疗等提供技术支持。

生物信息学的应用还包括医学、农业、食品、环保等多个领域。

尽管生物信息学已经发展成为一门独立的学科，但与生命科学的其他领域仍存在密切的联系。

生物信息学

生物信息学
生物信息学是运用计算机科学和生物学结合的研究技术，用来解决生物数据的分析和探索问题。

它被用来处理大量的生物信息数据，包括基因表达、生物大分子结构和功能、活体生物研究和分子进化等。

生物信息学可以改善生物学研究的效率，成为重要研究方法和工具。

生物信息学有助于生物学家们深入理解基因工作方式、
基因工程以及其他生物学问题。

生物信息学在医学和生命科学研究中发挥了重要作用，因为它可以帮助医生临床以及治疗研究开发新药和新技术。

它也可以为农业提供帮助，设计出新的品种，这些品种能够抵御病虫害，从而增加农产品的产量。

生物信息学由许多不同的技术组成，包括遗传学分析、
生物统计学、计算机科学、图像处理和自然语言处理等。

这些技术被用来解决各种生物学问题，提供信息支持，以及支持生物数据挖掘，帮助研究人员发现新的知识。

生物信息学正在赋予我们崭新的看法和内在认知，通过
其丰富的实践和研究，将对于所有生物学领域产生重要的改变和应用。

生物信息学专业

生物信息学专业生物信息学是一门综合性的学科，旨在利用计算机技术和数学方法研究生物学中的各种问题。

其主要内容包括基因组学、转录组学、蛋白质组学和代谢组学等方面，概括地说就是将基因、蛋白质、代谢物等生物大分子的信息转化为计算机可处理的形式，通过大数据分析来探究生命科学中的各种现象。

生物信息学的发展生物信息学是由生物学和计算机科学相结合而产生的一门交叉学科。

其实际应用已经涉及到了生物医学、农业、动植物保护、环境等多个领域。

从1990年代开始，人类基因组测序的完成标志着生物信息学的兴起。

在此之后，随着基于高通量测序技术的次代测序技术和生物信号检测等技术的发展，生物信息学得以快速发展，成为支持计算机和生物学结合的一大研究领域。

生物信息学的研究领域一、基因组学基因组学是基因组的研究。

基因是生物遗传信息的核心，基因序列破译可以覆盖许多领域，相关于预测疾病和客观评估药物的目标生物。

基因组学的应用方法包括测序技术、基因芯片以及比较基因组学。

其中，比较基因组学在筛选同源基因、重建演化历史等方面有非常明显的优势。

二、转录组学转录组学是研究生物基因表达的一门学科。

其主要通过分析RNA提取物中的DNA序列来研究基因表达的调控。

转录组学方法包括一般的RNA测序、低复杂度DNAssl芯片以及不同形式的原位杂交。

转录组学在诊断疾病、药物治疗、疗效评估等方面的应用也非常广泛。

三、蛋白质组学蛋白质组学是研究蛋白质全息的学科。

蛋白质是生物表现型的主要组成部分，它的组合可以影响表现型，所以解析蛋白质组数据是显得非常重要。

蛋白质组研究方法包括质谱（Mass spectrometry）和两杂交筛选（two-hybrid screening），并在生物医药等领域有着极为重要的应用。

四、代谢组学代谢组学是研究代谢产物的学科。

代谢产物是反映生物代谢状态的直接指标，代谢组学通过分析生物体内代谢物的产量来寻找代谢途径中的关键物质和瓶颈，揭示代谢异常的发生机理并为之制定治疗方案提供依据。

生物信息学课件

基因组组装与注释
基因组组装
01
基因组组装是将测序得到的碎片组装成一个完整的基因组序列
。
基因组注释
02
基因组注释是对基因组序列进行分析，识别出基因和其他功能
元件。
基因组组装与注释的重要性
03
基因组组装与注释是理解基因组结构和功能的基础，对于研究
生物进化、疾病发生和治疗具有重要意义。
03
生物信息学应用
• 详细描述：单基因遗传病通常是由单个基因的突变引起的，这些突变可能是显性或隐性。在研究中，生物信息学家可以通过对患者的基因组进行测序和分析，识别与疾病相关的基因变异。他们还可以通过比较健康个体的基因组与患病个体的基因组，发现差异并确定导致疾病的特定突变。此外，生物信息学家还可以使用计算机模型和算法来模拟基因组变异的影响，并预测其对蛋白质功能和细胞过程的影响。这些信息有助于医生和研究人员更好地理解疾病的病因、病理生理机制以及潜在的治疗方法。
THANK YOU
数据库建设
研究如何建立和维护生物信息学数据库，包括数据库设计、数据存储和管理、数据查询和可视化等技术。
02
生物信息学基础
遗传密码子
遗传密码子的定义
遗传密码子是DNA和RNA中携带遗传信息的序列。
遗传密码子的特点
遗传密码子具有方向性、连续性、通用性和简并性。
遗传密码子的破译
科学家们通过研究基因组序列，逐渐破译了遗传密码子的秘密。
以单分子DNA测序为主要技术，具有读取长度长、准确率高、速度快等优点，但设备昂贵且维护成本高。
生物信息学数据库
1 2 3
NCBI
美国国立生物技术信息中心，提供生物医学相关信息和数据，包括基因组测序数据、基因表达谱数据等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中国科学技术大学2007--2008学年第 1 学期考试试卷考试科目: 生物信息学得分:__________学生所在系:___________ 姓名:__________ 学号:___________一、单项选择题(每题3分，共30分)1. 下面哪个数据库不属于核酸的三大数据库之一( )A．GenBank B. EBI C. UniProt D. DDBJ2. 下面哪种算法为双序列比对全局优化算法( )A. Smith-Waterman算法B. Gibbs SamplerC. Hidden Markov Model算法D. Needleman-Wunsch算法3. 下面哪种工具为多序列比对工具( )A. MegaBlastB. MEGAC. GPSD. POA4. 双序列比对中，全局与局部的优化算法，其核心思想是( )A.利用已知数据作为训练集，利用迭代的算法进行反复计算，使得结果收敛；B.根据已知数据，构建PSSM矩阵，再计算Log-odd ratio；C.采用动态规划算法，计算最优路径,并以此得到比对结果；D.采用邻接法构建进化树，在进化树的指导下进行双序列比对。

5. 下面何种描述适合Baum-Welch算法( )A. 双序列比对的局部优化算法；B. Motif发现的方法之一C. 对已知的训练数据，采用Viterbi算法计算最佳路径，并重新计算转移概率矩阵，反复计算直至结果收敛，得到优化的HMM模型；D. 对已知的训练数据，采用Smith-Waterman算法计算最佳路径，并重新计算转移概率矩阵，反复计算直至结果收敛，得到优化的HMM模型；6. 实验学家在大肠杆菌中发现某种基因A，具有重要的转录调控功能，通过Reciprocal Best Hits的方法，实验学家用BLAST发现在人中基因B为基因A的高度相似基因。

那么，人中基因A与基因B的关系为( )A．旁系同源物 B. 趋同进化 C. 直系同源物 D. 异同源物7. 下面不属于多序列比对的算法有( )A. 最大简约法B. 渐进方法C. 迭代方法D. 部分有向图法8. 下面基于氨基酸的替代模型并进行距离修整的模型有( )A. Jukes-Cantor法B. Kimura两参数法C. 泊松校正D. Nei-Gojobori法9. 下面不属于构建进化树的方法有( )A. 最大似然性法B. 最大简约法C．距离法 D. 点阵法10. 已知密码子CCT, CCC, CCA, CCG都编码Pro(脯氨酸)，并且仅该四个密码子都编码Pro。

对于密码子CCC，其潜在的同义位点数目s与非同义位点数目n为( ) A．s=1/3, n=8/3 B. s=1, n=2C. s=1/4, n=11/4D. s=1, n=8/3二、判断题(每题2分，共20分)1.PAM250矩阵的构建，其基本假设为当序列变化发生期望上的250%的变化时，氨基酸之间替代的关系，因此，Dayhoff等人选择序列相似性极低的序列，以此构建了通用的PAM250矩阵( )2.我们通常使用UniProt数据库来查找基因的DNA序列，并得到序列的FASTA格式( )3.BLAST采用了一种称为“k-tup”的算法，搜索两条序列的对角线两边有限的空间，因此大大节省了计算时间( )4. MUSCLE是目前被广泛应用的多序列比对工具，其优越性为采用部分有向图的算法，从而使得运算的时间复杂度大为降低( )5. Ka/Ks为表征编码区DNA序列是否受到选择压力的主要手段，对于某对基因A和B，我们通过计算发现Ka/Ks=, 并且通过Fisher’s Exact Text检验后，为统计显著，因此我们可以推测A和B在分化之后受到达尔文的阳性进化选择的压力( )6. 隐马尔科夫算法中的“隐”，指的是状态之间的转移概率已知，而状态内的发散概率未知，因此，隐马科夫并不表示所有的概率未知。

( )7. 蛋白质上的模体/motif，一般指长度为几个到几十个氨基酸，并且不具有独立的三级结构的氨基酸片段。

例如SUMO化位点的motif，一般可表示为：ψ-K-X-E.( )8. 估算鸟枪法的覆盖率，使用超几何分布的方法能够相当简便的结算出结果。

( )9. DNA 突变的模式有四种：替代、插入、缺失和倒位。

而DNA 替代又分为转换和颠换两种。

( )10. 中性进化是由Kimura 最早提出，认为绝大多数的突变不好也不坏，并不决定物种的分化。

受达尔文进化所调控的基因约为~1%，这些基因数量虽然很少，却对物种的分化起到了决定性的作用。

( )三、综合题(每题10分，共50分)1. 表观遗传学的研究内容主要包括DNA 的甲基化，组蛋白的乙酰化、甲基化及其它修饰，染色体重塑以及SiRNA 与MiRNA 调控四个方面。

其中DNA 的甲基化发生在基因组的特定位置，通常是-CG-序列中的C 上，C 被化学修饰，引入一个甲基，并很快突变为T 。

编码区DNA 上游启动子区域的DNA 甲基化水平的高低，对基因表达量的高低有着重要的影响，一般低甲基化对应基因的高表达，高甲基化则对应基因的低表达。

实验学家通过实验鉴定了30条平均长度为1000bp 的DNA 序列，总共鉴定了60个甲基化位点。

生物信息学家基于这些实验数据，构建了预测工具，对于新的两条序列M 和N ，长度分别为2000bp 和1500bp ，并预测A 和B 上分别有3个和9个位点。

那么，对于预测出来的位点，若全部是随机产生的概率为多少已知泊松分布的公式为：!)()(x e x f x μμ-=2. 对于两条蛋白质序列： AQPPKKE 和LEPKRD ，请分别用(1) Needleman-Wunsch 算法；(2) Smith-Waterman 算法对两条序列作比对；对于Gap 的罚分为8，线性罚分规则；用图示法表明比对过程，并写出比对结果、得分，对于Smith-Waterman 算法，结果表示为单一的比对结果。

打分矩阵采用BLOSUM62矩阵，部分矩阵如下：3. 请用图示法并辅以必要的文字，描述Gibbs 采样抽取序列motif 的过程。

这里，假设有n 条序列，长度k ，待抽取的motif 长度为m.4. 给定一组DNA 序列如下：CGACCTA CGACGAT CGTCGAA TCTCGAG(1) 根据上述DNA 序列，请写出一种PSSM 矩阵；(2) 给定一条新的序列CGTCGAG,计算log-odd ratio ，该例中，四种碱基的背景值都为；(3) 请计算模体中，第三位和第五位所包含的信息量。

5. 直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别请用图示法并辅以必要文字进行描述。

中国科学技术大学2008--2009学年第1 学期考试试卷考试科目: 生物信息学得分:__________学生所在系:___________ 姓名:__________ 学号:___________一、单项选择题(每题3分，共30分)1. 下面哪种方法不是基因共表达相关性的分析方法( ) A．Pearson correlation coefficient B. Kendall's tauC. T-TestD. Euclidean distance2. 针对DNA序列的同义与非同义的核苷酸替代，若Ka/Ks=，则可能发生了何种进化过程( )A. 阳性进化B. 达尔文进化C. 阴性进化D. 中性进化3. 下面哪种工具不是分子进化树构建工具( )A. T-CoffeeB. MEGAC. PAMLD. PHYLIP4. 隐马尔科夫算法中的Baum-Welch算法，其核心思想是( )E.采用邻接法构建进化树，在进化树的指导下进行双序列比对；F.利用已知数据作为训练集，利用迭代的算法进行反复计算，使得结果收敛；G.根据已知数据，构建PSSM矩阵，再计算Log-odd ratio；H.采用动态规划算法，计算最优路径,并以此得到比对结果。

5. 不属于DNA突变的模式有( )A. 倒位；B. 颠换；C. 插入；D. 替代。

6. 利用点阵法不能够做到或发现( )A．反向回文序列 B. 自身比对 C. 重复序列 D. 序列模体识别7. 下面哪个数据库是蛋白质数据库( )A. RefSeqB. EBIC. DDBJD. GenBank8. 近年，我校学者与复旦大学研究者合作，在芽殖酵母发现了泛素家族的一个分子化石Urm1,稍后有研究者利用BLAST发现了人类的Urm1，那么人类的泛素蛋白质与人类Urm1的关系是( ) A．直系同源物 B. 趋同进化 C. 旁系同源物 D. 异同源物9. 下面不属于双序列比对的方法有( )A. Smith-Waterman算法B. 距离法C. Needleman-Wunsch算法D. 点阵法10. 已知密码子ATT, ATC, 和ATA编码Ile (异亮氨酸)，而ATG编码Met(甲硫氨酸）。

则对于密码子ATC，其潜在的同义位点数目s与非同义位点数目n为( ) A. s=2/3, n=7/3 B. s=1, n=2C. s=1/4, n=11/4D. s=1/3, n=8/3二、填空题(每空2分，共20分)1. 使用多序列工具比对两条序列，发现71%的区域相同，若这两条序列为蛋白质序列，则这两条序列的泊松距离为（）；若两条序列为核酸序列，则Jukes-Cantor 距离为（）。

2. 给定一组DNA 序列如下（碱基的背景值为）：CTACTAGC CGACATGG CTACATGG CTTGAAGC给定一条新的序列CGACAAGC ，其log-odd ratio (以2为底计算数值) 为（）；该组DNA 序列，其第二位的信息量为（），第八位的信息量为（）。

3. 实验学家从1000个4bp 的DNA 序列中鉴定了200个X-box 序列，其中第一位T 的出现概率为，第二位A 出现的概率为，第三位C 出现的概率为，第四位A 出现的概率为，C 出现的概率为。

其他位点出现的概率各自相同。

则序列TACA 可能是X-box 的概率为（），序列TACC 可能是X-box 的概率为（）。

4. 蛋白质磷酸化位点的预测是一个重要的生物信息学问题。

实验学家以405个磷酸化蛋白质为训练数据，包含800个实验验证的磷酸化位点和16000个非磷酸化位点，开发了P 工具。

利用P 工具做Self-consistency 检验，总共预测出1470个阳性结果，则该工具的灵敏度Sn 为（），特异性Sp 为（），准确性ACC 为（）。

三、综合题(每题10分，共50分)3. 请用图示法并辅以必要的文字，描述基因表达数据聚类算法K-means clustering算法的计算流程，假设有N 个基因，拟分成M 类。