生物信息学资料

合集下载

生物信息学概述(共59张PPT)精选全文完整版

生物信息学概述(共59张PPT)精选全文完整版

蛋白质 结构
蛋白质 功能
最基本的 生物信息
2024/11/11
生命体系千姿百 态的变化
维持生命活 动的机器
9
第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多
数DNA非编码区域的功能还知之甚少
对于第二部密码,目前则只能用统计学的方法进行分析。破译“第
二遗传密码”:即折叠密码(folding code),从蛋白质的一级结构
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli大南芥
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis elegans
以基因组计划的实施为标志的基因组时代(1990年至2001年)是生
物信息学成为一个较完整的新兴学科并得到高速发展的时期。这一 时期生物信息学确立了自身的研究领域和学科特征,成为生命科学 的热点学科和重要前沿领域之一。
这一阶段的主要成就包括大分子序列以及表达序列标签 ( expressed sequence tag,EST)数据库的高速发展、BLAST( basic local alignment search tool)和FASTA(fast alignment)等工具软件的研制和相应新算法的提出、基因的寻 找与识别、电子克隆(in silico cloning)技术等,大大提高
细胞质(线粒体、叶绿体) 基因组DNA
人类基因组:3.2×109 bp 18
人类自然科学史上的 3 大计划
曼哈顿原子 弹计划
阿波罗登月 计划
人类基因组计划

生物信息复习资料

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中,我们需要掌握一些基本的概念、技术和工具。

下面,我将为大家整理一些生物信息学的复习资料,希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。

2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。

通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况,从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中,高通量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成本的特点,广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库:生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据,如基因序列、蛋白质序列、基因表达数据等,为生物信息学的研究和分析提供了基础。

生物信息学PPT课件

生物信息学PPT课件

生物信息学在农业研究中的应用
1 2 3
作物育种
生物信息学可以通过基因组学手段分析作物的遗 传变异,为作物育种提供重要的遗传资源。
转基因作物研究
通过生物信息学分析,可以了解转基因作物的基 因表达和性状变化,为转基因作物的研发和应用 提供支持。
农业环境监测
生物信息学可以帮助研究人员监测农业环境中的 微生物群落、土壤质量等指标,为农业生产提供 科学依据。
特点
生物信息学具有数据密集、技术依赖、多学科交叉、应用广泛等特点。
生物信息学的重要性
促进生命科学研究
提高疾病诊断和治疗水平
生物信息学为生命科学研究提供了强 大的数据分析和挖掘工具,有助于深 入揭示生命现象的本质和规律。
生物信息学在疾病诊断和治疗方面具 有重要作用,通过对基因组、蛋白质 组等数据的分析,有助于实现个体化 精准医疗。
03 生物信息学技术与方法
基因组测序技术
基因组测序技术概述
基因组测序是生物信息学中的一项关键技术,它能够测定生物体的 全部基因序列,为后续的基因组学研究提供基础数据。
测序原理
基因组测序主要基于下一代测序技术,如高通量测序和单分子测序, 通过这些技术可以快速、准确地测定生物体的基因序列。
测序应用
基因组测序在医学、农业、生物多样性等多个领域都有广泛应用,如 疾病诊断、药物研发、作物育种等。
生物信息学ppt课件
目录
• 生物信息学概述 • 生物信息学的主要研究领域 • 生物信息学技术与方法 • 生物信息学的应用前景 • 生物信息学的挑战与展望 • 案例分析
01 生物信息学概述
定义与特点
定义
生物信息学是一门跨学科的学科,它利用计算机科学、数学和工程学的原理、 技术和方法,对生物学数据进行分析、解释和利用,以解决生物学问题。

生物信息学复习资料

生物信息学复习资料

生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。

网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。

生物信息学课件

生物信息学课件

基因组组装与注释
基因组组装
01
基因组组装是将测序得到的碎片组装成一个完整的基因组序列

基因组注释
02
基因组注释是对基因组序列进行分析,识别出基因和其他功能
元件。
基因组组装与注释的重要性
03
基因组组装与注释是理解基因组结构和功能的基础,对于研究
生物进化、疾病发生和治疗具有重要意义。
03
生物信息学应用
• 详细描述:单基因遗传病通常是由单个基因的突变引起的,这些突变可能是显性或隐性。在研究中,生物信息 学家可以通过对患者的基因组进行测序和分析,识别与疾病相关的基因变异。他们还可以通过比较健康个体的 基因组与患病个体的基因组,发现差异并确定导致疾病的特定突变。此外,生物信息学家还可以使用计算机模 型和算法来模拟基因组变异的影响,并预测其对蛋白质功能和细胞过程的影响。这些信息有助于医生和研究人 员更好地理解疾病的病因、病理生理机制以及潜在的治疗方法。
THANK YOU
数据库建设
研究如何建立和维护生物信息学数据库, 包括数据库设计、数据存储和管理、数据 查询和可视化等技术。
02
生物信息学基础
遗传密码子
遗传密码子的定义
遗传密码子是DNA和RNA中携带遗传信息的序列 。
遗传密码子的特点
遗传密码子具有方向性、连续性、通用性和简并 性。
遗传密码子的破译
科学家们通过研究基因组序列,逐渐破译了遗传 密码子的秘密。
以单分子DNA测序为主要技术,具有读取长度长、准确率高、速度快等优点,但设备昂贵且维护成本 高。
生物信息学数据库
1 2 3
NCBI
美国国立生物技术信息中心,提供生物医学相关 信息和数据,包括基因组测序数据、基因表达谱 数据等。

生物信息学 资料

生物信息学 资料

生物信息学资料一.什么是生物信息学?答:它是利用计算机对生命科学工作者研究的生物作息进行存储、检索和分析的科学。

现代生物信息学的定义:是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法采集、存储、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息,以帮助了解生物信息学和遗传学信息的科学。

二.真核生物基因组的结构特点:1多基因家族:指由一共同祖先基因经过重组和变异所产生的一组基因,并成簇分布,其成员成簇集中在一条染色体上,也可以散布在不同的染色体上。

2多重复序列:1)高度重复序列:反向重复序列、卫星DNA、a-卫星DNA、端粒DNA2)中度重复序列3转座因子:在DNA分子内部或两个DAN分子之间移动的DNA片段4单拷贝序列:多为结构基因,两侧为间隔序列和散在分布的重复序列。

5DNA多态性:1)DNA多态性:限制性片段长度的多态性、高度可变区的DNA、单个核苷酸多态性2)DNA指纹图谱:一种特殊的RFLP使用小卫星DNA作为探针,与某种限制性酶酶切后,并经电泳分离的基因组DNA进行分子杂交,在放射自显影的X光片上,每个个体都可呈现不同长度片段的杂交显影带。

三.真核生物的基因结构:1.5’UTR区:1)启动子:基因DNA中一段特定的核苷酸序列,是RNA聚合酶在起始时对模板DNA的识别部位,也是转录起始时RNA聚合酶对模板DNA的结合部位,因此,是转录过程是否起始的决定部位。

2)增强子:约200bp,为远距离作用,距离靶基因可几十个kb,可位上、下游或基因内部,无基因特异性,对各种基因的启动子都可以发挥作用,常和多种转录调节蛋白结合后发挥作用。

2转录起始点:是模板DNA转录区中的第一个核苷酸,常标以+1,往后类推。

3起始密码子:如ATG(编码甲硫氨酸)4编码区:基因通过信使RNA来进行蛋白质的合成,信使RNA包含对应蛋白质氨基酸序列的一段核苷酸序列。

生物信息学资料

生物信息学资料

Neighbourhood Word
生成输出文件
统计计算
根据阈值决定终止点
/BLAST
新版界面
BLAST系列程序选择流程
查询序列
蛋白质序列?

否 蛋白质数据库?
1)面向主题的:每个主题对应于一个宏观分析领域 2)集成的:入库之前,要进行加工集成 (转成面向主题的) 3)稳定的:几乎不更新(覆盖) 4)历史的:一般要用到过去5-10年的数据
• 数据挖掘的定义:一种决策支持过程,主要基于人工智能、机器学习、统计学等技
术,高度自动化地分析原始数据,做出正确的决策
Information on relations between molecules
Orthologs
Sequence similarity
KEGG 光合作用代谢通路
rbcL 基因及一个光合作用通路
蛋白质相互作用数据库 (1)
蛋白质相互作用数据库 (2)
蛋白质相互作用数据库 (3)
蛋白质相互作用数据库 (4)
蛋白质相互作用数据库 (5)
实验室
TATAGTACTCAGGCTACTGAGCTACTGAGCCG
Database
管理
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
UniGene
不同的算法
休息一下……
分子数据库检索
BLAST
Basic Local Alignment Search Tool
W为字长 e.g., 2 T为阈值(score) e.g., 8
BLAST 流程
QL QL=11, QM=9, HL=8, ZL=9

生物信息学知识点总结分章

生物信息学知识点总结分章

生物信息学知识点总结分章第一章:生物信息学概述生物信息学是一门综合性学科,结合计算机科学、数学、统计学和生物学的知识,主要研究生物系统的结构、功能和演化等方面的问题。

生物信息学的发展可以追溯到20世纪70年代,随着基因组学、蛋白质组学和生物技术的发展,生物信息学逐渐成为生物学研究的重要工具。

生物信息学的主要研究内容包括基因组学、蛋白质组学、代谢组学、系统生物学等。

生物信息学方法主要包括序列分析、结构分析、功能预测和系统分析等。

第二章:生物数据库生物数据库是生物信息学研究的重要基础,主要用于存储、管理和共享生物学数据。

生物数据库包括基因组数据库、蛋白质数据库、代谢数据库、生物通路数据库等。

常用的生物数据库有GenBank、EMBL、DDBJ等基因组数据库,Swiss-Prot、TrEMBL、PDB等蛋白质数据库,KEGG、MetaCyc等代谢数据库,Reactome、KeggPathway等生物通路数据库等。

生物数据库的建设和维护需要大量的人力和物力,目前国际上已建立了众多生物数据库,为生物信息学研究提供了丰富的数据资源。

第三章:序列分析序列分析是生物信息学研究的重要内容,主要应用于DNA、RNA、蛋白质序列的比对、搜索和分析。

常用的序列分析工具包括BLAST、FASTA、ClustalW等,这些工具可以帮助研究人员快速比对和分析生物序列数据,从而挖掘出序列的相似性、保守性和功能等信息。

序列分析在基因组学、蛋白质组学和系统生物学等领域发挥着重要作用,是生物信息学研究的基础工具之一。

第四章:结构分析结构分析是生物信息学研究的另一个重要内容,主要应用于蛋白质、核酸等生物分子的三维结构预测、模拟和分析。

常用的结构分析工具包括Swiss-Model、Modeller、Phyre2等,这些工具可以帮助研究人员预测蛋白质或核酸的三维结构,分析结构的稳定性、功能和相互作用等特性。

结构分析在蛋白质结构与功能研究、蛋白质药物设计等方面发挥着重要作用,为生物信息学研究提供了重要的技术支持。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学中国科学技术大学2007--2008学年第 1 学期考试试卷考试科目: 生物信息学得分:__________学生所在系:___________ 姓名:__________ 学号:___________一、单项选择题(每题3分,共30分)1. 下面哪个数据库不属于核酸的三大数据库之一? ( )A. GenBank B. EBI C. UniProt D. DDBJ2. 下面哪种算法为双序列比对全局优化算法? ( )A. Smith-Waterman算法B. Gibbs SamplerC. Hidden Markov Model算法D. Needleman-Wunsch算法3. 下面哪种工具为多序列比对工具? ( )A. MegaBlastB. MEGA 4.0C. GPSD. POA4. 双序列比对中,全局与局部的优化算法,其核心思想是 ( )A.利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛;B.根据已知数据,构建PSSM矩阵,再计算Log-odd ratio;C.采用动态规划算法,计算最优路径,并以此得到比对结果;D.采用邻接法构建进化树,在进化树的指导下进行双序列比对。

5. 下面何种描述适合Baum-Welch算法? ( )A. 双序列比对的局部优化算法;B. Motif发现的方法之一C. 对已知的训练数据,采用Viterbi算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型;D. 对已知的训练数据,采用Smith-Waterman算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型;6. 实验学家在大肠杆菌中发现某种基因A,具有重要的转录调控功能,通过Reciprocal Best Hits的方法,实验学家用BLAST发现在人中基因B为基因A的高度相似基因。

那么,人中基因A与基因B的关系为 ( ) A.旁系同源物 B. 趋同进化 C. 直系同源物 D. 异同源物7. 下面不属于多序列比对的算法有 ( )A. 最大简约法B. 渐进方法C. 迭代方法D. 部分有向图法8. 下面基于氨基酸的替代模型并进行距离修整的模型有 ( )A. Jukes-Cantor法B. Kimura两参数法C. 泊松校正D. Nei-Gojobori法9. 下面不属于构建进化树的方法有 ( )A. 最大似然性法B. 最大简约法C.距离法 D. 点阵法10. 已知密码子CCT, CCC, CCA, CCG都编码Pro(脯氨酸),并且仅该四个密码子都编码Pro。

对于密码子CCC,其潜在的同义位点数目s与非同义位点数目n为( ) A. s=1/3, n=8/3 B. s=1, n=2C. s=1/4, n=11/4D. s=1, n=8/3二、判断题(每题2分,共20分)1.PAM250矩阵的构建,其基本假设为当序列变化发生期望上的250%的变化时,氨基酸之间替代的关系,因此,Dayhoff等人选择序列相似性极低的序列,以此构建了通用的PAM250矩阵 ( ) 2.我们通常使用UniProt数据库来查找基因的DNA序列,并得到序列的FASTA格式 ( ) 3.BLAST采用了一种称为“k-tup”的算法,搜索两条序列的对角线两边有限的空间,因此大大节省了计算时间 ( ) 4. MUSCLE是目前被广泛应用的多序列比对工具,其优越性为采用部分有向图的算法,从而使得运算的时间复杂度大为降低 ( ) 5. Ka/Ks为表征编码区DNA序列是否受到选择压力的主要手段,对于某对基因A和B,我们通过计算发现Ka/Ks=3.6, 并且通过Fisher’s Exact Text检验后,为统计显著,因此我们可以推测A和B在分化之后受到达尔文的阳性进化选择的压力( )6. 隐马尔科夫算法中的“隐”,指的是状态之间的转移概率已知,而状态内的发散概率未知,因此,隐马科夫并不表示所有的概率未知。

( )7. 蛋白质上的模体/motif,一般指长度为几个到几十个氨基酸,并且不具有独立的三级结构的氨基酸片段。

例如SUMO化位点的motif,一般可表示为:ψ-K-X-E.( )8. 估算鸟枪法的覆盖率,使用超几何分布的方法能够相当简便的结算出结果。

( )9. DNA突变的模式有四种:替代、插入、缺失和倒位。

而DNA替代又分为转换和颠换两种。

( )10. 中性进化是由Kimura最早提出,认为绝大多数的突变不好也不坏,并不决定物种的分化。

受达尔文进化所调控的基因约为~1%,这些基因数量虽然很少,却对物种的分化起到了决定性的作用。

( )三、综合题(每题10分,共50分)1.表观遗传学的研究内容主要包括DNA的甲基化,组蛋白的乙酰化、甲基化及其它修饰,染色体重塑以及SiRNA与MiRNA调控四个方面。

其中DNA的甲基化发生在基因组的特定位置,通常是-CG-序列中的C上,C被化学修饰,引入一个甲基,并很快突变为T。

编码区DNA上游启动子区域的DNA甲基化水平的高低,对基因表达量的高低有着重要的影响,一般低甲基化对应基因的高表达,高甲基化则对应基因的低表达。

实验学家通过实验鉴定了30条平均长度为1000bp的DNA序列,总共鉴定了60个甲基化位点。

生物信息学家基于这些实验数据,构建了预测工具,对于新的两条序列M和N,长度分别为2000bp和1500bp,并预测A和B上分别有3个和9个位点。

那么,对于预测出来的位点,若全部是随机产生的概率为多少?已知泊松分布的公式为:!)()(x e x f xμμ-=2. 对于两条蛋白质序列: AQPPKKE 和LEPKRD ,请分别用(1) Needleman-Wunsch 算法;(2) Smith-Waterman 算法对两条序列作比对;对于Gap 的罚分为8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分,对于Smith-Waterman 算法,结果表示为单一的比对结果。

打分矩阵采用BLOSUM62矩阵,部分矩阵如下:3. 请用图示法并辅以必要的文字,描述Gibbs 采样抽取序列motif 的过程。

这里,假设有n 条序列,长度k ,待抽取的motif 长度为m.4. 给定一组DNA 序列如下:CGACCTACGACGATCGTCGAATCTCGAG(1)根据上述DNA序列,请写出一种PSSM矩阵;(2)给定一条新的序列CGTCGAG,计算log-odd ratio,该例中,四种碱基的背景值都为0.25;(3)请计算模体中,第三位和第五位所包含的信息量。

5. 直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别?请用图示法并辅以必要文字进行描述。

中国科学技术大学2008--2009学年第 1 学期考试试卷考试科目: 生物信息学得分:__________学生所在系:___________ 姓名:__________ 学号:___________一、单项选择题(每题3分,共30分)1. 下面哪种方法不是基因共表达相关性的分析方法? ( )A. Pearson correlation coefficient B. Kendall's tauC. T-TestD. Euclidean distance2. 针对DNA序列的同义与非同义的核苷酸替代,若Ka/Ks=1.2,则可能发生了何种进化过程? ( )A. 阳性进化B. 达尔文进化C. 阴性进化D. 中性进化3. 下面哪种工具不是分子进化树构建工具? ( )A. T-CoffeeB. MEGA 4.0C. PAMLD. PHYLIP4. 隐马尔科夫算法中的Baum-Welch算法,其核心思想是 ( )E. 采用邻接法构建进化树,在进化树的指导下进行双序列比对;F. 利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛;G. 根据已知数据,构建PSSM矩阵,再计算Log-odd ratio;H. 采用动态规划算法,计算最优路径,并以此得到比对结果。

5. 不属于DNA突变的模式有? ( )A. 倒位;B. 颠换;C. 插入;D. 替代。

6. 利用点阵法不能够做到或发现 ( )A.反向回文序列 B. 自身比对 C. 重复序列 D. 序列模体识别7. 下面哪个数据库是蛋白质数据库 ( )A. RefSeqB. EBIC. DDBJD. GenBank8. 近年,我校学者与复旦大学研究者合作,在芽殖酵母发现了泛素家族的一个分子化石Urm1,稍后有研究者利用BLAST发现了人类的Urm1,那么人类的泛素蛋白质与人类Urm1的关系是 ( )A.直系同源物 B. 趋同进化 C. 旁系同源物 D. 异同源物9. 下面不属于双序列比对的方法有 ( )A. Smith-Waterman算法B. 距离法C. Needleman-Wunsch算法D. 点阵法10. 已知密码子ATT, ATC, 和ATA编码Ile (异亮氨酸),而ATG编码Met(甲硫氨酸)。

则对于密码子ATC,其潜在的同义位点数目s与非同义位点数目n为( ) A. s=2/3, n=7/3 B. s=1, n=2C. s=1/4, n=11/4D. s=1/3, n=8/3二、填空题(每空2分,共20分)1. 使用多序列工具比对两条序列,发现71%的区域相同,若这两条序列为蛋白质序列,则这两条序列的泊松距离为();若两条序列为核酸序列,则Jukes-Cantor距离为()。

2. 给定一组DNA序列如下(碱基的背景值为0.25):CTACTAGCCGACATGGCTACATGGCTTGAAGC给定一条新的序列CGACAAGC,其log-odd ratio (以2为底计算数值) 为();该组DNA序列,其第二位的信息量为(),第八位的信息量为()。

3. 实验学家从1000个4bp的DNA序列中鉴定了200个X-box序列,其中第一位T的出现概率为0.97,第二位A出现的概率为0.91,第三位C出现的概率为0.85,第四位A出现的概率为0.80,C出现的概率为0.14。

其他位点出现的概率各自相同。

则序列TACA可能是X-box的概率为(),序列TACC可能是X-box的概率为()。

4. 蛋白质磷酸化位点的预测是一个重要的生物信息学问题。

实验学家以405个磷酸化蛋白质为训练数据,包含800个实验验证的磷酸化位点和16000个非磷酸化位点,开发了P工具。

利用P工具做Self-consistency检验,总共预测出1470个阳性结果,则该工具的灵敏度Sn 为( ),特异性Sp 为( ),准确性ACC 为( )。

三、综合题(每题10分,共50分)3. 请用图示法并辅以必要的文字,描述基因表达数据聚类算法K-meansclustering 算法的计算流程,假设有N 个基因,拟分成M 类。

相关文档
最新文档