生物信息学期末复习知识点总结

合集下载

生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)名词解释或辨析。

1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。

2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。

5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。

同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。

相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。

当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。

如果两条系列有一个共同进化的祖先,那么他们是同源的。

这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。

1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。

2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。

生物信息学期末考试重点

生物信息学期末考试重点

第一讲生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。

生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。

生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。

生物技术与生物信息学的区别及联系生物信息学的发展历史•人类基因组计划(HGP)•人类基因组计划由美国科学家于1985年提出,1990年启动。

根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。

HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。

(百度百科)随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。

换句话说,人类基因组计划为生物信息学提供了兴盛的契机。

上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。

:】第二讲回顾细胞结构细胞是所有生命形式结构和功能的基本单位细胞组成细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等细胞核最大的细胞器DNA的结构碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G)。

核苷酸核苷酸是构成DNA分子的重要模块。

每个核苷酸分子由一分子称作脱氧核糖的戊糖(五碳糖)、一分子磷酸和一分子碱基构成。

每种核苷酸都有一个碱基对,也就是A、T、C、G基因是什么基因是遗传物质的基本单位基因就是核苷酸序列。

大部分的基因大约是1000-4000个核苷酸那么长。

生物信息复习资料

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中,我们需要掌握一些基本的概念、技术和工具。

下面,我将为大家整理一些生物信息学的复习资料,希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。

2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。

通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况,从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中,高通量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成本的特点,广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库:生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据,如基因序列、蛋白质序列、基因表达数据等,为生物信息学的研究和分析提供了基础。

生物信息学,复习资料

生物信息学,复习资料

第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。

检索和分析的科学。

1982年创建了GenBank数据库。

(1)序列数据资源:储存了生物信息学研究的原始数据,是生物信息学存在和发展的基础。

(2)序列比对与比对搜索:相似性分析是生物信息学最早涉及的问题之一。

常用的分析方法是序列比对。

(3)基因组结构注释(4)分子系统发生分析:系统发生关系是表示物种进化关系的参考依据。

通过分析分子水平的序列数据,可以了解物种系统发生的关系,目前常用树的形式来表示不同物种间的进化关系。

(5)蛋白质结构:蛋白质的空间结构是其行使功能的基础。

(6)蛋白质序列分析与功能预测。

(7)微阵列数据分析:微阵列是一种重要的基因表达高通量检测技术。

(8)蛋白质组数据分析:高通量的蛋白质组工程能够大范围地确定蛋白质功能,能确定蛋白质在哪种特殊的生理条件下会出现,还能确定那些蛋白质之间有相互作用。

(9)疾病相关研究:寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础,也是人类基因组研究的重要手段。

(10)SNP芯片及深度测序数据分析。

视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质,能结合血液中的视黄醇。

性质:①在多个物种中有许多蛋白质和RBP4同源,包括人、小鼠和鱼总的蛋白质。

②也有许多人类蛋白质额RBP4紧密相关,它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白,它们倾向于分泌到细胞外空间。

③有细南的lipealin 蛋白,它们在对抗生素的抗性中起作用。

编码细菌lipocalin 的基因可能是一古老基因,它通过水平基因转移的过程进人真核生物基因组。

④些lipocalin 蛋白的表达水平受到显著的调控。

⑤lipealin 蛋白小而丰富,并且是可溶性的,它们的生物化学性质已被详细研究,许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。

生物信息学B复习要点

生物信息学B复习要点

生物信息学B复习要点(总6页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--知识点:1.生物信息学:生物信息学是一门(交叉)学科,它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。

他综合的应用(数学)、(计算机科学)和(生物学)的各种工具,来阐明和理解大量数据中包含的生物学意义。

2. 人类基因组计划 :(human genome project,HGP)是一个国际合作项目,由美国/德国/法国/英国/日本和中国科学家共同参与。

其旨在测定组成人类染色体(指单倍体)中所包含的30亿个核苷酸序列的碱基组成,从而绘制人类基因组图谱,辨识并呈现其上的所有基因及其序列,进而破译人类遗传信息。

人类基因组计划是人类为了解自身的奥秘所迈出的重要一步,是继曼哈顿原子弹计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。

3. 一级数据库数据库:直接来源于实验获得的原始数据,只经过简单的归类整理和注释。

包括:基因组数据库,序列数据库(核酸和蛋白质)以及结构数据库。

4. 二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

5.公共序列数据库:1988 年3个数据库达成协议,组成合作联合体。

它们每天交换信息,并对数据库 DNA 序列记录的统一标准达成一致。

每个机构负责收集来自不同地理分布的数据(EMBL 负责欧洲, GenBank 负责美洲, DDBJ负责亚洲等),将所有信息汇总在一起,共同享有并向世界开放,故这 3 个数据库又被称为公共序列数据库。

6.主要核酸序列数据库: GenBank、EMBL、 DDBJ7.主要蛋白质序列数据库:Swissprot, PIR8. 蛋白质结构分类数据库包括:SCOP和CATH。

格式,又称Pearson 格式。

特点:最常用、最简单的序列注释格式命名规则:(理解即可)1、以大于号“>"起始2、标题行( a single-line description) 位于文件的第一行,(中英均可)3、序列行随后,序列行中不允许有空间,每行文字不超过80个字符4、组成序列信息字符串的符号应为IUB/IUPAC(International Union Of Pure And Applied Chemistry)核苷酸或氨基酸的符号5、核苷酸字符大小写均可,氨基酸字符应大写6、"-"单个连字符表示一个空位“gap”7、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用X表示8、氨基酸序列中“*”表示终止9、常保存为.txt文档GBFF序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

生物信息学复习总结

生物信息学复习总结

生物信息学复习总结第一篇:生物信息学复习总结生物信息学复习总结1.生物信息学的发展历史。

A.20世纪50年代,生物信息学开始孕育。

B.20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来。

C.20世纪70年代,生物信息学的真正开端。

D.20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法。

E.20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。

F.20世纪90年代后,HGP促进生物信息学的迅速发展。

2.生物信息学主要研究内容。

(1)生物分子数据的收集与管理;(2)数据库搜索及序列比较;(3)基因组序列分析;(4)基因表达数据的分析与处理;(5)蛋白质结构预测。

3.蛋白质的一二三级结构。

(1).蛋白质的一级结构是指多肽链中氨基酸的序列(2).蛋白质的二级结构主要有以下几种形式:(i)ą螺旋;(ii)ß折叠–平行折叠反平行折叠;(iv)无规卷曲-没有确定规律性的肽链构象,但仍然是紧密有序的稳定结构。

(v)无序结构。

(3).蛋白质的三级结构(tertiary structure):在二级结构基础上的肽链再折叠形成的构象。

4.一二级数据库(怎样查?)一级数据库----数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库----对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

5.国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL。

(2)美国生物技术信息中心的GeneBank。

(3)日本遗传研究所的DDBJ。

6为什么要对protein进行预测?寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射。

7.蛋白质预测的思路和方法。

思路:a.通过相似序列的数据库比对确定功能:具有相似性序列的蛋白质具有相似的功能。

b.确定序列特性:疏水性、跨膜螺旋等:许多功能可直接从蛋白质序列预测出来。

生物信息学期末考试重点

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

生物信息学复习资料

生物信息学复习资料

生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。

网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学:利用数学、物理、化学的理论、技术和方法,以计算机为工具,对生命现象加以研究,得到深层次的生物学知识。

研究任务:收集与管理生物分子数据,对数据进行处理分析,为其它生物学研究提供服务
四大“模式生物”:酵母、线虫、果蝇、小鼠
糖的生物功能,作为燃料(是生命活动所需的能源),重要的中间代谢物,参与生物大分子组成,作为信号分子
脂类的生物功能,构成生物膜的骨架,储存能量(效率是糖的2倍左右),构成生物表面的保护层、保温层,重要的生物学活性物质蛋白质的生物功能,是遗传信息转化成生物结构和功能的表达者;参与基因表达的调节,以及细胞中氧化还原反应、电子传递、神经传递、学习记忆等重要生命过程;酶(一类重要的蛋白质)在细胞和生物体内各种生化反应中起催化作用;
蛋白质的空间结构
一级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序
二级结构(secondary structure)氢键形成-螺旋( -helix)链间形成-折叠(
-sheet)
三级结构(tertiary structure)肽链进一步沿多方向盘绕成紧密的近似球状结构
四级结构(quaternary structure)具有特定构象的肽链进一步结合,并在空间相互作用检索方法:1)追溯法:通过已知文献后附有的参考文献中提供的线索来查找文献。

(2)常用法:利用各种检索工具来查找文献。

(3)循环法:是将常用法和追溯法交替使用的一种综合文献检索方法。

(4)浏览法:是从本专业期刊或其它类型的原始文献中直接查阅文献资料。

检索途径:著者途径:分类途径:主题途径:其它途径;
检索过程:(1)分析研究课题(2)制定检索策略(3)查找文献线索(4)获得原始文献大规模基因组DNA测序:
鸟枪法( Shot-gun sequencing)方法:借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序,再根据序列间的重叠关系进行计算机排序与组装,确定它们在基因组中的位置。

适用范围:主要用于重复序列少、相对简单的原核生物基因组的测序工作。

不适用于分析较大的、更复杂的基因组。

优点:速度快、简单易行、成本低
克隆重叠群法(clone contig sequencing)方法:先将染色体打成比较大的片段(几十-几百Kb),利用分子标记将这些大片段排成重叠的克隆群,分别测序后拼装。

需要绘制物理图谱,以鸟枪法为基础。

适用范围:较大的、更复杂的基因组
蛋白质结构解析:X射线晶体衍射;核磁共振波谱学
其他方法:扫描隧道电子显微镜–圆二色谱一级数据库:直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。

二级数据库:在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。

序列比较的根本任务是:通过比较生物分子序列,发现他们之间的
相似性,找出序列之间共同的区域,同时辨别序列之间的差异。

同源性:是指序列们是由共同祖先进化而来,讲两条序列的同源关系,只有两种情况:同源、不同源。

相似性:指序列间的差别,是一个度量。

同源与相似的关系:一般认为序列相似性达到一定程度,即可认为是同源,但不绝对。

序列比对算法实现:点阵分析:寻找序列间可能的性状对位排列;寻找蛋白质、DNA序列中正向或反向重复;预测RNA中自补区域;直观,整体水平;动态规划算法:精确而全面,非常耗费资源;启发式算法
滑动窗口技术:使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。

动态规划算法计算过程:1计算过程从d 0 ,
0开始,2 可以是按行计算,每行从左到右,也可以是按列计算,每列从上到下。

3当然,任何计算过程,只要满足在计算d i , j 时d i-1 , j 、d i-1 , j-1、和d i, j-1都已经被计算这个条件即可。

3在计算d i , j 后,需要保存d i , j 是从d i-1 , j 、d i-1 , j-1、或d i, j-1中的哪一个推进的,或保存计算的路径,以便于后续处理。

上述计算过程到d m , n 结束。

最优路径求解:与计算过程相反,从d m , n 开始,反向前推。

基因的定义1、基因是一段与多肽链或功能RNA 产生有关的DNA 片段,包括编码区前的引导序列、编码区后的尾部序列、编码区内的插入序列和编码区序列。

基因的种类:结构基因、调控基因, rRNA 基因和tRNA 基因 启动子,操纵基因
因组(genome )是指一个细胞或病毒包含的全部遗传信息的总和。

TP (true positive ):实际编码区的核酸中被成功预测的核酸数目; TN (true negative ):实际非编码区的核酸中被成功预测的核酸数目; FN (false negative ):实际编码区的核酸中被误测为非编码的核酸数目; FP (false positive ):实际非编码区的核酸中被误测为编码的核酸数目。


感性
(sensitivity ,Sn ):FN TP TP
Sn +=
特异性(specificity ,Sp ):
FP TP TP Sp +=
FM 法:1.找出关系最近的序列对,如A 和B 2.将剩余的序列作为一个简单复合序列,分别计算A 、B 到所有其他序列的距离的平均值 3.用这些值来计算A 和B 间的距离
4.将A 、B 作为一个单一的复合序列AB ,计
算与每一个其他序列的距离,生成新的距离矩阵
5.确定下一对关系最近的序列,重复前面的步聚计算枝长
7.从每个序列对开始,重复整个过程
8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树
蛋白质亚细胞定位预测的方法 : 1)基于信号肽的方法来预测蛋白质亚细胞定位 (2)基于氨基酸组份或氨基酸物理化学性质的方法来预测蛋白质亚细胞定位 (3)基于蛋白质功能注解的方法来预测蛋白质亚细胞定位 (4)基于系统发生的分布图、结构域投影或结合进化和结构信息的方法来预测蛋白质亚细胞定位
Sn=TP/(TP+FN) 项目
Lengt h T P F
P
FN Sn Sp acc
ura
cy
ZCURVE_V 12 12 0 2 0.86 1 0.93 Glimmer NCBI
14
10 4 4 0.71 0.71 0.71 GeneMark
NCBI
9
9 0 5
0.64 1 0.8
2
核酸数据库:GenBank 、EMBL 、DDBJ
蛋白质序列数据库:SWISS-PROT 、PIR
蛋白质结构数据库:PDB。

相关文档
最新文档