山西师大郜刚生物信息学-05-2-NCBI-COG

合集下载

生物信息学方法在特定基因调控区识别和分析中的应用

生物信息学方法在特定基因调控区识别和分析中的应用

生物信息学方法在特定基因调控区识别和分析中的应用随着生命科学的发展,生物信息学方法在分子生物学研究中扮演着越来越重要的角色。

特定基因调控区(gene regulatory region)是指位于基因的上游或下游区域,包含了各种调控元件和转录因子结合位点,是基因表达调控的重要部分。

通过识别和分析这些调控区,可以深入了解基因表达的调控机制,并有助于发现新的治疗和预防疾病的方法。

本文将介绍生物信息学方法在特定基因调控区识别和分析中的应用。

1. DNA序列分析DNA序列分析是指对调控区DNA序列进行计算机处理,以识别其中包含的调控元件和转录因子结合位点,并预测它们对基因表达的影响。

这一过程可以借助许多生物信息学工具实现,如MEME和Weeder等。

这些工具可以进行模式识别和序列比较,从而发现DNA序列中的共同模式和保守序列。

2. ATAC-Seq技术ATAC-Seq技术是一种基于开放染色质的测序方法,用于研究特定细胞类型中基因调控区的开放度。

该技术可以利用转座酶插入开放染色质区域,然后通过PCR扩增和测序来分析这些区域的DNA序列。

通过露出的DNA序列,可以确定基因调控区的开放状态,并预测转录因子的结合位点。

3. CHIP-Seq技术CHIP-Seq技术是一种高通量测序方法,用于鉴定某种转录因子与调控区DNA 结合的位点及其相应的上游基因。

该技术利用可特异地识别转录因子的抗体,将与之结合的DNA序列片段分离出来,并通过测序来鉴定所结合的基因区域。

通过CHIP-Seq技术可以全面地鉴定基因的上游区域和下游区域中的转录因子结合位点,从而为研究基因调控提供基础数据。

4. Hi-C技术Hi-C技术是一种全基因组3D染色质拓扑结构的测序方法,可以用于分析基因调控区的空间结构和相互作用。

通过该方法,可以同时测定两个DNA序列片段之间的空间距离和它们之间的相互作用,从而构建基因组范围的联系图。

利用这一联系图,可以了解基因调控区在三维空间中的位置及其与其他基因区域的互动,从而发现新的调控元件。

郜刚分子生物学-06-DNA端粒的复制

郜刚分子生物学-06-DNA端粒的复制

3’ 5’ ...TTGGGGTTGGGGTTGGGGTTGGGGTTGGGGTT AACCCCAAC 3’ ...AACCCCAACCCC 5’ RNA template 3’
5’
端粒酶的爬行模型(动画演示) 端粒酶的爬行模型(动画演示)
母链藉非标准碱基配对回折
DNA聚合酶1970年Temin和Baltimore同时分别从 鸡)劳氏肉 年 同时分别从(鸡 劳氏肉 和 同时分别从 瘤病毒和小白鼠白血病病毒等致病RNA病毒中分 瘤病毒和小白鼠白血病病毒等致病 病毒中分 离出反转录酶,迄今已知的致癌RNA病毒都含有 离出反转录酶,迄今已知的致癌 病毒都含有 反转录酶。 反转录酶。
线性DNA复制后的问题 线性DNA复制后的问题
线性DNA复制后在其新生链的5’端总是留下一段空隙,即缩短 3’
5’
3’ 3’ 5’ 5’ 3’
5’ 引物 新生链
5’
3’
5’
3’
3’
5’
3’
5’
5’
两条模板链 各自复制
3’
5’
引物切除 留下空隙
3’
对于线性DNA来讲,复制时,由于受DNA聚合酶特性 限制,子代DNA链的最后一个片断去除引物后,无法 填补空隙,易造成子代DNA链的缩短。
线性线性dnadna复制后的问题复制后的问题线性dna复制后在其新生链的5端总是留下一段空隙即缩短两条模板链各自复制引物切除留下空隙引物新生链对于线性dna来讲复制时由于受dna聚合酶特性限制子代dna链的最后一个片断去除引物后无法填补空隙易造成子代dna链的缩短
线性染色体端粒 DNA的复制 DNA的复制
端粒复制的爬行模型
dGTP 5’ ...TTGGGGTTGGGGTTGGGGTTGG 3’ ...AACCCCAACCCC 5’ 3’ AACCCCAAC RNA template 5’ dGTP 5’ ...TTGGGGTTGGGGTTGGGGTTGGGGTT AACCCCAAC 3’ ...AACCCCAACCCC 5’ RNA template 3’ 5’ Telomerase

生物信息学实验指导

生物信息学实验指导

生物信息学实验讲义广东药学院生命科学与生物制药学院二○一一年三月目录实验1. 生物信息学数据库与软件搜索 (1)实验2.核酸序列的检索 (2)实验3. 核酸序列分析 (3)实验4.多重序列比对及系统发生树的构建 (5)实验5. PCR 引物设计及评价 (7)实验6.蛋白质序列分析和结构预测 (9)实验一生物信息学数据库和软件的搜索【实验目的】熟练掌握上网搜索生物信息学数据库和软件的方法及技能。

【实验内容】1、搜索生物信息学数据库或者软件数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。

核酸序列数据库有GenBank, EMBL, DDB等,蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。

另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。

2、搜索生物信息学软件生物信息学软件的主要功能有:分析和处理实验数据和公共数据,加快研究进度,缩短科研时间;提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能;蛋白高级结构预测。

生物信息学-06-1-NCBI-PubMed and PMC BMC

生物信息学-06-1-NCBI-PubMed and PMC BMC

Entrez的用途
• PubMed书目文献数据 • 获取GenBank, EMBL等数据库的核酸序列; • 获 取 Swiss-port,PIR,PRF,PDB 等 蛋 白 质 序 列;从核酸序列翻译到蛋白质的序列; • 蛋白质三维结构数据及大分子模式 (MMDB)等其他生物信息数据库检索 • 获取基因组图谱信息
• 国家生物技术信息中心(National Center for Biotechnology Information, 简称 NCBI) 是美国国家医学图书馆(NLM)的一部 分(该图书馆是美国国家卫生研究所的一部 分). • NCBI位于马里兰州的贝塞斯达, 建立于 1988年. NCBI保管GenBank的基因测序数 据和Medline的生物医学研究论文索引. 所
#4 Search child* aids prevent* Field: Title/Abstract,Limits:Review
检索式:(child* aids nursing) OR( #4)
规范化检索式: ( children aids nursing) OR (#4)
743
三、辅助检索区(2):
三、辅助检索(1): Limits
• 功能:
将搜索范围设定在一个特定的域
• • •
将搜索限定在某一语种出版的某一特定的文献类型
设定只搜索包含标题/摘要的文献 设定搜索范围为PubMed的一个子数据库 将搜索范围设定在特定的年龄组、性别组、人 类等
辅助检索区:预检( Preview/Index )
NCBI的四项计划
1. 2. 3. 4. 基本研究 数据库和软件 教育 训练
• NCBI有一个多学科的研究小组包括计算机科学家, 分子生物学家,数学家,生物化学家,实验物理 学家,和结构生物学家,集中于计算分子生物学 的基本的和应用的研究。这些研究者不仅仅在基 础科学上做出重要贡献,而且往往成为应用研究 活动产生新方法的源泉。他们一起用数学和计算 的方法研究在分子水平上的基本的生物医学问题。 这些问题包括基因的组织,序列的分析,和结构 的预测。

生物信息学 教学大纲

生物信息学   教学大纲

生物信息学一、课程说明课程编号:090248Z10课程名称(中/英文):生物信息学/Bioinformatics课程类别:选修学时/学分:32/2先修课程:数据结构、计算机程序设计基础、算法设计与分析、数据库原理适用专业:计算机科学与技术教材、教学参考书:1.琼斯,帕夫纳著,王翼飞等译,《生物信息学算法导论》,化学工业出版社, 2007年2.吴祖建, 高芳銮, 沈建国, 《生物信息学分析实践》, 科学出版社, 2010年3.刘伟, 张纪阳, 谢红卫, 《生命科学与信息技术丛书:生物信息学》,电子工业出版社,2014年4.M.泽瓦勒贝(Zvelebil.M.), JO.鲍姆编, 李亦学, 郝沛主译,《理解生物信息学》,科学出版社,2012年5.《探索基因组学蛋白质组学和生物信息学》, 坎贝尔,海尔著,孙之荣主译, 科学出版社, 2007年6.李霞,《生物信息学》,人民卫生出版社,2010年二、课程设置的目的意义生物信息学是生物学与信息科学交叉融合形成的新兴学科,是计算机专业的选修课程。

课程主要介绍生物信息学的基本概念和热点的计算问题,通过对生物信息学基础知识和相关数据库的介绍及序列比对、序列拼接、蛋白质结构与功能分析、生物网络分析及关键蛋白质与致病基因预测等生物信息学领域的热点计算问题的展开与探讨,引导学生全面认知和了解生物信息学的基本研究内容与研究方法、研究前沿问题和应用前景,把握国际学科发展脉搏,开拓学生的学术视野和培养学生初步具备创新科学研究的能力。

三、课程的基本要求按照本专业培养方案的培养要求,参照培养方案中课程体系与培养要求的对应关系矩阵,阐述本课程所承载的知识、能力和素质培养的具体要求。

本课程通过对生物信息学的基本概念和热点计算问题的学习,使学生熟悉、掌握生物信息学的基本术语、基本原理、基本研究方法、重要核酸和蛋白质数据库,了解生物信息学领域的前沿问题和主要技术,能运用已学的算法技术解决序列比对、序列拼接、蛋白质结构与功能分析、生物网络分析及关键蛋白质与致病基因预测等生物计算问题。

生物信息学重点

生物信息学重点

⽣物信息学重点⼀、名解1.⽣物信息学:(狭义)专指应⽤信息技术储存和分析基因组测序所产⽣的分⼦序列及其相关数据的学科;(⼴义)指⽣命科学与数学、计算机科学和信息科学等交汇融合所形成的⼀门交叉学科。

2.⼈类基因组测序计划:3基因组学:以基因组分析为⼿段,研究基因组的结构组成、时序表达模式和功能,并提供有关⽣物物种及其细胞功能的进化信息。

p1504基因组:是指⼀个⽣物体、细胞器或病毒的整套基因。

p1505.⽐较基因组学:是指基因组学与⽣物信息学的⼀个重要分⽀。

通过模式⽣物基因组之间或模式⽣物基因组与⼈类基因组之间的⽐较与鉴别,可以为研究⽣物进化和分离⼈类遗传病的候选基因以及预测新的基因功能提供依据。

p1666功能基因组:表达⼀定功能的全部基因所组成的DNA序列,包括编码基因和调控基因。

功能基因组学:利⽤结构基因组学研究所得的各种来源的信息,建⽴与发展各种技术和实验模型来测定基因及基因组⾮编码序列的⽣物学功能。

7蛋⽩质组:是指⼀个基因组中各个基因编码产⽣的蛋⽩质的总体,即⼀个基因组的全部蛋⽩产物及其表达情况。

p1798蛋⽩质组学:指应⽤各种技术⼿段来研究蛋⽩质组的⼀门新兴科学,其⽬的是从整体的⾓度分析细胞内动态变化的蛋⽩质组成成分、表达⽔平与修饰状态,了解蛋⽩质之间的相互作⽤与联系,揭⽰蛋⽩质功能与细胞⽣命活动规律。

9功能蛋⽩质组学:(功能蛋⽩质组,即细胞在⼀定阶段或与某⼀⽣理现象相关的所有蛋⽩)。

10序列对位排列:通过插⼊间隔的⽅法使不同长度的序列对齐,达到长度⼀致。

11 基因组作图:是确定界标或基因在构成基因组的每条染⾊体上的位置,以及同条染⾊体上各个界标或基因之间的相对距离。

p15512 后基因组时代:其标志是⼤规模基因组分析、蛋⽩质组分析以及各种数据的⽐较和整合。

p3⼆填空题1⽣物信息学的发展⼤致经历了3个阶段,分别为前基因组时代、基因组时代、后基因组时代。

p22后基因组时代的标志性⼯作是(基因组分析)(蛋⽩质组分析)以及(各种数据的⽐较和整合)p33前基因组时代的标志性⼯作是⽣物数据库的建⽴、检索⼯具的开发以及DNA和蛋⽩质的序列分析p2 4基因组时代的标志性⼯作是(基因寻找和识别)(⽹络数据库系统的建⽴)以及(交互界⾯的开发)p2 5 ⼈类基因组计划的⽬标是完成四张图,分别是(遗传图谱)(物理图谱)(序列图谱)和(基因图谱)5 HGP由六个国家完成,我国完成了HGP的(1%,即3号染⾊体上3000万个碱基)的测序⼯作。

郜刚分子生物学02染色体1染色体和DNA结构

–另一方面,非姊妹染色单体间的交叉 导致同源染色体间的片段交换 (exchange of segment),使子细胞的 遗传组成更加多样化,为生物变异提供 更为重要的物质基础(染色体片断重组, recombination of segment)。同时这 也是连锁遗传规律及基因连锁分析的基 础。
为什么染色体如此重要?
■5 组蛋白的可修饰性
简述真核生物染色体上组蛋白的种类,组蛋白修 饰的种类及其生物学意义 中国科学院2003年硕士研究生入学《生物化学与 分子生物学》试题
• 作业: • 1、上网查5种组蛋白的氨基酸序列, • 2、上网查5种组蛋白的基因的碱基序列 • 3、上网查5种组蛋白的三维结构 • 4、20种氨基酸的分类、特征、缩写
6 组蛋白的可修饰性
在细胞周期特定时间可发生甲基化、乙酰化、 磷酸化和ADP核糖基化等。H3、H4修饰作用较普
遍,H2B有乙酰化作用、H1有磷酸化作用。
修饰作用共同的特点,即降低组蛋白所携带的正电荷。 这些组蛋白修饰的意义:一是改变染色体的结构,直接 影响转录活性;二是核小体表面发生改变,使其他调控 蛋白易于和染色质相互接触,从而间接影响转录活性。
• 特定时期的特殊形式
• 染色体这一概念除指真核生物细胞分 裂中期具有一定形态特征的染色质外, 现在已扩大为包括原核生物及细胞器 在内的基因载体的总称。大部分原核 生物的染色体形态比较简单,它只是 一条裸露的或与少数蛋白质结合的DNA 或RNA双链或单链分子
• 染色体在复制之后.含有纵向并列的 两条染色单体(chromatids),由着丝 粒(centromere)联在一起(图)。每一 染色单体的骨架是一条连续的DNA分子, 一般认为细胞分裂中期时看到的染色 单体就是由一条DNA蛋白质纤丝重复折 叠而成的。

生物信息学分析方法

核酸和蛋白质序列分析蛋白质, 核酸,序列关键词: 核酸序列蛋白质序列分析软件在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。

通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。

通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。

通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测.尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。

此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。

上述技术路线可为其它类似分子的生物信息学分析提供借鉴.本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(http://。

cn/science/bioinfomatics.htm),可以直接点击进入检索网站.下面介绍其中一些基本分析。

值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。

(一)核酸序列分析1、双序列比对(pairwise alignment)双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith—Waterman算法为代表。

由于这些算法都是启发式(heuristic)的算法,因此并没有最优值.根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。

郜刚分子生物学-14-真核基因表达调控-5-激素和其他水平上的调控


1. 激素对靶基因的影响
• 固醇类激素的受体蛋白分 子有相同的结构框架,包 括保守性极高并位于分子 中央的DNA结合区,位于 C端的激素结合区和保守 性较低的N端。如果糖皮 质激素受体蛋白激素结合 区的某个部分丢失,就变 成一种永久型的活性分子。
2. 热激蛋白诱导的基因表达
• 能与某个(类)专一蛋白因子结合,从而控制基因特异表 达的DNA上游序列称为应答元件。应答元件主要有:
– 第一种简单转录单位,如组蛋白基因,它们没有内含子,因此不存 在转录后加工问题,其mRNA3’末端没有poly(A),但有一个保守的 回文序列作为转录终止信号。 – 第二种简单转录单位包括腺病毒蛋白IX、α-干扰素和许多酵母蛋白 质基因,它们没有内含子,所编码的mRNA不需要剪接,但需要加 poly(A)。 – 第三种简单转录单位包括α和β-珠蛋白基因及许多细胞蛋白基因,这 些基因虽然都有内含子,需要进行转录后加工剪接,还要加poly(A), 但它们只产生一个有功能的mRNA,所以仍然是简单转录单位。
8.6其它水平上的基因调控
1. RNA的加工成熟
• 各种基因的转录产物都是RNA,无论是rRNA、tRNA还是 mRNA,初级转录的产物只有经过加工,才能成为有生物功 能的活性分子。 1.1 rRNA和tRNA的加工成熟 • rRNA加工有两个内容,一个是分子内的切割,另一个是化 学修饰。真核生物的rRNA基因转录时先产生一个45S的前体 rRNA,然后前体rRNA很快就会被加工降解,生成不同相对 分子质量的成熟rRNA。rRNA的化学修饰主要是核糖甲基化。 • tRNA基因转录时也可能先生成前体tRNA,tRNA基因的初级 转录产物在进入细胞质后,首先经过核苷的修饰,生成4.5 S 前体tRNA,再剪接成为成熟tRNA(4S)。

生物信息学考查作业


作业分解
• 1、现有10条基因,全班分成10组,每组做 1条基因,每组4个人,每组16道题,每人 完成4道不同的题 • 2、要求:按照提供的gene accession number的分子质量、 碱基组成、碱基分布、酶切、简要过程 2.碱基同源性分析:网站如下:/BLAST/, 程序、参数、结果、简要过程 3.开放性阅读框分析:利用NCBI的ORF Finder程序对man做开放性阅读 框分析,网址如下: /projects/gorf/orfig.cgi要求:参数、结果、 简要过程 4.蛋白质序列的结构功能域分析:要求用简单模块构架搜索工具SMART 对上述ORF蛋白质序列进行结构功能域分析。网址如下: http://smart.embl-heidelberg.de/,要求结果、参数、简要过程 5.氨基酸同源分析:要求运用NCBI的BLAST程序对此蛋白质序列进行分 析:要求:参数、结果、过程 6.同源物种分析:要求根据上述分析列出该蛋白质的同源物种至少5个, 要求名称、学名 7.蛋白质一级序列的基本分析:要求运用BioEdit对该基因编码的蛋白质 基本信息如分子量、等电点、氨基酸组成等作出分析。 8.信号肽预测:要求利用signal p预测,分析结果、写出简要过程,网址 如下:http://www.cbs.dtu.dk/services/SignalP/
• • • • • •
• •
• •
• •
• •
nnpredict nnpredict 算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Kneller 等,1990)。在预测时,服务器使用 FASTA 格式的文件,其中 有单字符或三字符的序列以及蛋白质的折叠类(α 、β 或α /β )。残基被分为几类:α 螺旋(H)、β 叠片(E)或其它(-)。若无法对某残基给出预测, 则会标上问号(?),这说明无法做出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。 据报道,对于最佳实例的预测,nnpredict 的准确率超过了 65%。序列通过向 nnpredict@ 发送电子邮件或是填写网上的表提交给 nnpredict。 PredictProtein PredictProtein(Rost 等,1994)在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在 SWISS-PROT 库中搜索相似的序列。当相似的 序列被找到后,一个名为 MaxHom 的算法被用来进行一次基于特征简图的多序列比对(Sander 和 Schneider,1991)。 MaxHom 用迭代的方法来构造比对:当第一次搜索 SWISS-PROT 后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这 个简图又被用来在SWISS-PROT 中搜索新的相似序列。由 MaxHom 产生的多序列比对随后被置入一个神经网络,用一套称为 PHD(Rost,1996)的方 法进行预测。PHD 这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型,它还对序列上每个位点的预测可信度给予统计分析。该方法的平均 准确率超过 72%,最佳残基预测准确率达 90%以上。 向 PredictProtein 提交数据可以通过电子邮件,也可以在网上提交。上交序列的时候可以有几种选择,序列可以是单个字母的氨基酸代码,也可以带 SWISS-PORT 标识符。另外,FASTA 格式的多序列比对或 PIR 比对也可以被提交,以进行二级结构预测。输入的序列发送给predictprotein@emblheidelberg.de。 输出结果内容很多并包含大量有关信息。其中有 MaxHom 搜索结果,并包括多序列比对的结果,它可以用于例如基于特征简图的搜索或物种谱系分析等 进一步研究。如果提交的序列在 PDB 库中有已知同源蛋白,则其 PDB标识号也会输出返回。随后是方法本身信息,最后是实际预测结果。输出结果还可 以被用户自己来指定。与 nnpredict 不同,PredictProtein 还返回每个位点的“预测可信度索引”,范围从 0 到 9,9 具有最高的可信度,也就是说该位点 所分配的二级结构类型是正确的 PREDATOR PREDATOR 算法通过对氨基酸序列中潜在的氢键残基的识别来预测二级结构。它使用源自数据库的统计数据,具体地说是对在不同种氢键结构中残基种 类出现的统计。这种方法的新特征是,它依靠局部的双序列比对来预测每个相关序列。这个程序的输入可以是单个序列,也可以是一组没经过比对的相关 序列。序列可以通过给predator@embl-heidelberg.de 发电子邮件或是在网上直接提交。输入序列可以是 FASTA、MSF 或 CLUSTER 格式。PREDATOR 对三种结构预测的平均准确率是,对单个序列为 68%,对一组相关的序列为 75%。 PSIPRED PSIPRED 方法是由英国 Warwick 大学开发的,使用 PSI-BLAST先在数据库中搜索序列的相似蛋白,构建多序列比对,然后进行预测。PSIPRED 用两 个前向神经网络对来自 PSI-BLAST 的特征图进行分析。序列可以通过互连网用简单的单字母格式或是 FASTA 格式提交,PSIPRED 的预测结果通过电 子邮件以文本文件形式发送回来。另外,在电子邮件中会给出一个网址,到那里可以看到被预测蛋白质的图象表示,可视化是用 JAVA 应用程序 PSIPREDview 实现的。PSIPRED 的平均预测准确率为 76.5%,比这里介绍的其它方法都要高。 SOPMA 位于法国里昂的 CNRS ( Centre National de la RechercheScientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的 方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:Garnier-Gibrat-Robson(GOR)方法(Garnier等,1996)、Levin同源预 测方法(Levin等,1986)、双重预测方法(Deléage和Roux,1987)、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法 (Geourjon和Déleage,1995)。SOPMA这种自优化的预测方法简要的建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的 二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Selecting COGs How can a particular set of COGs be selected? Are there ways to combine criteria to select a subset of COGs?
COG names What should I know about COG names? What do the various abbreviations in COG names stand for? Protein names What should I know about protein names? What is the significance of an underscore and a number appended to a protein name? How were genes named with respect to the species of origin? Terminology/Glossary What terminology will I need to know to use these pages effectively?
实质 Phylogenetic classification of proteins encoded in complete genomes
缘起
/COG 大范围重视是从NCBI建立蛋白质直系同源簇 数据库的时候。 最初,蛋白质直系同源簇(COGs)数据库是对 细菌、藻类和真核生物的21个完整基因组 的编码蛋白,根据系统进化关系分类构建 而成。
什么是COG?
• “COG”是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇,蛋白质直系 同源簇)的缩写。
COG
• 蛋白质直系同源簇(COGs)数据库是对细菌、藻类 和真核生物的66个(截止到2009年9月9日)完整基 因组的编码蛋白,根据系统进化关系分类构建而 成。 • COG库对于预测单个蛋白质的功能和整个新基因 组中蛋白质的功能都很有用。 • 利用COGNITOR程序,可以把某个蛋白质与所有 COGs中的蛋白质进行比对,并把它归入适当的 COG簇。 • COG库提供了对COG分类数据的检索和查询,基 于Web的COGNITOR服务,系统进化模式的查询 服务等。
• 在COGnitor中输入氨基酸序列,然后点击 compare to COGs
Saccharomyces cerevisiae Alcohol dehydrogenase
• mssvtgfyip pisffgegal eetadyiknk dykkalivtd pgiaaiglsg rvqkmleerd lnvaiydktq pnpnianvta glkvlkeqns eivvsigggs ahdnakaial latnggeigd yegvnqskka alplfaintt agtasemtrf tiisneekki kmaiidnnvt pavavndpst mfglppalta atgldalthc ieayvstasn pitdacalkg idlineslva aykdgkdkka rtdmcyaeyl agmafnnasl gyvhalahql ggfyhlphgv cnavllphvq eanmqcpkak krlgeialhf gasqedpeet ikalhvlnrt mniprnlkel gvktedfeil aehamhdach ltnpvqftke qvva联系
同源性是要用相似性来描述的。 • 当相似程度高于50%时,比较容易推测检测序列 和目标序列可能是同源序列;而当相似性程度低 于20%时,就难以确定或者根本无法确定其是否 具有同源性。 • 但是类似于“具有xx%同源性”,或“这些序列 高度同源”等说法,都是不确切的,应该避免使 用。 • 要么同源,要么不同源,没有高度低度之分。
鸟类 蛙类
蜥蜴
肱骨
人类
猫科
脊椎动物除了鱼类之外,是两栖类、爬虫 鲸类 类、哺乳类及鸟类在演化是具有系统性的, 其同源器官(homologous organs)即使 功能不同但在结构上仍保有原本的原始架 构。其外观上的差异仍是建立于原始架构 之上。进化上强调了结构的相似性
蝙蝠
尺骨 桡骨 腕骨
种系发生学,进化,强调结构的相似 性,不强调功能的相似性
关于“同源”的解释
homologs orthologs orthologs
paralogs
frog A
chick A
mouse A
mouse B
chick B frog B
A-chain gene
B-chain gene
gene duplication
early globin gene
Introduction to COGs
生物信息学中的同源
• 生物信息学中,尤其是比较基因组学中, 涉及到蛋白质和DNA的同源性时,常常通 过它们序列结构的相似性来判定,并且强 调结构相似、功能相似、进化上来源的祖 先的相似。 • 考虑的比较多,比较麻烦 ,homolog因此 就有了Ortholog和 Paralog之分。 • 所以我们要澄清的有几个方面:
旁系同源(paralogy)
• 是指同一基因组(或同系物种的基因组)中, 由于某个始祖基因的加倍(复制)而横向 (horizontal)产生的几个同源基因。 • 有平行的意思
同源
直系同源
旁系同源
直系同源
• 直系与旁系的最大的共同点是同源,都源于各自 的始祖基因。 • 其区别在于:在进化起源上,直系同源是强调在 不同基因组中的垂直传递,旁系同源则是在同一 基因组中的横向加倍;在功能上,直系同源要求 功能高度相似,而旁系同源在定义上对功能上没 有严格要求,可能相似,但也可能并不相似(尽管 结构上具一定程度的相似),甚至于没有功能(如 基因家族中的假基因)。旁系同源的功能变异可能 是横向加倍后的重排变异或进化上获得了另一功 能,其功能相似也许只是机械式的相关 (mechanistically related),或非直系同源基因取 代新产生的非亲缘或远缘蛋白在不同物种具有相 似的功能。
相似性是指序列比对过程中用来描述序列之间相同 DNA碱基或氨基酸残基顺序所占比例的高低。 • 相似性不要求与进化起源是否同一,不要求与亲 缘关系的远近,不要求与结构、功能有什么联系。 • 而同源就恰好相反,它要强调这些。 同源或者同源序列,是指从某一共同祖先经趋异进 化而形成的不同序列。同源性可以用来描述染色 体—“同源染色体”、基因—“同源基因”和基因 组的一个片断—“同源片断”
生物信息学中的同源有两类
同源
Homolog
直系同源
Ortholog Paralog
垂直方向的
旁系同源
水平方向的
Orthology通常译作直系同源、直向同源、垂直同源; Paralogy通常译作旁系同源、并系同源、横向同源。
直系同源(orthology)
• 是比较基因组学中最重要的定义。直系同 源的定义是: • 在进化上,同一个始祖基因垂直传递 (vertical descent)的到两种或两种以上物种 的基因组,结构上高度相似,功能上高度 保守乃至相同,甚至在近缘物种可以相互 替换; 而且在发育上具有组织特异性与亚 细胞分布相似。
9、鉴定直系同源的实际操作标准 (practical criteria)
如基因组Ⅰ中的A基因与基因组Ⅱ中的A„基因 被认为是直系同源,则要求: • (1)A„的产物比任何在基因组Ⅱ中所发现的 其它基因产物都更相似于A产物; • (2)A„与A的相似程度比在任何一个亲缘关系 较远的基因组中的任一基因都要高; • (3)A编码的蛋白与A„编码的蛋白要从头到尾 都能并排比较,即含有相似以至于相同的 模序(motif)
• 同源这一概念需与相似区分开来。 • 比如说,昆虫的翅膀、蝙蝠的翅膀和鸟类 的翅膀是功能相似的,但却不同源,这种 现象被称为非同源相似(或同形质,英文: Homoplasy)。这些相似的结构由不同的 渠道演化而来,这种演化过程叫做趋同演 化。
遗传学中的同源
• 在经典遗传学中,同源这一概念既不强调 结构相似性,也不强调功能相似性,只是 强调亲子关系的有无或者亲缘关系的远近。 • 比如同源染色体,异卵双生、同卵双生的 双胞胎等。 • 只有当遗传学中涉及到DNA水平的序列时, 才逐渐强调了DNA结构的相似性。
浏览NCBI-COG网站
基本上是原核生物的
真核生物的
原核生物的COG
真核生物的COG
• Clusters of orthologous groups for eukaryotic complete genomes
拟南芥ath 线虫cel 果蝇dme 人hsa 面包酵母sce 裂殖酵母spo 微孢子虫ecu
生物信息学课件 郜刚 EST对应基因产物的系统分析— COG分析
观点
• 祖先序列在漫长的进化过程中,可能产生 直系同源和旁系同源两类蛋白质。 • 直系同源:简而言之,由不同物种的垂直 家系进化而来的蛋白质,具有祖先蛋白质 类似的功能 • 旁系同源:从相关物种基因组中复制的蛋 白质,可能会产生新的功能
种系发生学中的同源(Homology)
• 传统的种系发生学是研究生物的形态结构为主的, 所以认为如果两个或多个结构具有相同的祖先, 则称它们同源(Homology)。
• 这里相同的祖先既可以指进化论意义上的 祖先,即两个结构由一个共同的祖先进化 而来(翅膀与手臂是同源的),强调了结 构的相似性,不强调功能的相似性 • 也可以指发育意义上的祖先,即两个结构 由胚胎时期的同一组织发育而来(乳房与 睾丸同源)。
COG数据
• 构成每个COG的蛋白都是被假定为来自于一个祖 先蛋白,并且因此或者是orthologs或者是 paralogs。 • Orthologs是指来自于不同物种的由垂直家系(物 种形成)进化而来的蛋白,并且典型的保留与原 始蛋白有相同的功能。 • Paralogs是那些在一定物种中的来源于基因复制 的蛋白,可能会进化出新的与原来有关的功能。 。 • 都是homeolog
相关文档
最新文档