可变剪接与蛋白质组多样性及其调节机制
一种面向生物基因组可变剪接问题的网络并行求解方案

计算机研究与发展ISSN 100021239ΠCN 1121777ΠTPJournal of Computer Research and Development 44(10):1682~1687,2007 收稿日期5;修回日期3 基金项目国家“八六三”高技术研究发展计划基金项目(6Z33);国家自然科学基金重大项目();国家自然科学基金面上项目(633);国家科技基础条件平台建设基金项目(5D K 6)一种面向生物基因组可变剪接问题的网络并行求解方案徐国市 鲁发凯 许卓群 余华山 丁文魁(北京大学信息科学技术学院 北京 100871)(xuguoshi @gmail 1com )A N et w or k Pa rallel Comput ing Scheme f or A lter nat ive Splicing of Biology G enomeXu G uoshi ,Lu Fakai ,Xu Zhuoqun ,Yu Huashan ,and Di ng Wenkui(Scho ol of Elect ronics Engineering a nd Computer Science ,Peking U niversity ,Beijing 100871)Abstra ct Alternative splicing is a major mechanism for adj ust ing gene expression and generati ng protei n diversity ,which has i mport ant biological significance 1Wit h t he rapid increase of biological dat a ,t he si ngle comput er can hardly meet t he requirement for massive c omput ing power of alternative splicing research works 1In such context ,a network parallel comput ing scheme for alt ernati ve splicing problems is presented 1Wit h careful c onsideration of challenges ,a service 2oriented network resource vi rt ualization mechanism i s designed ,which provides uniform selection ,access and monitoring i nterfaces to network resources 1Furt hermore ,a suit e of API provides user 2oriented application layer support ,which hides the det ails of accessing network resources ,and support quick and efficient applicat ion development 1K ey w or ds parallel computi ng ;net work c omput ing ;alternative splicing;resource vi rt ualization ;service oriented architect ure (SOA )摘 要 生物基因的可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,具有重要的生物学意义1随着生物数据的快速增长,单机计算环境难以满足可变剪接研究所需要的超大计算能力1为了解决这一问题,提出了一种面向生物基因组可变剪接问题的网络并行求解方案1它充分考虑了可变剪接问题的挑战,设计了面向服务的网络资源虚拟化方案,提供了对网络资源一致的选择、访问、监控接口1通过一组API 提供了面向用户的应用层支持,屏蔽了访问网络资源的细节,支持用户快速有效的开发应用程序1关键词 并行计算;网络计算;可变剪接;资源虚拟化;面向服务的体系结构中图法分类号 TP393 可变剪接[1]是指从一个m RNA 前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的m RNA 剪接异构体的过程1可变剪接的研究具有重要的生物学意义1首先,一个基因通过可变剪接产生多个转录异构体,各个不同的转录异构体编码结构和功能不同的蛋白质,它们分别在细胞Π个体分化发育不同阶段,在不同的组织,有各自特异的表达和功能1因此,可变剪接是一种在转录后RNA 水平调控基因表达的重要机制1其次,可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制,蛋白质组的多样性与多细胞高等生物的复杂性相适应1从可变剪接涉及的基因分布格局分析,可变剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体、信号传导通路(凋亡)、转录因子等1对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴奋等的精确调控有重要意义1目前,可变剪接的研究重点是基于高通量的基因组测序和ES T 测序[1],通过生物信息学的方法,:2007-02-2:2007-07-0:200AA 0249041201000001200A 4001对基因组的可变剪接形式进行分析预测1这样的研究方式需要大量的计算能力,其计算工作具有如下特点:1)需要处理的基因数目众多1例如,人类基因组大约有35000条基因,小鼠大约有36000条,果蝇大约有14000条1多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示,约35%~60%的人基因有可变剪接形式12)作业的计算规模极不平衡1多数基因可以在几秒内完成,但有一部分基因由于比较复杂,ES T 测序信息非常多,导致运行时间很长,有的甚至需要几十个小时1例如,果蝇的pa ra基因有13个可变外显子,可编码1536种不同的mRNA1另外,pa ra 的转录体还要经过11个已知位点的RNA编辑,理论上一共可以产生1032192个不同的para转录异构体13)需要周期性运行1随着新的ES T数据的测得,需要定期重复运行,以获得最新的预测结果1目前,循环运行的周期通常为3个月1上述特点使得在单台计算机上实施可变剪接的预测计算需要运行非常长的时间,难以满足研究人员的需求1随着并行计算技术,特别是诸如P2P、CORBA、网格计算[226]等基于网络的并行Π分布式计算技术的发展,使得通过网络协调多个计算节点共同实施可变剪接的预测计算成为可能1众多的研究团体都提出了基于网络解决大型复杂科学问题的方案1Condor2G[7]通过计算管理代理将G lobus[6]和C ondor[7]联合起来,使得用户可以访问多个域的资源1织女星网格系统VE G A[8]提供了完整的网格软件套件,包括网格操作系统G OS,信息系统V I G,网格服务标记语言GSML[9]和业务端编程语言V INCA1中国教育科研网格公共支撑平台C GSP[10]通过屏蔽网络资源的异构性和动态性,为各种科学计算与工程研究提供高性能、高可靠的、安全方便的透明网格服务1CROWN[11]建立了一个基于服务的科学活动环境综合实验平台,主要提供了资源能力的描述与发布、自动的服务发现和服务交互1网络资源的异构性、动态性和自治性[223]给分布式系统造成了极大的挑战1这些挑战有的是分布式计算技术所共同面对的,如资源的透明访问、资源发现和监控机制、安全、数据传输[23]等1这些问题在众多的分布式系统中得到了广泛深入的研究1而有些挑战是由可变剪接问题自身产生的1这些挑战主要表现在如下几个方面:①极不平衡的作业计算规模对作业调度效率的挑战1对于那些运行时间很短的作业,作为一个独立的调度单位,调度时间可能远大于作业自身的执行时间1因此,需要建立一种适当的调度机制,使得可以将多个小作业打包成一个较大的作业来调度1而对于那些本身就很大的作业,则不能打包,而是要直接进行调度,从而保证调度的高效1②长时间运行作业对运行稳定性的挑战1由于真核生物基因数目都很大,动辄上万,而每个基因都是一个可以独立运行的作业1如此众多的作业通常需要数周甚至上月的时间才能完成1如此长时间的运行,除了资源的高可靠性以外,还需要运行环境有强大的容错能力,以保证运行的稳定性1③频繁的文件传输对总体运行效率的挑战1由于基因数据和ES T数据都以文件的形式保存,运行过程中需要大量的文件传输1对于那些较小的作业,文件传输的时间消耗就显得非常可观1因此,需要采取措施,减少文件传输时间在总运行时间中的比重1为了应对上述挑战,在分析了可变剪接的问题特点后,我们提出了一种面向生物基因组可变剪接问题的网络并行求解方案1它利用以服务来标准化资源访问接口的优势,在充分分析了生物信息学领域应用程序和软件特点的基础上,建立了面向服务的资源虚拟化方案,提供了统一、透明的资源信息收集、定位、访问、监控接口1同时,在应用层提供了一套API,用以屏蔽访问网络资源的细节,帮助用户快速有效的开发应用程序11 面向服务的资源虚拟化方案在可变剪接问题的求解过程中涉及到的资源包括计算节点等硬件资源、程序等软件资源以及基因数据、EST数据等数据资源1在基于网络的求解环境中,普遍采用的方式是对这些资源进行虚拟化或抽象化,从而支持全局统一的资源发现和监控机制,以及对资源的一致访问接口1基于Web服务规范[3,5],我们设计了面向服务的资源虚拟化方案1资源的虚拟化方案主要由3个服务构成:111 信息服务信息服务负责收集资源信息,并支持为作业选择合适的资源1根据资源的种类,信息服务的内容由3部分构成3861徐国市等:一种面向生物基因组可变剪接问题的网络并行求解方案2:1)硬件资源信息1包括CPU 、内存、硬盘等信息,遵循普遍采用的抽象计算存储资源模型G LUE [12]12)软件资源信息1基于我们的分析,目前生物信息学领域的应用程序和各种软件包主要采用命令行的形式运行,输入Π输出主要通过命令行参数和文本文件来完成,有时通过特定环境变量来传递参数1这样的运行方式在作业执行过程中基本没有交互的需求,因此通过抽象“运行脚本或可执行程序+命令行参数+环境变量”的方式,可以为软件资源建立一致的抽象描述模型1特别地,相对于本地运行环境,网络运行环境中文件参数指定的不再是本地文件,而是任何网络可达的节点上的数据文件13)数据资源信息1生物信息学领域大量的生物信息被以特定格式的数据文件存放,而且这些数据会不断增加,如BLAST [13]使用的NT ΠNR ΠSWISS [13]数据库、可变剪接使用的EST 数据库G enBank [13]等1许多生物信息学的应用程序或工具都是基于某些数据库运行1由于这些数据库通常是一些公共数据,而且规模比较大,因此一般作为资源提供,而不是由用户在提交作业时即时导入1数据资源的信息主要包括数据库名称、保存的文件名称、大小、版本等信息1上述3类资源信息通过各个节点上的本地信息服务被聚集到中央信息服务,中央信息服务据此为作业提供资源选择支持1资源的具体选择策略由应用层决定,信息服务的资源选择功能负责根据资源选择策略返回适当的可用资源集合1112 资源代理服务以往,在面向科学计算的网络应用中,对网络资源的使用通常表现为直接的远程程序执行1这种方式虽然效率较高,但难以适应异构、动态的网络环境,操作起来也较为底层、繁琐,难以进行有效的管理1而将网络资源虚拟化成Web 服务的方式,通过提供标准的服务接口,可以为用户提供对各种资源的一致、透明的访问方式1在本方案中,网络中的计算资源被虚拟化成统一的资源代理服务1资源代理服务负责接收用户提交的作业,并将其解析成对本地程序的调用执行,然后将执行结果返回给用户1资源代理服务屏蔽了诸如体系结构、操作系统、作业管理机制等资源的内部细节,为用户提供了统一的资源视图,用户通过一致的操作原语来访问、操作资源,同时也为全局的作业调度提供了有效的支持1从作业运行时的角度来看,作业被提交给资源代理服务后,通常要经历如图所示的几个阶段1Fig 11 The states of jobs 1图1 作业的状态转化 1)作业开始处于等待状态(waiti ng ),如果资源空闲,则立刻进入执行流程12)执行流程首先是输入文件的准备(file St age In)1位于远程的输入文件此时通过文件传输服务被导入到本地1通常输入文件都存放于数据中心的用户数据空间内13)完成文件导入后,代理服务向本地作业管理系统提交相应的运行脚本,作业进入执行状态(executing)1特别地,在支持资源预约的作业管理系统中,如PBS [14],L SF [15],用户可以通过资源预约接口提前预约资源,从而保证作业的资源需求得到满足14)程序执行完毕,代理服务需要将输出文件通过文件传输服务传送到用户指定的位置(file St ageOut),通常也是用户的数据空间15)上述2)~4)顺利完成后,整个作业就成功完成了(finished)1否则,出现任何不可恢复的意外,如资源无法获得、程序执行错误、无法导入Π导出数据等,都将导致作业失败(failing )1113 作业监控服务作业监控服务负责监视作业执行过程中的状态变化1在并行的网络计算环境中,同时会有多个作业在运行1这些作业的状态信息需要被及时地收集起来,以便用户能够实时地获取作业的状态信息1在信息收集机制上,通常有“推Π拉”两种方式1作业监控服务采用的是“推”方式1当作业的状态发生变化时,资源代理服务会向作业监控服务发出一个状态变化的通知,从而更新该作业的状态1在作业提交时,资源代理服务需要将该作业注册到作业监控服务里去,以便监控服务可以收到资源代理服务发来的作业状态变化通知1 面向用户的应用层支持从用户角度出发,应用层的工作主要集中于帮4861计算机研究与发展 2007,44(10)12助用户快速、方便的构造基于网络的并研可变剪接应用1通常情况下,用户关心的不是作业在哪里执行、作业的具体执行流程,而是作业的执行状态、执行时间、如何获得执行结果等因素1因此,作业所使用资源的选择、作业的调度、作业和资源状态的监控、容错处理等对用户应该是透明的1为此,我们提出了如下的应用层支持的目标:①管理应用使用远程资源过程中的上下文环境;②提供对远程资源方便的请求、定位、使用接口;③支持对网络计算作业的一致描述;④支持对远程资源的分组聚集管理;⑤提供灵活的资源使用策略1上述目标主要通过一组应用开发API来保证:1)应用上下文环境(ApplicationContext)1每个可变剪接应用都对应一个应用上下文环境1应用运行之前上下文环境被初始化,包括应用的惟一编号、用户信息、用户个人数据空间信息等1在应用运行过程中,应用所访问的资源的信息、提交的作业的状态信息等都会被上下文环境纪录下来1应用执行结束,需要保存的信息被持久化到数据库中,上下文环境被释放12)全局文件(G lobal File)1描述网络环境中的一个文件或者目录1由于系统中涉及到大量的非本地文件传输,需要对网络环境中的文件或目录进行一致的描述,因此定义全局文件1全局文件由主机地址、本地目录、文件名3部分构成,当文件名为空时,表示一个网络目录13)作业(job)和作业组(Job G roup)1作业是对远程程序的一次执行过程1作业对象是对需要在远程资源上运行的计算任务的一致描述,包括需要运行的程序及其分类信息、程序运行参数的设定(一般字符参数,输入Π输出文件参数)、标准输入Π输出Π出错的管道文件信息等1程序及分类信息由信息服务的模板来统一指定1对于需要作业提供的一般字符参数,用户可以在应用里直接指定1而对于非本地的输入Π输出文件参数,需要使用G lobalFile来指定1管道文件定义了标准输入Π输出Π出错的保存位置1通常,一个作业的执行过程就是对资源代理服务的一次访问过程1但是,由于可变剪接问题所处理的作业规模非常不均匀,大部分作业的规模都很小,使得服务调用流程在整个执行时间中的比重很大,并行的优势不明显1为此,我们提出了作业组的概念1一个作业组由多个作业构成1对于那些规模较小的作业,可以将多个作业打包成一个作业组1把作业组提交给资源代理服务,而不是作业1这样,资源代理服务可以将作业组内所有作业的输入文件一次导入,执行完后,再把输出文件一次导出,节省了频繁的启动传输服务的时间,从而提高了并行的效率14)资源(resource)1资源表示远程计算机上的一个作业运行环境1这个运行环境提供了运行特定程序所需要的完备的软硬件资源,如C PU、内存空间、磁盘空间、环境变量、程序进程等1可变剪接应用通过向合适的资源提交作业来实现对远程资源的使用1资源为用户提供了提交作业、查询作业状态、回收作业、释放资源等操作1同时,资源也纪录了在其生命周期内所运行过的所有作业的相关信息15)资源集(ResourceSet)与资源请求(Resource2 Request)、资源策略(Resource P olicy)1可变剪接应用通常需要处理数以万计的基因数据,而且每个基因数据都是独立的作业,因此,可以并行的使用多个相同性质的资源来运行作业1资源集就是一组同质资源的集合1资源请求描述了作业对资源的要求,如需要运行的程序、可用CPU数目、空闲存储空间大小等1用户将设定好的资源请求提交给信息服务的资源选择接口,信息服务则返回一个资源集1资源集里包含了符合条件的资源1另外,可以为资源集设定资源策略1资源策略定义了资源集的一些条件规则1例如,可以设定资源集的最大资源数m,这样信息服务在选择资源时最多返回m个资源,而不是所有符合条件的资源1又例如,可以设定资源集的最小资源数n及其动作,这样当运行过程中由于某些意外情况使得资源集中的有效资源少于n时,资源集就可以按照设定的资源策略向用户发出通知或者自动去寻找新的可用资源1F1 T f I1图 几个重要I的相互关系上述API的关系如图2所示1A pplicationC ontext 记录了应用运行过程中所有的上下文信息1多个Job 可以打包成一个JobGroup1Job和Job G roup都可以提交到Resource去执行1一个ResourceSet包含多5861徐国市等:一种面向生物基因组可变剪接问题的网络并行求解方案ig2he relatio n o main A P s2A P个Resource1而ResourceSet的创建和使用由ResourceRequest和ResourcePolicy来约束1图3以伪码的形式描述了一个可变剪接应用的形式1应用首先初始化上下文环境(①),然后设定资源需求和资源策略(②,③)1信息服务根据设定好的资源需求和资源策略创建合适的资源集(④)1然后,只要作业列表中还有未被提交的作业,就向资源集以阻塞的方式请求一个空闲的资源(⑤)1成功获得资源后,作业就被提交到该资源上去运行(⑥)1最后,上下文环境被释放(⑦),应用运行结束1 Applicatio nContext ac=new ApplicationC o nt ext();ΠΠ①…ResourceReques t rq=new Res ourceRequest();ΠΠ②…ResourceP olicy rp=new R es ourcePol i cy();ΠΠ③…ResourceSet rs=new R es ourceSet(rq,rp);ΠΠ④while(jobLi s t1size()!=0){ newJob=jobLi s t1getJob(); i dleResource=rs1get IdleResource();ΠΠ⑤ i dleResource1submit(newJob);ΠΠ⑥}ac1fi nal ize();ΠΠ⑦Fig13 The main flow of alternative s plicing application1图3 可变剪接应用的主要流程3 实现与结论Harmonia是北京大学网络研究所网格计算研究组研发的网络协同计算平台1该平台致力于使用网络技术,特别是网格计算技术,协同网络上的分布资源,求解科学计算问题1自2003年以来,经过研究组多位老师和同学的不懈努力,已经在该平台上进行了包括石油地质勘探数据处理、天体运动模拟(N2body问题)、生物信息学问题等多项实验1本文提出的面向生物基因组可变剪接问题的网络并行方案已经在Harmonia上实现,并在由两个集群计算机组成的网络环境中进行了实验1一台集群计算机由4个HP IA64双C PU节点构成,另一台集群计算机由6台PC机构成1两台集群计算机都以PBS作为本地作业管理系统1在实验中,10个计算节点共运行了约2400个机时来预测人类基因组可能的mRNA可变剪接体(isoform)在基因组上的坐标信息1从运行结果来看,通过协调网络中的多台计算机进行并行处理,相对于单机运行环境,运行时间被大大缩短,取得了明显的并行优势1在本方案中我们主要实现了以下关键技术)提出了生物信息学领域应用程序Π软件的一致描述模型1生物信息学是高性能计算的一个重要领域1通过与生物信息学领域的研究人员充分交流,分析大量的生物信息学程序Π软件的使用方式,我们提出了生物信息学领域程序Π软件的一致描述模型1该模型可以支持在广域范围内为生物信息学作业进行资源选择,从而为搭建面向生物信息学的网络计算环境提供了基础12)一致的资源代理服务1资源代理服务在付出较小的时间和空间代价的情况下,屏蔽了各个计算节点的异构性,为用户提供了一致、透明的资源访问接口,便利了用户对远程资源的使用13)方便丰富的应用开发支持1通过一组面向用户的AP I,屏蔽了资源选择、作业调度、错误处理等诸多细节,使得用户可以专心于应用处理逻辑的表达1在为用户提供了对远程资源的访问能力的同时,没有占用用户太多的精力去关注复杂的内部细节,提高了用户的工作效率1本文主要从资源虚拟化和应用层支持两个方面讨论了一种面向生物基因组可变剪接问题的网络并行求解方案1面向服务的一致的资源虚拟化方案降低了访问远程资源的难度1而经过精心设计的应用层AP I可以帮助用户快速的开发出高效的并行应用程序1可变剪接作为生物信息学的一个重要研究课题,本文提出的网络并行方案可以为搭建面向生物信息学的网络计算环境提供有益的参考1参 考 文 献[1]Namshi n K i m,Seokmin Shin,Sanghyuk Lee1ECgene:Genome2based EST clusteri ng and gene modeling for al ternatives plicing[J]1G enome Res earch,2005,15(4):566-576[2]I Foster,et al1GFD211080220051The Open Grid ServicesArchitect ure115[S]1Lem ont,Illinoi s,USA:O GF,2005 [3]Steve Graham,et al1wsrf2ws res o urce21122s pec2os1WebS ervice Res o urce112[S]1Billerica,Massachuset t s,USA:OASIS,2006[4]W illiam Vambenepe,et al1wsdm2muws121112s pec2os2011WebS ervices Di s t ributed Managem ent:Managem ent Us i ng WebS ervices(MU WS111)[S]1Billerica,Massachuset t s,USA:OASIS,2006[5]Igor S edukhi n,et al1wsdm2mows21112s ped2o s2011WebS ervice Di stributed Management:Management of Web Services(WSDM2MOWS)111[S]1B illerica,Mass achuset t s,USA:OASIS,2006[6]I Foster1G lobus Toolkit Versi o n4:S oft ware for s ervice2orient ed s yst ems[G]1In:Proc of IFIP Int’l C onf on Net wo rkand Parallel C omputing(N PC2005),LNCS37791Berli n:S p ri nger,200512-13[]F y,T T,M L y,12Gf2[]1 T I I’Sy f D,S F,6861计算机研究与发展 2007,44(10): 17J re annenbaum ivn et al C ondo r:A computation m anagement agent o r mult i i ns t it ut ional gri ds Che10t h EEE nt l m p o n High Per o rm ance ist ri but edC omputing an ranci s co2001[8]G ongYiLi ,DongFangpeng ,LiWei ,et al 1V EG Ainf ras t ruct ure fo r res o urce discovery i n gri ds [J ]1Journal of C o m put er Science and Technology ,2003,18(4):413-422[9]Li Bingchen ,Xu Zhi wei 1Im plement ation issues of GSML grid program m ing language [J ]1Jo urnal of Computer Res earch and Development ,2003,40(12):1715-1719(i n Chines e )(李丙辰,徐志伟1GSML 网格编程语言的一种实现方法[J ]1计算机研究与发展,2003,40(12):1715-1719)[10]Hai Ji n 1ChinaGri d :Maki ng gri d co m puti ng a reality [G]1In :Digital Libraries :Int ’l C ollaboration and Cross 2Fertilization (ICADL 2004),LNCS 33341Berli n :S p ringer 2Verlag ,2004113-24[11]J Huai ,T W o ,Y Liu 1Resource management and o rganization in CROWN gri d [C ]1The 1s tInt ’l Conf onScalableInformation Systems ,Hong K o ng ,2006[12]Sergi o Andreozzi ,et al 1G L U E S chem a Specification Vers ion 112[S]1O GF dra ft ,2005[13]Tom Madden 1The BLAST Sequence Analysis Tool [OL ]1ht tp :ΠΠwww.ncbi.nl .li .au Πbooks Πbookres.fcgi Πhandboo k Πch16.pdf ,2003208213[14]R Henders o n ,et al 1P B S Release 2121P o rt able Batch System :ExternalReferenceS peci fication[S]1Mountai nView :Numerical Aerospace Si m ulat i o n Systems Divisi o n ,NASA Am es Res earch Cent er ,1996[15]Ming Q Xu 1Effecti ve m etac o m p ut ing us ing LSF mult icluster [C ]1The 1s t Int ’l Sym p on Cluster C omputi ng and t he G rid ,Washi ngto n ,2001X u G uoshi ,b orn in 19801Received his B 1A ’s degree in computer software and t heory f rom Pe king University in 20021Since 2002,he has been a Ph 1D 1candidate in computer s of tware a nd theory f rom Pe king University 1H is curre nt research interestsinclude gridcomputing ,parallelcom putingandhighperforma nce computing 1徐国市,1980年生,博士研究生,主要研究方向为网格计算、并行计算、高性能计算1Lu Fa k a i ,b orn in 19801Received his B 1A ’s degree in computer s of tware a nd theory f rom Pe king University in 20021Since 2002,he has been a Ph 1D 1candidate in computer software and t heory from Peking Univer s ity 1His current research interestsinclude grid computing ,parallel computing a nd highperformance com puting 1鲁发凯,1980年生,博士研究生,主要研究方向为网格计算、并行计算、高性能计算1X u Zhuoqun ,b orn in 19361Professor and Ph 1D 1supervis or of Peking Univer s ity 1His main res earch interests are Web information sha ring and knowledge expression ,GIS ,and computing grid 1许卓群,1936年生,教授,博士生导师,主要研究方向为W eb 信息共享与知识表示、地理信息系统与辅助决策、计算网格1Yu Huashan ,born in 19711Ph 1D 1a nd ass ociate profess or 1Hismainres earchinterest sareparallelcomputing ,highperformance com puting and grid computing 1余华山,1971年生,博士,副教授,主要研究方向为并行计算、高性能计算、网格计算1Ding Wenkui ,b orn in 19461Profess or of Peking University 1H ismainresearchinterest sarecompilingtechnologyandparallel computing 1丁文魁,1946年生,教授,主要研究方向为编译技术和并行计算1Resea rc h B ac kg r oundBiologists generally study genome ’s alternative s plicing fashions by analyzing EST data 1This process needs massive computing resources because of the huge amount of gene and com ple x computation 1Since t he s ize of ES T data is increasing every day ,t his process has to be performed repeatedly 1In this paper ,an SOA 2based parallel scheme ispresented in which distributed res ources can be used to perfor m t he alternative s plicing computing in collaboration 1As a result ,the computing time is reduced remarkably 1Our work is suppor ted by the National 863Plan (2006AA02Z334),the National Natural Science Foundation (60303001,90412010),a nd the National Basic Researc h Progra m (2005D K A64001)of China 17861徐国市等:一种面向生物基因组可变剪接问题的网络并行求解方案。
基因剪接和可变剪接的分子机制研究

基因剪接和可变剪接的分子机制研究随着分子生物学和基因工程等学科的不断进展,我们对基因剪接和可变剪接机制的认识逐渐加深。
基因剪接是生物体在进行基因表达过程中最为关键的步骤之一,它能够控制一段基因序列中的可变部分是否被拼接在一起,从而决定基因编码的蛋白质的种类和数量。
而可变剪接则是基因剪接的一种特殊类型,它允许生物体在不同组织、不同发育阶段、不同环境条件下产生不同的蛋白质,具有非常重要的生物学意义和医学价值。
基因剪接的分子机制主要涉及两个方面,即RNA剪接因子和RNA剪接位点。
RNA剪接因子是介导剪接反应的蛋白质,它们能够识别RNA前体分子中的剪接位点,并在剪接位点处催化剪接反应。
RNA剪接位点是RNA前体分子中的两个可剪切区域,它们分别称为剪接供体位点和剪接受体位点。
剪接供体位点是一个包含GU二核苷酸序列的扩展序列,它位于RNA前体分子的3’端;剪接受体位点是一个包含AG二核苷酸序列的扩展序列,它位于RNA前体分子的5’端。
RNA剪接因子能够在剪接位点处与RNA前体分子进行特异性识别和结合,并催化剪接反应的进行。
可变剪接的分子机制则更加复杂和多样化。
现在已知的可变剪接类型超过20种,每一种类型都可能涉及较复杂的分子机制。
其中最为典型的可变剪接类型包括外显子跳跃剪接、替代外显子剪接、选择性剪接、内部后延剪接等。
外显子跳跃剪接是一种非常特殊的可变剪接类型,它允许基因前体分子在剪接过程中跳过一个或多个外显子,从而产生完全不同的蛋白质。
这种剪接机制的实现需要依赖于一种特殊的RNA剪接酶,它具有将两个不相邻的外显子进行拼接的能力。
替代外显子剪接则是一种非常常见的可变剪接类型,它允许基因前体分子在剪接过程中选择性地拼接某些外显子,而将其他外显子排除。
这种剪接机制的实现需要依赖于一种特殊的RNA剪接因子,它能够根据不同的外显子序列选择性地结合RNA前体分子的不同区域。
选择性剪接则是一种基于具有多个剪接位点的RNA前体分子,它在剪接过程中根据不同的剪接选择将不同的外显子排列组合的可变剪接类型。
可变剪接

可变剪接:有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternative splicing) 。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致人类基因和蛋白质数量较大差异的重要原因。
基本内容大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种成熟mRNA分子,因而只翻译成一种蛋白质。
但有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing)。
由于RNA的可变剪接不牵涉到遗传信息的永久性改变.所以是真核基因表达调控中一种比较灵活的方式。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制, 是导致人类基因和蛋白质数量较大差异的重要原因。
可变剪接形式的识别真核细胞核内前体mRNA加工通过5’加帽、剪接(移除内含子)、3’末端切割加尾.从而形成成熟的mRNA.成熟的mRNA和hnRNP及其他蛋白质形成复合体输出核外再经过选择性降解参与翻译。
这些步骤并不是简单的线性顺序.而是在转录物延伸期和转录同时发生的。
从而形成一个大型的“生产链。
一般认为,可变剪接有5种基本形式:①内含子保留;②可变的5’端;③可变的3’端;④外显子盒;⑤互斥外显子(一组外显子中只选其一)。
也有分为7种形式的,加上可变的起始或末端外显子,而这两种形式更有可能是可变启动子、可变polyA位点造成的。
可进行专门分析。
可变剪接的意义和作用可变剪接被认为是导致蛋白质功能多样性的重要原因之一,它使一个基因可编码多个不同转录产物和蛋白产物。
可变剪接也是产生基因组规模与生物复杂性之间的矛盾根源之一。
已有实验研究表明,可变剪接在产生受体多样性、控制调节生长发育等方面起决定性作用。
尤其表现在神经系统和免疫系统,这与该类系统的功能多样性和反应敏感性是密切相关的。
利用转录组测序数据分析可变剪接的方法

利用转录组测序数据分析可变剪接的方法作者:***来源:《科学与信息化》2020年第08期摘要可变剪接是调节基因表达和产生蛋白组多样性的重要因素,同时参与调控细胞分裂、分化及凋亡等重要生物学过程,异常的可变剪接多与人类疾病有关。
随着新一代测序技术和生物信息学的快速发展,以及先进计算方法的提出,使得我们对可变剪接有了深入的认识。
并且基于剪接机制对于病的靶向药物设计,已得到了有效的临床治疗效果。
本文主要阐述了近年来基于二代测序技术开发的几种识别可变剪接的计算方法,并对未来的发展方向进行展望。
关键词可变剪接;二代测序技术;生物信息学;分析工具可变剪接,又称选择性剪接(Alternative Splicing,AS),是真核生物基因表达的普遍调节机制,是指一个前体mRNA经过不同的剪接形式产生多种不同剪接异构体的过程。
在1978年,Walter Gilbert提出了内含子和外显子命名[1],不同外显子组合产生特异的异构体。
二代测序技术的迅速发展极大地推动了人类对可变剪接的认识。
现有数据表明,人类大约有92%-94%的基因都会经历某种程度的可变剪接行为,并且在20000多种人类蛋白编码基因中,约37%的基因会编码产生不同的蛋白亚型,这表明可变剪接增加了蛋白质组的多样性和复杂性[2]。
AS对基因的功能起着重要调控作用,同一基因的不同亚型可能参与不同的生物学过程。
例如p53抑癌基因(TP53)在DNA受损细胞的调控中起着核心作用,然而其Δ133β亚型则可以抑制全长p53β亚型5和6从而诱导肿瘤细胞的凋亡[3]。
另外AS几乎参与了所有生物学过程,包括调节细胞的分裂和凋亡、神经系统的发育以及细胞对抗多种环境因素做出的免疫应激反应等[4]。
另一方面,AS的异常调节还与多种遗传性疾病和恶性肿瘤相关,包括神经退行性疾病、心血管疾病和代谢状况等。
据报道,与SNP相关的遗传性疾病多达一半是由于剪接受损引起的[5]。
AS的异常调节对癌症的发生发展有重要的作用,为疾病的发展提供了可能的新颖治疗靶标和生物标志物的来源,而AS位点的预测可以为药物设计提供很好的分子基础。
可变剪接与蛋白质组多样性及其调节机制

可变剪接与蛋白质组多样性及其调节机制武春晓 2001级博士生专业:免疫学导师:马大龙教授前言可变剪接是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制。
剪接过程受多种顺式作用序列和反式作用因子相互作用调节。
包括SR和hnRNP 家族蛋白在内的多种剪接因子参与这一调节过程。
转录机器(machine)也参与可变剪接的调节。
本文将讨论:一.可变剪接与蛋白质组多样性二. 可变剪接的调节机制。
.第一部分可变剪接与蛋白质组多样性5据预测,人类基因组可能有约35,000个基因,果蝇约14,000个,而简单的模式生物线虫约19,000个基因。
生物的复杂性与其基因组基因数量似乎存在明显差异。
原因在蛋白质组。
基因重排,RNA编辑,和可变剪接等机制可以从一个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量超过基因组中基因的数量。
其中,从影响的基因数量和生物种类范围来看,可变剪接是扩大蛋白质多样性的最重要的机制1-4。
一、可变剪接的频率。
5,61. 5%。
从1977年Walter Gilbert提出可变剪接概念,1980年Baltimore在小鼠IgM基因发现第一个可变剪接产生膜型、分泌型IgM,至2001年,用经典分子生物学实验的方法研究,一共仅发现了数百种有可变剪接的基因。
并推测在高级真核细胞生物约5%的基因有可变剪接。
2. 35%-60%。
高通量的基因组测序和EST测序,使得生物信息学的方法研究可变剪接成为可能。
EST来源于完全加工的mRNA, 它们提供了一个广泛的mRNA多样性的样品库。
这种多样性可以用计算机分析。
最近两年,多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示约35%-60%的人基因有可变剪接形式。
而且,由于对大多数基因来说,每个基因只测了很少几EST甚至没有EST;EST不是全长的mRNA,多位于mRNA的5’和3’端;EST来源于有限的组织和发育阶段;很有可能存在有更多的可变剪接而在现在的EST库中没有显示。
高考生物学二轮总复习课后习题 专题5 遗传的分子基础、变异与进化 (6)

专题五遗传的分子基础、变异与进化A组基础对点练考点1 遗传的分子基础1.(四川广安一模)科学研究发现,T2噬菌体侵染大肠杆菌后,大肠杆菌自身蛋白质的合成立即停止,转而合成噬菌体蛋白质。
下列叙述正确的是( )A.T2噬菌体和大肠杆菌主要的遗传物质都是DNAB.噬菌体蛋白质的合成需要大肠杆菌提供酶和能量C.噬菌体基因控制合成的蛋白质需内质网进行加工D.噬菌体蛋白质外壳会侵入大肠杆菌影响细菌代谢2.(山东联考二模)DNA复制过程中,尚未解开螺旋的亲代双链DNA同新合成的两条子代双链DNA的交界处称为复制叉。
研究发现,啤酒酵母中某种蛋白被加载到复制叉时,被招募并停滞在复制叉处的Mec1蛋白就会被激活并随复制叉向前移动,从而完成DNA的复制。
下列说法错误的是( )A.DNA一条链中的磷酸基团和脱氧核糖通过磷酸二酯键连接B.DNA解旋过程中解旋酶需在ATP供能驱动下断裂两条链间的氢键C.Mec1蛋白被激活后会与RNA聚合酶结合,进而完成DNA的复制过程D.抑制细胞中Mec1基因的表达,细胞可能会被阻滞在细胞分裂间期3.(浙江台州二模)唾液腺细胞合成淀粉酶的局部过程如图所示,图中①表示某种细胞器,②表示某种大分子化合物。
下列叙述错误的是( )A.图中的囊腔是内质网腔B.①识别②上的启动子,启动多肽合成C.多个①结合在②上合成同一种多肽,提高翻译效率D.图示过程需三种RNA参与,三种RNA都是基因转录产物4.(山东模拟)不同核酸类型的病毒完成遗传信息传递的具体方式不同。
下图为某“双链±RNA病毒”基因表达示意图。
这类病毒携带有RNA复制酶,在该酶的作用下,-RNA作为模板复制出新的+RNA。
合成的+RNA既可以翻译出病毒的蛋白质,又可以作为模板合成-RNA,最终形成“±RNA”。
已知逆转录病毒的核酸为“+RNA”。
下列说法正确的是( )B.与DNA的复制不同,±RNA的双链可能都是新合成的C.该病毒与逆转录病毒基因表达时都存在A—T、A—U的配对D.逆转录病毒与该病毒繁殖时均有+RNA到-RNA的过程5.DNA甲基化是指在甲基转移酶的催化下,DNA的CG二核苷酸中的胞嘧啶被选择性地添加甲基。
可变剪接分析综述

可变剪接的分析主要包括剪接体序列的 校正,剪接体之间的比较,以及剪接机 制的探索。
剪接体序列的校正
克隆试验得到的mRNA 往往不是全长, 测序反应也不能保证100%的正确,所以 拿到一条序列首先要对其进行校正,尽 可能保证使全长序列且无错误。 校正可以通过剪接体序列与EST数据及 基因组的比对进行。
Details 结果
图中显示有四个block, 即提交序列可以分为四个区段 与染色体上四个区域对应,即有四个外显子。蓝色区 域为完全匹配,浅蓝色为比对区域的边缘序列,可以 理解为外显子边界
Details 结果
点击每个block 可以看到对应的外显子序列, block之间可以认为是内含子序列,可以观察是否 符合GT-AG 或是GC-AG模式
可变剪接示意图
可变剪接是生物多样性的重要成因
高等生物与低等生物的基因数量并没有特别显著 的差别,如人的基因估计约30000-40000,小鼠 的基因也为30000左右,而且人鼠基因有很多存 在有很高的相似性。果蝇、线虫等基因约为 15000,基因数量的差别不足以解释以上物种间 存在的显著差异。
可变剪接与蛋白质组
Spliced EST
Total ESTs
EST 数据选择
整条序列在染色体上以单外显子形式出 现很可能是染色体污染。一般优先看已 剪接EST数据对基因的支持情况,如数 量不足再看包含未剪接EST的所有EST 集合
改变查看区域
在browser 里可以任意移动查看,改变位 置的方法有两种,一是直接输入定位数字, 二是通过窗口下方的方向箭头移动。
SR蛋白主要与外显子剪接增强元件ESE结合, 通过直接招募剪接体蛋白或是拮抗剪接抑制因 子的作用来发挥作用。 SR蛋白主要对5’位点的选择起作用: 通过招募剪接体蛋白如U2AF或是U1-70K,在 pre-mRNA的两个或多个5’可变剪接位点中促 进选择使用距内含子3’端较近的5’位点。
基因可变剪接的调控机制及其研究进展

基因可变剪接的调控机制及其研究进展作者:苏握瑜,李丽娟,贺花,雷初朝,陈宏,黄永震来源:《畜牧兽医科学》 2018年第3期摘要:基因的可变剪接( alternative splicing AS)自从被发现以来,对于它的研究一直是一个热门,它是由一个RNA前体经过剪接体( spliceosome)和剪接因子(splicing factor)的相互作用,最终形成多种成熟的具有不同生物学和化学活性的功能RNA的过程。
它的出现让蛋白质的多样性的形成原因有了更为合理的解释并在基因表达调控中占据重要地位。
近年来对基因可变剪接的研究主要集中在它的调控机制以及在不同生物中的发生状况,旨通过这些研究来为人们利用可变剪接创造经济效益或者在人类疾病的治疗方面做出贡献奠定基础。
本文对近1 0年来猪(Sus scrofa)、牛(Bos taurus)、山羊(Capra hircus)、绵羊(Ovis aries)、鸡(GalLus gallus)、和鸭(Anas platyrhynchos)等主要畜禽的基因可变剪接研究进展进行综述,分别从基因可变剪接的调控机制及其在动物遗传育种中的研究进展2个方面进行论述,并对畜禽基因可变剪接的未来的研究工作进行了展望。
关键词:可变剪接;调控机制;不同动物;研究进展中图分类号:Q752 文献标识码:A doi:10. 3969/j. i ssn. 2096-3637. 2018. 03. 002O引言早在19世纪80年代就有关于基因可变剪接的记录”],而随着测序技术的成熟,越来越多的基因被发现可以进行可变剪接,这使得人们不得不重新认识基因的表达的蛋白质的多样性的关联。
随着越来越多的生物物种中可变剪接被发现,它的作用也越来越重要,弄清它的调控机制成了至关重要的一步,这也是对可变剪接进行利用的前提。
研究发现顺式作用元件( Cis-acting element)和反式作用因子(Trans-acting element)的相互作用调控着可变剪接的发生,而随着研究的深入,越来越多的因素被牵扯其中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可变剪接与蛋白质组多样性及其调节机制武春晓 2001级博士生专业:免疫学导师:马大龙教授前言可变剪接是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制。
剪接过程受多种顺式作用序列和反式作用因子相互作用调节。
包括SR和hnRNP 家族蛋白在内的多种剪接因子参与这一调节过程。
转录机器(machine)也参与可变剪接的调节。
本文将讨论:一.可变剪接与蛋白质组多样性二. 可变剪接的调节机制。
.第一部分可变剪接与蛋白质组多样性5据预测,人类基因组可能有约35,000个基因,果蝇约14,000个,而简单的模式生物线虫约19,000个基因。
生物的复杂性与其基因组基因数量似乎存在明显差异。
原因在蛋白质组。
基因重排,RNA编辑,和可变剪接等机制可以从一个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量超过基因组中基因的数量。
其中,从影响的基因数量和生物种类范围来看,可变剪接是扩大蛋白质多样性的最重要的机制1-4。
一、可变剪接的频率。
5,61. 5%。
从1977年Walter Gilbert提出可变剪接概念,1980年Baltimore在小鼠IgM基因发现第一个可变剪接产生膜型、分泌型IgM,至2001年,用经典分子生物学实验的方法研究,一共仅发现了数百种有可变剪接的基因。
并推测在高级真核细胞生物约5%的基因有可变剪接。
2. 35%-60%。
高通量的基因组测序和EST测序,使得生物信息学的方法研究可变剪接成为可能。
EST来源于完全加工的mRNA, 它们提供了一个广泛的mRNA多样性的样品库。
这种多样性可以用计算机分析。
最近两年,多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示约35%-60%的人基因有可变剪接形式。
而且,由于对大多数基因来说,每个基因只测了很少几EST甚至没有EST;EST不是全长的mRNA,多位于mRNA的5’和3’端;EST来源于有限的组织和发育阶段;很有可能存在有更多的可变剪接而在现在的EST库中没有显示。
因此实际可变剪接的频率可能比预测的更高。
这还有待于建立新的高通量的分子生物学方法,如生物芯片的方法,以进一步实验验证。
二、单个基因可变剪接产生的多样性5。
一个基因可以通过如下几种方式产生多个转录体,如不同的转录起始位点,可变剪接,选择不同的加尾信号位点,RNA编辑等。
可变剪接包括3种类型:1.内含子的保留;2.可变外显子的保留或切除;3. 3’和5’剪接位点的转移(shift)导致外显子的增长或缩短。
可变剪接对蛋白质结构的影响也是多样性的,如多肽链中一个到数百个氨基酸的增加或减少;某功能域的有无;如果可变剪接使读码框架改变,则可能无法有效翻译,mRNA被监视系统降解。
单独一个基因通过可变剪接产生的十几种剪接异构体的现象很常见。
有些基因甚至能够产生成千上万种剪接异构体。
最突出的例子是果蝇(Drosophila melanogaste r )的Dscam基因,可以通过可变剪接产生38,000多种mRNA异构体。
Dscam基因编码一个神经元轴突定向受体,它细胞外有一个由10个免疫球蛋白重复序列组成的结构域,第2,3,7个免疫球蛋白重复序列分别由第4,6,9号外显子编码,4号外显子盒(cassette)有12个变异体,6号外显子有48个变异体,9号外显子有33个变异体,再加上17号外显子的2个变异体。
每个成熟的Dscam mRNA分别只有一个有4,6,9,17号外显子的变异体,由此理论推测Dscam基因共有12×48×33×2=38016剪接异构体。
对Dscam基因50个cDNA克隆随机测序发现了49种不同的剪接异构体,说明实际存在的剪接异构体即使没有理论那么多,也至少有上千种。
人的Neurexins, n-Cadherins, calcium-activated potassium channels等基因也有类似的高度多样的剪接异构体。
上述现象非常类似于淋巴细胞TCR或免疫球蛋白的胚系基因重排,不同之处在于后者发生在DNA水平,前者发生在RNA水平。
基因重排产生的高度多样抗原受体库可以识别高度复杂的自身和异己抗原。
而Dscam基因的转录异构体可能有神经系统的发育有关。
神经元的定向迁移和相互连接可能是发育过程中最复杂的事件。
果蝇约有25,000个神经元,要使它们生长的轴突准确的,可重复性的到达目的地,使这些神经元准确的连接在一起,必然需要一个特殊的系统。
Dscam基因的38,000多种mRNA异构体,每个异构体各编码一个不同的受体,每个受体具有识别不同分子定向信号的潜能,从而有能力指导各个生长的轴突到达准确的位置。
如果将可变剪接与其它RNA加工过程(如RNA编辑)联系起来共同考虑,基因产物会更复杂。
例如,果蝇的para基因(voltage-gated action potential sodium channel)有13个可变外显子,可编码1536种不同的mRNA,另外,para的转录体还要经过在11个已知位点的RNA 编辑,这样理论上一共可以产生1,032,192个不同的para转录异构体。
根据受可变剪接影响的基因的概率,以及单个基因可能产生的可变剪接体的数目,足以表明可变剪接对蛋白质组多样性的巨大影响。
三、可变剪接的功能和生物学意义5,111. 可变剪接是在RNA水平调控基因表达的机制之一。
一个基因通过可变剪接产生多个转录异构体,各个不同的转录异构体编码结构和功能不同的蛋白质,它们分别在细胞/个体分化发育不同阶段,在不同的组织,有各自特异的表达和功能。
因此,可变剪接是一种在转录后RNA水平调控基因表达的重要机制。
目前已知的可变剪接异构体中,只有一小部分明确确定了功能和生物学意义。
第一个确定的可变剪接异构体功能是IgM基因,其末端最后两个外显子的可变剪接,决定了所编码的膜型/分泌型IgM的产生。
最著名的例子是果蝇性别决定系统,在此系统中,至少5个基因(sxl, tra, msl2, dsx, and fru) 转录体的可变剪接级联反应最终决定了果蝇雄性和雌性性别特征的表达。
有些基因,可变剪接造成的蛋白质异构体之间功能上的差异没有被实验检测出来。
不过阴性的结果不能代表没有功能差异,只是目前没有检测出来而已。
也有很多异构体造成读码框架改变,不能被翻译为蛋白质,而是直接被降解了。
真核生物也有mRNA监视系统NMD(nonsense-mediated degradation),检测mRNA中异常提前出现的终止密码子,一经发现,立即降解异常的mRNA,防止其翻译。
在大多数情况下,检测可变剪接造成的蛋白质异构体之间功能上的差异的实验还没有开展。
最近发展的RNAi技术,可以适应高通量的从功能基因组水平研究各基因可变剪接异构体的功能的要求。
2000年已经有人将RNAi技术应用于模式生物线虫的可变剪接异构体的大规模研究上。
(目前已经大量开始用于哺乳动物系统)2.多样性与复杂性可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制,蛋白质组的多样性与多细胞高等生物的复杂性相适应。
从可变剪接涉及的基因分布格局分析,可变剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体,信号传导通路(凋亡),转录因子等。
对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴奋等的精确调控有重要意义。
从可变剪接涉及的基因系统分类分析,可变剪接多发生在免疫和神经等复杂系统。
正如Dscam基因所示,可变剪接产生的多样性,赋予这些系统精确处理复杂信息相适应的潜力。
第二部分可变剪接的调节机制7可变剪接能够产生惊人的多样性,但我们对其调节机制所知不多。
剪接位点的选择受到结合到非剪接位点RNA元件的剪接因子的多重调节。
参与可变剪接调节的RNA元件包括ESE、ISE、ESS、ISS。
剪接因子包括SR和hnRNP家族蛋白等多种因子。
真核生物新生的mRNA前体经过5’戴帽,剪接,3’加尾等加工成为成熟的mRNA。
在剪接反应过程中,含有内含子和外显子的新生的mRNA前体,在剪接体作用下切除内含子,并将外显子依次连接起来的过程。
剪接反应由剪接体执行,剪接体包括5个小核糖核蛋白复合体U1,U2,U4,U5 和U6 snRNPs ,和50-100种非snRNP蛋白。
剪接体通过RNA-RNA,RNA-蛋白质,蛋白质-蛋白质等多重相互作用以精确切除每个内含子和以正确次序连接外显子。
为有效剪接,绝大部分内含子需要:1.一个保守的5’剪接位点,A/CAG↓GURAGU;2.一个分支点序列BPS , YNYURAY,后面跟着一个多聚嘧啶Pytract Y10-20;3.一个3’剪接位点Y AG。
剪接体的形成是一个多步骤依次进行过程,形成多个中间体:1 E-复合体形成:U1snRNA通过碱基互补识别5’剪接位点,SR蛋白结合。
U2AF65和U2AF35识别多聚嘧啶Pytract和3’剪接位点;2 A-复合体形成:U2snRNA通过碱基互补识别分支点序列BPS;需A TP;3 B-复合体形成:U4/U6 _ U5 tri-snRNP随后与mRNA结合;4 C-复合体形成:最后,RNA-RNA,RNA-蛋白质相互作用构象改变形成有催化活性的剪接体。
(见图1)一、参与可变剪接的RNA顺式作用元件:根据它们所在的位置和作用特点,分为4类:1.ESE: exon splicing enhancer 外显子剪接增强子;2.ISE: intron splicing enhancer 内含子剪接增强子;3.ESS: exon splicing silencer 外显子剪接沉默子;4.ISS: intron splicing silencer 内含子剪接沉默子。
ESE和ISE是剪接因子SR蛋白结合位点,提高相邻剪接位点的活性。
ESS和ISS是hnRNP蛋白结合位点,抑制相邻剪接位点的活性。
ESE、ISE、ESS、ISS都是很短的序列基序,一般由6-10碱基组成。
每一类成员内部之间即有相对的特异性,也有简并性,作用有交叉和冗余。
二、SR蛋白SR蛋白是一个多细胞生物中高度保守的剪接因子家族,其成员多带有一个或二个拷贝的RNA识别基序(RRM),后面有一个精氨酸/丝氨酸富含结构域(RS)。
RRM介导RNA 结合,并决定各SR蛋白的底物特异性;RS结构域参与蛋白-蛋白间相互作用。
各SR蛋白在固有剪接和可变剪接中有多种作用。
其中之一是识别并结ESE或ISE,提高相邻剪接位点的活性。
SR蛋白的底物ESE/ISE含有简并性的共有识别序列基序,因此不同SR蛋白之间底物有交叉,其特异性取决于SR蛋白各自的表达水平、亲和力和与其它蛋白的相互作用。