密码子使用偏好性参数汇总

密码子使用偏好性参数汇总
密码子使用偏好性参数汇总

研究密码子偏好性常用的参数

1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )

是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:

公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。研究中通常先利用高表达基因的RSCU值建立参考表格。

2、密码子适应指数(Codon Adaptation Index, CAI)

可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。

w ij(The relative adaptiveness of a codon): 密码子相对适应度

上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值

L是指基因中所使用的密码子数。

3、密码子偏好参数(Codon Preference Parameter, CPP)

CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。

x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除)

4、有效密码子数(Effective Number of Codon, ENC)

ENC值的范围在20~ 61之间, 越靠近20偏性越强。此值是描述密码子使用偏离随机选择的

程度( 并不是某个特殊密码子的使用频率与其他密码子的比较), 能反映密码子家族中同义密码子非均衡使用的偏好程度。已知高表达基因其密码子偏爱程度也大,从而ENC 值较小; 低表达基因则含有较多种类的稀有密码子, ENC值也较大, 所以, 当前普遍通过比较ENC来确定内源基因表达量的相对高低。ENC值越小, 对应的内源基因往往表达量也越高。

n 表示基因中所使用的密码子总数, k为同义密码子数量, p i是第i个密码子的使用频率( n i/ n ) 。ENC值会受到基因氨基酸组成和基因长短的影响。

5、最优密码子使用频率(Frequency of Optimal Codons, FOP)

最优密码子是指在某物种高表达基因中使用频率最高的密码子, 也有人将一个氨基酸的最优密码子定义为具有最大数量的带有其反密码子tRNA 基因的密码子; FOP 是种特异性的, 而且最优密码子的确定需要一组基因序列以及相应的表达信息。

计算公式如下:

下标s代表“simple ”, n i表示基因g中密码子i的数量; N为基因g中的密码子总数, 但是用这一方法计算的FOP值受氨基酸组成的影响; 为了克服这一缺点人们改进了计算方法:

公式中的syn(i)表示密码子i编码的氨基酸对应的同义密码子数量。上式整理后可得:

公式中,可见FOP成为了氨基酸使用频率为加权系数的最优密码子

的RSCU值加权平均值。

6、密码子偏爱指数(Codon Bias Index, CBI )

反应了一个具体基因中高表达优越密码子的组分情况。对目的宿主自身的基因, 该指数和ENC值有很好的相关性, 但在实际工作中可以更明确地反映外源基因在目的宿主中可能的表达情况, 故而得到广泛应用。

计算公式如下:

N opt代表优越密码子在该基因中出现次数之和; N ran代表氨基酸序列不变,所有同义密码子随机出现时优越密码子的出现次数之和;N tot代表了优越密码子对应的氨基酸在基因中出现的次数之和。

7、G+C含量

一般认为G+C含量越高,密码子的偏好性就可能就越强!其含量可以通过一些软件进行编程进行求出,比如说使用perl语言。

8、GC3S

第三位上的各种碱基的含量,在蛋白质的合成过程中同义密码子的使用概率并不相同,而同义密码子的主要差别体现在第三位碱基上。

9、Kyte和Doolittle

计算每一个氢基酸的疏水指数,然后进行算术平均。(可参考文献:Translational selection shapes codon usage in the GC-rich genomes of Chlamydomonas reinhardtii)

10、对应分析(correspondence analysis, COA)

在对基因密码子使用概率分析时,将每一条基因作为一个对象,相对密码子使用度作为变量采用59个同义密码子[去除编码蛋氨酸(M)的密码子AUG和编码色氨酸(W)的密码子UGG以及3个终止密码子的RSCU值对其密码子使用偏性进行分析基因间的距离规定为同义密码子相对使用度的欧拉平方距离。对于基因a与基因b,其密码子使用距离的计算公式为::

11、AT偏移(AT-skew)

定义为整个基因组DNA序列的(A - T)/(A + T)的比值。通过计算AT偏移可分析整个基因组中A、T的变化趋势。

12、高表达优越密码子(High-expression Codon ,HE)

参考文献:Expression pattern and , surprisingly , gene length shape codon usage in Caenorhabditis, Drosophila, and Arabi-dopsis1

13、高频密码子(High-frequency Codon)

参考文献:High-frequency codon analysis and its application in codon analysis of tobacco

另外,还有GRAVY值(反映蛋白质的疏水性对密码子使用偏好的影响)、Aromo值(反映芳香族蛋白质对密码子使用偏好的影响)等

密码子使用偏好性参数汇总

研究密码子偏好性常用的参数 1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU ) 是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下: 公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。研究中通常先利用高表达基因的RSCU值建立参考表格。 2、密码子适应指数(Codon Adaptation Index, CAI) 可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。 w ij(The relative adaptiveness of a codon): 密码子相对适应度 上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值 L是指基因中所使用的密码子数。 3、密码子偏好参数(Codon Preference Parameter, CPP) CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。 x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除) 4、有效密码子数(Effective Number of Codon, ENC) ENC值的范围在20~ 61之间, 越靠近20偏性越强。此值是描述密码子使用偏离随机选择的

常用密码表

【基本字母表】 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 13 | I A | B | C | D | E | F | G | H | I | J | K | L M | | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | I N | O | P | Q | R | S | T | U | V | W | X | Y | Z | 1QWE加密表〗 | | | ----- 其实QWE加密可以表示成这种形式 【QWE解密表】 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z 门 卜-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-T k | x | v | m | c| n| o | p | h | q | r| s | z| y | I |j | a | d| l | e | g | w | b u| f | t | 【电脑键盘表】 丁@ 丁#丁$丁% 丁A

I I I I I I I I I I I I I I 「-丄-丄-丄-丄-丄-丄-丄-丄-丄-丄-丄-丄o 盘表】 【埃特巴什加密/解密表】 I a I b I c I d I e I f I g I h I i I j I k I l I m I n I o | p I q I r I s I t I u I v I w I x I y I z I 卜-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-T I Z I Y I X I W I V I U I T I S I R I Q I P I O I N I M I L I K I J I I I H I G I F I E I D I C I B I A I 1反序QWE 加密表〗 I a I b I c I d I e I f I g I h I i I j I k I l I m I n I o I p I q I r I s I t I u I v I w I x I y I z I 卜-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-十-T I M I N I B I V I C I X I Z I L I K I J I H I G I F I D I S I A I P I O I I I U I Y I T I R I E I W I Q I (a,m,f,x,e,c,b,n ,d,v,t,u,y,w,r,o,s,i,k,h,l,g, z,q,p)(j) 【反序QWE 解密表】 I A I B I C I D I E I F I G I H I I I J I K I L I M I N I O I P I Q I R I S I T I U I V I W I 3ZXCVBNM / 1/2/3 -- Shift

密码子偏好性与异源蛋白表达

密码子偏性与异源蛋白表达 原文:Claes Gustafsson, et al. TRENDS in Biotechnology, 2004,22(7): 346-353. https://www.360docs.net/doc/0815641665.html,/corp/images/MS102504CG.pdf 翻译:zhxm409511 在1977年,当Genetech的科学家和他们的科研合作伙伴首次利用细菌生产出人类蛋白(生长激素释放抑制因子)时[1],蛋白的异源表达在整个生物技术产业中发挥着关键的角色。那时,仅知道生长激素释放抑制因子的氨基酸序列,还不知如何从人的基因组中克隆该基因,因此,Genetech小组采用数条寡核苷酸合成了14个密码子长的生长激素释放抑制因子基因。Itakura和同事们设计这些寡核苷酸时遵循了三条标准[1]。首先,优先使用MS2噬菌体偏爱的密码子——尽管当时对大肠杆菌的基因组DNA序列还知之甚少,却已刚刚完成了MS2噬菌体的测序,并认为该噬菌体的序列能够代表大肠杆菌高表达基因所使用的密码子。其次,消除寡核苷酸不必要的分子内和分子间配对,因为这可能影响基因合成。第三,避免那些先是富含GC随后是富含AT的序列,当时认为这种序列可能会导致转录终止。结果,利用这条合成的基因首次制生产出来了具有功能活性的多肽。 25年后的今天,大多数基因克隆自cDNA文库或直接利用聚合酶链反应(PCR)从相应的基因组中扩增获得。要尽量避免从头合成基因,因为这样做需要消耗大量的财力和人力[2]。尽管基于PCR的克隆被广泛使用,但很多情况下它还是不及所描述的那样快捷和容易。它经常需要一些不易得到的模板(对于具有内含子的生物,需要cDNA模板),此外还需要进行PCR条件的优化,需要对PCR产物进行测序,如果PCR引入了任何的配对错误,还经常需要通过定点突变进行修复。然而,当扩增出的基因克隆入表达载体后,真正有趣的事情就发生了:经常是没有蛋白表达或表达水平很低。人们已经进行了大量的研究,以提高克隆基因的表达水平,包括优化宿主的生长条件,建立新的宿主系,改用新的宿主,和无细胞系统[3]。尽管这些方法都取得了一些进展,但它们都是围绕一个最根本问题进行的:一种生物所采用的编码蛋白的DNA序列经常不同于另外一种生物在编码该蛋白时所采用的DNA序列。 为什么不同的生物会偏爱不同的密码子? 遗传密码采用61组三连核苷酸(密码子)编码20种氨基酸,采用3个密码子终止翻译。因此每个氨基酸利用1个(Met和Trp)至6个(Arg,Leu,和Ser)同义密码子编码。这些密码子在核糖体中被互补的tRNAs阅读,而这些tRNAs已经事先携带了相应的氨基酸。密码子的兼并性使得同一蛋白可采用多种不同的核苷酸序列编码。对于两种不同的生物,或对于同一生物的高表达和低表达基因,有时甚至在同一个操纵子内部,对不同密码

常用密码表

【基本字母表】 ┃01┃02┃03┃04┃05┃06┃07┃08┃09┃10┃11┃12┃13┃ ┠--╂--╂--╂--╂--╂--╂--╂--╂--╂--╂--╂--╂--┨ ┃A ┃B ┃C ┃D ┃E ┃F ┃G ┃H ┃I ┃J ┃K ┃L ┃M ┃ ====================================================== ┃14┃15┃16┃17┃18┃19┃20┃21┃22┃23┃24┃25┃26┃ ┠--╂--╂--╂--╂--╂--╂--╂--╂--╂--╂--╂--╂--┨ ┃N ┃O ┃P ┃Q ┃R ┃S ┃T ┃U ┃V ┃W ┃X ┃Y ┃Z ┃ ================ 〖QWE加密表〗 ┃a┃b┃c┃d┃e┃f┃g┃h┃i┃j┃k┃l┃m┃n┃o┃p┃q┃r┃s┃t┃u┃v┃w┃x┃y┃z ┃ ┠-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-┨ ┃Q┃W┃E┃R┃T┃Y┃U┃I┃O┃P┃A┃S┃D┃F┃G┃H┃J┃K┃L┃Z┃X┃C┃V┃B┃N┃M┃ --------其实QWE加密可以表示成这种形式; --------(a,q,j,p,h,i,o,g,u,x,b,w,v,c,e,t,z,m,d,r,k)(f,y,n)(l,s) --------至于它是什么意思,自己去琢磨. --------至于这种形式比表形式有什么优点,自己去琢磨. 【QWE解密表】 ┃A┃B┃C┃D┃E┃F┃G┃H┃I┃J┃K┃L┃M┃N┃O┃P┃Q┃R┃S┃T┃U┃V┃W ┃X┃Y┃Z┃ ┠-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-╂-┨ ┃k┃x┃v┃m┃c┃n┃o┃p┃h┃q┃r┃s┃z┃y┃i┃j┃a┃d┃l┃e┃g┃w┃b┃u┃f┃t ┃ ================ 【电脑键盘表】 ┏!┯@┯#┯$┯%┯^┯&┯*┯(┯)┯_┯+┯|┓ ┃1│2│3│4│5│6│7│8│9│0│-│=│\┃ ┃│ │ │ │ │ │ │ │ │ │ │ │ ┃ 1┃Q│W│E│R│T│Y│U│I│O│P│[│]│ ┃7/8/9 -- Tab ┃│ │ │ │ │ │ │ │ │ │ │ │ ┃ 2┃A│S│D│F│G│H│J│K│L│;│'│ │ ┃4/5/6 -- Caps Lock ┃│ │ │ │ │ │ │ │ │ │ │ │ ┃

转录因子WRKY的同义密码子使用偏好性分析

拟南芥和水稻转录因子WRKY的同义密码子使用偏好性分析 生物科学2004级何瑞 指导老师刘汉梅讲师 摘要:本文首次对拟南芥和水稻WRKY基因家族的密码子用法进行了分析,发现两个物种WRKY基因的碱基组成明显不同,水稻的密码子在第一、二、三位GC含量都明显高于拟南芥,且第三位差异最大。不同物种的WRKY基因存在共同的进化趋势,即基因GC3s 逐步增大。对应性分析结果显示,拟南芥WRKY基因的密码子使用偏性受碱基组成等多种因素共同作用,水稻主要受碱基组成和基因表达水平两个因素的影响。最后确定了拟南芥和水稻WRKY基因家族的最优密码子,分别为11个和27个。研究结果为深入开展其进化、表达调控机制和提高该基因家族新成员预测的准确性等提供了重要的理论依据。 关键词:WRKY基因,密码字偏好性,GC含量,Enc Synonymous Codon Bias of WRKY Gene Family in Aribidopsis and Rice HE Rui Biological Science,Grade 2004 Directed by LIU Han-mei (instructor) Abstract: WRKY gene family were firstly analyzed on the codon bias in Arabidopsis and Rice. The components of nitrogenous bases in the two species are obviously different: the GC content at the fist, second and third position of Rice are significantly higher than those of Aribidopsis, that discrepancy at the third position is the most marked. Meanwhile, as WRKY gene family is evolving, G-ending and C-ending codons of both Aribidopsis and Rice are good for the genes evolution. According to Correspondence Analysis, the codon usage of WRKY gene in Aribidopsis is affected by many factors, such as the components of nitrogenous bases. But the components of nitrogenous bases and the gene expression level are two primary factors in Rice. The numbers of the optimal codon in Arabidopsis and Rice are 11 and 27. The results of the the research provide the accuracy of important theoretical basis of forecasts for its evolution, regulation of gene expression and adding the gene family members. Keywords: WRKY Gene,Codon bias,GC content,Enc 蛋白质中的氨基酸序列是由mRNA中核苷酸序列决定的。mRNA上连续相邻的核苷酸以3个为一体,即三联体密码子,进行翻译时,识别与其对应的tRNA,正确的译出遗

竹节参转录组使用密码子偏好性分析

梁一娥?齐敏杰?丁延庆?等.竹节参转录组使用密码子偏好性分析[J].江苏农业科学?2019?47(2):59-63.doi:10.15889/j.issn.1002-1302.2019.02.013 竹节参转录组使用密码子偏好性分析 梁一娥1?齐敏杰1?丁延庆2?张一来2 (1.贵州师范大学生命科学学院?贵州贵阳550000?2.安顺学院农学院?贵州安顺561000) 一一摘要:竹节参是我国珍稀濒危中药材?研究其基因密码子使用模式?可为利用基因工程技术实现人参皂苷异源生物合成及竹节参分子育种改良提供理论依据?以竹节参转录组测序结果为数据来源?筛选编码蛋白基因序列(coding sequence?简称CDS)碱基数不小于300bp的11199条完整开放阅读框序列作为研究对象?利用Codon和SPSS软件分别统计竹节参基因密码子GC含量二密码子第3位的(C+G)含量(GC3)和密码子第1二第2位(G+C)含量的平均值(GC12)二同义密码子的相对使用度(RSCU)二有效密码子数(ENC)等密码子偏好性指标?通过中性绘图(GC12vs.GC3)二PR2绘图和ENC-GC3s绘图分析影响竹节参密码子使用模式的因素?结果表明?竹节参基因的平均GC二GC12和GC3s含量分别为44.67%二46.97%和39.80%?其密码子使用模式受到突变和选择等多重因素的影响?确定了31个竹节参最优密码子?除了UUG外?其余最优密码子均以A或T结尾?竹节参密码子使用模式与大肠杆菌和酿酒酵母相比差异较大?选取毕赤酵母作为竹节参基因的异源表达宿主更为合适?一一关键词:竹节参?转录组?密码子使用模式?最优密码子 一一中图分类号:Q755?S567.5+10.1一一文献标志码:A一一文章编号:1002-1302(2019)02-0059-05收稿日期:2017-08-27 基金项目:国家自然科学基金(编号:31660252)?贵州省优秀青年科技人才专项(编号:黔科合人字[2015]18号)?贵州省教育厅创新群体重大研究项目(编号:黔教合KY[2016]049号)? 作者简介:梁一娥(1994 )?女?贵州遵义人?硕士研究生?主要从事微生物学研究?E-mail:1013653671@qq.com? 通信作者:张一来?博士?教授?主要从事植物次生代谢调控研究?E-mail:975575681@qq.com? 一一遗传密码子是生物体DNA与蛋白质之间信息传递的基本单位?具有简并性?即同一氨基酸有多个对应的密码子?编码同一种氨基酸的密码子叫作同义密码子?同义密码子在同一物种不同基因间或不同物种内的使用频率大有不同?这种不均衡使用模式称为密码子使用偏好性?通常把使用频率较高的一种或几种同义密码子称为最优密码子[1-2]?研究显示?不同物种之间基因密码子偏好性是由突变压力(如GC含量二基因碱基组成)和自然选择作用(如翻译起始信号二基因表达水平二蛋白结构与长度二tRNA丰度等)引起的?mRNA的二级结构及其稳定性二翻译的速度和准确度二蛋白质折叠等因素也与密码子的偏好性有关[3-4]?对物种密码子偏好性开展研究?有助于理解物种进化发展及密码子使用偏好性的调控机制?密码子偏好性在基因异源表达研究方面也显示了重要作用?基因的表达量越大?其密码子偏好性越强[5]?根据这一原理?替换基因低表达密码子可以提高外源基因表达量?同时根据密码子使用偏好性可以选择更为合适的宿主表达系统?有报道表明?可通过优化密码子的方式来提高外源基因在宿主细胞中的表达量[6-7]?周宗梁等通过优化密码子的方法提高了苏云金芽孢杆菌基因cry1Ah在玉米和水稻中的表达量 [8-9] ?杨金玲等通过优化蝎毒镇痛活性肽基因BmKAngM1? 将其导入毕赤酵母后该基因表达量得到显著提高[10] ?通过使 用最优密码子?在草菇 [11] 二拟南芥 [12] 二川母贝 [13] 二菠萝 [14] 等 生物中均得到了很好的研究成果? 竹节参(PanaxjaponicusC.A.Mey)为多年生草本植物?属于五加科(Paeoniaceae)人参属?是我国珍稀濒危的 七类中草药 之一?具有抗炎二延缓衰老二降血糖等药理作用?有着极高的药用和保健价值?竹节参中富含活性物质三萜皂苷?也是其特征性成分?目前在竹节参种质资源[15-16]二毛状根的培养[17]二基因工程代谢的调控[18]二生药学鉴定[19]二精油成分分析[20]和三萜皂苷代谢追踪[21]等几个研究领域已经开展了许多研究工作?但直接从竹节参中通过分离提取的方法获得三萜皂苷对资源消耗极大?技术难度较高?若利用生物合成的方法则可以很好地解决这一困难?实现有效成分的生物合成?选择适合关键酶基因高效表达的异源表达系统是一个重要步骤?本研究以竹节参转录组数据为材料?通过分析竹节参基因密码子组成的各项指标?研究竹节参表达基因密码子使用偏好性及其影响因素?以期为竹节参相关基因表达系统的选择及分子育种提供理论基础?1 材料与方法1.1一数据来源 竹节参转录组数据来源于文献[22]?通过Perl语言程序 对竹节参转录组数据进行过滤筛选?筛选出碱基数?300bp的蛋白质编码序列共11199条?作为密码子分析的数据来源?本研究中使用到的大肠杆菌(Escherichiacoli)二酿酒酵母(Saccharomycescerevisiae)和毕赤酵母(Pichiapastoris)的密码子偏好性数据来自CodonUsagedatabase(http://www.kazusa.or.jp/codon/)? 1.2一竹节参基因GC含量分析及中性绘图利用CodonW1.4.2(http://codonw.sourceforge.net/)统 计分析竹节参基因密码子的碱基组成规律?测得鸟嘌呤和胞嘧啶总体含量G+C二密码子第3位碱基组成(A3二G3二C3二 95 江苏农业科学一2019年第47卷第2期

氨基酸密码子对照表

氨基酸密码子对照表

酸 e Leu 160 -CH-CH 2 - 类 赖氨酸Lysine K 或 Lys 146. 17 H 2 N-(CH 2 ) 4 - 碱性氨 基酸类 蛋氨酸Methio nine M 或 Met 149. 199 CH 3 -S-(CH 2 ) 2 - 含硫类 苯丙氨酸Phenyl alanin e F 或 Phe 165. 177 Phenyl-CH 2 - 芳香族 类 脯氨酸Prolin e P 或 Pro 115. 117 -N-(CH 2 ) 3 -CH- |_________| 亚氨基 酸 丝氨酸Serine S 或 Ser 105. 078 HO-CH 2 - 羟基类 苏氨酸Threon ine T 或 Thr 119. 105 CH 3 -CH(OH)- 羟基类 色氨酸Trypto phan W 或 Trp 204. 213 Phenyl-NH-CH =C-CH 2 - |___________ | 芳香族 类 酪氨酸Tyrosi ne Y 或 Tyr 181. 176 4-OH-Phenyl- CH 2 - 芳香族 类 缬氨酸Valine V 或 Val 117. 133 CH 3 -CH(CH 2 )- 脂肪族 类

与核苷酸序列相关的特征关键词表 关键词 说明 allel e 相关的个体或菌株含有相同基因的稳定的其它形式,该形式区别于这一位置的现有的序列(和或许其它序列) atten uator 存在调节转录的终止的DNA 区域,它控制了一些细菌操纵子的表达; (2)位于启动子和第一个结构基因之间,引起转录的部 分终止的序列区段 C_reg ion 免疫球蛋白轻和重链的恒定区,和T-细胞受体α,β,和γ链;根据特定的链可包括一个或多个外显子 CAAT_signa CAAT 盒;位于可能参与RNA 聚合酶结合的真核生物转录单位的起始点的75bp 上游

密码子数据库及密码子偏好性分析软件

密码子数据库及密码子偏好性分析软件 题记:转基因研究中经常要进行基因的异源表达,在翻译过程中,受体物种对外源基因密码子的翻译效率对表达有非常大的制约。因此,利用相应的生物信息学数据库及软件对目标序列进行受体物种的密码子偏好性分析将有助于完成对转基因效率的评价,适当选择合适的受体物种进行高效、可行的表达。 人物,阅读前,让我们感谢下列科学家,是他们为基因异源高效表达提供有价值参考。Yasukazu Nakamura博士: The First Laboratory for Plant Gene Research,Kazusa DNA Research Institute 开发Codon Usage Database(生物密码子表的利用情况统计)。 PrimerX:编写了Codon Usage Analyzer在线密码子统计表处理软件(/cgi-bin/codon.cgi),它使得对密码子的统计用图表的形式显示出来,更加的直观可读。 Morris Maduro博士:针对E. coli开发了E. coli Codon Usage Analyze 。目前的版本为2.1。Thomas Sch?dl:开发设计的以图形形式对异源基因表达的密码子使用分析软件 (Graphical codon usage analyser),用以帮助异源基因表达时对异源基因进行改造,以适应受体物种,避免由于翻译时密码子使用情况的限制使受体物种对外源基因表达产生负面影响。内容: 一:密码子使用统计数据库 Codon Usage Database(.jp/codon/ 是由植物基因研究第一实验室(The First Laboratory for Plant Gene Research)Kazusa DNA Research Institute的Yasukazu Nakamura博士开发的生物密码子表的利用情况统计。数据来源于GenBank 的DNA 序列数据库,是GenBank 的Codon Usage Tabulated 数据库在WWW模式下的扩展和整合。每个物种的密码子使用情况都可以通过WWW方式以网页的形式进行分析查询。 在该数据库中29,311个物种的不同形式的密码子使用情况被统计,包含1,756,171 个全长编码区序列。该数据库的数据来源于NCBI GenBank 的Flat File[December 19 2005]. 在数据库的编写过程中,GenBank中的pri (primate sequence entries), rod (rodent sequence entries), mam (other mammalian sequence entries), rt (other ertebrate sequence entries), in (inertebrate sequence entries), pln (plant sequence entries), bct (bacterial sequence entries), rl (iral sequence entries) and phg (phage sequence entries) 文件类型所代表的数据被采用,而EST,pat (patent sequence entries), rna (Structural RNA sequence entries), sts (STS: sequence tagged site sequence entries), syn (synthetic and chimeric sequence entries) and una (unanotated sequence entries)文件类型所代表的数据被舍弃。另外,编码区序列(complete sequenced protein coding genes)被采用,但测序数据中包含的不明确碱基所代表的密码子被排除。 数据库的使用方法: 该数据库可以对物种的拉丁名进行密码子使用情况的搜索,但数据库的搜索是不支持英文别名的。比如对于酵母密码子的搜索,要用其拉丁名Saccharomyces cereisiae,而“yeast”的搜索结果显示为零。另外,数据库对物种也进行了字母排序的统计,同样对酵母,进入S起始的“字典”里可以找到。对于线粒体、叶绿体的密码子使用情况,数据库同样给出了汇总整理。 二:密码子偏好性分析 对于密码子偏好性的分析,有Correspondence Analysis of Codon Usage软件分析程序(/)和graphical codon usage analyser在线分析软件(/faq.php?on=cut)。而对于E. coli,由于其作为发酵工程表达蛋白的最主要的手段,因此Morris Maduro博士针对E. coli开发了 E. coli Codon Usage Analyzer(.edu/~mmaduro/codonusage/usage.htm),目前的版本为2.1,它对于在

密码子表

密码子表 标准密码子表: =============================================== F ttt S tct Y tat C tgt F ttc S tcc Y tac C tgc L tta S tca * taa * tga L ttg S tcg * tag W tgg =============================================== L ctt P cct H cat R cgt L ctc P ccc H cac R cgc L cta P cca Q caa R cga L ctg P ccg Q cag R cgg =============================================== I att T act N aat S agt I atc T acc N aac S agc I ata T aca K aaa R aga M atg T acg K aag R agg =============================================== V gtt A gct D gat G ggt V gtc A gcc D gac G ggc V gta A gca E gaa G gga V gtg A gcg E gag G ggg =============================================== 脊椎动物线粒体密码子表: =============================================== F ttt S tct Y tat C tgt F ttc S tcc Y tac C tgc L tta S tca * taa W tga L ttg S tcg * tag W tgg =============================================== L ctt P cct H cat R cgt L ctc P ccc H cac R cgc L cta P cca Q caa R cga L ctg P ccg Q cag R cgg =============================================== I att T act N aat S agt I atc T acc N aac S agc M ata T aca K aaa * aga

氨基酸及其密码子对照

氨基酸及其密码子对照 Alanine Ala A GCU, GCC, GCA, GCG Arginine Arg R CGU, CGC, CGA, CGG, AGA, AGG AAC Asparagine Asn N AAU, Aspartic acid Asp D GAU, GAC UGC Cysteine Cys C UGU, CAG Q CAA, Glutamine Gln Glutamic acid Glu E GAA, GAG Glycine Gly G GGU, GGC, GGA, GGG H CAU, CAC Histidine His AUA AUC, Isoleucine Ile I AUU, CUU, CUC, CUA, CUG UUG, L UUA, Leucine Leu AAG Lysine Lys K AAA, Methionine Met M AUG Phenylalanine Phe F UUU, UUC Proline Pro P CCU, CCC, CCA, CCG Serine Ser S UCU, UCC, UCA, UCG, AGU,AGC Threonine Thr T ACU, ACC, ACA, ACG Tryptophan Trp W UGG UAC Tyrosine Tyr Y UAU, Valine Val V GUU, GUC, GUA, GUG * Start AUG Stop UAG (amber), UGA (opal), UAA (ochre) AUG is the most common start codon. Alternative start codons include CUG in eukaryotes and GUG in prokaryotes.

拟南芥及水稻转录因子MADS密码子的偏好性比较

浙江大学学报(农业与生命科学版)  31(5):513~517,2005Journal of Zhejiang U niversity (Agric 1&Life Sci 1) 文章编号:100829209(2005)0520513205 收稿日期:2005201229 基金项目:国家自然科学基金(39870421);浙江省重点研究项目基金(2003C22007);浙江省“04206"工程水稻品种改良项目. 作者简介:李娟(1979— ),女,山东省济南人,从事基因组学方面的研究.通讯作者:薛庆中,男,教授,博士生导师,从事植物遗传育种,基因组学方面的研究.E 2mail :qzhxue @hot https://www.360docs.net/doc/0815641665.html,. 拟南芥及水稻转录因子MADS 密码子的偏好性比较 李娟1,薛庆中1,2 (1.浙江大学沃森基因组科学院,浙江杭州310008;21浙江大学农学系,浙江杭州310029) 摘 要:大多数与花发育相关的功能基因属于MADS 基因家族.应用CodonW 的因子分析表明,拟南芥MADS 转录因子家族偏好使用A 、U 结尾的密码子,而水稻MADS 转录因子家族偏好使用G 、C 结尾的密码子.同时通过氨基酸序列的多重比对,表明密码子偏好性与氨基酸序列及二级结构之间存在关联,证实了不同的密码子编码的氨基酸位于蛋白质二级结构的特定位置.关 键 词:水稻;拟南芥;密码子偏性;转录因子;AU 含量中图分类号:S511 文献标识码:A L I J uan 1,XU E Qing 2zhong 1,2(1.J ones D.W atson I nstitute of Genome Science ,Zhej iang Universit y ,H angz hou 310008,China ;2.Dept of A g ronom y ,Zhej iang Universit y ,H angz hou 310029,China ) Comparison of MADS transcriptional factor on codon bias in arabidopsis and rice.Journal of Zhejiang University (Agric 1&Life Sci 1),2005,31(5):5132517 Abstract :Most of the flower development 2related f unctional genes are belong to MADS transcription factors families.Through the factorial correspondence analysis (FCA )of CodonW ,we can find out that MADS transcriptional factors in Arabidopsis prefer to A 2ending and U 2ending codons ,while that in rice prefer to G 2ending and C 2ending codons.By using the ClustalX for searching the relation between the bias of the codons and second structure of the MADS ,we confirm that the amino acids coding by different codons are on the special position of the second structure of the proteins.K ey w ords :rice ;arabidopsis ;codon usage bias ;transcriptional factors ;AU content 转录因子是指那些专一性地结合于DNA 特定序列上,能激活或/和抑制其它基因转录的蛋白质.根据DNA 结合功能域结构,他们主要分为:b HL H (碱基性螺旋2环2螺旋)、bZIP (碱性亮氨酸拉链)、homeodomain 蛋白、MADS 2box 蛋白、zinc 2finger 蛋白、Myb 蛋白、A P2/EREBP 蛋白、HSF 蛋白、HM G 蛋白和A T hook 蛋白等[1]. 植物MADS 基因是一个序列特异的调节 基因家族.和其他真核生物转录因子一样 MADS 蛋白由MADS (M )、Intervening (I )、Keratin 2like (K )和C 2terminal (C )等结构域组成,属于结构域蛋白.大多数花发育相关功能基因属于MADS 因子家族[2,3],被子植物的大部分MADS 基因参与花发育的调控[4].不仅在花器官原基分化期表达,在植物其它部位也有表达,且某些MADS 2box 在烟草花粉发育全过程中持续表达[5].同时,MADS 2box 基因家族还

氨基酸密码子对照表

丙氨酸Alanine A 或 Ala 89.079 CH 3 - 脂肪族类 精氨酸Arginine R 或 Arg 174.188 HN=C(NH 2 )-NH-(CH 2 ) 3 - 碱性氨基酸 类 天冬酰胺Asparagine N 或 Asn 132.104 H 2 N-CO-CH 2 - 酰胺类 天冬氨酸Aspartic acid D 或 Asp 133.089 HOOC-CH 2 - 酸性氨基酸 类 半胱氨酸Cysteine C 或 Cys 121.145 HS-CH 2 - 含硫类谷氨酰胺Glutamine Q 或 Gln 146.131 H 2 N-CO-(CH 2 ) 2 - 酰胺类 谷氨酸Glutamic acid E 或 Glu 147.116 HOOC-(CH 2 ) 2 - 酸性氨基酸 类 甘氨酸Glycine G 或 Gly 75.052 H- 脂肪族类 组氨酸Histidine H 或 His 155.141 N=CH-NH-CH=C-CH 2 - |__________| 碱性氨基酸 类 异亮氨酸Isoleucine I 或 Ile 131.160 CH 3 -CH 2 -CH(CH 3 )- 脂肪族类亮氨酸Leucine L 或 Leu 131.160 (CH 3 ) 2 -CH-CH 2 - 脂肪族类 赖氨酸Lysine K 或 Lys 146.17 H 2 N-(CH 2 ) 4 - 碱性氨基酸类 蛋氨酸Methionine M 或 Met 149.199 CH 3 -S-(CH 2 ) 2 - 含硫类 苯丙氨酸Phenylalani ne F 或 Phe 165.177 Phenyl-CH 2 - 芳香族类 脯氨酸Proline P 或 Pro 115.117 -N-(CH 2 ) 3 -CH- |_________| 亚氨基酸 丝氨酸Serine S 或 Ser 105.078 HO-CH 2 - 羟基类氨酸Threonine T 或 Thr 119.105 CH 3 -CH(OH)- 羟基类 色氨酸Tryptophan W 或 Trp 204.213 Phenyl-NH-CH=C-CH 2 - |___________| 芳香族类 酪氨酸Tyrosine Y 或 Tyr 181.176 4-OH-Phenyl-CH 2 - 芳香族类缬氨酸Valine V 或 Val 117.133 CH 3 -CH(CH 2 )- 脂肪族类

酵母密码子偏好表

密码子表密码子

酿酒酵母密码子偏好表

UUU 26.1(170666) UCU 23.5(153557) UAU 18.8(122728) UGU 8.1( 52903) UUC 18.4(120510) UCC 14.2( 92923) UAC 14.8( 96596) UGC 4.8( 31095) UUA 26.2(170884) UCA 18.7(122028) UAA 1.1( 6913) UGA 0.7( 4447) UUG 27.2(177573) UCG 8.6( 55951) UAG 0.5( 3312) UGG 10.4( 67789) CUU 12.3( 80076) CCU 13.5( 88263) CAU 13.6( 89007) CGU 6.4( 41791) CUC 5.4( 35545) CCC 6.8( 44309) CAC 7.8( 50785) CGC 2.6( 16993) CUA 13.4( 87619) CCA 18.3(119641) CAA 27.3(178251) CGA 3.0( 19562) CUG 10.5( 68494) CCG 5.3( 34597) CAG 12.1( 79121) CGG 1.7( 11351) AUU 30.1(196893) ACU 20.3(132522) AAU 35.7(233124) AGU 14.2( 92466) AUC 17.2(112176) ACC 12.7( 83207) AAC 24.8(162199) AGC 9.8( 63726) AUA 17.8(116254) ACA 17.8(116084) AAA 41.9(273618) AGA 21.3(139081) AUG 20.9(136805) ACG 8.0( 52045) AAG 30.8(201361) AGG 9.2( 60289) GUU 22.1(144243) GCU 21.2(138358) GAU 37.6(245641) GGU 23.9(156109) GUC 11.8( 76947) GCC 12.6( 82357) GAC 20.2(132048) GGC 9.8( 63903) GUA 11.8( 76927) GCA 16.2(105910) GAA 45.6(297944) GGA 10.9( 71216) GUG 10.8( 70337) GCG 6.2( 40358) GAG 19.2(125717) GGG 6.0( 39359) 酸性氨基酸:天冬氨酸、谷氨酸 碱性氨基酸:赖氨酸、精氨酸、组氨酸 目录 [隐藏] ? 1 基本結構 ? 2 分類 ? 3 理化特性 ? 4 胺基酸的化學結構 ? 5 胺基酸列表 ? 6 基本氨基酸 ?7 必需氨基酸 ?8 次要编码氨基酸 ?9 其它胺基酸 ?10 參考資料

氨基酸的简写表格及密码子的对照表

【氨基酸密码子表】【氨基酸缩写表】表1 氨基酸中英文对照及缩写 丙氨 酸Alanine A 或 Ala 89.079CH 3 -脂肪族类 精氨酸Arginin e R 或 Arg 174.188 HN=C(NH 2 )-NH-(CH 2 ) 3 - 碱性氨基酸类 天冬酰胺Aspara gine N 或 Asn 132.104 H 2 N-CO-CH 2 - 酰胺类 天冬氨酸Asparti c acid D 或 Asp 133.089 HOOC-CH 2 - 酸性氨基酸类 半胱氨酸Cystein e C 或 Cys 121.145HS-CH 2 -含硫类 谷氨酰胺Glutami ne Q 或 Gln 146.131 H 2 N-CO-(CH 2 ) 2 - 酰胺类 谷氨酸Glutami c acid E 或 Glu 147.116 HOOC-(CH 2 ) 2 - 酸性氨基酸类 甘氨 酸Glycine G 或 Gly 75.052H-脂肪族类 组氨酸Histidin e H 或 His 155.141 N=CH-NH-C H=C-CH 2 - 碱性氨基酸类

|__________| 异亮氨酸Isoleuci ne I 或Ile131.160 CH 3 -CH 2 -CH(CH 3 )- 脂肪族类 亮氨酸Leucin e L 或 Leu 131.160 (CH 3 ) 2 -CH-CH 2 - 脂肪族类 赖氨 酸Lysine K 或 Lys 146.17 H 2 N-(CH 2 ) 4 - 碱性氨基酸类 蛋氨酸Methio nine M 或 Met 149.199 CH 3 -S-(CH 2 ) 2 - 含硫类 苯丙氨酸Phenyl alanine F 或 Phe 165.177 Phenyl-CH 2 - 芳香族类 脯氨 酸Proline P 或 Pro 115.117 -N-(CH 2 ) 3 -CH- |_________| 亚氨基酸 丝氨 酸Serine S 或 Ser 105.078HO-CH 2 -羟基类 苏氨酸Threoni ne T 或 Thr 119.105 CH 3 -CH(OH)- 羟基类 色氨酸Tryptop han W 或 Trp 204.213 Phenyl-NH-C H=C-CH 2 - |__________ _| 芳香族类

相关文档
最新文档