大肠杆菌密码子偏好性
密码子偏好性

CAC (7.3)
CGC (14.0)
C
CUA (5.6)
CCA (9.1)
CAA (14.4)
CGA (4.8)
A
CUG (37.4)
CCG (14.5)
CAG (26.7)
CGG (7.9)
G
A
AUU (29.6)
ACU (13.1)
AAU (29.3)
AGU (13.2)
U
AUC (19.4)
ACC (18.9)
AAC (20.3)
AGC (14.3)
C
AUA (13.3)
ACA (15.1)
AAA (37.2)
AGA (7.1)
A
AUG (23.7)
ACG (13.6)
AAG (15.3)
AGG (4.0)
G
G
GUU (21.6)
GCU (18.9)
GAU (33.7)
GGU (23.7)
精氨酸
Arginine
Arg
R
CGU,CGC,CGA,CGG,AGA,AGG
天冬酰胺
Asparagine
Asn
N
AAU,AAC
天冬氨酸
Asparticacid
Asp
D
GAU,GAC
半胱氨酸
Cystine
Cys
C
UGU,UGC
谷氨酸
Glutamicacid
Glu
E
GAA,GAG
谷氨酰胺
Glutarnine
A
UUG (12.9)
UCG (4.4)
UAG (0.8)
UGG (13.2)
密码子偏好性分析

摘 要 脂多糖结合蛋白(lipopolysaccharide-binding protein, LBP)是机体识别革兰氏阴性菌内毒素并启 动免疫反应的关键因子。为了了解 LBP 基因的密码子使用特性,为其选择合适的受体动物以及最佳外源 表达系统提供依据,本研究运用 CHIPS、CUSP 和 CodonW 在线程序分析自主电子克隆的猪(Sus scrofa) LBP 基因(GenBank 登录号: NM-001128435.1)的密码子偏好性,并与猪 8 种抗病相关基因、模式生物基因 组以及其他物种 LBP 基因相比较。结果表明,猪 LBP 基因大部分偏好使用以 G/C 结尾的密码子,27 种偏 好密码子(相对使用度(RSCU)>1)中偏好性较强的有 GCC、CAC、CTG 和 TCC(RSCU≥2),而猪 8 种抗病 相关基因有 23 种偏好密码子,全部以 G/C 结尾,并且偏好性较强的密码子有 GCC、ATC、CTG 和 GTG;通 过比较 14 种动物的 LBP 基因密码子偏好性,发现 14 个物种的 LBP 基因表达水平一般,并且都偏好以 G/C 结尾的密码子;聚类分析发现,偶蹄目猪与 2 种食肉目动物(猫(Felis catus)和狗(Canis))聚为一类,与系统 分类关系不一致;在密码子的使用频率上,猪 LBP 基因与小鼠(Mus musculus)基因组的差异小于大肠杆菌 (Escherichia coli)和酵母菌(Saccharomyces)等 2 种模式生物基因组,故小鼠更适合作为该 LBP 基因的外源表 达宿主。本研究结果为 LBP 基因在动物遗传改良中选择合适的受体动物、选择最佳的外源表达系统以及 提高其表达水平提供一定的理论依据。 关键词 猪,脂多糖结合蛋白基因(LBP),密码子偏好性
毕赤酵母和大肠杆菌密码子偏好表比较

大肠杆菌 UCU UCC UCA UCG AGU AGC 11 9.3 10.1 8.5 10.8 14.9
CCU CCC CCA CCG
8 5.6 8.7 19.1
AUU AUC AUA
29.6 22.5 8.5
AUG
25.8
ACU ACC Βιβλιοθήκη CA ACG11.1 21.2 10.9 13.8
GUU GUC GUA GUG
大肠杆菌 UUU UUC 22.6 15.6
UUA UUG CUU CUC CUA CUG
15.1 12.9 12.7 10.1 4.6 45.6
毕赤酵母 Ser丝氨酸 S UCU 24.4 UCC 16.5 UCA 15.2 UCG 7.4 AGU 12.5 AGC 7.6 Pro脯氨酸 CCU CCC CCA CCG Thr苏氨酸 ACU ACC ACA ACG Ala丙氨酸 GCU GCC GCA GCG P 15.8 6.8 18.9 3.9 T 22.4 14.5 13.8 6 A 18.9 16.6 15.1 3.9
20.1 14 12 23.2
GCU GCC GCA GCG
17.5 23.7 21.7 27.6
毕赤酵母 Tyr酪氨酸 Y UAU 16 UAC 18.1 His组氨酸 CAU CAC Gln谷氨酰胺 CAA CAG Asn天冬酰胺 AAU AAC Lys赖氨酸 AAA AAG Asp天冬氨酸 GAU GAC Glu谷氨酸 GAA GAG H 11.8 9.1 Q 25.4 16.3 N 25.1 26.7 K 29.9 33.8 D 35.7 25.9 E 37.4 29
GAA GAG
37.9 18.9
大肠杆菌 5.4 6
密码子偏好性与异源蛋白表达

密码子偏性与异源蛋白表达原文:Claes Gustafsson, et al. TRENDS in Biotechnology, 2004,22(7): 346-353./corp/images/MS102504CG.pdf翻译:zhxm409511在1977年,当Genetech的科学家和他们的科研合作伙伴首次利用细菌生产出人类蛋白(生长激素释放抑制因子)时[1],蛋白的异源表达在整个生物技术产业中发挥着关键的角色。
那时,仅知道生长激素释放抑制因子的氨基酸序列,还不知如何从人的基因组中克隆该基因,因此,Genetech小组采用数条寡核苷酸合成了14个密码子长的生长激素释放抑制因子基因。
Itakura和同事们设计这些寡核苷酸时遵循了三条标准[1]。
首先,优先使用MS2噬菌体偏爱的密码子——尽管当时对大肠杆菌的基因组DNA序列还知之甚少,却已刚刚完成了MS2噬菌体的测序,并认为该噬菌体的序列能够代表大肠杆菌高表达基因所使用的密码子。
其次,消除寡核苷酸不必要的分子内和分子间配对,因为这可能影响基因合成。
第三,避免那些先是富含GC随后是富含AT的序列,当时认为这种序列可能会导致转录终止。
结果,利用这条合成的基因首次制生产出来了具有功能活性的多肽。
25年后的今天,大多数基因克隆自cDNA文库或直接利用聚合酶链反应(PCR)从相应的基因组中扩增获得。
要尽量避免从头合成基因,因为这样做需要消耗大量的财力和人力[2]。
尽管基于PCR的克隆被广泛使用,但很多情况下它还是不及所描述的那样快捷和容易。
它经常需要一些不易得到的模板(对于具有内含子的生物,需要cDNA模板),此外还需要进行PCR条件的优化,需要对PCR产物进行测序,如果PCR引入了任何的配对错误,还经常需要通过定点突变进行修复。
然而,当扩增出的基因克隆入表达载体后,真正有趣的事情就发生了:经常是没有蛋白表达或表达水平很低。
人们已经进行了大量的研究,以提高克隆基因的表达水平,包括优化宿主的生长条件,建立新的宿主系,改用新的宿主,和无细胞系统[3]。
密码子偏好性分析..

手段 ,通过比较核基因编码的核糖体蛋白和线粒体基 因编码的核糖体蛋白上密码子使用模式的差异来预测 未知蛋白的基因所在基因组位置。
(二)通过密码子使用偏好性的研究, 可以判定一些最优
密码子,针对这些密码子设计基因工程表达载体可以提高目 的基因的表达量 。 (三)利用密码子使用偏好性和某种功能的关联程度对某些 未知功能基因进行预测利用已知的密码子偏好知识对未知表 达水平 的 基 因 进行 判 定 初步判断该基因的表达水平高或 低。 (四)利用编码区和非编码区的基因组特征差异进行全基因 组扫描,发现新基因。 密码子使用偏性的影响因素:
其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1<n6), 戈代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个参数。
密码子适应指数( Codon adaption index , CAI ) 该指数以一组具高表达水平的基因为参考 , 测量某一个基因的密码子偏 好情况和这些高表达基因密码子偏好情况的接近程度 , 如果一个基因完 全使用高表达基因中所用的密码子 , 则其 C AI 值为 1 。目前这个指数已 被广泛用来预测基 因 的 表 达 水平。
进行查询
如只需要基因序列而不需要详细信息,则需点击TASTA
如需进行图文分析,则点击Graphics
计算同义密码子相对使用度(Relative synonymous codon
usage, RSCU) 在genebank中取出序列后,用codonw进行在线分析
结果如下:
利用cusp计算密码子Franction和Frequency。 Franction:各个密码子在编码该氨基酸的密码子中所占的比例。 Frequency:该密码子在编码总基因密码子中出现的频率。
稀有密码子对大肠杆菌蛋白表达影响

稀有密码子对大肠杆菌蛋白表达影响摘要外源基因中的稀有密码子是影响大肠埃希菌(大肠杆菌)表达的重要因素。
稀有密码子尤其是串联稀有密码子能降低甚至耗竭胞内同源tRNA,降低蛋白表达水平,并具有显著的位置效应。
另外,稀有密码子可以引起外源mRNA翻译过程中的移码翻译、核糖体跳跃和氨基酸错配等异常事件。
本文就稀有密码子影响大肠杄菌蛋白表达的机制研究作一糸统综述。
在所有生物的基因中,对同义密码子的使用都不是随机的,不同的生物对同义密码子的选择有着不同的偏性。
对大肠杆菌基因密码子使用频率分析表明,几乎所有简并密码子家族都对其中一个或两个密码子有偏性,高表达基因比低表达基因的密码子偏性更显著。
同义密码子的使用频率与细胞内同源tRNA的相对数量有直接关联,通常反映出其同源tRNA的浓度。
很多外源基因尤其是真核基因含有大量大肠杆菌稀有密码子,这些稀有密码子的存在是很多外源基因不能在大肠杆菌得到高效表达的原因之一。
目前有关稀有密码子的研究主要限于精氨酸稀有密码子AGA/AGG,究主要限于精氨酸稀有密码子AGA/AGG,子。
本文就有关稀有密码子影响大肠杆菌蛋白表达的机制研究作一系统综述。
一、稀有密码子的解码速率核糖体在稀有密码子位点翻译速率降低的发现最早来自于对分泌蛋白内称之为暂停位点的研究12。
在这些蛋白的跨膜运输过程中,在暂停位点存在不完全多肽中间物,研究发现暂停位点由几个稀有密码子组成。
这是由于稀有密码子的同源tRNA丰度很低,在核糖体的A位以随机方式寻找与稀有密码子配对的同源氨酰tRNA需要花费比偏性密码子更长的时间,导致多肽延伸的翻译速率降低。
蛋白合成速率由翻译起始速率(Ri)和核糖体在mRNA的移动速率所决定通常偏性密码子的解码速率(Ra)与稀有密码子的解码速率(Rb)都在大于Ri,因而对蛋白合成速率并无影响。
只有在某些条件下当稀有密码子的同源tRNA供应不上时,Rb就会大大低于Ri,引起核糖体停在稀有密码子处,并阻碍了随后的核糖体蛋白合成mRNA上形成核糖体串,这串核糖体的数目由Ra和Rb的速率比所决定。
大肠杆菌偏爱密码子
115
Serine AGC UCU AGU UCC UCA UCG Threonine ACC ACG ACU ACA
105
119
Tryptophan Trp W UGG 13.8( 60422) Tyrosine Tyr Y UAU 18.5( 80908) UAC 12.0( 52358) GUG GUU GUC GUA 终止密码子 UAA UGA UAG Val V 23.2(101553) 20.1( 88035) 14.0( 61260) 12.0( 52343) 2.0( 1.0( 0.3( 8683) 4573) 1262)
CUU 12.7( 55331) CUC 10.1( 44179) CUA 4.6( 19924) CUG 45.6(199228) AUU 29.6(129557) AUC 22.5( 98422) AUA 8.5( 37183) AUG 25.8(112745) GUU GUC GUA GUG 20.1( 88035) 14.0( 61260) 12.0( 52343) 23.2(101553)
89
174
132 133 121 147 146 75155 13113
146 第 1 页
E.coli偏爱密码子 AAA 35.6(155678) AAG 13.2( 57575) Methionine Met M AUG 25.8(112745) Phenylalamine Phe F UUU 22.6( 98848) UUC 15.6( 68039) Proline Pro P CCG 19.1( 83496) CCA 8.7( 37970) CCU 8.0( 35081) CCC 5.6( 24688) Ser s 14.9( 65301) 11.0( 48112) 10.8( 47381) 9.3( 40617) 10.1( 44257) 8.5( 37053) Thr T 21.2( 92587) 13.8( 60170) 11.1( 48507) 10.9( 47835) 149 165
如何构建一个大肠杆菌高效表达的分子克隆
如何构建一个大肠杆菌高效表达的分子克隆?影响基因在大肠杆菌中表达的因素是多方面的,以下我就从载体选择、启动子、终止子、核糖体结合位点、密码子、质粒拷贝数、表达产物的稳定性、受体细胞代谢等方面说明构建大肠杆菌高效表达的方法。
一、表达载体表达载体应具有以下条件:1、能够独立复制。
根据载体复制的特点,可分为严谨型和松弛型。
严谨型载体伴随宿主染色体的复制而复制,在宿主中拷贝数很少(1~3个);松弛型的复制而不依赖于宿主染色体,在宿主细胞中的拷贝数可多达3000个。
2、应具有灵活得多克隆位点和方便的筛选标记,便于外源基因的克隆、鉴定和筛选。
而且多克隆位点应位于启动子序列之后,以使外源基因表达。
3、应具有很强的启动子,能被大肠杆菌的RNA聚合酶识别。
4、应具有使启动子受抑制的阻遏子,只有在受到诱导时才能进行转录。
阻遏子的阻遏作用可由物理(如温度)、化学(如IPTG、IAA等)因素进行调节,这样可人为地选择启动子启动转录mRNA的时机。
因外源基因的高效表达往往会抑制宿主细胞的生长、增殖。
而阻遏子可使宿主细胞免除此不良影响。
例如可使宿主细胞快速生长增殖到相当量,再通过瞬时消除阻遏,使所表达的蛋白质在短时间内大量积累,同时可减少表达产物的降解。
5、应具有很强的终止子,以便使RNA聚合酶集中力量转录克隆的外源基因,而不转录其他无关基因。
同时强终止子所产生的mRNA较为稳定。
诱导表达时,由于强终止子所致的高水平转录反过来会影响质粒DNA自身的复制,从而引起质粒的不稳定或脱质粒现象。
因此在外源基因的下游安置强终止子可以克服由质粒转录引起的质粒不稳定。
6、所产生的mRNA必须有翻译的起始信号,即起始密码AUG和SD序列。
二、启动子启动子是表达载体最重要的组成成分,这是因为启动子控制了基因表达的第一个阶段,决定了mRNA合成的速度。
启动子是在转录水平上影响基因表达。
转录的最大速率取决于启动子中碱基的组成,往往会因为一个碱基的不同,启动子效率可能提高上千倍。
密码子偏好性分析 2
(一)基因序列碱基组成的偏好性
在不存在自然选择压力 的 情 况 下, 一定方向的突变压会影响序列本 身的碱基组成 ,而这一效应同时也会反映在同义密码子的第 3位上。这 样 的偏好性仅仅是反映了序列组成的特征,而与蛋白功能或表达水平无 关。
(二)弱的自然选择效应
对于所有密码子家族来讲,即使存在密码子偏好性,由于同义密码子并 不改变最终的蛋白产 物。所以对于那些频繁被使用的密码子的选择性被 认为是很弱的。但是这种弱的选择会体现在基因表达水平上。在高表达 的基因中,密码子使用偏好性要强过一 般表达的基因。
其中RSCUmax、是高表达参照基因中,每一个氨基酸里使用频率最高的密码子的相对同义密码子使用频率,L是基因中 密码子的个数
高 频 密 码 子与最优密码子
某一密码子相对同义密码子使用频率单值超过60% 或者超过该组同义密 码子平均占有频率的1.5 倍的密码子即为高频码子。 最后采用高表达优越密码子分析方法先,计算每个基因的密码子有效数 和相对同义密码子用法, 然后再根据各 Nc值确 定高表达和低表达样本 组,计算出这两个样本组中各个密码子各自的值,最后通过卡方检验确 定出高表达基因的优越密码子确定最优密码子。
由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现 得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993) 和最优密码子使用频率 FOp(LavnerandKotlar2005),弥补了密码子的 相对嫡值的加Ew(Suzukietal.2004)等。多种多样的技术和方法促进了密 码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致, 特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在 使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才 能确保结果的正确性。
偏好密码子
Arg 35.74% Arg 37.42% Arg 6.89% Arg 10.97%
T C A G
A
Ileu Ileu Ileu
49.83% 40.13% 10.04%
Thr Thr Thr Thr
16.91% 41.01% 15.22% 26.86%
Asn Asn Lys Lys
47.77% 52.23% 75.02% 24.98%
笨丙氨酸 (phenylalanine) Phe 脯氨酸( proline) 丝胺酸( serine) 苏氨酸( threonine) 色氨酸( tryptophan) 酪氨酸( tyrosine) 颉氨酸( valine) Pro Ser Thr Trp Tyr Val
谷氨酸( glutamic acid) Glu 甘氨酸( Glicine) 组氨酸( histidine) 异亮氨酸 (isoleucine) Gly His Ile
2001 年 8 月 21 日 完成最后一次计算
注:Stp 表示终止密码子
T
C
A
G
T
Phe Phe Leu Leu
58.33% 41.67% 13.56% 12.69%
Ser Ser Ser Ser
14.89% 14.85% 13.68% 14.57%
Tyr Tyr Stp Stp
57.63% 42.37% 59.68% 8.48%
谷氨酸( glutamic acid) Glu 甘氨酸(Glicine) 组氨酸( histidine) 异亮氨酸 isoleucine) ( Gly His Ile
G13: QRSVSNAATRVCRTGRSRW ATGCAGCGTTCTGTGTCTAACGCAGCAACT CGTGTGTGCCGTACTGGTCGTTCTCGTTGG 引物 1:AGAATTC ATGCAGCGTTCTGTGTCTAA 引物 2:ATTGTCGAC TTACCAACGAGAACGACCAGT Nco1 C CATG G G G TAC C