dna间隔序列

合集下载

医学分子生物学名词解释-1

1.启动子：启动子是基因转录起始所必须的一段DNA序列，是基因表达调控的上游顺式作用元件之一2.增强子：能强化转录起始的序列为增强子或强化子，与启动子一起都可视为基因表达调控中的顺式作用元件。

无论位于靶基因的上游、下游或内部都可以发挥作用。

3.抗终止因子：抗终止因子是指能在特定位点阻止转录终止的一类蛋白。

这些蛋白与RNA聚合酶的核心酶结合，使RNA能越过终止子，继续转录DNA。

4.上游启动子元件：TATA区上游的保守序列称为上游启动子元件，它们决定转录产物产率高低。

5.帽子结构：通过倒扣GTP和特殊的甲基化修饰而加在真核mRNA5′端的特殊结构，可保护mRNA的稳定，形似帽子而得名。

6.顺式作用元件：是指对基因表达有调节作用的DNA序列，如启动子、增强子等。

其活性只影响与其自身同处在一个DNA分子上的基因。

7.反式作用因子：是指远离受影响的基因之外的基因所编码的产物，又称为转录因子（本质是蛋白质）。

有特异性和非特异性之分。

8.结构基因和调节基因结构基因：编码功能各异的蛋白质或RNA的特异DNA序列。

调节基因：编码那些参与基因表达调控的RNA和蛋白质(即调控RNA和调控蛋白)的特异DNA序列。

9.组成蛋白和调节蛋白组成蛋白：细胞内有许多种蛋白质的含量几乎不受外界环境的影响，这些蛋白质称为组成蛋白。

调节蛋白:是一类特殊的蛋白质，是调节基因的产物，它们可以影响一种或多种基因的表达。

有两种类型的调节蛋白，即起正调节作用的激活蛋白和起负调节作用的阻遏蛋白。

10.异染色质：细胞间期核内染色质压缩程度较高，碱性染料着色较深的区域。

着丝粒、端粒、次缢痕， DNA主要是高度重复序列，没有基因活性。

11.核小体：核小体是染色体的基本组成单位，它是由DNA和组蛋白构成的，组蛋白H3、H4、H2B、H2A各两份，组成了蛋白质八聚体的核心结构，大约200bp的DNA盘绕在蛋白质八聚体的外面，相邻两个核小体之间结合了1分子的H1组蛋白。

同源DNA序列中间隔位点的核苷酸最近邻插补

同源DNA序列中间隔位点的核苷酸最近邻插补秦雪瑞;刘雄恩【摘要】针对分子系统发育重建时忽略同源DNA序列中的间隔位点导致进化信息丢失和序列间进化距离偏低估计的问题,基于最小进化原理并借鉴统计学中缺失数据处理的方法,提出核苷酸最近邻插补间隔位点,对插补后序列再运用4-状态DNA进化马尔可夫模型估算序列间进化距离的方法.对3组同源DNA序列在不同方法下进行距离估算的对照测试,结果表明:5-状态的F81+gap和F84+gap模型不能有效融合间隔所携带的indel信息,反而更加低估序列间距离;改进的同类模型F81+gap′则在一定程度上降低了距离的偏低估计,而核苷酸最近邻插补处理方法可以融合DNA突变中更多的indel信息.【期刊名称】《福建农林大学学报（自然科学版）》【年(卷),期】2018(047)005【总页数】8页(P633-640)【关键词】同源DNA序列;间隔;插入/缺失;缺失数据;进化距离;最近邻插补【作者】秦雪瑞;刘雄恩【作者单位】福建农林大学计算机与信息学院,福建福州350002;福建农林大学计算机与信息学院,福建福州350002【正文语种】中文【中图分类】O211.62;O241.6分子系统发育分析是生物信息计算的一个重要分支，推算分子系统发育树可以重建祖先序列和估计分歧时间.通过分子系统发育研究可以探索生命的起源和物种间的进化历史，开展分类与区系研究以及流行病学、微生物生态学等的研究[1].分子系统进化研究的第一步是建立同源性假设.DNA多序列比对数据代表了最初的同源性假设[2].一般情况下，参与比对的序列长度不是完全相同的，为了对齐需要插入间隔.比对序列的1列为1个位点，至少含有1个间隔的位点称为间隔位点，由共同祖先分歧后发生的插入或缺失事件引起.由于间隔起源于这种特殊的突变事件，包含适合于系统发育分析的历史信息[3]，因此在分子系统发育分析中融合间隔位点的信息是有必要的.常用的DNA进化马尔可夫模型，如JC69、K80、F81、F84、HKY85、TN93、REV94等，都只描述了4种核苷酸的置换(substitution)过程(本文统称这类DNA 进化模型为4-状态模型)，忽略了插入/缺失事件，在分子系统发育分析中应用这类模型势必会低估同源序列间的进化距离.将比对间隔视为碱基的第5种状态，Mcguire et al[4]首次提出了包含间隔位点信息的JC69+gap、F81+gap、F84+gap等模型，但这3种改进模型将插入/缺失事件与碱基置换或颠换(transversion)同等对待.2015年林碧娇等[5]在上述改进模型基础上引入新的参数，进一步区分了插入/缺失与碱基置换在性质上的差异，提出JC69+gap′、F81+gap′、F84+gap′等模型，改进后的5种状态模型的参数较多，计算复杂，且仅在系统发育重建方法中的最大似然法上评估了应用效果.对于以上融合间隔位点信息的DNA进化马尔可夫模型(统称为5-状态模型)，未在距离计算偏差上进行过有效分析.为了在分子系统发育分析中尽可能多地融合indel信息，本文将多序列比对后出现的间隔视为统计抽样过程中产生的随机缺失数据.尝试以比对多序列的p距离矩阵表示序列间亲缘关系，依据最近邻原则选择碱基插补于特定序列的特定间隔位点，并比较分析插补前与插补后序列基于4-状态模型及插补前序列基于5-状态模型的序列间进化距离的大小，进而评估核苷酸最近邻插补法的有效性.1 研究方法1.1 最近邻插补的一般方法最近邻插补根据研究对象在辅助变量上的接近程度来选择赋值单元，即利用辅助变量定义一个衡量单元间距离的函数，在无回答单元临近的回答单元中，选择与无回答单元距离最接近的回答单元所对应的值插补无回答值[6].其中，距离函数可根据应用实际采用不同的距离测度.对于离散化矩阵，最近邻插补法一般采用匹配度来计算样本单元i和j之间的距离[7].记m为样本单元个数，n为属性类数，则样本间的距离为：(1)式中，i，j = 1,2,…,m.Ai为含缺失数据的样本单元i的属性向量;Aj为其他各样本单元j的属性向量;ail为样本单元i在属性l上的值.要求属性值向量Ai和Aj在属性l上无缺失值.(2)可见，dij为第i个和第j个样本单元的属性值向量Ai和Aj中属性不同的属性个数.属性个数越少，两样本单元距离越近.设样本单元i的属性t缺失，则插补函数为(3)样本单元i与k距离最小且k在t上的属性值 akt存在，则样本单元i在t上的属性值ait插补为akt.由于最近邻插补算法计算简便，效果明显，在缺失数据处理中都有着广泛的应用.1.2 同源DNA序列中间隔位点的核苷酸插补将同源DNA比对序列视为统计抽样的多个样本单元，每个位点独立进化，位点视为样本单元的属性，比对序列中的间隔即为缺失数据.在分子系统发育分析中，由于针对比对后的同源序列间无论使用观察距离(即p距离[8])还是基于核苷酸替代模型的进化距离，反映的物种间亲缘关系远近的顺序是一致的，而p距离通过2个序列中非同一核苷酸位点的比例来测度分歧大小，即(4)式中，mij和nij分别为序列i与序列j中非同一核苷酸位点数和位点总数.基于最小进化原理[9]，以序列间p距离中最短距离作为最近邻的依据，间隔位点核苷酸插补函数为:(5)即，序列Si与Sk的p距离最短且Sk在位点t上存在核苷酸Skt，则Sit的间隔插补为Skt.同源DNA序列中间隔位点核苷酸最近邻插补算法描述如下：Algorithm Nucleotide Interpolation by NNIBeginInput multi-aligned DNA sequences SComputing p-distance matrix PFor t ← 1 st To the last gap site DoBeginFor i ← 1 st To the last sequence with gap at t DoIf pik=minj(pij) and Skt∈{A,T,C,G} Then Sit ← SktFor j ← 2 nd To the last sequ ence DoIf Sjt ≠ Sit Then break Else continue loopIf j > count of sequences Then delete site t Else remain tEndOutput S after Nucleotide Interpolation at gap sitesEnd核苷酸最近邻插补算法：先计算p距离矩阵；然后针对多序列比对的核苷酸矩阵，对含有间隔的所有列中的每个存在间隔的序列，选择与该序列距离最近且在该位点没有间隔的核苷酸，将其在该位点的间隔进行替换，即插补.若插补后各序列在该位点的核苷酸完全相同，则删除该位点(整列)，否则保留插补后位点.剔除插补后核苷酸相同的位点，是因为原来的间隔位点代表可能的indel突变事件，而插补后这种位点在分子进化分析中不提供进化信息，反而会减低序列间进化距离的估算.假设在p距离上，与序列①最近的是序列②，与序列②最近的是序列①，与序列③最近的是序列②，与序列④最近的是序列⑤，与序列⑤最近的是序列④.绿色线框标注的是最近邻插补后核苷酸不同的位点，红色线框标注的是插补后核苷酸相同而删除的位点.图1 核苷酸最近邻法插补示意图Fig.1 Schematic diagram of nucleotide interpolation by nearest neighbor method1.3 几种DNA进化模型下的进化距离DNA进化的马尔可夫模型以不同状态(4种核苷酸，或再加上1个gap状态)间置换的速率进行矩阵描述.基于这类模型可以推导出序列间进化距离(平均每个位点核苷酸置换次数)的计算公式[8].为便于测试和比较本文提出的核苷酸最近邻插补处理方法与传统的直接忽略间隔位点的方法，以及将间隔视为第5种状态的改进模型的方法，本文采用F81、F84、F81+gap、F84+gap和F81+gap′等模型下的距离.1.3.1 F81模型 Felsenstein[10]在JC69模型置换速率矩阵中引入4个核苷酸的比例(平衡频率)，提出F81模型.当同源序列中4种核苷酸的比例存在偏倚，且转换和颠换位点比例均衡时F81模型较为有效.F81模型下导出的距离为：(6)式中，a=2(πTπC+πAπG+πYπR)，πR=πA+πG，πY=πT+πC，πT、πC、πA 和πG分别为4种核苷酸T、C、A和G的平衡频率，计算时以观察值估算；p为距离.1.3.2 F84模型 Felsenstein et al[11]将核苷酸置换区分为两类事件，类型Ⅰ仅含有转换，类型Ⅱ既有转换又有颠换，同时两种类型里都有1个核苷酸都可以被相同的核苷酸置换，即核苷酸不发生改变.F84模型能较好地拟合进化过程中核苷酸的变化情况[5].该模型导出的距离为：(7)式中，式中，S是转换位点的概率，V是颠换位点的概率.显然有p=S+V.1.3.3 F81+gap模型 Mcguire et al[4]在F81模型中引入第5种状态，即比对间隔，其与4种核苷酸的置换采用核苷酸之间的置换速率，该模型导出的距离，表示如下：(8)式中，a=2[πTπC+πAπG+πYπR+π_(1-π_)]，π_是间隔的平衡频率.1.3.4 F84+gap模型 Mcguire et al[4]在F84模型中同样引入间隔状态，将核苷酸转换用速率α表示，而嘧啶和嘌呤的之间的颠换、4种核苷酸与间隔的置换用另一速率β表示.F84+gap模型导出的距离为：(9)式中，1.3.5 F81+gap′模型在考虑核苷酸平衡频率因素的同时，将核苷酸之间的置换与核苷酸和间隔之间的置换(即插入/缺失)区别对待，在F81+gap′模型中，引入参数γ表示核苷酸与间隔间的置换速率.该模型导出的距离为：(10)式中，a=2(πTπC+πAπG+πYπR)，b=1/[a+2π_(1-π_)]，S是核苷酸置换位点的概率，I是核苷酸与间隔间置换位点的概率.显然有，p=S+I.2 结果与分析2.1 测试序列分别选取3组同源DNA序列进行测试.第1组为7种猿类物种的线粒体DNA全序列，物种及其序列GenBank检索号分别为Pan troglodytes (NC_001643.1)、Pan paniscus (NC_001644.1)、Homo sapiens (NC_012920.1)、Pongo pygmaeus (NC_001646.1)、Pongo abelii (NC_002083.1)、Gorilla gorilla (NC_001645.1)、Hylobates lar (NC_002082.1).用ClustalX2默认的参数进行多比对、手工优化后，序列长度为16 644 bp，其中间隔位点为419 bp，数据缺失率为2.5%.第2组为6属6种睡莲科植物的核糖体DNA中的内转录间隔区(ITS)序列[12]，分别为Nelumbo pentapetala (AY620419.1)、Nymphaea caerulea(AY620420.1)、Victoria cruziana (AY620423.1)、Cabomba furcata(AY620425.1)、Brasenia schreberi (AY620426.1)、Nuphar lutea(AY620427.1).比对后序列长度为673 bp，其中间隔位点181 bp，数据缺失率为26.9%.第3组为真菌侧耳属8个种的25S rDNA序列，分别为Pleurotus abieticola (AF135176.1)、Pleurotus australis (AF261432.1)、Pleurotus calyptratus (AF135177.1)、Pleurotus cornucopiae (U04146.1)、Pleurotus dryinus (AF135178.1)、Pleurotus fossulatus (U04136.1)、Pleurotus populinus(U04159.1)、Pleurotus smithii (U04150.1).比对后序列长度为903 bp，其中间隔位点53 bp，数据缺失率为5.9%.2.2 测试结果表1显示第1组数据分别在删除间隔位点后4-状态模型、融合间隔位点5-状态模型和间隔插补核苷酸后4-状态模型下的成对序列间进化距离.表1 猿类7个物种线粒体DNA序列在几种处理和模型下成对进化距离1)Table 1 Evolutionary distances of mitochondrial DNA sequences of 7 apes under several processings and models编号序列对F81(D)F81+gapF81+gap'F81(NNI)F84(D)F84+gapF84(NNI)1NC_001646.1-NC_002083.10.066 00.036 40.069 10.067 30.069 40.065 70.07082NC_001643.1-NC_002083.10.160 90.082 20.172 10.167 20.172 50.141 60.179 33NC_001644.1-NC_002083.10.159 40.081 70.170 60.165 70.170 80.140 00.177 54NC_012920.1-NC_002083.10.155 90.079 80.166 30.16050.166 60.135 20.171 65NC_001645.1-NC_002083.10.164 20.083 70.167 60.171 10.176 10.141 90.183 66NC_002082.1-NC_002083.10.187 20.093 30.196 70.194 80.200 30.150 70.208 57NC_001643.1-NC_001646.10.161 60.083 60.164 40.168 70.173 20.139 70.180 98NC_001644.1-NC_001646.10.159 40.082 70.162 30.166 60.170 70.137 20.17859NC_012920.1-NC_001646.10.158 80.082 10.161 70.164 60.169 90.136 20.176 110NC_001645.1-NC_001646.10.163 90.082 10.167 70.169 80.175 60.138 90.181 911NC_002082.1-NC_001646.10.186 50.092 80.190 70.194 60.199 20.147 20.208 012NC_001644.1-NC_001643.10.038 90.021 00.042 90.041 10.040 50.043 00.042 913NC_012920.1-NC_001643.10.088 20.045 00.095 50.091 70.093 70.092 60.097 514NC_001645.1-NC_001643.10.109 40.059 20.112 70.113 10.116 50.105 50.120 615NC_002082.1-NC_001643.10.177 20.087 40.189 80.184 20.189 50.145 60.197116NC_012920.1-NC_001644.10.087 30.044 40.094 60.090 70.092 80.091 70.096 417NC_001645.1-NC_001644.10.107 90.058 60.110 50.109 00.114 90.103 50.116 018NC_002082.1-NC_001644.10.177 10.087 50.189 50.183 70.189 40.145 70.196 519NC_001645.1-NC_012920.10.111 00.060 10.113 80.115 30.118 40.107 70.123 120NC_002082.1-NC_012920.10.176 60.087 10.188 90.181 40.188 80.145 30.193 921NC_002082.1-NC_001645.10.179 50.089 20.185 80.186 50.192 00.146 00.199 6平均距离0.141 80.072 40.148 20.147 00.151 50.123 90.157 21)F81(D)为删除所有间隔位点后采用F81模型的距离，F81(NNI)为最近邻法核苷酸插补间隔后采用F81模型的距离，F84(D)为删除所有间隔位点后采用F84模型的距离，F84(NNI)为最近邻法核苷酸插补间隔后采用F84模型的距离.表2显示第2组数据分别在删除间隔位点后4-状态模型、融合间隔位点5-状态模型和间隔插补核苷酸后4-状态模型下的成对序列间进化距离.表3显示第3组数据分别在删除间隔位点后4-状态模型、融合间隔位点5-状态模型和间隔插补核苷酸后4-状态模型下的成对序列间进化距离.表1～3中的序列间平均距离以及图2～4中针对间隔位点的不同处理或模型下估算距离的对照直观地表明：融合间隔位点信息的5-状态模型中的F81+gap和F84+gap的距离估算明显偏低，改进的5-状态模型F81+gap′、传统的删除间隔位点的处理和本文提出核苷酸最近邻插补处理后4-状态模型估算的距离相对接近，而改进的F81+gap′模型和核苷酸最近邻插补处理后在4-状态模型下估算的距离略高于直接忽略间隔位点信息在4-状态模型下的估算，且核苷酸最近邻插补处理方法估算的距离又略高一些.其次，序列间间隔位点数越大，忽略间隔位点方法造成的进化距离偏低估计越加突出.表2 睡莲科6种植物核糖体DNA中ITS序列的成对进化距离Table 2 Evolutionary distances of ITS sequences in ribosomal DNA of 6 Nymphaeaceae plants编号序列对F81(D)F81+gapF81+gap'F81(NNI)F84(D)F84+gapF84(NNI)1AY620425.1-AY620426.10.328 90.159 40.334 20.335 20.336 50.186 00.34112AY620420.1-AY620426.10.567 00.250 00.577 40.729 90.588 30.32610.756 73AY620423.1-AY620426.10.489 20.242 50.497 80.616 30.50470.238 60.635 54AY620419.1-AY620426.10.588 90.253 30.599 80.71310.605 40.275 40.728 85AY620427.1-AY620426.10.422 30.191 60.42950.427 90.434 60.234 10.439 76AY620420.1-AY620425.10.508 90.24000.517 90.642 10.521 30.242 30.654 07AY620423.1-AY620425.10.46240.226 80.470 50.546 90.476 50.219 00.558 58AY620419.1-AY620425.10.549 90.240 80.559 90.665 10.568 20.286 20.68189AY620427.1-AY620425.10.443 90.219 40.451 60.514 50.456 00.260 20.530 310AY620423.1-AY620420.10.319 50.191 60.324 70.322 80.327 60.203 10.330 711AY620419.1-AY620420.10.584 50.250 00.595 30.688 70.594 80.241 70.699 312AY620427.1-AY620420.10.558 40.257 50.568 60.725 70.574 50.299 00.752 513AY620419.1-AY620423.10.588 90.274 30.599 80.729 90.604 70.255 50.746 614AY620427.1-AY620423.10.516 90.265 00.526 10.669 00.530 30.252 10.693 615AY620427.1-AY620419.10.580 10.262 50.590 80.751 40.593 00.256 10.769 8平均距离0.500 60.235 00.509 60.605 20.514 40.25170.621 3表3 侧耳属8种真菌25S rDNA序列的成对进化距离Table 3 Evolutionary distances of 25S rDNA sequences of 8 Pleurotus fungus编号序列对F81(D)F81+gapF81+gap'F81(NNI)F84(D)F84+gapF84(NNI)1U04159.1-AF135176.10.008 20.015 00.008 30.011 60.008 30.014 30.01182AF261432.1-AF135176.10.022 40.024 50.022 80.025 80.022 70.022 10.026 13U04136.1-AF135176.10.011 70.020 60.011 90.016 30.011 90.018 80.016 54AF135178.1-AF135176.10.029 60.034 00.030 10.029 40.030 10.028 90.029 85U04150.1-AF135176.10.038 20.043 60.038 80.041 40.038 70.028 20.042 06AF135177.1-AF135176.10.044 30.047 60.045 00.050 00.045 00.038 20.050 87U04146.1-AF135176.10.039 40.041 90.040 00.045 10.040 00.036 00.045 88AF261432.1-U04159.10.017 60.012 20.017 90.017 50.017 90.023 00.017 79U04136.1-U04159.10.005 80.006 70.005 90.006 90.005 90.018 50.007 010AF135178.1-U04159.10.026 00.029 00.026 40.029 40.026 40.029 20.029 811U04150.1-U04159.10.033 30.030 10.033 80.03300.033 70.029 20.033 412AF135177.1-U04159.10.040 60.035 20.041 20.047 60.041 30.040 10.048 413U04146.1-U04159.10.034 50.028 40.035 00.036 60.035 10.036 70.037 214U04136.1-AF261432.10.014 10.008 90.014 30.015 10.014 30.020 80.015 315AF135178.1-AF261432.10.027 20.032 30.027 70.030 60.027 60.026 50.031 016U04150.1-AF261432.10.033 30.029 50.033 80.033 00.033 70.025 50.033 417AF135177.1-AF261432.10.045 5 0.036 80.046 30.052 50.046 30.041 30.053 418U04146.1-AF261432.10.039 40.034 60.040 00.041 40.040 00.037 70.042 119AF135178.1-U04136.10.024 80.032 30.025 20.029 40.025 20.029 00.029 820U04150.1-U04136.10.029 60.027 30.030 10.030 60.030 00.025 60.031 021AF135177.1-U04136.10.036 90.032 90.037 50.045 10.037 50.037 70.045 922U04146.1-U04136.10.030 90.030 70.031 30.034 20.031 30.034 10.034 723U04150.1-AF135178.10.023 60.021 70.024 00.027 00.023 90.026 00.027 324AF135177.1-AF135178.10.040 60.029 00.041 20.046 30.041 30.040 50.047 125U04146.1-AF135178.10.030 90.022 80.031 30.036 60.031 30.037 00.037 226AF135177.1-U04150.10.048 00.026 70.048 80.055 00.048 80.044 30.055 927U04146.1-U04150.10.039 40.021 70.040 00.041 40.040 00.037 10.042 128U04146.1-AF135177.10.033 30.021 70.033 80.037 80.034 00.044 50.038 6平均距离0.030 30.027 80.030 80.033 80.030 80.031 10.034 3由于间隔位点代表DNA突变中的核苷酸插入/缺失事件，直接删除同源多序列比对后的间隔位点的简单处理方法势必导致序列间进化距离的偏低估计，应用于分子系统发育分析和进化树推断时将低估序列间距离，造成枝长偏低估计.5-状态模型中的F81+gap和F84+gap更加低估了序列间距离，本文认为这是由于这两个模型均没有区分核苷酸之间的替代与核苷酸与间隔之间的置换(插入/缺失)，简单地处理为相同性质、同一置换速率的状态转换过程.图2 不同方法估算的7种猿类线粒体DNA序列间距离对照Fig.2 Comparison of estimated distances of mitochondrial DNA sequences of 7 apes under different methods图3 不同方法估算的6种睡莲科植物核糖体DNA中ITS序列间距离对照Fig.3 Comparison of estimated distances of ITS sequences in ribosomal DNA of 6 Nymphaeaceae plants图4 不同方法估算的8种侧耳属真菌25S rDNA序列间距离对照Fig.4 Comparison of estimated distances of 25S rDNA sequences of 8 Pleurotus fungus under different methods睡莲科6种植物核糖体DNA中ITS序列的成对进化距离的测试结果(表2和图2)表明，当序列间隔位点数较多，即DNA进化过程中核苷酸插入/缺失事件的比例较高时，本文提出的最近邻核苷酸插补方法在进化距离和进化树枝长估算上能更为有效地消除偏低估计，对间隔位点进行核苷酸插补的处理方法使得传统的4-状态模型在序列间分歧度的估算中能够更有效地融合DNA进化的插入/缺失信息.改进的F81+gap′模型和核苷酸最近邻插补处理方法至少能够减少同源序列间距离的偏低估计.如果核苷酸最近邻插补的方法没有导致进化距离的偏高估计，无疑是一种有效的融合InDel信息的方法.3 小结鉴于分子系统发育重建研究中忽略多序列比对出现的间隔位点而导致低估序列间进化距离或进化树枝长的问题，本文借鉴统计学中处理缺失数据的最近邻插补法，提出一种核苷酸最近邻插补间隔位点的处理方法.通过对3组同源DNA序列在不同的处理方法下的距离估算对照测试和上述分析，本文发现将间隔视为4种核苷酸外的第5种状态的F81+gap和F84+gap模型不能有效融合间隔所表示的indel进化信息，反而更加低估了序列间距离，改进的同类模型F81+gap′能够在一定程度上融合间隔所携带的indel信息，而本文所提出的核苷酸最近邻插补法能够有效运用DNA进化的4-状态马尔可夫模型估算进化距离，至少它能减小序列间进化距离的偏低估计，至于是否出现偏高估计还需要通过对DNA模拟进化序列进行分子系统发育重建和分析做出进一步判断.参考文献【相关文献】[1] 张树波,赖剑煌.分子系统发育分析的生物信息学方法[J].计算机科学,2010,37(8):47-51.[2] GIRIBET G, WHEELER W C. On gaps[J]. Molecular Phylogenetics & Evolution,1999,13(1):132-143.[3] 唐玉荣.生物信息学中的序列比对算法[J].计算机工程与应用,2003,39(29):5-7.[4] MCGUIRE G, DENHAM M C, BALDING D J. Models of sequence evolution for DNA sequences containing gaps[J]. Molecular Biology and Evolution, 2001,18(4):511.[5] 林碧娇,刘雄恩.融合插入/缺失信息的DNA进化模型的改进[D].福州：福建农林大学,2015.[6] 金勇进.缺失数据的统计处理[M].北京：中国统计出版社,2009.[7] 于力超,金勇进,王俊.缺失数据插补方法探讨——基于最近邻插补法和关联规则法[J].统计与信息论坛,2015,172(1):35-40.[8] YANG Z H. Computational Molecular Evolution[M]. Oxford:Oxford University Press, 2006.[9] RZHETSKY A, NEI M. Theoretical foundation of the minimum-evolution method of phylogenetic inference[J]. Mol Biol Evol, 1993,10:1 073-1 095.[10] FELSENSTEIN J. Evolutionary trees from DNA sequences: a maximumlikelihoodapproach[J]. J Mol Evol, 1981,17:368-376.[11] FELSENSTEIN J, CHURCHILL G A. Ahidden Markov model approach to variation among sites in rate of evolution[J]. Mol Biol Evol, 1996,13:93-104.[12] 唐先华,张晓艳,施苏华,等.睡莲类植物ITS nrDNA序列的分子系统发育分析[J].地球科学, 2003, 28(1):97-101.。

分子名词解释

乳糖操纵子
lac操纵子有三个结构基因Z Y A以及启动子操纵子阻遏子组成。启动区位于阻遏基因I和操纵区O之间。操纵区是DNA上一小段序列（26BP）是阻遏物的结合位点，当阻遏物与操纵区结合时lacmRNA转录起始受抑制，诱导物与阻遏物结合，改变其三维结构，使之不能与操纵区结合，开启lacmRNA的合成
操纵子（operon）由操纵基因以及相邻的若干结构基因所组成的功能单位，其中结构基因转录收操纵基因控制。
DNA超螺旋:DNA双链双螺旋由于内部应力作用进一步产生的高级螺旋结构。
切除修复：DAN损伤后需切除损伤片段进而进行修复的修复方式
C0t曲线：DNA的复性或变性曲线
阻遏蛋白：由负调控基因编码的蛋白质，与其作用元件结合后阻碍基因的表达，是一种负调控因子
端粒酶：负责线装DNA末端端粒合成的酶
抑制tRNA：通过反密码子突变纠正或弥补、修正遗传密码突变作用的tRNA
热点突变：DNA上容易发生突变的结构区域发生的突变，是一种结构性的生物突变
增强子：DNA上的一种基因远距离顺式调控元件，促进基因表达
分解代谢物激活蛋白（CAP）:由所代谢的底物或产物或与其结合而激活的调节基因表达的蛋白质因子
拼接：一个基因的外显子和内含子共同转录在一条转录产物中，将内含子去除而把外显子连接起来形成成熟RNA分子的过程
反密码子：tRNA反密码环上（34-36位）与mRNA编码的密码子配对的的三联碱基
转录因子：能与DNA特定序列结合或与RNA聚合酶作用，参与基因转录调控的danbaizhiyinzi8
复制型转座：DNA上的转座子的一种转座方式，转座后原转座子保持不变，靶位点被插入一个转座子拷贝
遗传密码：DNA或mRNA上每三个相连核苷酸形成的遗传单位，或编码单位

热点微专题08 基因编辑技术及定点突变-2023年高考生物二轮复习(人教版2019)

得到含有突变位点的双链载体；
④最后将双链载体引入宿主细胞复制，
并进行筛选和鉴定。
知识拓展：基因定点突变技术
2．PCR定点突变技术（1）重叠延伸PCR
①此技术共需四个引物引物2和引物3的突起处代表与模板链不能互补的突变位点，而这两条引物有部分碱基（包括突变位点）是可以互补的。 ②分别利用引物1和引物2，引物3和引物4进行PCR，得到两个DNA片段 ③得到的DNA片段可以通过引物2和引物 3互补的碱基杂交在一起，它们再在DNA 聚合酶的作用下延伸，就能成为一条完整的DNA片段。 ④最后，用引物1和引物4进行扩增得到含有突变位点的DNA片段。
①首先人工合成一段含有特定突变位
点的单链寡核苷酸片段（除突变位点外，
该片段的其他部分可以与目的基因互补
配对）
②然后将该寡核苷酸片段与带有目的
基因的单链载体（通常由M13噬菌体衍生
而来）进行杂交；
M13噬菌体是一种丝状噬菌体，内有一个环状单链DNA分子
③继而在DNA聚合酶和DNA连接酶的作
用下分别进行DNA链的合成和连接反应，
(3)在构建改良基因表达载体时，有的质粒含有改良基构因建，改有良的基质因粒组为质空粒白时质破粒坏，了将含上述组件的溶液加入到大肠杆菌菌液中，适宜温度下培L养ac一Z基段因时(间因后)，，含再该将质菌粒液的涂大布肠在含氨苄青霉素和__β__-_半__乳__糖__苷___的平板上。一段时间后杆，菌在不培能养分基解上β出-现半白乳色糖和苷蓝产色生两蓝种菌落，其中白色菌落含有重组质粒，判断的依据是__色__物__质__（_。变），菌落为白色（果）
二轮微专题— 基因组编辑技术及定点突变技术
一、基因组编辑技术
• 【情境原理】 • 1.基因组编辑的含义:对基因进行定点修改,以改变目的基因的序列和功能,进行基因治

基因的分子结构

基因的分子构造X乃虎黄美娟〔中国科学院遗传发育所〕〔大学生命科学学院〕〔2021年3月修订〕一．假设干概念1.5'—末端和3'—末端5'—末端：系指具有一个自由的或加帽的5'—磷酸基团〔5'-P)之核苷酸链的末端。

3'—末端：系指具有一个自由的或是磷酸化的3'—羟基〔3'-OH)之核苷酸链的末端。

2. 上游与下游这是用来描述多核苷酸链或蛋白质多肽链分子中相反取向或相对位置关系的一对术语。

上游〔upstream〕和下游〔downstream〕在不同的场合代表不同的含义：(1) 基因的DNA或mRNA分子:上游：位于5'-末端的序列叫上游序列。

下游：位于3'-末端的序列叫下游序列。

(2) 在基因的转录反响中：上游：位于转录起点5'-方向的DNA序列叫上游。

下游：位于转录起点3'-方向的DNA序列叫下游。

(3)蛋白质多肽链:上游：处于N-端的氨基酸序列为上游。

下游：处于C-端的氨基酸序列为下游。

(4)在基因工程研究中：上游：基因的克隆、别离、转化、表达和调节等研究工作统称上游。

下游：转基因之后的细菌培养与发酵以及转基因动植物的培育、表达产物的别离纯化及鉴定等研究工作统称下游。

3.上游序列与下游序列在基因的DNA序列中，头一个被转录的核苷酸碱基叫做转录起点，通常是A或G,其坐标定为+1。

.(1)上游序列位于转录起点5'一侧的DNA叫做上游序列。

其核苷酸碱基的坐标定为负。

例如-1 -5，-10.......。

(2)下游序列位于转录起点3'-侧的DNA叫做下游序列。

其核苷酸碱基的坐标定为正。

例如+3,+5，+10.......。

4.5'-侧翼序列区和3'-侧翼序列区(1)5'-侧翼序列区〔5'-flanking sequence region)位于mRNA转录起点之前的一段长度有限的DNA序列区，叫做5'-侧翼序列区，或者泛称为启动子区。

分子生物学--名词解释

1、半保留复制(semiconservative replication):DNA复制时,以亲代DNA的每一股做模板,以碱基互补配对原则,合成完全相同的两个双链子代DNA,每个子代DNA中都含有一股亲代DNA链,这种现象称为半保留复制。

2、复制子replicon:由一个复制起始点构成的DNA复制单位。

57、复制起始点(Ori C)DNA在复制时,需在特定的位点起始,这就是一些具有特定核苷酸序列顺序的片段,即复制起始点。

24、(35)复制叉(replication fork)就是DNA复制时在DNA链上通过解旋、解链与SSB蛋白的结合等过程形成的Y字型结构称为复制叉。

3、Klenow 片段klenow fragment:DNApol I(DNA聚合酶I)被酶蛋白切开得到的大片段。

4、外显子exon、extron:真核细胞基因DNA中的编码序列,这部分可转录为RNA,并翻译成蛋白质,也称表达序列。

5、(56) 核心启动子core promoter:指保证RNA聚合酶Ⅱ转录正常起始所必需的、最少的DNA序列,包括转录起始位点及转录起始位点上游TATA区。

(Hogness 区)6、转录(transcription):就是在DNA的指导下的RNA聚合酶的催化下,按照硷基配对的原则,以四种核苷酸为原料合成一条与模板DNA互补的RNA 的过程。

7、核酶(ribozyme):就是具有催化功能的RNA分子,就是生物催化剂,可降解特异的mRNA序列。

8、(59)信号肽signal peptide:常指新合成多肽链中用于指导蛋白质的跨膜转移(定位)的N-末端的氨基酸序列(有时不一定在N端)。

9、顺式作用元件(cis-acting element):真核生物DNA中与转录调控有关的核苷酸序列,包括增强子、沉默子等。

10、错配修复(mismatch repair,MMR):在含有错配碱基的DNA分子中,使正常核苷酸序列恢复的修复方式;主要用来纠正DNA双螺旋上错配的碱基对,还能修复一些因复制打滑而产生的小于4nt的核苷酸插入或缺失。

遗传学第五章基因组

S.S. DNA
复性过程依赖于单链分子间的随机碰撞
( Depends on the collision of complementary S.S. DNA )
影响复性的因素：
• 温度
• 时间 • 离子强度 • DNA片段大小 • DNA序列复杂性
• DNA分子浓度
真核生物：
•第1组分（25%），快，高度重复序列； •第2组分（30%），中，中度重复序列；
序列能或不能被某一酶酶切，实际上相当于一对等位基因的差异。
• 如一对同源染色体二个 DNA分子，一个具有某种酶的酶切位点，另一个无此位点�� 酶切后形成的DNA片段长度就会有差异，即多态性 (RFLP) �� 根据该等位基因的遗传，将 RFLP作为标记定位在基因组的某一位置上。
散在重复序列
散在重复序列：散在的方式分布于基因组内的重复序列。
短散在重复序列（SINEs）,500bp
长散在重复序列（LINEs）,1000bp
Alu序列家族：人类50-70万拷贝；
人和灵长类基因标志。多聚（dT-dG）家族：10万拷贝
第二节基因组研究
基因和基因组的结构各种元件的序列特征基因作图和基因定位不同序列结构具有不同功能基因表达的调控基因与环境相互作用
•
•
（2）简单序列长度多态性
(simple sequence length polymor-phisms,SSLP) • 简单序列长度多态性,又称为VNTR variable number tandem repeat 数目可变的串联重复多态性。指重复单位相对较小,由重复单位的序列差异和数目变化,可形成丰富的多态性。包括:小卫星序列、微卫星序列。

名词解释—分子生物学

分子生物学名词解释：基因(gene):编码蛋白质或RNA等具有特定功能产物的遗传信息的基本单位，是染色体或基因组的一段DNA序列(对以RNA作为遗传信息载体的RNA病毒而言则是RNA序列)。

包括编码序列(外显子)、编码区前后对于基因表达具有调控功能的序列和单个编码序列间的间隔序列(内含子)。

Tm值:Tm值就是DNA熔解温度，指把DNA的双螺旋结构降解一半时的温度。

不同序列的DNA，Tm值不同。

DNA中G－C含量越高，Tm值越高，成正比关系。

中度重复序列(moderately repetitive sequence ) ：基因组中有10个到几千个拷贝的DNA 序列。

重复单元的平均长度约300bp。

高度重复序列（highly repetitive sequence ）：基因组中有数千个到几百万个拷贝的DNA 序列。

这些重复序列的长度为6~200碱基对。

启动子（promoter ）：DNA分子上能与RNA聚合酶结合并形成转录起始复合体的区域，在许多情况下，还包括促进这一过程的调节蛋白的结合位点。

增强子(enhancer element )：增强基因启动子工作效率的顺式作用序列，能够在相对于启动子的任何方向和任何位置(上游或下游)上都发挥作用。

分子杂交(molecular hybridization )：不同来源或不同种类生物分子间相互特异识别而发生的结合。

如核酸(DNA、RNA)之间、蛋白质分子之间、核酸与蛋白质分子之间、以及自组装单分子膜之间的特异性结合。

限制性内切酶（restriction endonuclease）：识别并切割特异的双链DNA序列的一种内切核酸酶。

反式作用因子(trans-acting factor )：通过直接结合或间接作用于DNA、RNA等核酸分子，对基因表达发挥不同调节作用(激活或抑制)的各类蛋白质因子。

半保留复制(semiconservative replication )：DNA复制时亲代DNA的两条链解开，每条链作为新链的模板，从而形成两个子代DNA分子，每一个子代DNA分子包含一条亲代链和一条新合成的链。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

dna间隔序列
【原创版】
目录
1.DNA 间隔序列的定义和作用
2.DNA 间隔序列的类型
3.DNA 间隔序列的应用
4.DNA 间隔序列的研究进展
正文
DNA 间隔序列是指在 DNA 分子上，基因与基因之间的间隔区域。

这些间隔区域虽然不编码蛋白质，但它们在基因表达调控、染色质结构和基因组稳定性等方面发挥着重要作用。

DNA 间隔序列主要分为两类：一类是基因间的常规间隔序列，另一类是卫星 DNA 间隔序列。

常规间隔序列是基因组中普遍存在的、散布在各个染色体上的特定序列，通常由简单的重复序列组成。

卫星 DNA 间隔序列则是指分布在基因组特定区域的、由简单重复序列组成的长片段。

DNA 间隔序列在生物学中有许多应用，例如：研究基因表达调控、分析基因组结构和功能、探讨基因组稳定性和进化等。

近年来，随着高通量测序技术的发展，科学家们对 DNA 间隔序列的研究越来越深入。

在研究 DNA 间隔序列的过程中，科学家们发现了许多有趣的现象。

例如，有些间隔序列在不同物种间呈现出高度保守性，而有些间隔序列则在不同物种间存在显著差异。

这些发现为我们理解基因组的演化和功能提供了宝贵的信息。

此外，研究 DNA 间隔序列还有助于揭示一些疾病的遗传机制。

某些遗传病可能与 DNA 间隔序列的异常有关，因此研究这些序列有助于找到新的疾病生物标志物或治疗靶点。

总之，DNA 间隔序列虽然不编码蛋白质，但在基因表达调控、染色质结构和基因组稳定性等方面发挥着重要作用。