DNA测序结果中常见的几个问题

DNA测序结果中常见的几个问题
DNA测序结果中常见的几个问题

D N A测序结果中常见

的几个问题

公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]

1 、为什么开始一段序列的信号很杂乱,几乎难以辨别

这主要是因为残存的染料单体造成的干扰峰所致,该干扰峰和正常序列峰重叠在一起;另外,测序电泳开始阶段电压有一个稳定期,所以经常有20-50 bp 的紧接着引物的片段读不清楚,有时甚至更长。

2 、为什么在序列的末端容易产生 N 值,峰图较杂

由于测序反应的信号是逐渐减弱的,所以序列末端的信号会很弱,峰图自然就会杂乱,加上测序胶的分辨率问题,如果碱基分不开,就会产生N 值,正常情况下ABI377测序仪能正确读出500个碱基的有效序列。

3 、测序结果怎么找不到我的引物序列

如果找不到测序所用的引物序列。这是正常的,因为引物本身是不被标记的,所以在测序报告中是找不到的;如果找不到克隆片段中的扩增引物,可能是您克隆的酶切位点距离您的测序引物太近,开始一段序列很杂,几乎难以辨别,有可能看不清或看不到扩增引物;另外插入片段的插入方向如果是反的,此时需找引物的互补序列。

4 、测序结果怎么看不到我克隆的酶切位点

可能的原因同上,您克隆的酶切位点距离您的测序引物太近,开始一段序列很杂,几乎难以辨别,有可能看不清或看不到酶切位点。通常我们会尽量选择距离酶切位点远点的引物,当然,若是样品出现意外原因,如空载、载体自连等,克隆的酶切位点也是看不到的。

5 、你测出的结果与我预想的不一致,给我的结果与我需要的序列有差距,这是怎么回事

首先,我们会核实给您的测序结果是否对应您的样品编号,如果对应的是您的样品,由于不知您的实验背景,测得的序列是否与您预想的结果一致我们无法判断,我们能做到的是检查发送给您的测序结果和您提供来的样品是否一致。

6 、序列图为什么会有背景噪音(杂带)是否会影响测序结果

序列图的背景杂带是由荧光染料引起,如果太强会影响测序结果,要看信噪比,我们给的结果信噪比大都在98%以上。

7 、测序结果为什么与标准序列有差别

原因可能有:样品个体之间的差别、测序准确率的问题,自动测序仪分析序列的准确并非100%,建议至少测一次双向,通过双向测序可以最大限度减少测序的错误。当然尽管我们有时做了最大努力,但还是保证不了和文献序列完全一致,但我们测序报告是客户样品序列的真实结果。

8 、 PCR 产物测序与克隆后测序序列为什么有差别

PCR 产物克隆到载体中进行测序,有两个方面可能序列有变化:首先,PCR 扩增过程中可能产生错配。将片段克隆到载体中也有可能发生突变;其次,测序的准确率并非100%。

9 、有杂合位点,但你们的报告上看不到杂合的信号!

如果在您认为应该出现杂合信号的位置上只出现单一的信号,那么可能是您样品突变的模板与正常的模板的比例没达到可以测出的浓度。测序反应的信号强度直接与模板的量有关,如果突变的模板所占的比例很低,仪器会自动将它作为背景信号了,很难检测出来。只有当测序反应体系中正常的和突变的模板量比较接近时,才能较可靠地检测到突变体

的存在。其次,在同一位置,不同碱基的信号强度一般是不一样的,这样即使突变的模板所占的比例较高时,也不一定能准确检测到突变的存在,因为,测序仪是主要用来测序正常的碱基序列的,软件分析结果时,会尽量提高主峰而将背景信号尽量压低,以得到尽可能好的结果。尊重结果,我们是不会人为将出现单一的信号修改为杂合位点的。

10 、 DNA 测序样品用 TE 溶液溶解好不好

由于 EDTA 是 Taq 聚合酶的一种潜在的抑制物, DNA 的测序反应也是Taq 酶的聚合反应,需要一个最佳的酶反应条件,因此 DNA 测序样品溶解时,最好用灭菌水溶解。

11 、我送什么形式的菌体样品好

菌体的一般形态有、菌液,平板培养菌、穿刺培养菌,甘油保存菌等。我们建议客户所送的形态以方便且不易受污染为准则,推荐穿刺培养菌。上海客户用过夜培养好的菌液2 ml 。

12 、为什么你们给我的序列是反的

测出来的结果与您预期的方向并不一致,可能是片断插入方向是非定向的,这在 PCR 产物 T/A 克隆中较常见。有时,客户要求的测序引物离克隆位点较近,如果反向引物相对克隆位点较远,为得到更好的结果,我们会选择反向引物测序,若是这种情况,用看图软件 Chromas 可以把图反转过来,就可得到正向序列。

13 、 Template mixed 为何种情况

测序结果表现为套峰,测序反应信号很好,测序结果杂乱,即同一个位置有二个峰。

原因可能有:样品并非单一模板、 PCR 产物中有杂带、质粒为双克隆产物、引物特异性不高,有两个结合点, PCR 产物电泳时看不出,但测序结果能清楚地说明这点。

14 、 polyT 或 polyA 后峰图杂,怎么也要收费

这种情况一般表现为 A 、 T 连续结构后面的测序结果出现套峰,是样品的内在原因。这类问题我们应该同正常测序一样,给客户报告,反应按正常收费。

15 、我的引物做 PCR 条带很好,但为什么测不出序来

并不是能做 PCR 反应的引物都能测序,测序所用引物要求较高,必须与模板完全匹配(有时 5' 端可以有个别碱基的简并),引物长度一般为20个碱基左右、 GC 含量适中,而且用于测序的引物一定要足够纯。

16 、如果我的菌种培养得很好,测序应该不会有问题吧

对于宿主菌,提倡使用宿主菌 DH5 α, DH1 、和 C600 菌株也可,XL1-Blue 菌株也不错,但其生长过慢。 JM 系列、 TG1 系列和 HB101 系列菌株等由于产生大量的碳水化合物(即糖),而应当尽量避免使用;其它宿主菌可能会对测序造成影响。

17 、为什么 G/C rich 的样品没结果或结果不好,照常收费

由于 G/C 连续结构有时会造成反应中途无法正常进行,如果结构在引物下游近处,反应只有一小段的信号,有时甚至反应根本没信号。对于这种情况,本身就潜在不确定性的测序,有很大的失败因素。

18 、 PCR 产物150 bp 以下的为什么不适于直接测序

PCR 产物 150bp 以下的纯化和定量都有一定困难,用于测序的 PCR 产物一般不低于150 bp 长度。一个150 bp 的 PCR 产物用于测序,去掉两个引物的序列大约40到50 bp ,再加上测序起始端的一些读不好的碱基,真正能够得到的有用序列不过几十碱基。这只是最理想的假设,这么短片断测序失败的几率非常大,因此只能克隆后再进行测序。

19 、我的质粒样品很好,测序结果怎不好

由于原因不明的复杂结构如发卡和回文结构,有时会出现突然信号减弱或消失;有时测序根本不能进行下去, DNA 碱基排列并无特别异常,可能是 DNA 整体出现复杂结构,反应无法进行。

20 、我的样品还保留了吗我想现在反向再测一个反应。

出于保密原则我们测序样品只保留一个月,所以若要再测序,请抓紧时间,否则只有重新送样。

21 、已经测通了样品,但重叠的地方有错配,是为什么

测通的全序列是拼接后的结果,由于拼接处一般是在一次测序的末端和次个反应开始一段,通常会有一定的杂带,以序列信号好的为主,次的为参考,但也不绝对。

原文地址

DNA测序常见问题及分析

DNA测序过程可能遇到的问题及分析 对于一些生物测序公司(如Invitrogen等),我们的菌液或质粒经过PCR和酶切鉴定都没问题,但几天后的测序结果却无法另人满意。 为什么呢? PCR产物直接进行测序,在PCR产物长度以后将无反应信号,机器将产生许多N值。这是由于Taq酶能够在PCR反应的末端非特异性地加上一个A碱基,我们所用的T载体克隆PCR产物就是应用该原理,通常PCR产物结束的位点,PCR产物测序一般末端的一个碱基为A(绿峰),也就是双脱氧核甘酸ddNTP终止反应的位置之前的A,A后的信号会迅速减弱。 N值情况一般是由于有未去除的染料单体造成的干扰峰。该干扰峰和正常序列峰重叠在一起,有时机器377以下的测序仪无法正确判断出为何碱基。有时,在序列的起始端的小片段容易丢失,导致起始区信号过低,机器有时也无法正确判读。在序列的3’端易产生N值。一个测序反应一般可以读出900bp以上的碱基(ABI3730可以达到1200bp),但是,只有一般600bp以前的碱基是可靠的,理想条件下,多至700bp的碱基都是可以用的。一般在650bp以后的序列,由于测序毛细管胶的分辩率问题,会有许多碱基分不开,就会产生N值。测序模板本身含杂合序列,该情况主要发生在PCR产物直接测序,由于PCR产物本身有突变或含等位基因,会造成在某些位置上有重叠峰,产生N值。这种情况很容易判断,那就是整个序列信号都非常好,只有在个别位置有明显的重叠峰,视杂合度不同N值也不同。 测序列是从引物3’末端后第一个碱基开始的,所以就看不到引物序列。有两种方法可以得到引物序列。1.对于较短的PCR产物 (<600bp),可以用另一端的引物进行测序,从另一端测序可以一直测通,可以在序列的末端得到该引物的反向互补序列。对于较长的序列,一个测序反应测不通,就只能将PCR产物片段克隆到载体中,用载体上的通用引物(T7/SP6)进行测序。载体上的通用引物与所插入序列间

一代测序常见问题及解决策略

测序常见问题及解决策略 一、PCR常见问题 1.假阴性,不出现扩增条带 PCR出现假阴性结果,可从以下几个方面来寻找原因: 1)模板:①模板中有杂蛋白;②模板中有Taq酶抑制剂;③在提取制备模板时丢失过多;④模板核酸变性不彻底。 2)酶:酶失活或反应时忘了加酶。 3)Mg2+浓度:Mg2+浓度过高可降低PCR扩增的特异性,浓度过低则影响PCR 扩增产量甚至使PCR扩增失败而不出扩增条带。 4)反应条件:变性对PCR扩增来说相当重要,如变性温度低,变性时间短,极有可能出现假阴性;退火温度过低,可致非特异性扩增而降低特异性扩增效率退火温度过高影响引物与模板的结合而降低PCR扩增效率。 5)靶序列变异:靶序列发生突变或缺失,影响引物与模板特异性结合,或因靶序列某段缺失使引物与模板失去互补序列,其PCR扩增是不会成功的。 2.假阳性 假阳性:出现的PCR扩增条带与目的靶序列条带一致,有时其条带更整齐,亮度更高。常见原因有: 1)引物设计不合适:选择的扩增序列与非目的扩增序列有同源性,因而在进行PCR扩增时,扩增出的PCR产物为非目的性的序列。靶序列太短或引 物太短,容易出现假阳性。需重新设计引物。 2)靶序列或扩增产物的交叉污染:这种污染有两种原因:一是整个基因组或大片段的交叉污染,导致假阳性。这种假阳性可用以下方法解决:操作时应小心轻柔,防止将靶序列吸入加样枪内或溅出离心管外。二是空气中的 小片段核酸污染,这些小片段比靶序列短,但有一定的同源性。可互相拼接,与引物互补后,可扩增出PCR产物,而导致假阳性的产生,可用巢式PCR方法来减轻或消除。 3.出现非特异性扩增带 PCR扩增后出现的条带与预计的大小不一致,或大或小,或者同时出现特异性扩增带与非特异性扩增带。非特异性条带的出现,其原因:一是引物

测序结果处理方法及聚类分析(DOC)

一、测得序列的拼接及处理 1、送样类型 a非克隆法(如PCR产物、PCR产物纯化回收等) 由于此类型样品,两端的引物序列一般在测序的过程中会有缺失,很难找全引物序列,仅能找到部分引物序列,因此对于此类型样品的测序结果可以不做引物序列的查找,后续需要可再做引物序列的查找。 b克隆法(片段通过TA克隆或其他载体构建等) 此类型样品,目的片段两端的引物可以很完整的保存在载体中,引物序列亦是测序片段,所以引物序列比较完整,可以找到引物的完整序列,因此可以通过查找引物序列而找到目的片段的起始位置。 2、测序方法 观察峰值图可用软件“bioedit” a单向测通 对于此种测序结果基本上单条序列不需要拼接,通过观察序列峰值图来初步判断序列结果的准确性,一般来说峰越尖越好,套峰越少越好。 b双向测通 对于此种测序结果,除了要观察峰值图的好坏外,要得到完整的序列,还需要对双向序列进行拼接,利用DNASTAR中seqMan进行拼接,点击“NEW”、“add sequence”(一般为abi格式,选择双向测序结果)、“assemble”,“contig”,一般保存完整的片段长度即选择“All”,亦可保存其中的片段长度,保存格式一般选择“fas”格式以便在不同的编辑软件中使用。具体步骤如下图。

3、对测得的序列进行比对及聚类分析 一般来讲,可以将所有需要进行比对的序列粘贴在一个记事本中,保存的格式最好 为“fas”格式,,利用软件“MEGA”中“Align”打开所需序列,依据序列的特性进行选择如DNA或protein,然后添加所有需要进行比对的序列。

可根据序列的具体情况进行选择比对的方法,本教程选择“ClustalW”法。 析,可保存为该软件格式,或其他格式。

20个测序常见的问题

20个测序常见的问题 1.为什么需要新鲜的菌液? 首先,新鲜的菌液易于培养,可以获得更多的DNA,同时最大限度地保证菌种的纯度。2.如何提供菌液? 如果您提供新鲜菌液,用封口膜封口以免泄漏;也可以将培养好的4~5ml菌液沉淀下来,倒去上清以方便邮寄。同时邮寄时最好用盒子以免邮寄过程中压破。 3.如何制作穿刺菌? 用灭菌过1.5ml或2ml离心管加入LB琼脂(7g/L)斜面凝固,用接种针挑取分散良好的单菌落穿过琼脂直达管底,不完全盖紧管盖适当温度培养过夜,然后盖紧盖子加封口膜,室温或4度保存。 4.PCR产物直接测序有什么要求? (1)扩增产物必须特异性扩增,条带单一。如果扩增产物中存在非特异性扩增产物,一般难以得到好的测序结果; (2)必须进行胶回收纯化; (3)DNA纯度在1.6—2.0之间,浓度50ng/ul以上。 5.为什么PCR产物直接测序必须进行Agarose胶纯化? 如果不进行胶纯化而直接用试剂盒回收,经常会导致测序出现双峰甚至乱峰,这主要是非特异性扩增产物或者原来的PCR引物去除不干净所导致。大多所谓的PCR“纯化试剂盒”实际上只是回收产物而不能起到纯化的作用的。对于非特异性扩增产物肯定无法去除,而且通常他们不能够完全去除所有的PCR引物,这会造成残留的引物在测序反应过程中参与反应而导致乱峰。 6.如何进行PCR产物纯化? PCR产物首先必须用Agarose胶电泳,将特异扩增的条带切割下,然后纯化。使用凝胶回收试剂盒回收,产物用ddH2O溶解。 7.PCR产物直接测序的好处? (1) PCR产物直接测序可以反映模板的真实情况; (2) 省去克隆的实验费用和时间; (3) PCR产物测序正确的片段进行下一步克隆实验使结果更有保障; (4) 混合模板进行PCR的产物直接测序可以发现其中的点突变。 8.对用于测序的质粒DNA的要求有哪些? 对测序模板DNA的一般要求:(1)DNA纯度要求高,1.6—2.0之间,不能有混合模板,也不能含有RNA,染色体DNA,蛋白质等;(2)溶于ddH2O中,溶液不能含杂质,如盐类,或EDTA等螯合剂,将干扰测序反应正常进行。 9.如何鉴定质粒DNA浓度和纯度? 我们使用水平琼脂糖凝胶电泳,并在胶中加入0.5ug/ml的EB(电泳缓冲液中不必加E,加一个已知浓度的标准样品。电泳结束以后在紫外灯下比较亮度,判断浓度和纯度。此方法可以更直接、准确地判断样品中是否含有染色体DNA、RNA等,也可以鉴别抽提的质粒DNA 的不同构型。 质粒DNA的3种构型是指在抽提质粒DNA过程中,由于各种原因的影响,使得超螺旋的共价闭合环状结构的质粒(SC)的一条链断裂,变成开环状(OC)分子,如果两条链发生断裂,就变成为线状(L)分子。这3种分子有不同的迁移率,通常,超螺旋型(SC)迁移速度最快,其次为线状(L)分子,最慢为开环状(OC)分子。使用紫外分光光度计检测,或者用溴乙锭-标准浓度DNA比较法只能检测抽提到的产物中的浓度,甚至由于抽提的质粒DNA中含有RNA、蛋白质、染色体DNA等因素的干扰,浓度检测的数值也是没有多少意义的。

序列拼接

序列拼接 * 为了保证测序结果的准确性,单基因短片段(700pd左右)测序一般应采用双向测序,然后将双向测序的结果拼接在一起,从而获得一致性序列。线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的,最后也需要将测出的短片段拼接成一条完整的序列。序列拼接可以在不同的软件中进行。 一、使用“组装批处理文件byLHM.pg4”进行拼接 1. 在预定的位置建立一个文件夹“gap”,将需要使用的3个软件“组装批处理文件byLHM.pg4”、“V ector_primer4pMD18-T.vec_pri”、“pMD18-T_Vector.seq”拷贝到该文件夹下,再将需要拼接的测序文件拷贝到该文件夹下。 2. 双击运行“组装批处理文件byLHM.pg4”程序。 3. 在程序运行后出现的界面右侧点击“Add files”按钮,打开要拼接的序列文件。为了保证 拼接后输出的是正向序列,最好先添加上游引物序列,然后添加下游引物序列,因为在一般情况下软件将添加的第一条序列默认为正向参照序列;有时由于测序效果等因素的影响,有时即使首先添加的是上游引物序列,但拼接后仍然会以测序效果明显更好的下游引物序列为正向参照序列,此时需要按照后面介绍的方法将上游引物序列转换为正向参照序列再输出一致性序列。 4. 点击界面上方第二行的“Configure Modules”,在弹出的窗口左边的任务栏中点击“[x] Sequencing vector Clip”,再点击右边的“Browse”按钮,通过弹出的窗口打开“Vector_primer4pMD18-T.vec_pri”程序;点击左边任务栏中的“[] Cloning Vector Clip”,再点击右边的“Browse”按钮,通过弹出的窗口打开“pMD18-T_Vector.seq”程序;点击左下角的“Run”按钮,即开始数据处理,处理结果将自动保存到“gap”文件夹中。 5. 在“gap”文件夹中双击“AssMit_tmp.o.aux”文件,将鼠标移到弹出的“Contig Selector” 窗口中的直线上,点击右键,选择“Edit Contig”,即弹出“Contig Editor”窗口,点击最右边的“setting”按钮,在下拉菜单中选择“By background colour”,即可显示比对结果的有差异碱基;双击某一序列,即可显示该序列的测序峰图,以检查核对该位点碱基的测序情况。 * 注:执行此操作时一定要检查正向序列是否为上游引物序列;如果不是,则需要将上游引物序列转换成正向序列后再执行下面的“输出及保存序列”操作;具体的操作步骤是:点击“GAPv4.10 AssMit_tmp.o”窗口中的“Edit”菜单,在下拉菜单中选择“Complement a contig”命令,在弹出来的“Complement contig”小窗口中检查确认“Contig identifier” 框中的序列为上游引物序列,然后点击“OK”即将完成序列转换。 6. 点击“GAPv4.10 AssMit_tmp.o”窗口中的“File”菜单,在下拉菜单中选择“Save consensus”可保存一致序列,nomors------ok ,序列即保存在刚刚使用过的那个文件夹中,然后把文件名改成用“*.txt”形式,以便保存的文件成为文本文件,若忘记在文件名后加“.txt”,则保存完毕后可将文件的扩展名改成“.txt”;只有拼接好的一致序列才可用于后面的序列分析。 7.然后把在ncbi里查到的相近种的序列放到一起,也可以直接放到刚才那个cons.txt文本文 档中,然后打开clustalx.exe进行序列比对,file------load sequence ------G盘-----004文件夹-----cons.txt-----aligenment-----do complete aligenment,这时如果发现两条序列的保守区域很不对,极可能是刚刚测得这个种的序列反了,需要用Bioedit把它正过来, 8.在程序里打开已经安装好的Bioedit,例如找file---------open----G盘---004----cons.txt,打开, 选sequence--------下拉菜单中找Nuclic acid,在菜单中找reverse complement,点击它 然后在另一对话框中例如G:/004/CONS.TXT中点击保存save Aligenment. 这样序列即

CHIP SEQ分析常见问题集锦

ChIP-Seq分析常见问题集锦 染色质免疫共沉淀测序(ChIP-Seq)是指对染色质免疫共沉淀(ChIP)获得的DNA片段进行大规模测序,并能把所研究蛋白的DNA结合位点精确定位到基因组上。 Roche GS FLX Titanium、Illumina Solexa GA IIx和AB SOLID4这3种测序技术均可以用于ChIP-seq,其中采用Illumina Solexa GA IIx进行ChIP-Seq已有较多文献报道。 ChIP-Seq技术高质量、高通量、低成本的数据产出,为表观遗传组学研究奠定了技术基础。研究者可以在以下几方面展开研究:(1)判断DNA链的某一特定位置会出现何种组蛋白修饰;(2)检测RNA polymerase II及其它反式因子在基因组上结合位点的精确定位;(3)研究组蛋白共价修饰与基因表达的关系;(4)CTCF转录因子研究。 ChIP-Seq有什么样品要求? 答:(1)请提供浓度≥10ng/ul、总量≥200ng、OD260/280为1.8~2.2的DNA样品;若单次ChIP后DNA量不够,建议将2~3次ChIP的DNA合并在一起。 (2)请提供DNA打断时检测胶图,要求打断后DNA电泳主带在200-500bp范围内;请对于ChIP 获得DNA设计引物进行QPCR验证和定量,能够提供检测位点的检测报告。附阳性和阴性对照。(3)样品请置于1.5ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm 封口。在运输前将所有样品管固定于50ml带盖离心管中,再将50ml管放在封口袋中。 ChIP-Seq相比ChIP-chip有哪些优势? 答:第一,ChIP-Seq能实现真正的全基因组分析。目前所能获得的芯片上固定的探针只能代表全基因组部分序列,所获得的杂交信息具有偏向性;第二,对于结合位点分析,ChIP-Seq 通过寻找“峰”,结合分辨率可精确到10~30bp,而芯片上探针由于长度所限,无法精确定位,即使目前最高水平的商业芯片都无法提供可与ChIP-Seq媲美的分辨率;第三是所需样本数量。ChIP-chip需要多达4~5μg的起始样本,在杂交之前需要进行LM-PCR,但可能导致背景增高,竞争性扩增等导致假阳性。而ChIP-Seq仅需要纳克级起始材料,如SOLiD起始材料可低至20ng。两者技术特点如下: 研究方法CHIP-on-chip CHIP-Seq 分辨率30~100bp1bp 覆盖范围受芯片容量限制,只能选择性地扫 描特定区域,无法覆盖全基因组只要测定的序列(Reads)能够定位到基因组上,就能获得全部基因组信息 缺陷探针和非特异性区域杂交测序数据会有一些GC含量偏向 性价比只能研究在基因组上广泛存在的目 的位点(Broading bingding)可以扫描全基因组;可以研究在基因组上存在的稀有目的位点(Sharp bingding) 需要的DNA 量 高低(10~50bp)动态量程弱信号会被遗弃;强信号会饱和没有局限 选择数据产 出量 不可以可以

基因测序(PCR常见问题)

基因测序(PCR常见问题)生物专业很实用 PCR常见问题 PCR常见问题分析及对策(无扩增产物、非特异性扩增、拖尾、假阳性) 问题1:无扩增产物 现象:正对照有条带,而样品则无 原因: 1.模板:含有抑制物,含量低 2.Buffer对样品不合适 3.引物设计不当或者发生降解 4.反应条件:退火温度太高,延伸时间太短 对策: 1.纯化模板或者使用试剂盒提取模板DNA或加大模板的用量 2.更换Buffer或调整浓度 3.重新设计引物(避免链间二聚体和链内二级结构)或者换一管新引物 4.降低退火温度、延长延伸时间 问题2:非特异性扩增 现象:条带与预计的大小不一致或者非 特异性扩增带

原因: 1.引物特异性差 2.模板或引物浓度过高 3.酶量过多 4.Mg2+浓度偏高 5.退火温度偏低 6.循环次数过多 对策: 1.重新设计引物或者使用巢式PCR 2.适当降低模板或引物浓度 3.适当减少酶量 4.降低镁离子浓度 5.适当提高退火温度或使用二阶段温度法 6.减少循环次数 问题3:拖尾 现象:产物在凝胶上呈Smear状态。 原因: 1.模板不纯 2.Buffer不合适 3.退火温度偏低 4.酶量过多 5.dNTP、Mg 2+浓度偏高 6.循环次数过多 对策: 1.纯化模板 2.更换Buffer 3.适当提高退火温度 4.适量用酶 5.适当降低dNTP和镁离子的浓度 6.减少循环次数 问题4:假阳性 现象:空白对照出现目的扩增产物 原因: 靶序列或扩增产物 的交*污染 对策: 1.操作时应小心轻柔,防止将靶序列吸入加样枪内或溅出离心管外; 2.除酶及不能耐高温的物质外,所有试剂或器材均应高压消毒。所用离心管及加样枪头等均应一次性使用。 3.各种试剂最好先进行分装,然后低温贮存 PCR引物设计的黄金法则(转自tiangen)

测序常见问题解答

1.为什么需要新鲜的菌液? 首先,新鲜的菌液易于培养,可以获得更多的DNA,同时最大限度地保证菌种的纯度. 2.如何提供菌液? 如果您提供新鲜菌液,用封口膜封口以免泄漏;也可以将培养好的4—5ml菌液沉淀下来,倒去上清以方便邮寄。同时邮寄时最好用盒子以免邮寄过程中压破. 3.如何制作穿刺菌? 用灭菌过1.5ml或2ml离心管加入LB琼脂(7g/L)斜面凝固,用接种针挑取分散良好的单菌落穿过琼脂直达管底,不完全盖紧管盖适当温度培养过夜,然后盖紧盖子加封口膜,室温或4度保存。 4.PCR产物直接测序有什么要求? 1).扩增产物必须特异性扩增,条带单一.如果扩增产物中存在非特异性扩增产物,一般难以得到好的测序结果;.2)必须进行胶回收纯化;3)DNA纯度在16—2.0之间.浓度50ng/ul以上. 5.为什么PCR产物直接测序必须进行Agarose胶纯化? 如果不进行胶纯化而直接用试剂盒回收,经常会导致测序出现双峰甚至乱峰。这主要是非特异性扩增产物或者原来的PCR引物去除不干净所导致。大多所谓的PCR"纯化试剂盒"实际上只是回收产物而不能起到纯化的作用的。对于非特异性扩增产物肯定无法去除,而且通常他们不能够完全去除所有的PCR引物,这会造成残留的引物在测序反应过程中参与反应而导致乱峰。 6.如何进行PCR产物纯化? PCR产物首先必须用Agarose胶电泳,将特异扩增的条带切割下,然后纯化。使用凝胶回收试剂盒回收.产物用ddH2O溶解。 7.PCR产物直接测序的好处? A) PCR产物直接测序可以反映模板的真实情况. B) 省去克隆的实验费用和时间. C) PCR产物测序正确的片段进行下一步克隆实验使结果更有保障. D) 混合模板进行PCR的产物直接测序可以发现其中的点突变. 8.对用于测序的质粒DNA的要求有哪些? 对测序模板DNA的一般要求:1).DNA纯度要求高,1.6—2.0之间,不能有混合模板,也不能含有RNA,染色体DNA,蛋白质等;2).溶于ddH2O中,溶液不能含杂质,如盐类,或EDTA等螯合剂,将干扰测序反应正常进行。 9.如何鉴定质粒DNA浓度和纯度? 我们使用水平琼脂糖凝胶电泳,并在胶中加入0.5ug/ml的EB(电泳缓冲液中不必加EB),加一个已知浓度的标准样品。电泳结束以后在紫外灯下比较亮度,判断浓度和纯度。此方法可以更直接、准确地判断样品中是否含有染色体DNA、RNA等,也可以鉴别抽提的质粒DNA的不同构型。 质粒DNA的3种构型是指在抽提质粒DNA过程中,由于各种原因的影响,使得超螺旋的共价闭合环状结构的质粒(SC)的一条链断裂,变成开环状(OC)分子,如果两条链发生断裂,就变成为线状(L)分子。这3种分子有不同的迁移率,通常,超螺旋型(SC)迁移速度最快,其次为线状(L)分子,最慢为开环状(OC)分子。使用紫外分光光度计检测,或者用溴乙锭-标准浓度DNA比较法只能检测抽提到的产物中的浓度,甚至由

DNA测序结果中常见的几个问题

D N A测序结果中常见 的几个问题 公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]

1 、为什么开始一段序列的信号很杂乱,几乎难以辨别 这主要是因为残存的染料单体造成的干扰峰所致,该干扰峰和正常序列峰重叠在一起;另外,测序电泳开始阶段电压有一个稳定期,所以经常有20-50 bp 的紧接着引物的片段读不清楚,有时甚至更长。 2 、为什么在序列的末端容易产生 N 值,峰图较杂 由于测序反应的信号是逐渐减弱的,所以序列末端的信号会很弱,峰图自然就会杂乱,加上测序胶的分辨率问题,如果碱基分不开,就会产生N 值,正常情况下ABI377测序仪能正确读出500个碱基的有效序列。 3 、测序结果怎么找不到我的引物序列 如果找不到测序所用的引物序列。这是正常的,因为引物本身是不被标记的,所以在测序报告中是找不到的;如果找不到克隆片段中的扩增引物,可能是您克隆的酶切位点距离您的测序引物太近,开始一段序列很杂,几乎难以辨别,有可能看不清或看不到扩增引物;另外插入片段的插入方向如果是反的,此时需找引物的互补序列。 4 、测序结果怎么看不到我克隆的酶切位点 可能的原因同上,您克隆的酶切位点距离您的测序引物太近,开始一段序列很杂,几乎难以辨别,有可能看不清或看不到酶切位点。通常我们会尽量选择距离酶切位点远点的引物,当然,若是样品出现意外原因,如空载、载体自连等,克隆的酶切位点也是看不到的。 5 、你测出的结果与我预想的不一致,给我的结果与我需要的序列有差距,这是怎么回事

首先,我们会核实给您的测序结果是否对应您的样品编号,如果对应的是您的样品,由于不知您的实验背景,测得的序列是否与您预想的结果一致我们无法判断,我们能做到的是检查发送给您的测序结果和您提供来的样品是否一致。 6 、序列图为什么会有背景噪音(杂带)是否会影响测序结果 序列图的背景杂带是由荧光染料引起,如果太强会影响测序结果,要看信噪比,我们给的结果信噪比大都在98%以上。 7 、测序结果为什么与标准序列有差别 原因可能有:样品个体之间的差别、测序准确率的问题,自动测序仪分析序列的准确并非100%,建议至少测一次双向,通过双向测序可以最大限度减少测序的错误。当然尽管我们有时做了最大努力,但还是保证不了和文献序列完全一致,但我们测序报告是客户样品序列的真实结果。 8 、 PCR 产物测序与克隆后测序序列为什么有差别 PCR 产物克隆到载体中进行测序,有两个方面可能序列有变化:首先,PCR 扩增过程中可能产生错配。将片段克隆到载体中也有可能发生突变;其次,测序的准确率并非100%。 9 、有杂合位点,但你们的报告上看不到杂合的信号! 如果在您认为应该出现杂合信号的位置上只出现单一的信号,那么可能是您样品突变的模板与正常的模板的比例没达到可以测出的浓度。测序反应的信号强度直接与模板的量有关,如果突变的模板所占的比例很低,仪器会自动将它作为背景信号了,很难检测出来。只有当测序反应体系中正常的和突变的模板量比较接近时,才能较可靠地检测到突变体

利用SeqMan进行序列拼接

利用SeqMan进行序列拼接 Step1:打开Seqman软件 Step2:加入你要拼接的序列 点击Add sequences 查找并选中要拼接的序列(可按住control键进行多选) 点击Add按钮填加选择的序列 填加完后点击done 注:最好用测序的图谱尽量不要直接用测序得到的序列 Step3:去除末端序列 主要是去除序列末端测序质量差或是载体序列 有两种方法可以用来去除这类末端序列 其一:利用Seqman自带的去除工具自动去除(利用Trim ends按钮进行) 其二:手工去除 个人感觉手工去除方法最有效,因此下边我们以后工去除为例进行演示 手工去除侧翼序列 双击要去除侧翼序列的目标序列 将鼠标放到测序图谱左边的一个黑色的竖线上,此时鼠标会变成一个有两个箭头的水平线按住左键拖动黑竖线,那么你就会发现侧翼序列的颜色变浅,这部分变浅的序列则就被去除,不再参加后面的拼接

此步请将测序不准确或认为是载体的序列用这种方法去除。 测序准确的峰形图 峰形规则,一般在序列的中部,如下图所示 测序不准确的峰形图 峰形较乱,很难判断是哪个碱基,一般位于序列两端,如下图所示

Step4:进行序列拼接 点击Assemble按钮 在新出现窗口处点击拼接好的contig1 在出现的Alignment of contig1 窗口中点击左三角显示序列的测序图谱点击菜单contig->strategy view可以观察序列拼接的宏观图 Step5:查找拼接错误 find conflict 点击菜单Edit 点击Find Previous或Find Next查找接接中出现的错误 还可以通过Seqman左下角的快捷按钮查找错误的拼接

测序过程常见问题分析与解答

测序过程常见问题分析与解答 1、DNA测序样品用什么溶液溶解比较好? 答:溶解DNA测序样品时,用灭菌蒸馏水溶解最好。DNA的测序反应也是Taq酶的聚合反应,需要一个最佳的酶反应条件。如果DNA用缓冲液溶解后,在进行了测序反应时,DNA溶液中的缓冲液组份会影响测序反应的体系条件,造成Taq酶的聚合性能下降。有很多客户在溶解DNA测序样品时使用TE Buffer。的确,TE Buffer能增加DNA样品保存期间的稳定性,但TE Buffer对DNA测序反应有影响,根据我们的经验,我们还是推荐使用灭菌蒸馏水来溶解DNA测序样品。 2、提供DNA测序样品时,提供何种形态的比较好? 答:我们推荐客户提供菌体,由我们来提取质粒,这样DNA样品比较稳定。如果您要以提供DNA样品,我们也很欢迎,但一定要注意样品纯度和数量。提供的测序样品为PCR产物时,特别需要注意DNA的纯度和数量。PCR产物应该进行切胶回收,否则无法得到良好的测序效果。有关DNA测序样品的详细情况请严格参照“测序模板的要求”部分的说明。 3、提供的测序样品为菌体时,以什么形态提供为好? 答:一般菌体的形态有:平板培养菌、穿刺培养菌,甘油保存菌或新鲜菌液等。我们提倡寄送穿刺培养菌或新鲜菌液。平板培养菌运送特别不方便,我们收到的一些平板培养菌的培养皿在运送过程中常常已经破碎,面目全非,需要用户重新寄样。这样既误时间,又浪费客户的样品。一旦是客户非常重要的样品时,其后果更不可设想。而甘油保存菌则容易污染。制作穿刺菌时,可在1.5ml的Tube管中加入琼脂培养基,把菌体用牙签穿刺于琼脂培养基(固体)中,37℃培养一个晚上后便可使用。穿刺培养菌在4℃下可保存数个月,并且不容易污染,便于运送。 4、与测序引物有关的问题

靶向测序

DNA靶向测序 靶向测序(Target region sequencing),也称目标区域测序,是利用PCR或探针杂交的方法对感兴趣的基因组区域进行捕获和富集并进行高通量测序的一种技术手段,它能针对目的基因组区域进行遗传变异位点检测,获得指定目标区域的变异信息。 与传统的一代测序、全基因组测序以及全外显子测序相比,目标区域测序能够获得更深的覆盖度和更高的数据准确性,提高了对目标区域的检测效率。同时缩短了研究周期、降低了测序成本,适合对大量样本进行研究,有助于发现和验证疾病相关的候选基因或相关位点,在临床诊断和药物开发方面有着巨大的应用潜力。 技术参数 样品准备测序策略测序深度周期 10~100ng DNA 300bp DNA文库 HiSeq PE150测序 500~1000X 30个工作日 建库方法 技术流程 技术特征 (1)高度灵活:定制引物,可检测基因组中任何感兴趣的区域;

(2)微量建库:建库起始量低至10ng; (3)超高测序深度:500~1000X; (4)超低检出限:0. 1%; (5)经济高效:适合大样本量的分析。 部分结果展示 融合基因Circos图Transfic预测驱动基因统计 案例解析 靶向测序发现神经发育紊乱相关基因 破坏性的基因突变可引起神经发育紊乱(neurodevelopmental-disorder ,NDDs),但与之相关的致病基因仍未能确定。这项研究中,作者对11730例神经发育紊乱(包括自闭症、智力缺陷、智力发育迟缓)病例的208个NDD风险基因的编码和拼接区域进行了靶向测序,并与2867例正常对照样本对比,鉴定出91个相关基因,其中包括38个新发现的、存在大量新发突变或个别突变的NDD基因。孤独症(Autism Spectrum Disorder ,ASD)和智力障碍(Intellectual Disabilities,ID)都与基因突变相关,在这里作者发现有25个基因与与孤独症的关联比智力障碍更密切,并据此绘制了IQ>100的高智商孤独症相关的网络。

新一代测序技术组装拼接软件velvet使用简介

新一代测序技术组装拼接软件velvet使用简介 目前用于新一代的测序的主要仪器有Illumina/Solexa的Genome Analyzer、ABI的Solid和Roche的454,它们都能高通量的测序,产生大量的测序结果,接下来就要对序列进行拼接,用于拼接的软件也有很多,比如velvet、soap、abyss、maq等,454的还有专门的newbler。平时用velvet比较多,就简单介绍一下。 velvet对短序列的拼接效果比较好,所以多用于对Illumina等产生的短序列片段进行组装拼接。下面以Illumina的GAII产生的结果为例进行说明。 一、单端测序 单端测序可以直接对fastq格式的原始文件进行处理,首先是用velveth 命令建立hash表子集 输入./velveth会出来使用帮助: Usage: ./velveth directory hash_length {[-file_format][-read_type] filename} [options] directory : directory name for output files hash_length : odd integer (if even, it will be decremented) <= 75 (if above, will be reduced) filename : path to sequence file or – for standard input File format options: -fasta -fastq -fasta.gz -fastq.gz -eland

测序常见问题分析实例

测序常见问题分析实例 峰型整齐,在某一点前后突然变乱 信号迅速衰减 信号极弱或无信号 整条序列信号杂乱 峰型整齐,在某一点前后突然变乱: 图1 PolyT特殊结构 上图是我们的一个质粒测序样品,用T7通用引物进行测序,从图中可以看出,在约285bp 的polyT结构后,序列明显变乱。主要原因是在polyT结构后,测序酶容易在模板上滑动,导致polyT结构后的峰型变得杂乱。此类样品通过对其反向互补序列进行测序,一般可以得到好的结果。 图2 移码突变双模板的存在 上图是我们的一个质粒测序样品,用M13+通用引物进行测序,从图中可以看出,该序列在290bp后序列明显有两套峰存在。造成该现象的原因可能有如下几条: 序列发生缺失突变

插入外援片段的载体和未插入外援片段的载体同时存在 PCR产物用T载体进行克隆时,PCR片段可以以两个方向克隆进T载体 所挑克隆不纯 两个大小相近的PCR产物同时存在,无法纯化分开 解决的办法: 对于质粒模板,重新挑选克隆,或从另一段进行测序 对于PCR模板,用另一端引物进行测序,或克隆后进行测序 图3 等位基因双模板的存在 上图是针对一个质粒进行的测序结果,从图中可以明显看出,在序列的80bp到120bp之间有两套峰存在,但是没有发生移码突变。该情况与图2所举的例子有所不同,该情况下从反向进行测序仍然不可能得到好的测序结果。该种情况下只能采取克隆的方法将两套模板分开,分别进行测序。 信号迅速衰减返回 图4 CTT重复结构 如上图,在大约260碱基后出现了一个严重的CTT重复结构,导致信号迅速衰减,很难得到跨过该区后的信息。该种情况下,只能从另一端进行测序,一般来说,AAG重复结构不会太影响测序。也可以对片段进行亚克隆,使每个片段大小不大于200bp,然后再进行测序。不过,该方法要麻烦很多。

DNA测序常见问题解析

DNA测序常见问题解析 一.引物问题 Q:为什么我在测序报告上找不到我的引物序列? A:这里分以下几种情况: 1. PCR引物作为测序引物进行测序时,所测序列是从引物3'末端后第一个碱基开始的,而且刚刚开始的碱基由于在毛细管电泳中不能很好地分离而导致准确性下降,所以找不到您的引物序列。 (1)对于较短的PCR产物(<600 bp),可以用另一端的引物进行测序,从另一端测序可以一直测到序列的末端,就可以在序列的末端得到您的引物的反向互补序列。 (2)对于较长的序列,一个测序反应测不到头,因此就只能将您的PCR产物片段克隆到适当的载体中,用载体上的通用引物进行测序。由于载体上的通用引物与您的插入序列之间还有一段距离,因此就可以得到您的完整的引物序列。(3)由于在测序的起始端总会有一些碱基无法准确读出,因此,您如果想得到您的PCR产物的完整序列,最好克隆后进行测序。 2. 有时质粒做模板进行测序时,由于某些原因,质粒上没有插入外源片段,为空载体,所测的序列完全为载体序列,此时也找不到引物序列。 3. 找不到克隆片段的扩增引物。发生这种情况原因有2个: (1)您在构建质粒时采用的工具酶的酶切位点距离您的测序引物太近,由于荧光染料的干扰在序列开始的部分会不十分准确。比如pBluescript Ⅱ KS这个质粒如果采用Sac I做工具酶,采用T7引物测序: 那么从T7引物末端到Sac I的酶切位点只有6个bp,这样酶切位点后的扩增引物序列在测序报告上很可能不完整。 解决的办法是采用M13 Forward引物来测序,这样可以保证Sac I的位点和之后的引物序列都可以完整的出现在报告中。 (2)您的插入片段的插入方向是反的,这时您不妨找一下您引物的反向互补序列。或者您插入的片段可能不是您的目的片段,而是由于非特异性扩增出来的片段,还有可能您送过来的样品被污染。 Q:测序发现引物有突变或缺失是什么原因? A:测序发现引物区有突变,主要考虑三个方面的原因:测序,PCR/克隆过程,引物本身。 1. 测序引入的错误 对于PCR产物进行的克隆而言,无论是TA克隆或酶切克隆,引物区往往位于载体两端,如果用载体引物进行测序,此时克隆引物区离测序引物区的距离比较近,处于测序起始阶段或正好处于测序染料峰所在的区域内(90-120 bp),这两个区域也是最容易产生测序错误的地方。因此,首先要看原始的测序峰图在引物区内是否清晰,碱基的错误或缺失是否是由于峰图不清楚而导致的计算机误读。 2. PCR/克隆过程

PCR常见问题分析及对策

PCR常见问题分析及对策(无扩增产物、非特异性扩增、拖尾、假阳性) 问题1:无扩增产物 现象:正对照有条带,而样品则无 原因: 1.模板:含有抑制物,含量低 对样品不合适 3.引物设计不当或者发生降解 4.反应条件:退火温度太高,延伸时间太短 对策: 1.纯化模板或者使用试剂盒提取模板DNA或加大模板的用量 2.更换Buffer或调整浓度 3.重新设计引物(避免链间二聚体和链内二级结构)或者换一管新引物 4.降低退火温度、延长延伸时间

问题2:非特异性扩增 现象:条带与预计的大小不一致或者非特异性扩增带 原因: 1.引物特异性差 2.模板或引物浓度过高 3.酶量过多 +浓度偏高 5.退火温度偏低 6.循环次数过多 对策: 1.重新设计引物或者使用巢式PCR

2.适当降低模板或引物浓度 3.适当减少酶量 4.降低镁离子浓度 5.适当提高退火温度或使用二阶段温度法 6.减少循环次数 问题3:拖尾 现象:产物在凝胶上呈Smear状态。 原因: 1.模板不纯 不合适 3.退火温度偏低 4.酶量过多 、Mg 2+浓度偏高 6.循环次数过多

对策: 1.纯化模板 2.更换Buffer 3.适当提高退火温度 4.适量用酶 5.适当降低dNTP和镁离子的浓度 6.减少循环次数 问题4:假阳性 现象:空白对照出现目的扩增产物 原因: 靶序列或扩增产物 的交*污染 对策: 1.操作时应小心轻柔,防止将靶序列吸入加样枪内或溅出离心管外;

2.除酶及不能耐高温的物质外,所有试剂或器材均应高压消毒。所用离心管 及加样枪头等均应一次性使用。 3.各种试剂最好先进行分装,然后低温贮存 PCR产物的电泳检测时间 一般为48h以内,有些最好于当日电泳检测,大于48h后带型不规则甚致消失。 假阴性,不出现扩增条带 PCR反应的关键环节有①模板核酸的制备,②引物的质量与特异性,③酶的质量及,④PCR循环条件。寻找原因亦应针对上述环节进行分析研究。 模板:①模板中含有杂蛋白质,②模板中含有Taq酶抑制剂,③模板中蛋白质没有消化除净,特别是染色体中的组蛋白,④在提取制备模板时丢失过多,或吸入酚。⑤模板核酸变性不彻底。在酶和引物质量好时,不出现扩增带,极有可能是标本的消化处理,模板核酸提取过程出了毛病,因而要配制有效而稳定的消化处理液,其程序亦应固定不宜随意更改。

DNA测序结果中常见的几个问题

1 、为什么开始一段序列的信号很杂乱,几乎难以辨别? 这主要是因为残存的染料单体造成的干扰峰所致,该干扰峰和正常序列峰重叠在一起;另外,测序电泳开始阶段电压有一个稳定期,所以经常有20-50 bp 的紧接着引物的片段读不清楚,有时甚至更长。 2 、为什么在序列的末端容易产生N 值,峰图较杂? 由于测序反应的信号是逐渐减弱的,所以序列末端的信号会很弱,峰图自然就会杂乱,加上测序胶的分辨率问题,如果碱基分不开,就会产生N 值,正常情况下ABI377测序仪能正确读出500个碱基的有效序列。 3 、测序结果怎么找不到我的引物序列? 如果找不到测序所用的引物序列。这是正常的,因为引物本身是不被标记的,所以在测序报告中是找不到的;如果找不到克隆片段中的扩增引物,可能是您克隆的酶切位点距离您的测序引物太近,开始一段序列很杂,几乎难以辨别,有可能看不清或看不到扩增引物;另外插入片段的插入方向如果是反的,此时需找引物的互补序列。 4 、测序结果怎么看不到我克隆的酶切位点? 可能的原因同上,您克隆的酶切位点距离您的测序引物太近,开始一段序列很杂,几乎难以辨别,有可能看不清或看不到酶切位点。通常我们会尽量选择距离酶切位点远点的引物,当然,若是样品出现意外原因,如空载、载体自连等,克隆的酶切位点也是看不到的。 5 、你测出的结果与我预想的不一致,给我的结果与我需要的序列有差距,这是怎么回事? 首先,我们会核实给您的测序结果是否对应您的样品编号,如果对应的是您的样品,由于不知您的实验背景,测得的序列是否与您预想的结果一致我们无法判断,我们能做到的是检查发送给您的测序结果和您提供来的样品是否一致。 6 、序列图为什么会有背景噪音(杂带)?是否会影响测序结果? 序列图的背景杂带是由荧光染料引起,如果太强会影响测序结果,要看信噪比,我们给的结果信噪比大都在98%以上。 7 、测序结果为什么与标准序列有差别? 原因可能有:样品个体之间的差别、测序准确率的问题,自动测序仪分析序列的准确并非100%,建议至少测一次双向,通过双向测序可以最大限度减少测序的错误。当然尽管我们有时做了最大努力,但还是保证不了和文献序列完全一致,但我们测序报告是客户样品序列的真实结果。 8 、PCR 产物测序与克隆后测序序列为什么有差别? PCR 产物克隆到载体中进行测序,有两个方面可能序列有变化:首先,PCR 扩增过程中可能产生错配。将片段克隆到载体中也有可能发生突变;其次,测序的准确率并非100%。 9 、有杂合位点,但你们的报告上看不到杂合的信号! 如果在您认为应该出现杂合信号的位置上只出现单一的信号,那么可能是您样品突变的模板与正常的模板的比例没达到可以测出的浓度。测序反应的信号强度直接与模板的量有关,如果突变的模板所占的比例很低,仪器会自动将它作为背景信号了,很难检测出来。只有当测序反应体系中正常的和突变的模板量比较接近时,才能较可靠地检测到突变体的存在。其次,在同一位置,不同碱基的信号强度一般是不一样的,这样即使突变的模板所占的比例较高时,也不一定能准确检测到突变的存在,因为,测序仪是主要用来测序正常的碱基序列的,软件分析结果时,会尽量提高主峰而将背景信号尽量压低,以得到尽可能好的结果。尊重结果,我们是不会人为将出现单一的信号修改为杂合位点的。 10 、DNA测序样品用TE 溶液溶解好不好? 由于EDTA是Taq 聚合酶的一种潜在的抑制物, DNA的测序反应也是Taq 酶的聚合反应,需要一个最佳的酶反应条件,因此DNA测序样品溶解时,最好用灭菌水溶解。

全基因组序列拼接研究进展_曾培龙

收稿日期:2012-06-11 作者简介:曾培龙(1987-),男,河南商丘人,硕士研究生,主要研究方向:生物信息学; 王亚东(1964-),男,辽宁锦州人,硕士,教授,博士生导师,主要研究方向:人工智能、机器学习、知识工程等。 0引言 新一代测序技术正在引领生命科学研究进入一个崭新阶段。人类基因组计划完成之后,获得个体基因组的全部序列对于生物学研究、探索与认识生命的本质具有十分重要的科学意义[1,2]。 新一代测序技术作为目前生命科学研究的基础手段,随着应用领域的迅速扩增与不断深入,对生物信息学提出了必须正视的基础研究课题。而全基因组序列拼接作为生物信息学的核心问题,面临的主要挑战有: (1)海量的数据(覆盖深度一般为40-200倍,数据量达20-200GB ), 迫切需要海量数据的拼接组装算法;(2)测序数据中的错误,容易导致错拼; (3)基因组中重复片段大量存在, 由于读取片段reads 长度过短,一般只有几十个碱基,这使得重复序列的处理变得困难。 针对新一代测序数据reads 长度较短、数据海量的特点,全基因组测序方面的数据分析软件的研发,已成为生物信息学领域最迫切、最重要的研究课题。虽然目前已开发有一些全基因组拼接软件,但是基本都局限在大型计算平台上完成数据分析过程,难以满足一般的研究需求,而且数据处理速度仍然远远落后于数据产生速度,已经成为整个基因组图谱绘制工作的瓶颈,并且其拼接结果在准确性方面还有待提高。 1全基因组序列拼接的含义 基因组序列拼接的核心思想是利用序列之间的交叠关 系,通过类似于“搭积木”的方式重建目标基因组序列。其 基本方法是将序列之间的交叠关系转换成计算机可以识别的结构,通过不断迭代扩展的方式延长目标序列,然后利用配对数据,确定各个目标序列的相对方向和位置关系,最终还原目标基因组序列。 基于新一代测序数据的基因组序列拼接,通常分为如下三个阶段: (1)数据的预处理阶段。该阶段通过特定的方法,移除测序数据中的错误碱基; (2)基因组连续片段(contigs )生成阶段。该阶段将reads 拼接成contigs ; (3)超长序列片段(scaffoldings )组装阶段。该阶段使用配对数据,确定contigs 之间的方向和位置关系,生成scaffoldings 。 2全基因组序列拼接的发展动态 新一代测序技术的出现为生命科学重大问题研究提供 新的手段的同时,其海量数据及其长度短、精度相对较低等特点,为生物信息学设置了前所未有的时代挑战。海量reads 数据的处理能力远远落后于测序数据的爆炸性增长速度,测试数据的快速、准确分析已经成为生命科学研究的短板[3]。如图1所示,从2006~2010年积累的新一代短片段数据量远远超过了过去10年所获得的基因组测序数据的总和。 符合SRA 标准的新一代测序数据从2005~2010年的增长情况如图2所示。与图1相比可以看出,数据分析速度远远落后于数据产生速度,尤其是2010年数据的增长更是属于 “爆炸式的”,而这些还只占目前产生的新一代测序数全基因组序列拼接研究进展 (哈尔滨工业大学计算机科学与技术学院,哈尔滨150001) 摘要:全基因组序列拼接是生物信息学研究领域的核心问题。针对新一代测序数据读取片段reads 长度短、 数据海量、精确度低等特点带来的严峻挑战,能够满足实际应用的序列拼接软件的研发,已成为生物信息学领域最为迫切的研究课题。深入探讨全基因组序列拼接的发展动态、所采用的主要策略等方面,总结序列拼接相关理论,并为未来新算法的研发提出具体的改进建议。 关键词:中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2012)04-0004-05 Research Progress of Whole Genome Assembly ZENG Peilong,WANG Yadong Abstract :Whole genome assembly is the core issue of bioinformatics.On conditions that next generation sequencing brings bioinfor- matics an unprecedented challenge due to its data of mass,short length and relatively low precision,development of sequence assembly soft-ware that could meet practical application has become the most important research topic.This paper analyses the development progress and main strategies of whole genome assembly deeply,sums up the relevant theory and provide specific suggestions for future algorithms. Key words:全基因组序列拼接;生物信息学;新一代测序 Whole Genome Assembly ;Bioinformatics ;Next-Generation Sequencing (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China ) 曾培龙,王亚东 智能计算机与应用 INTELLIGENT COMPUTER AND APPLICATIONS Vol.2No.4第2卷第4期2012年8月 Aug.2012

相关文档
最新文档