ChIP-Seq技术在转录因子结合位点分析的应用

合集下载

chip-seq应用案例

chip-seq应用案例

Chip-Seq应用案例一、简介随着基因组学和生物信息学的发展,Chip-Seq技术已经成为研究基因表达调控的重要手段。

Chip-Seq技术通过将基因组DNA与蛋白质进行共沉淀,并利用高通量测序技术对沉淀的DNA进行分析,能够精确定位蛋白质与DNA的结合位点,揭示基因表达的调控机制。

本篇文章将介绍几个Chip-Seq的应用案例,展示该技术在不同研究领域中的重要性和价值。

二、 Chip-Seq应用案例1. 转录因子结合位点分析:转录因子是一类能够识别并结合特定DNA序列的蛋白质,参与基因转录的调控。

通过Chip-Seq技术,可以研究转录因子在基因组中的结合位点,从而揭示其在特定组织或生理状态下的基因表达调控作用。

例如,一项研究发现,在乳腺癌细胞系中,转录因子ERα通过与基因组中多个位点结合,调控与乳腺癌发生发展相关的基因表达(如表1)。

表1:转录因子ERα的Chip-Seq分析结果基因位点结合强度功能注释XYZ强乳腺癌发生发展相关基因ABC中细胞周期相关基因DEF弱细胞凋亡相关基因2. 染色质重塑分析:染色质重塑是指染色质结构在空间和时间上的重新排列,对基因的表达具有重要影响。

通过Chip-Seq技术,可以检测染色质重塑复合物在基因组中的分布情况,进一步了解染色质重塑如何参与基因表达调控。

例如,一项研究发现,在胚胎干细胞中,染色质重塑复合物SMARCA4与Oct4、Sox2和Nanog等关键转录因子共同作用,调控干细胞多能性的维持(如表2)。

表2:染色质重塑复合物SMARCA4的Chip-Seq分析结果基因位点结合强度功能注释ABC强多能性维持相关基因XYZ中细胞分化相关基因DEF弱细胞凋亡相关基因3. miRNA结合位点分析:miRNA是一类非编码RNA,通过与mRNA结合调控基因表达。

通过Chip-Seq技术,可以检测miRNA与基因组中DNA的相互作用,进一步了解miRNA在发育、代谢及疾病中的作用。

chip-seq过程

chip-seq过程

chip-seq过程Chip-seq(染色质免疫沉淀测序)是一种常用的基因组学技术,它可以用来研究蛋白质与DNA之间的相互作用。

本文将详细介绍chip-seq的过程及其应用。

一、引言Chip-seq是一种结合了染色质免疫沉淀(ChIP)和高通量测序(sequencing)的技术,用于研究特定蛋白质与DNA之间的相互作用。

通过该技术,我们可以确定蛋白质与DNA的结合位点,并进一步了解这些结合位点在基因调控中的作用。

二、实验步骤1. 交联:首先,将细胞或组织交联,使DNA与蛋白质相互交联形成复合物。

这一步骤可以使用甲醛等交联剂进行。

2. 染色质免疫沉淀:将交联后的细胞或组织进行裂解,使DNA与蛋白质分离。

然后,使用特异性抗体与目标蛋白质结合,形成抗原抗体复合物。

接着,使用磁珠或琼脂糖柱等材料,将抗原抗体复合物与其他非特异性结合的蛋白质和DNA分离。

3. 反交联:将抗原抗体复合物中的DNA与蛋白质进行反交联,使其分离。

这一步骤可以通过高温或酶切等方法进行。

4. DNA纯化:将反交联后的DNA进行纯化,去除杂质。

可以使用酚/氯仿等方法进行DNA的提取和纯化。

5. DNA测序:将纯化后的DNA进行高通量测序。

通过测序,可以得到大量的DNA片段序列。

6. 数据分析:对测序得到的数据进行分析,包括数据过滤、比对和富集分析等。

通过对数据的分析,可以确定蛋白质与DNA的结合位点,并推测这些结合位点在基因调控中的功能。

三、应用1. 确定转录因子结合位点:转录因子是调控基因表达的关键蛋白质,chip-seq可以用来确定转录因子与DNA的结合位点。

通过分析转录因子的结合位点,我们可以了解基因调控网络的组成和功能。

2. 研究组蛋白修饰:组蛋白修饰是一种重要的基因调控机制,chip-seq可以用来研究组蛋白修饰与DNA的相互作用。

通过分析组蛋白修饰的分布情况,我们可以了解基因的激活或抑制状态。

3. 鉴定染色体可及性:染色体的可及性是指染色体上的DNA片段是否容易被蛋白质结合。

转录因子调控下游靶基因的验证手段

转录因子调控下游靶基因的验证手段

转录因子是一种能够调控基因转录活性的蛋白质,它们通过与特定的DNA序列结合,来调节靶基因的表达。

在细胞生物学和分子生物学研究中,研究转录因子调控下游靶基因的验证手段对于理解基因调控网络和疾病发生发展具有重要意义。

本文将介绍一些常用的转录因子调控下游靶基因的验证手段,并分析它们的优缺点。

1. ChIP-Seq技术验证转录因子结合位点ChIP-Seq(Chromatin Immunoprecipitation followed by high-throughput sequencing)技术是一种用来研究转录因子与染色质相互作用的方法。

利用特异性抗体将转录因子与其结合的DNA片段“拉下来”,然后通过高通量测序技术对这些DNA片段进行测序分析。

ChIP-Seq技术可以帮助鉴定转录因子结合位点,并验证转录因子调控下游靶基因的机制。

但是,ChIP-Seq技术需要大量的细胞样品和专业的实验操作,成本较高,且对实验技术要求较高。

2. Luciferase报告基因分析转录因子调控功能Luciferase报告基因分析是一种常用的验证转录因子调控下游靶基因的功能的方法。

研究者将转录因子结合位点序列克隆到Luciferase报告基因载体中,然后转染至目标细胞中,通过测定Luciferase表达量来评估转录因子对靶基因的调控功能。

这种方法简单易行,结果可定量分析,但需要大量的细胞培养和实验操作,并且受细胞类型和转染效率的影响。

3. RNA干扰与转录因子功能验证RNA干扰(RNA interference)是一种通过RNA分子介导的基因静默的技术,可以用来验证转录因子对靶基因的功能调控。

通过靶向干扰转录因子的表达,观察其对靶基因表达水平的影响,可以评估转录因子的功能。

这种方法通过干扰转录因子的表达,直接验证其在调控下游靶基因中的作用,但需要设计合适的RNA干扰实验方案,并考虑到靶基因表达的调控网络。

4. EMSA技术分析转录因子结合DNA的特异性EMSA(electrophoretic mobility shift assay)是一种用来分析转录因子与DNA结合特异性的技术。

该技术能够快速在目标基因组的染色体中确定特异DNA结合蛋白的准确结合位点

该技术能够快速在目标基因组的染色体中确定特异DNA结合蛋白的准确结合位点

该技术能够快速在目标基因组的染色体中确定特异DNA结合蛋白的准确结合位点,ChIP芯片也可以在一个基因组的任何感兴趣的区域内寻找染色体的结构改变。

一、ChIP-Chip的用途(1)在基因组范围内确定基因转录因子的DNA结合位点和其他DNA结合蛋白或蛋白复合体的DN A结合位点。

(2)染色体活性状态的定量分析。

(3)组蛋白修饰的功能研究。

通过用酰基化或甲基化的组蛋白的特异抗体和没有进行修饰的组蛋白的特异抗体,可以确定与组蛋白修饰有关的结合模式的变化。

(4)聚合酶活性的定量分析。

(5)精炼生物信息方法,用功能数据来确定启动子的位置。

二、具体实验原理和实验步骤染色质免疫沉淀芯片流程图三、GeneChip-TilingArray技术简介Affymetrix公司于2006年1月24日宣布推出GeneChip(R)人类和鼠源嵌合芯片(TilingA,ray)系列产品。

该系列芯片研究范围大大超出已知编码蛋白序列,可以对整个人类和小鼠基因组进行系统的研究。

研究人员可以利用这一芯片对转录因子和其他蛋白结合结构域进行研究。

最近,更有研究人员利用Af fymetrix的嵌合芯片在过去认为是垃圾DNA的区域中间找到了许多以前从未发现过的转录活性区域。

嵌合芯片(TilingArray)是迄今为止分辨率最高的基因芯片类型,其探针设计几乎涵盖了目标DNA的全部序列。

迄今为止,Affymetrix公司已经开发出了人、小鼠、酵母、线虫、拟南芥等模式生物的全基因组Tiling芯片,为全基因组规模上研究目的蛋白与核酸的相互作用提供了强有力的分析工具。

GeneChip-TilingArray除了全基因组芯片外,还包括了专门应用于ChIP—Chip技术中的人启动子和小鼠启动子两款芯片,探针设计覆盖了转录起始位点附近10kb的范围,可针对肿瘤相关的1 300个基因,覆盖范围更是增加到了12.5kb。

1882年,德国细胞学家弗莱明首次公开发表了细胞有丝分裂现象的观察结果,他的工作也被看作是科学史上最重要的发现之一。

CHIPSEQ技术在转录因子结合位点分析的应用

CHIPSEQ技术在转录因子结合位点分析的应用

CHIPSEQ技术在转录因子结合位点分析的应用CHIP SEQ(Chromatin Immunoprecipitation Sequencing)是一种高通量测定转录因子、组蛋白和DNA互作的方法。

它结合了染色质免疫沉淀(ChIP)和高通量测序技术,可以有效地鉴定转录因子在基因组上的结合位点,从而揭示基因表达调控的分子机制。

在本篇文章中,我们将探索CHIP SEQ技术在转录因子结合位点分析的应用。

CHIPSEQ技术的基本原理是将细胞或组织中的染色质进行交联固定,并利用特异性抗体对目标蛋白进行免疫沉淀。

然后,通过DNA片段的解链、末端修复和连接测序适配体等处理后,进行高通量测序。

最后,通过比对整个基因组的测序结果,可以确定转录因子结合位点的位置。

利用CHIPSEQ技术,可以鉴定和研究转录因子的结合位点,对于揭示基因调控网络、再表达调控、启动子选择以及逆转录及病理性过程中等尤为重要。

以下是CHIPSEQ技术在转录因子结合位点分析中的几个应用方面:1.定位转录因子结合位点:通过CHIPSEQ可以确定转录因子在基因组上的结合位点,并标记转录因子结合位点的丰度。

这有助于了解转录因子与基因调控网络之间的关系,以及转录因子在基因调控过程中所扮演的角色。

2.揭示转录因子的作用目标:CHIPSEQ技术可以鉴定转录因子结合位点附近的启动子和增强子等调控区域。

通过分析转录因子结合位点周围的DNA序列,可以预测经过转录因子调控的潜在靶基因,并进一步揭示转录因子对基因表达的调控机制。

3.研究转录因子的功能:通过CHIPSEQ技术可以鉴定转录因子结合位点的重叠情况,即多个转录因子共同结合的位点。

这有助于了解转录因子之间的相互作用关系,以及它们在调控基因表达中的合作作用和竞争作用。

4.鉴定转录因子与疾病的关联:通过CHIPSEQ技术可以鉴定在一些疾病状态下,转录因子结合位点的改变情况。

这有助于我们理解转录因子在疾病发生和发展中的角色,并为疾病的诊断和治疗提供新的靶点和策略。

chip—seq原理

chip—seq原理

chip—seq原理Chip-seq(Chromatin Immunoprecipitation Sequencing,染色质免疫沉淀测序)是一种用于研究染色质上的转录因子结合位点和组蛋白修饰的方法。

该方法首先对细胞进行染色质交联,使得DNA与染色质蛋白交联在一起。

然后使用适当的抗体选择性地免疫沉淀目标转录因子或组蛋白修饰。

接下来,将沉淀物中的DNA进行解交联,并通过DNA纯化获取目标DNA片段。

之后,对目标DNA片段进行测序。

通过高通量测序技术,可以得到很多短序列片段,这些片段对应于染色体上的不同位置。

这些测序片段可以与参考基因组进行比对,从而确定它们在基因组上的位置。

最后,通过对比实验组和对照组的测序数据,可以鉴定转录因子结合位点或组蛋白修饰位点的位置和富集情况,进而研究染色质的功能和调控机制。

总结起来,Chip-seq的原理可以简化为以下几个步骤:1. 染色质交联:将DNA与染色质蛋白交联在一起。

2. 免疫沉淀:使用抗体选择性地沉淀目标转录因子或组蛋白修饰。

3. DNA解交联:将沉淀物中的DNA解除交联,并进行纯化。

4. DNA测序:对纯化后的DNA片段进行高通量测序。

5. 数据分析:通过比对测序数据,确定DNA片段在基因组上的位置,并进行ChIP峰检测和差异分析等。

当使用Chip-seq技术进行染色质免疫沉淀测序时,还可以进一步进行数据分析来获得更多的信息。

1. Peak calling(峰检测):通过对测序数据进行分析和统计,可以识别出在特定条件下与目标蛋白结合的区域,称为峰。

峰通常表示转录因子结合位点或组蛋白修饰位点。

2. Motif analysis(基序分析):对峰区域进行进一步分析,可以识别出其中的共有序列模式,称为基序。

这些基序可能与特定转录因子的结合相关,从而可以推断特定转录因子在染色质上的结合位点。

3. Differential binding analysis(差异结合分析):比较不同实验条件下的Chip-seq数据,可以发现转录因子的结合差异。

多个基因的共同转录因子检测方法

多个基因的共同转录因子检测方法

多个基因的共同转录因子检测方法随着生物技术的不断发展,人们对基因调控的研究日益深入,共同转录因子在基因调控中扮演着至关重要的角色。

共同转录因子是一类能够同时调控多个基因转录的蛋白质,它们通过结合到多个基因的启动子区域,协同调控这些基因的表达。

发展一种可靠、高效的方法来检测多个基因的共同转录因子对于揭示基因调控网络的机制具有重要意义。

本文将介绍一些常用的多个基因的共同转录因子检测方法,并探讨它们的优缺点。

一、ChIP-seq技术ChIP-seq(Chromatin Immunoprecipitation Sequencing)技术是目前最为常用的转录因子结合位点检测方法之一。

该方法通过将特定的抗体与转录因子结合后,利用染色质免疫沉淀技术富集转录因子结合的染色质片段,再结合高通量测序技术对富集的染色质片段进行测序,从而获得转录因子结合的基因组位置信息。

在多个基因的共同转录因子检测中,研究人员可以利用ChIP-seq技术分析多个基因启动子区域上的转录因子结合情况,进而筛选出共同调控这些基因的转录因子。

ChIP-seq技术还可以通过比较不同条件下的样品来鉴定共同转录因子的动态结合情况,进一步揭示基因调控的机制。

ChIP-seq技术也存在部分缺点,如对实验条件的要求较高、数据分析复杂等。

二、RNA-seq技术除了ChIP-seq技术外,RNA-seq技术也可以用于检测多个基因的共同转录因子。

RNA-seq技术是一种利用高通量测序技术对RNA进行定量和质量分析的方法,可以全面、准确地检测基因的表达情况。

研究人员可以利用RNA-seq技术分析在不同条件下多个基因的表达模式,通过寻找共同上调或下调的基因来筛选可能存在的共同转录因子。

RNA-seq 技术还可以通过分析基因的剪接异构体来揭示共同转录因子对于基因的剪接调控作用。

RNA-seq技术在检测转录因子结合位点以及动态结合情况方面相对ChIP-seq技术来说存在局限性。

ChIP技术的实验原理和应用

ChIP技术的实验原理和应用

ChIP技术的实验原理和应用概述ChIP (Chromatin Immunoprecipitation) 技术是一种用于研究染色质上蛋白质-蛋白质和蛋白质-核酸相互作用的方法。

其原理是利用特异性抗体来富集与目标蛋白质相互作用的染色质区域,通过分析富集后的DNA序列,可以确定目标蛋白质的结合位点以及与之相关的基因表达调控网络。

ChIP技术已被广泛应用于研究基因表达调控、染色质重塑、疾病发生机制等领域。

实验原理ChIP技术的实验流程主要包括以下几个步骤:1.交联:将细胞或组织交联,固定染色质蛋白质与DNA的结合状态,一般使用甲醛进行交联。

2.细胞裂解:将交联的细胞裂解,释放出染色质蛋白质-DNA复合物。

裂解可以采用物理方法(如超声波破碎)或化学方法(如胶体法)。

3.DNA片段化:使用限制性内切酶或酶切剂,将染色质蛋白质-DNA复合物切割成小片段。

切割后的DNA片段长度与目标蛋白质的结合区域有关。

4.免疫沉淀:将特异性抗体加入到裂解液中,与目标蛋白质结合,并形成抗体-目标蛋白质-DNA复合物。

通过抗体的亲和力可以选择性地富集目标蛋白质结合的DNA片段。

5.洗涤:将非特异性的DNA片段和其他不相关的蛋白质从免疫沉淀物中洗脱。

洗涤的条件要求严格,以确保只保留目标蛋白质与DNA结合的片段。

6.反交联:通过加热或酶解的方法解除交联,使得DNA片段恢复到自由状态。

7.DNA纯化:对反交联后的DNA片段进行纯化和提取,以得到富集的DNA样品。

实验应用ChIP技术在生物医学研究中有着广泛的应用。

下面列举了ChIP技术在不同领域的应用:1.基因表达调控研究:ChIP技术可以用于研究转录因子与DNA结合的位点,从而揭示基因表达的调控网络。

通过ChIP-seq技术可以高通量地测定全基因组范围内的转录因子结合位点,并进一步分析与这些结合位点相关的基因表达调控元件。

2.染色质结构与重塑研究:ChIP技术可以用于研究染色质的结构和重塑。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ChIP-Seq技术在转录因子结合位点分析的应用摘要:染色质免疫沉淀(Chromatin immunoprecipitaion, ChIP)技术是用来研究细胞内特定基因组区域特定位点与结合蛋白相互作用的技术。

将ChIP与第二代高通量测序技术相结合的染色质免疫沉淀测序(chromatin immunoprecipitation followed by sequencing,ChIP-Seq)技术能在短时间内获得大量研究数据,高效地在全基因组范围内检测与组蛋白、转录因子等相互作用的DNA区段,在细胞的基因表达调控网络研究中发挥重要作用。

本文简要介绍了ChIP-Seq技术的基本原理、实验设计和后续数据分析,以及ChIP-Seq技术在研究转录因子结合位点中的。

关键词:ChIP-Seq;转录因子;引言染色质是真核生物基因组DNA主要存在形式,为了阐明真核生物基因表达调控机制,对于蛋白质与DNA在染色质环境下的相互作用的研究是基本途径。

转录因子是参与基因表达调控的一类重要的细胞核蛋白质,基因的转录调控是生物基因表达调控层次中最关键的一层,转录因子通过特异性结合调控区域的DNA序列来调控基因转录过程。

转录因子由基础转录因子和调控性转录因子两类组成,其中基础转录因子在转录起始位点附近的启动子区,与RNA聚合酶相互作用实现基因的转录;而调控性转录因子一般与位置多样的增强子序列结合,再通过形成增强体在组织发育、细胞分化等基因表达水平调控中发挥极其重要的作用[1]。

ChIP-Seq是近年来新兴的将ChIP与新一代测序技术相结合,在全基因s组范围内分析转录因子结合位点(transcription factor binding sites,TFBS)、组蛋白修饰(histone modification)、核小体定位(nucleosome positioning)和DNA 甲基化(DNA methylation)的高通量方法[2-4]。

其中ChIP是全基因组范围内识别DNA与蛋白质体内相互作用的标准方法[5],最初用于组蛋白修饰研究[6],后来用于转录因子[7]。

同时,新一代测序技术的迅猛发展也将基因组学水平的研究带入了一个新的阶段,使得许多基于全基因组的研究成为可能。

相对于传统的基于芯片的ChIP-chip (chromatin immunoprecipitation combined with DNA tiling arrays),ChIP-seq 提供了一种高分辨率、低噪音、高覆盖率的研究蛋白质-DNA 相互作用的手段[8],可以应用到任何基因组序列已知的物种,可以研究任何一种DNA 相关蛋白与其靶定DNA 之间的相互作用,并能确切得到每一个片段的序列信息.随着测序成本的降低,ChIP-seq 逐步成为研究基因调控和表观遗传机制的一种常用手段。

此外,为了达到更好的检测效果和更为完整的信息,近年来,将ChIP-Seq和ChIP-chip两者融合的研究具有很好的应用前景[9,10]。

转录因子在器官发生过程中起至关重要的作用,在全基因组水平将转录因子定位于靶基因DNA是认识转录调控网络的有效方法之一,了解基因转录调控的关键是识别蛋白质与DNA的相互作用。

ChIP-Seq技术能够揭示转录因子的结合位点和确定直接的靶基因序列,可在体内分析特定启动子的分子调控机制,因此被广泛应用于转录调控机制的研究。

本文主要就这一技术在转录因子结合位点研究中的基本原理、实验设计和数据分析等技术层面、以及实际应用层面进行讨论。

1 ChIP-seq基本原理及实验设计1.1 ChIP技术蛋白质与DNA相互识别是基因转录调控的关键,也是启动基因转录的前提。

ChIP是在全基因组范围内检测DNA与蛋白质体内相互作用的标准方法[11],该技术由Orlando等[12]于1997年创立,最初用于组蛋白修饰的研究,后来广泛应用到转录因子作用位点的研究中[13]。

ChIP的基本原理为:活细胞采用甲醛交联后裂解,染色体分离成为一定大小的片段,然后用特异性抗体免疫沉淀目标蛋白与DNA交联的复合物,对特定靶蛋白与DNA片段进行富集[8]。

采用低pH 值反交联,DNA与蛋白质之间的Schiff键(-C=N-)水解,释放DNA片段。

通过对目标片段的纯化与检测,获得DNA与蛋白质相互作用的序列信息。

N-ChIP[14]和X-ChIP[15]是最常见的2种ChIP实验技术,前者用来研究DNA与高结合力蛋白的相互作用,采用核酸酶消化染色质,适用于组蛋白及其异构体的研究;X-ChIP主要用来研究DNA与低结合力蛋白的相互作用,采用甲醛或紫外线进行DNA和蛋白交联,然后,采用超声波将染色质断裂为小片段,适用于多数非组蛋白的蛋白质类的研究。

由于生物芯片具有快速、高效、高并行性、高通量、微型化和自动化等特点,高密度生物芯片与ChIP 的结合极大地方便了DNA与蛋白质相互作用的研究。

1.2 ChIP-Seq技术ChIP-Seq是将ChIP与新一代测序技术相结合,能够高通量地得到每一个片段精确的序列信息,其实验原理是:在生理状态下,把细胞内的DNA与蛋白质交联后裂解细胞,分离染色体,通过超声或酶处理将染色质随机切割,利用抗原抗体的特异性识别反应,将与目的蛋白质相结合的DNA片段和目的蛋白质沉淀下来,再通过反交联(Reverse Crosslink)释放结合蛋白的DNA片段。

此步骤获得全基因组范围内与组蛋白或转录因子等DNA结合蛋白相互作用的DNA区段信息,这些DNA区段信息的长度大约为200 bp. 用新一代的测序技术测序获得36~100 bp的DNA片段的序列,最后这些DNA片段将会被比对到对应的参考基因组上(图1)[16]。

图1 ChIP-Seq实验原理图同ChIP-Seq技术与ChIP-chip比较起来,它最大的优点在于能够精确定量分析。

该技术具有许多的优点:(1)能实现真正的全基因组分析;(2)结合分辨率可精确到10~30 bp;(3)所需样本量小;(4)避免了杂交等影响因素,具有更高的敏感性等。

现在,分析ChIP-Seq的测序平台主要有454、Solexa、IIIumina、SOLiD和HeliScope,其中IIIumina测序是最常使用的测序方法。

ChIP-Seq技术读取的序列越来越多,而成本也在不断下降。

通常第二代高通量测序方法产生的是段序列,段序列在序列拼接和序列映射时会产生很多麻烦,但是在ChIP-Seq实验中,段序列具有很大价值,因为序列的结合位点通常都比较短。

2 ChIP-Seq数据分析ChIP-Seq的难点是测序后的生物信息学分析,DNA打碎方法、染色质开放程度的不均一性、PCR扩增偏向性、基因组的重复程度以及测序和序列比对过程中的错误都会引入系统误差造成假阳性,尽可能剔除假阳性并揭示出数据背后的机制是需要分子生物学与计算生物学工作者协同努力。

对ChIP-Seq数据的处理主要分为四个部分:数据预处理、序列比对、峰值检测和模体分析。

2.1 ChIP-seq数据格式及预处理目前,IIIumina公司测序仪产出的测序数据基本都是FASTQ格式,即一种含有测序质量的FASTA文件[17]。

FASTQ格式以测序读段为单位存储,每条读段占四行,第一行开头为“@”后接读段标识,第二行为测序出的碱基序列,第三行开头为“+”后接读段ID,因读段ID一般与第一行相同,所以有时可以省略以节省空间。

第四行为测序质量,一般用字符表示,长度与第二行相同,对应于相应位置碱基的测序质量。

由于测序仪器会得到较低质量的数据,为了去除一些低质量的数据需要进行预处理。

此外,原始数据也可以从基因表达综合数据库GEO(Gene Expression Omnibus)中下载得到。

GEO是NCBI下的一个的基因表达的大型数据库,其最大功能是用来储存和检索公开的高通量基因表达和基因组杂交数据。

当文章在科学文献上发表后,其中所产生的高通量实验数据就将放在公有领域上,供其他研究者免费下载,使得实验数据中的海量信息能够被多次分析与进一步挖掘。

与此同时,部分文章会将数据传送到序列存档库SRA (Sequence Read Archive)。

SRA数据库的数据集包含数据的上传时间,标题,物种,实验类型,文章引用,实验设计,下载地址,数据大小等信息。

2.2 序列比对由于单核苷酸多态性的存在,在短序列比对[18]时候必须要允许1-3个匹配错误,比对的时候对于不能唯一的比对到基因组的序列,可以去掉或允许多重比对,通常,多重比对带来较高的敏感度,因为它允许我们检测较低的覆盖度的区域。

目前有多种序列比对工具,但是Bowtie[19]是其中最快的而内存应用效率很高的佼佼者(表1),它采用一种称作Burrow-Wheeler变换(BWT)的压缩算法对参考基因组序列进行索引,使用大约 2.2 GB(2.9 GB 用于双末端测序)的内存,就可完成人类基因组的序列比对。

每小时可以比对超过25,000,000 段长度为35 bp的DNA序列。

Bowtie还可以同时启动多个线程来加快速度,这对于多核CPU来说尤为重要。

尽管大部分软件都允许在比对中插入间隙,但是对于ChIP-Seq实验来说,寻找单核苷酸多态性或者插入与缺失并不是重点。

唯一序列占整体序列数量的百分比是分析人员需要重点考虑的问题。

表 1 序列比对环节中的一些常用软件软件用途软件主要特点序列比对ELAND[20]Illumina 默认软件;比对过程中不允许碱基的空缺,且比对序列长度受限。

BWA[21]基于 BWT(Burrows-Wheeler transform)算法;运算快速高效,比对过程中允许适度插入与缺失。

MAQ[22]比对过程中不允许碱基的空缺,但能考虑到每个碱基的质量指数。

SOAP[23]比对过程中允许少量碱基的空缺和错配。

Bowtie 基于BWT算法;速度超快,且具备高存储效率。

无论从哪个方面来看,Bowtie都很合适,因此本流程采用Bowtie完成序列的比对这项工作。

经过比对之后,原始的测序读段将带有其在基因组中的位置信息,或者说,该测序读段被回贴到了基因组中。

2.3 峰值检测峰值检测是ChIP-Seq数据分析的一个关键步骤,很多后续分析都取决于峰值检测的结果。

峰值检测是根据峰富集区域来预测DNA结合蛋白在基因组上结合的区域。

不同的DNA 结合蛋白在基因组上的分布模式是不同的,具体体现于ChIP-Seq峰形的不同,如转录因子的峰型为尖锐状,即信号高度集中。

峰值检测是一种用于鉴别读段数特别集中的区域的手段,表2列举了ChIP-Seq数据分析过程峰检测环节中常用到的软件。

在峰值检测的过程中,需要综合考虑灵敏度和特异度之间的平衡,因为增加灵敏度将降低特异度,增加特异度将降低灵敏度。

相关文档
最新文档