ChIP-chip 与 ChIP-seq 数据处理方法与分析平台

合集下载

ChIP-Seq分析和作用

ChIP-Seq分析和作⽤1：ChIP-Seq数据是基因组特异性富集的序列的测序结果，包括组蛋⽩修饰ChIP-Seq(H3K4me3/启动⼦相关/narrowpeak、H3K4me1/增强⼦相关/narrowpeak、H3K27ac/增强⼦相关/broadpeak)、转录因⼦ChIP-Seq(CTCF/绝缘⼦相关/narrowpeak、pol II/转录起始/narrowpeak)、DNA富集序列(DNase-Seq/弱DNA酶消化/活性区域、MNase-Seq/强DNA酶消化/核⼩体不活跃区域、ATAC-Seq//前两者的结果的集合)。

通过互补染⾊质分析实验分析的基因组位点揭⽰了染⾊质结构的不同⽅⾯：ChIP-seq显⽰特异性转录因⼦（TF）的结合位点; DNase-seq，ATAC-seq和FAIRE-seq显⽰开放染⾊质的区域;和MNase-seq鉴定良好定位的核⼩体。

在ChIP-seq中，特异性抗体⽤于直接或通过包含靶因⼦的复合物中的其他蛋⽩质提取结合⾄靶蛋⽩的DNA⽚段。

在DNase-seq中，染⾊质被DNA酶I内切核酸酶轻微消化。

⼤⼩选择⽤于富集在DNA对DNA酶I攻击⾼度敏感的染⾊质区域产⽣的⽚段（在初期会⽣成包含各种长度的DNA⼩⽚段，但是⼀般来书保留100~300bp长度的⼩⽚段建库测序）。

ATAC-seq是DNase-seq的替代⽅法，其使⽤⼯程改造的Tn5转座酶来切割DNA并将引物DNA序列整合到切割的基因组DNA中（即，标记）。

微球菌核酸酶（MNase）是内切核酸外切酶，其连续地消化DNA直到达到阻塞（和DNA酶相⽐（DNase-seq），属于强切，开放的区域全部都被消化），例如核⼩体。

在FAIRE-seq中，甲醛⽤于交联染⾊质，并且苯酚 - 氯仿⽤于分离剪切的DNA。

2：ChIP-Seq数据的作⽤：a:构建物种的epigenome，利⽤chromHMM将基因组分成⼀个⼀个的区域；b:与交互数据(HiC/chia-pet)联合分析；c:和RNA-Seq联合分析(chirp-seq)。

chipseq实验原理和callpeak原理

chipseq实验原理和callpeak原理全文共四篇示例，供读者参考第一篇示例：Chip-seq实验原理是一种用于研究染色质上蛋白质与DNA相互作用的技术。

ChIP-seq（Chromatin Immunoprecipitation with Sequencing）技术结合了染色质免疫沉淀（ChIP）和高通量测序（seq），可以帮助科研人员探究基因的调控机制、染色质的结构与功能等重要生物学问题。

ChIP-seq实验的步骤分为：杀细胞、交联DNA和结合蛋白、细胞裂解、柱层纯化DNA-蛋白质复合物、解交联、DNA纯化、建立图书馆、测序等多个环节。

通过这个实验，可以获得与特定蛋白结合的DNA片段，并使用高通量测序技术对这些片段进行快速测序。

通过对测序数据的分析，可以识别出蛋白与DNA结合的位点、研究基因的表达调控等。

在ChIP-seq数据的分析中，一个重要的步骤是Callpeak。

Callpeak是一个用于识别ChIP-seq数据中蛋白与DNA结合位点的算法。

其主要目的是从测序数据中识别出富集的区域，即可能与特定蛋白结合的DNA序列。

Callpeak的原理是通过对ChIP-seq数据进行统计学分析，识别在基因组中具有高富集性的区域。

这种高富集性可能是由于特定蛋白在该区域与DNA结合，或者其他生物学过程所导致的。

Callpeak算法采用了一系列统计指标，如reads数量，reads的空间分布情况等，来确定哪些区域是与特定蛋白结合的位点。

Callpeak算法的核心是建立一个背景模型，用来描述在没有结合事件发生时的随机测序数据的分布。

通过比较实验组和对照组的测序数据，Callpeak可以识别出真正富集的区域，并给出统计学显著性的评估。

Chip-seq实验原理和Callpeak原理是ChIP-seq技术中非常重要的两个部分。

通过利用这些原理，科研人员可以更好地理解基因的调控机制，揭示染色质的结构与功能等生物学问题。

chip-seq测序原理

chip-seq测序原理【Chip-seq测序原理】引言：Chip-seq（Chromatin Immunoprecipitation Sequencing）是一项研究基因组中蛋白质与DNA相互作用及转录调控的重要技术。

该技术主要通过分离和测序DNA与特定蛋白质结合复合物，从而识别基因组上与该蛋白质结合的特定区域。

本文将从样品准备、免疫沉淀、DNA测序及数据分析等方面，详细介绍Chip-seq测序的原理与步骤。

一、样品准备：Chip-seq实验主要需要蛋白质与DNA相互作用的样品。

常见的样品来源包括细菌、植物、动物等生物系统的细胞提取物、组织提取物以及血液等。

在样品准备过程中，需要对DNA进行交联以固定蛋白质与DNA结合的状态，并通过酶切处理来断开DNA-蛋白质交联。

接下来，通过免疫沉淀（immunoprecipitation，IP）提取特定蛋白质与DNA形成复合物，进而获得用于测序的DNA片段。

二、免疫沉淀（IP）：免疫沉淀是Chip-seq技术的核心步骤，用以富集与特定蛋白质结合的DNA片段。

首先，将细胞或组织提取物进行预处理，包括清除细胞碎片和大量基因组DNA。

然后，通过与特定蛋白质结合的抗体对样品进行免疫反应。

抗体与蛋白质结合后，将抗体与与其结合的DNA片段共沉淀，形成蛋白-DNA复合物。

最后，通过洗涤去除非特异性结合的DNA片段，得到富集了特定蛋白质-DNA复合物的样品。

三、DNA测序：在免疫沉淀之后，需要将免疫沉淀样品中的DNA进行测序。

测序通常采用高通量测序技术如Illumina测序平台。

首先，将免疫沉淀样品中的DNA片段进行加工处理，生成适合测序的文库。

然后使用Illumina测序平台进行上机测序，通过纳米孔测序技术将DNA片段拆分为小片段，加上特定引物后进行扩增，最终得到数百万的短序列读数。

四、数据分析：DNA测序后，得到数百万个短序列读数，需要对这些读数进行数据分析以确定特定蛋白质与DNA相互作用的区域。

chip-atlas数据库使用方法

chip-atlas数据库使用方法标题：chip-atlas数据库使用方法引言：chip-atlas数据库是一个用于存储和分析染色质免疫沉淀测序（ChIP-seq）和染色质可及性测序（ATAC-seq）数据的开放数据库。

本文将介绍chip-atlas数据库的使用方法，包括数据库的访问、数据查询和分析等内容，帮助用户更好地利用该数据库进行科研工作。

一、数据库访问chip-atlas数据库可以通过互联网进行访问，用户可以直接在浏览器中输入chip-atlas的网址进行访问。

在数据库主页上，用户可以找到相关的数据集和工具，以及数据库的最新更新信息。

二、数据查询1. 数据集查询：chip-atlas数据库中包含了大量的ChIP-seq和ATAC-seq数据集，用户可以通过关键词搜索或浏览数据集列表来获取感兴趣的数据集。

在搜索框中输入关键词，数据库将返回与关键词相关的数据集列表。

用户可以点击数据集名称进入详细信息页面，查看该数据集的实验设计、样本信息、测序数据和分析结果等。

2. 基因/转录因子查询：chip-atlas数据库还提供了基因和转录因子的查询功能。

用户可以输入基因或转录因子的名称，数据库将返回与之相关的ChIP-seq和ATAC-seq数据集。

用户可以进一步查看这些数据集的详细信息，并进行后续的数据分析。

三、数据分析chip-atlas数据库提供了丰富的数据分析工具和功能，帮助用户深入挖掘ChIP-seq和ATAC-seq数据的生物学意义。

以下是一些常用的数据分析方法：1. 基因富集分析：chip-atlas数据库中的数据集可以用于基因富集分析，帮助用户发现与特定基因集关联的生物学过程和通路。

用户可以选择感兴趣的数据集，将其与基因集分析工具（如DAVID、GSEA等）结合使用，进行富集分析。

2. 可视化分析：chip-atlas数据库提供了可视化工具，帮助用户对ChIP-seq和ATAC-seq数据进行直观的展示和分析。

chipseq分析流程

chipseq分析流程CHIPseq(chromatinimmunoprecipitationsequencing，抗原沉淀测序)是目前最常用的一种基因调控技术，也是一种全面、高效的技术，可用于研究特定组蛋白在特定细胞中的结合情况，同时也能够查明组蛋白在特定基因应激下的基因表达调控。

在分析CHIP-seq数据时，需要遵循一定的步骤和流程，内容主要包括数据准备、质粒提取、测序、碱基质量核查、序列对齐、拼接、建立peaks、转录因子结合位点的鉴定等，下文将详细介绍每一步的操作流程。

首先，CHIP-seq分析的数据准备工作是实验的第一步，准备的内容主要是两类：一类是含有DNA信号的样品和无DNA信号的对照样品，另一类是抗原质粒的提取及其他相关的实验准备，如抗原结合条件的调节、抗原结合及其他信号的检测。

其次，是质粒提取，一般采用抗原质粒提取技术，该技术可以提取抗原结合位点上的DNA片段，以实现转录因子与底物DNA结合的研究。

抗原质粒提取的基本流程包括多种操作：蛋白质的纯化、质粒的捕获、DNA的提取、质粒的洗脱及其他后续处理步骤。

第三步是测序，即通过测序仪进行序列测定，一般采用高通量测序技术，而该步骤是CHIP-seq研究中最重要也是最耗时的步骤，因为要用到大量的DNA片段，测序结果往往会产生大量数据。

接下来，针对测序得到的数据，需要对碱基质量进行核查，一般采用碱基质量检测软件，以评估序列质量并去除低质量数据，以最大程度的保证序列的准确性，提高数据的可用性。

接着，进行序列对齐，一般使用alignment软件，比如Bowtie、BWA等，将reads数据与参考基因组序列进行比对，进行reads的对齐，对比结果存储为SAM文件，该文件包括序列的物理位置等重要信息。

随后，是reads拼接，一般使用Picard软件，将reads拼接成更长的片段，大大提高了后续研究的效率。

接下来，是建立peaks，即根据碱基质量和序列对齐结果，识别抗原结合位点，从而获取各个基因调控位点的信息，建立peaks需要使用有效的软件，常用的有F-seq、 MACS和HTSeq等。

ChIP-chip和ChIP-Seq数据的生物信息学分析的开题报告

ChIP-chip和ChIP-Seq数据的生物信息学分析的开题报告一、研究背景ChIP-chip（chromatin immunoprecipitation microarray）和ChIP-Seq（chromatin immunoprecipitation sequencing）是两种常用的染色质免疫沉淀实验技术，用于研究转录因子与DNA之间的相互作用和染色质修饰与基因表达的关系。

这两种技术可以获得高通量的染色体上特定区域的免疫沉淀富集的DNA片段，可以用于鉴定基因启动子、增强子、转录因子结合位点等。

但是，要对这些ChIP-chip和ChIP-Seq数据进行生物信息学分析，需要一定的计算生物学和统计学基础，涉及到数据处理、序列比对、峰识别、差异分析等内容。

二、研究目的本文旨在探究ChIP-chip和ChIP-Seq数据的生物信息学分析方法，以及对这些数据进行生物学解释和功能注释，为深入了解染色质免疫沉淀实验的研究提供理论和技术支持。

三、研究内容1. ChIP-chip和ChIP-Seq数据的处理和预处理：包括质量控制、序列比对、峰识别、数据归一化、差异分析等内容。

2. ChIP-chip和ChIP-Seq数据的生物学解释和功能注释：利用公共数据库和生物信息学分析工具对ChIP-chip和ChIP-Seq数据进行基因富集分析、通路富集分析、转录因子富集分析等功能注释。

3. ChIP-chip和ChIP-Seq数据的应用：以编码基因、非编码RNA、转录因子、组蛋白修饰等为研究对象进行案例分析，探讨ChIP-chip和ChIP-Seq数据在基因组学和表观遗传学研究中的应用。

四、研究意义通过本研究，可以深入理解ChIP-chip和ChIP-Seq数据在基因组学和表观遗传学研究中的应用和生物信息学数据分析方法，为相关研究提供技术和理论支持。

同时，对建立高质量的生物信息学数据处理和功能注释平台具有重要意义。

ChIP-chip与ChIP-seq数据处理方法与分析平台

ChIP-chip与ChIP-seq数据处理⽅法与分析平台论⽂写作课期末作业综述题⽬：ChIP-chip与ChIP-seq数据处理⽅法与分析平台姓名：孙翰菲学号：1132995第⼀章⽣物学背景知识1.1基因表达的调控从DNA到蛋⽩质，需要经过若⼲步骤。

对于真核⽣物来说，基因表达的调控是多级的，主要发⽣在4个彼此相互独⽴的⽔平上：转录⽔平的调控，加⼯⽔平的调控,翻译⽔平的调控，翻译后⽔平的调控。

⽽转录⽔平的基因表达调控，是其中最重要的调控机制。

1.2转录因⼦与组蛋⽩修饰转录因⼦(transcription factor)是⼀种特异识别某些DNA序列与之结合的蛋⽩质。

调控DNA通过⽣成转录因⼦来对靶DNA序列（⽬标DNA）进⾏转录⽔平的调控，促进或者抑制这些基因的转录。

这个机制是⾮常复杂的，这是由于真核⽣活的转录因⼦种类繁多，加上转录因⼦之间的相互作⽤造成的。

真核⽣物转录因⼦调节基因转录的⼀种重要机制，就是调节染⾊质的结构，以影响转录因⼦对启动⼦(promoter)的结合能⼒。

转录因⼦能调节组蛋⽩──染⾊质的⼀种成分──核⼼的结构，或称使组蛋⽩修饰发⽣改变，从⽽改变核⼩体和染⾊质的紧密程度，影响转录因⼦和RNA聚合酶(P ol II)对启动⼦的结合，调控基因的表达。

转录因⼦从功能上可分为通⽤转录因⼦(general transcription factors)与特异转录因⼦(specific transcription factors)。

通⽤转录因⼦与结合RNA聚合酶的核⼼启动⼦(promoter)位点结合，⽽特异转录因⼦与特异基因的各种调控位点结合，促进或阻遏这些基因的转录，⽬前已发现转录因⼦之间常常具有协同作⽤的能⼒。

具有完整的启动⼦的⼤部分DNA都可以起始基础⽔平的转录，这种基础⽔平的调控，导致转录⽔平的上升(受激活因⼦作⽤)或下降（受抑制因⼦的作⽤）。

⼀般情况下，真核⽣物的基因转录还需要其他蛋⽩因⼦的参与，以帮助通⽤转录因⼦和RNA聚合酶在染⾊质上组装。

基因组学研究中的数据分析方法

基因组学研究中的数据分析方法基因组学是生物学的一个分支，它研究的是基因、DNA、RNA、其他基因产物以及它们在细胞、组织和个体中的功能、调节和相互作用。

随着高通量测序技术和其他高通量技术的发展，这个领域的实验数据量不断增加，需要更加复杂和高效的数据分析方法。

本文将介绍一些基因组学研究中常用的数据分析方法。

1. 基因表达分析基因表达分析是研究基因表达变化的一种方法。

在这个方法中，通过对不同组织或同一组织在不同条件下的RNA测序数据进行比较，可以寻找到不同基因的表达水平的差异。

最常用的方法是DESeq2和edgeR。

这些方法使用模型来估算基因表达量，并进行归一化、过滤和差异表达分析。

此外，基于基因表达数据可以进行聚类分析和差异表达基因富集分析。

这个方法对于生物医学研究中疾病发生机制和药物作用机理的解析非常重要。

2. 基因组突变分析基因组突变分析是研究基因组中突变的一种方法。

其中最常用的是比对测序数据到参考基因组，识别单核苷酸变异（SNVs）和插入/缺失（INDELs）的变异。

这些方法最早由GATK中的UnifiedGenotyper和HaplotypeCaller开发而来，后来还出现了一些更加高效的方法，如FreeBayes和Mutect2。

除了识别常见的突变类型，突变频率和靶向基因的相关性分析也是非常重要的。

3. ChIP-seq分析ChIP-seq是研究DNA结合蛋白和DNA相互作用的一种方法。

通过对特定蛋白在非常具体的实验条件下对基因组的绑定进行测序，可以找到与该蛋白在基因调控中相关的基因/区域。

这个方法已被广泛应用于人类和其他生物的研究中。

ChIP-seq数据分析包括与参考基因组的比对，peak calling、enrichment analysis, motif discovery等等。

Peak calling可以确定与特定蛋白结合的区域，而enrichment analysis可以确定与其他基因表达分析或基因组突变分析中的结果相关的基因或通路。

常用的生物信息学软件的介绍和文献依据

适用于Ruby编程语言的生物信息学软件
BioWarehouse
一个生物信息学数据仓库整合工具包
birgHPC
为生物信息学和分子动力学创建即时计算集群，自启动linux发行版
Biskit
python编写的一个结构生物信息学软件平台（库）
BisoGenet
一个新的基因网络构建、可视化和分析工具，cytoscape插件
一个促进高通量测序分析的基于云计算的框架
ESBTL
用于生物大分子结构和几何分析的高效PDB剖析器和数据结构
Expander
一个整合的基因表达数据分析软件平台，支持微阵列数据
分析的所有阶段
ExpressionPlot
一个分析RNA-Seq和微阵列基因表达数据的基于网络的框架
EZ-Viz
用标签和按钮简化PyMOL中分子查看
ChIPpeakAnno
一个注释ChIP-seq和ChIP-chip数据（峰）的Bioconductor包
ChIPseqR
核小体定位和组蛋白修饰ChIP-seq实验分析
Chipster
用于微阵列和其他高通量数据的用户友好的分析软件
CisGenome
一个分析ChIP-chip和ChIP-Seq的整合软件系统
病毒的传播和重组事件
J-Express
使用Java来探索基因表达数据
Jalview
Java多重序列比对编辑器
Java Treeview
微阵列数据可视化，树状图查看
JBrowse
下一代基因组浏览器，通过平滑地动态移动，缩放，导航基因组注释
jClust
一个聚类和可视化工具箱
JColorGrid
生物学测量值可视化，绘制热图，颜色网格等

ATAC-seq或者ChIP-seq等表观测序数据处理服务

ATAC-seq或者ChIP-seq等表观测序数据处理服务网罗了一大波生物信息学数据分析方面的工程师，是时候官宣咱们的ngs数据处理业务列表：现在介绍需要800到1600元的ATAC-seq或者ChIP-seq等表观测序数据分析流程我们的ngs组学的产品线还是蛮丰富的：明码标价之ATAC-seq明码标价之免疫组库明码标价之甲基化差异分析明码标价之WES等DNA测序数据找变异扫描下面二维码即可添加微信咨询！（添加好友务必备注高校或者工作单位+姓名，方便后续认识）ATAC-seq或者ChIP-seq等表观测序数据，需要比对到参考基因组并且找其峰值（peaks）并且进行基因功能元件注释或者motif注释，我们仅仅是收取一个计算机资源的费用，800-1600元人民币（根据样品数量不同收费不一样）即可，并且提供全套代码。

不管是公共数据集还是你自己的实验测序数据，一样的费用！我们会代替你跑如下所示的流程：环境搭建如果是全新服务器或者全新用户，首先需要安装conda（最适合初学者的软件管理解决方案）：#一路yes下去wget https:///miniconda/Miniconda3-latest-Linux-x86_64.shbash Miniconda3-4.6.14-Linux-x86_64.shsource ~/.bashrc然后使用conda安装一些软件或者软件环境，比如下载测序数据文件的aspera软件环境：conda create -n download -y conda activate download conda install -y -c hcc aspera-cli which ascp ## 一定要搞清楚你的软件被conda安装在哪ls -lh ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh还有ATAC-SEQ数据分析流程的相关软件：## 安装好conda后需要设置镜像。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

论文写作课期末作业综述题目：ChIP-chip与ChIP-seq数据处理方法与分析平台姓名：孙翰菲学号：1132995第一章生物学背景知识1.1基因表达的调控从DNA到蛋白质，需要经过若干步骤。

对于真核生物来说，基因表达的调控是多级的，主要发生在4个彼此相互独立的水平上：转录水平的调控，加工水平的调控,翻译水平的调控，翻译后水平的调控。

而转录水平的基因表达调控，是其中最重要的调控机制。

1.2转录因子与组蛋白修饰转录因子(transcription factor)是一种特异识别某些DNA序列与之结合的蛋白质。

调控DNA通过生成转录因子来对靶DNA序列（目标DNA）进行转录水平的调控，促进或者抑制这些基因的转录。

这个机制是非常复杂的，这是由于真核生活的转录因子种类繁多，加上转录因子之间的相互作用造成的。

真核生物转录因子调节基因转录的一种重要机制，就是调节染色质的结构，以影响转录因子对启动子(promoter)的结合能力。

转录因子能调节组蛋白──染色质的一种成分──核心的结构，或称使组蛋白修饰发生改变，从而改变核小体和染色质的紧密程度，影响转录因子和RNA聚合酶(P ol II)对启动子的结合，调控基因的表达。

转录因子从功能上可分为通用转录因子(general transcription factors)与特异转录因子(specific transcription factors)。

通用转录因子与结合RNA聚合酶的核心启动子(promoter)位点结合，而特异转录因子与特异基因的各种调控位点结合，促进或阻遏这些基因的转录，目前已发现转录因子之间常常具有协同作用的能力。

具有完整的启动子的大部分DNA都可以起始基础水平的转录，这种基础水平的调控，导致转录水平的上升(受激活因子作用)或下降（受抑制因子的作用）。

一般情况下，真核生物的基因转录还需要其他蛋白因子的参与，以帮助通用转录因子和RNA聚合酶在染色质上组装。

这些辅助转录因子在DNA上的正调控元件，称为增强子(enhancer)，因为它们的存在能够明显加强目的基因的转录，增强子似乎没有方向性，无论在在启动子上游还是下游，都不影响其增强基因转录的功能。

另外还有一种负调控元件，称作沉默子(silencer)，与增强子作用相反。

真核生物的转录因子调节基因转录的一种重要机制，就是调整染色质的结构，以影响通用转录因子对启动子的结合能力。

真核生物的遗传物质是以染色质而不是裸露DNA的形式存在与细胞核中。

而染色体的基本结构单位是核小体,由组蛋白核心(组蛋白八聚体)和包裹在其上长约147bp的DNA 构成。

如果基因的启动子位于核小体中，组蛋白核心会阻碍通用转录因子在启动子上的组装以及Pol II与启动子的结合，使得基因转录难以进行。

组成核小体的组蛋白的核心部分状态大致是均一的, 游离在外的N-端则可以受到各种各样的修饰, 包括组蛋白末端的乙酰化, 甲基化[1], 磷酸化, 泛素化，ADP核糖基化等等，这些修饰的意义是改变染色质的结构，直接影响转录活性，或者使核小体表面发生改变，使其他转录因子易于和染色质相互接触，间接影响转录活性。

组蛋白修饰与转录因子关系密切:不仅组蛋白修饰能影响本区域对其他转录因子的易结合性，转录因子的结合也能引起组蛋白修饰的变化。

由于染色质结构紧密的地方，通用转录因子与Pol II难以结合启动子区域，从而导致此处的基因的转录活性降低;所以那些具有激活作用的转录因子，通常会有利于导致染色质或组蛋白结构松散的蛋白质发挥作用，如组蛋白乙酰化酶。

而起抑制作用的转录因子，则通常会加强那些促进染色质结构紧密的蛋白质的作用，如组蛋白去乙酰化酶。

1.3 顺式作用元件与反式作用因子顺式作用元件(cis-acting element),或称顺式元件子，是存在于基因旁侧序列中能影响基因表达的序列。

顺式作用元件包括启动子、增强子、沉默子等，它们的作用是参与基因表达的调控。

顺式作用元件本身不编码蛋白质,其作用是提供一个结合位点，反式作用因子通过结合在该位点上来改变结合处的特性，进而调控受此顺式作用元件影响的基因。

调控方式包括对基因转录可变剪切的调控、转录起始位点的调控以及转录效率的调控。

反式作用因子(trans-acting factor)则是指通过直接结合或间接作用于DNA、RNA等核酸分子，对基因表达发挥不同调节作用(激活或抑制)的各类蛋白质,其本身对基因表达没有调控作用，只是阻断来自上、下游的调控效应。

反式作用因子主要指能结合在基因序列上的特异性蛋白质──转录因子，然而随着表观遗传学的发展，研究发现除了蛋白，某些DNA,RNA片断也具有类似的调控功能，因此现在把它们算作反式作用因子[2]。

如图1-1所示，为转录因子调控基因通路的两种方式：直接调控(图1-1 a)与间接调控（图1-1 b）。

直接调控就是作为反式作用因子的转录因子（蓝色球形）结合在基因的顺式作用元件区域（如启动子区域），调控该基因的表达，进而影响该基因生成的蛋白质X的量。

而在间接调控中，影响蛋白质X的生成量的转录因子不结合在生成蛋白质X的基因附近，而是结合在远离该区域的生成蛋白质Y的顺式作用元件区域，而蛋白质Y又是一种能直接调控蛋白质X生成量的转录因子，通过这种方式，该转录因子间接地调控了蛋白质X的生成量。

图1-1 转录因子的两种调控模式（图片来源：Nature Reviews）1.4基因芯片技术与测序技术20 世纪90年代建立起来的DNA芯片技术和最近发展起来的第二代DNA 测序技术是高通量研究基因的结构和功能的两种比较重要的技术, 推动了功能基因组和系统生物学研究的发展.DNA芯片技术(DNA chip)是应用面积为2.0cm2或更小的晶片，在上面高密度的排列着许多寡核苷酸，待测的DNA中加入荧光标记物，点到芯片表面，发出荧光信号的位置表明寡核苷酸与待测DNA发生杂交。

荧光信号的位置与强弱经过转换，变为数据，用于进一步的分析[3]。

相比较于DNA芯片技术，测序技术可以发现更多未知的信息，但是成本更高。

高通量测序技术(High throughput sequencing)，又称下一代测序技术，是对传统测序的一项重大改进，在一次实验中，可以读取1G到14G的碱基数，其中蕴藏着丰富的信息[4]。

图1-2 Illumina测序仪数据量的增加（图片来源：Illumina网站）随着数据量的大幅增长，如何处理这些海量数据就成了摆在研究者面前的挑战，而生物信息学和统计学是在处理DNA芯片与测序技术产生的海量数据中必不可少的工具[4]。

1.5 ChIP、ChIP-chip与ChIP-seq技术ChIP(Chromatin immunoprecipitation, 染色质免疫共沉淀)一种用主要于检测蛋白质(包括转录因子，组蛋白)与DNA结合位置的技术。

基本原理是在活细胞状态下通过处理，将蛋白质与DNA 交联在一起，形成复合体,然后通过超声波将其随机切断为0.2-1.0 kb 的染色质小片段,继而通过特异的抗体免疫沉淀此复合体,将DNA 片断的纯化与检测,从而获得受该蛋白质与DNA 相互作用的信息。

它能真实、完整地反映结合在DNA 序列上的调控蛋白,是目前确定与特定蛋白结合的基因组区域或确定与特定基因组区域结合的蛋白质的一种很好的方法[5]。

过去ChIP实验的结果主要采用对PCR(聚合酶链式反应)扩增产物进行电泳分析的方法，这种方法只能观测特定的几个目标基因。

而ChIP-chip和ChIP-seq技术的出现则使得在全基因组上观测蛋白质与DNA结合成为可能。

ChIP与DNA 芯片(chip)相结合,称作ChIP-chip（工作原理见图1-3）。

同样，ChIP 与高通量测序的整合，则被称作ChIP-seq(工作流程见图1-4)。

这两项技术可在全基因组内确定特定蛋白质的DNA 结合位点,从面为全基因组范围内研究目的蛋白的调控作用(顺式调控组)提供有效的方法[6][7]。

图1-3 ChIP-chip实验原理图（图片来源：Nature Reviews）相对于成本较低的ChIP-chip而言,ChIP-seq有如下优势；第一，ChIP-Seq能实现真正的全基因组分析。

而目前的芯片上固定的探针只能代表全基因组部分序列,所获得的杂交信息具有偏向性;第二，对于结合位点分析,ChIP-Seq通过寻找“峰”，结合分辨率可精确到10-30 bp,而芯片上探针由于长度所限,无法精确定位,即使目前最高水平的商业芯片的分辨率也无法比肩ChIP-Seq;第三，是所需样本数量。

ChIP-chip 需要多达4-5 µ g 的起始样本,在杂交之前需要进行LM-PCR,但可能导致背景增高,竞争性扩增等导致假阳性。

而ChIP-Seq仅需要纳克级起始材料,如SOLiD起始材料可低至20ng。

ChIP-seq数据由于测序工艺的缺陷，会有高GC含量区域读段数比实际值偏高的问题。

但是近两年来，随着测序成本的降低以及研究者对数据质量要求的提高，ChIP-seq数据有明显的增长趋势。

综上所述，虽然ChIP-chip实验成本低廉，而且也已经得到较广泛的应用，但是出于数据质量的考虑以及目前ChIP-seq有逐步取代ChIP-chip技术的趋势，本文分析流程中以讨论分析使用Chip-seq技术产生的数据为主。

图1-4 ChIP-seq技术工作流程图1.6本综述的目的和意义ChIP-chip 和ChIP-seq实验技术广泛应用于研究组蛋白修饰、特定转录因子在基因组范围内的顺式调控作用。

在全基因组范围内,弄清蛋白质与DNA的相互作用，进而研究其如何调控基因表达,对于我们探讨各种生物过程和疾病状态是非常重要的。

而将大量的蛋白-DNA相互作用信息进行整合,则是建立整个细胞内的基因表达调控网络,以及进一步阐明信号通路与生物分子功能的基础之上。

在基因组层次上如何分析、整合及阐释高通量数据已成为表观遗传组学中顺式作用元件研究的瓶颈。

本论文的目的在于构建顺式作用元件的综合分析系统，建立ChIP-seq数据质量控制的标准化流程，开发并维护一些对于不同顺式作用元件进行分析的生物信息学工具，以用于研究转录因子与组蛋白修饰之间的相互作用及其在基因转录调控网络中的协同功能。

第二章 ChIP-chip与ChIP-seq数据分析面临的挑战2.1实验数据分析的软件层面上的挑战在过去的数十年里，技术的提升使得研究者得以将过去只能在几个特定基因上完成的实验扩展到全基因组的规模上，这同时也带来了一些挑战。

随着生物芯片技术,测序技术工艺的提高与成本的降低,自2000 年来,癌症相关的ChIP-chip 和ChIP-seq数据越来越多。

同时,公有领域上的(Public Domain)各生物学数据库在不断完善，新的处理ChIP-seq数据的算法和分析ChIP-seq数据的方法论也在不断涌现[8]。