外显子捕获结题报告

外显子捕获结题报告2010-11-22

内容

1 项目信息 (1)

2 工作流程介绍 (2)

2.1 Agilent液相捕获平台 (2)

2.2 NimbleGen 液相捕获平台 (3)

2.3 生物信息分析流程 (4)

3 分析报告 (5)

结果 (5)

3.1 标准生物信息分析 (5)

3.1.1 数据产出统计 (5)

3.1.2 目标区域单碱基深度分布图 (6)

3.1.3外显子捕获测序的均一性 (7)

3.1.4一致序列组装和SNP检测 (7)

3.1.5 SNP注释 (8)

3.1.6插入/缺失(indels)检测 (9)

3.1.7插入/缺失(indels)注释 (9)

3.2个性化分析 (9)

3.2.1氨基酸替换预测 (9)

3.2.2群体SNP检测和等位基因频率估计 (12)

3.2.3孟德尔遗传病分析 (13)

3.2.4 NGS-GW AS 分析 (14)

3.2.5正向选择信号的检测 (14)

4 数据分析方法说明 (15)

4.1信息分析软件及常用参数介绍 (15)

4.2参考数据库 (16)

4.3数据文件格式 (17)

1 项目信息

PROJECT NAME

CONTRACT NUMBER

SAMPLE INFORMATION Species Information

Genome Information

Additional Information

CUSTOMER INFORMATION PI

Contact Person

Company Name

Contact Methods

Name Tel

E-mail

Name Tel

E-mail

CONTACT INFORMATION (BGI)

Sales Information

Name Tel

E-mail

Name Tel

E-mail

Customer Service

Name Tel

E-mail

Name Tel

E-mail

PROJECT DIRECTOR APPROVAL

THE RESULTS HAVE BEEN APPROVED AND CAN BE SUBMITTED

Signature:

Date:

2 工作流程介绍

采用AglientSureSelect外显子靶向序列富集系统和NimbleGenSeqCap EZ人全外显子捕获系统。这两个系统都采用液相系统进行高特异性和高覆盖率的外显子区域捕获。

2.1 Agilent液相捕获平台

图2.1Aglient外显子捕获和测序流程

基本流程：首先将基因组DNA随机打断成150-200bp左右的片段，随后在片段两端分别连接上接头制备杂交文库。文库经纯化后经过LM-PCR的线性扩增与SureSelect Biotinylated RNA Library (BAITS)进行杂交富集，再经过LM-PCR 的线性扩增，文库检测合格后即可上机测序（Hiseq2000测序仪）。对每个捕获文库进行高通量测序并保证测序深度达到要求，原始图像文件经过Illumina

basecalling Software 1.7进行碱基读取，获得读长为90bp双末端序列（reads）。

2.2 NimbleGen液相捕获平台

图2.2NimbleGen外显子捕获和测序流程

基本流程：首先将基因组DNA随机打断成200-300bp左右的片段，随后在片段两端分别连接上接头制备杂交文库。文库经纯化后经过LM-PCR的线性扩增与Biotinylated DNA Library进行杂交富集，再经过LM-PCR的线性扩增，文库检测合格后即可上机测序（Hiseq2000测序仪）。对每个捕获文库进行高通量测序并保证测序深度达到要求，原始图像文件经过Illumina basecalling Software 1.7进行碱基读取，获得读长为90bp双末端序列（reads）。

2.3 生物信息分析流程

测序完成之后，下机数据为fastq文件格式，随后对数据进行信息分析，分析流程如下：

Reference genome Reads passing quality filter

Mapping

with SOAP2

Alignment

Exome region Flanking region

Personalized

bioinformatics analysis

Analysis

Summary of effective data SNPs/InDels detection & annotation

图2.3 外显子测序信息分析流程

（1）SOAPaligner是华大自主研发的比对软件，用于将高质量的原始reads比对到参考基因组上，详细说明见信息分析软件及参数介绍部分，或者登录网站https://www.360docs.net/doc/752176624.html,/，仅比对到参考基因组的reads用于后续分析。（2）计算得到的Coverage和Depth是指目标区域的覆盖度和测序深度，计算时所用的数据是所有比对到参考基因组的reads。

3 分析报告

结果

3.1 标准生物信息分析

3.1.1 数据产出统计

基本数据分析统计结果主要包括：测定的序列（reads）长度、reads数量、数据产量、reads序列与参考基因组序列比对结果、目标外显子区域测序深度及覆盖度分析、目标外显子区域SNP检测及注释等。具体统计结果参照表3.1。

表3.1统计量详细说明

统计量定义及计算方法Target region (bp) 设计探针覆盖的区域，作为目标区域，用于捕获外显子Raw reads 测序得到的原始reads个数Raw data yield (Mb) 原始reads产量，即所有碱基个数(以Mb为单位) Reads mapped to genome 比对到参考基因组上的reads个数Reads mapped to target region 比对到目标区域上的reads个数Data mapped to target region (Mb) 比对到目标区域上的碱基个数(以Mb为单位) Mean depth of target region 目标区域的平均深度Coverage of target region (%) 目标区域的覆盖度Average read length (bp) 平均read长度Rate of nucleotide mismatch (%) 碱基错配率Fraction of target covered >= 4x 目标区域深度>= 4x的碱基覆盖度Fraction of target covered >=10x 目标区域深度>= 10x的碱基覆盖度

Capture specificity (%) 唯一比对到参考基因组的reads中，唯一比对到目标区域的reads

所占的比例

Reads mapped to flanking region 比对到侧翼区(每段目标区域两侧扩展200bp)的reads数Mean depth of flanking region 侧翼区域的平均深度Coverage of flanking region 侧翼区域的覆盖度Fraction of flanking region covered >= 4x 侧翼区域深度>= 4x的碱基覆盖度Fraction of flanking region covered >= 10x 侧翼区域深度>= 10x的碱基覆盖度Fraction of unique mapped bases on or

near target 唯一比对到目标区域和侧翼区域的碱基比例

Duplication rate reads重复率Mean depth of chrX X染色体的平均深度Mean depth of chrY Y染色体的平均深度Sample gender 样本性别Gender test result 性别测试结果3.1.2 目标区域单碱基深度分布图

图3.1目标区域的单碱基深度分布图

横坐标代表测序深度，纵坐标代表目标区域上对应深度的碱基数占总碱基数的百分比。目标区域的单碱基分布近似服从泊松分布。

3.1.3外显子捕获测序的均一性

图3.2目标区域的累积深度分布图

横坐标代表累积测序深度，纵坐标代表目标区域上大于或等于对应累积深度的碱基数占总碱基数的百分比。

根据表中基本数据的统计量及单碱基深度分布图和累积深度分布图，除了可以得到通过外显子捕获的样本基本信息外，还可以判断捕获的数据是否符合要求，即进行质控。

3.1.4一致序列组装和SNP检测

对于soap比对之后的结果，我们采用SOAPsnp软件进行一致序列组装，得到每个位点的基因型，进而进行SNP检测。

生成文件如下：

CNS文件(*.cns)：包含位点的基因型等详细信息。

SNP文件(*.snp、*.snp.filter)：其中*.snp包含*.cns中所有的可能SNP位点，即基因型与参考序列基因型不一致的位点；*.snp.filter包含最终的SNP集合，即对*.snp中所有SNP位点按一定标准（如质量值、深度等）进行过滤后所得到的高置信度的SNP结果。

3.1.5 SNP注释

对最终检测出的SNP结果，即*.snp.filter中所有SNP进行注释分类，每个SNP 的详细信息见gff文件，gff文件的详细说明见数据文件格式说明部分。

对SNP的统计信息见表3.2。

表 3.2 SNP统计

Categories SampleID

Number of genomic positions for calling SNPs(1)87,444,832 Number of high-confidence genotypes (2)63,608,643 Number of high-confidence genotypes in target regions 33,006,340 Number of known dbSNP sites in target region 192,415

Coverage of known dbSNP sites (3)

178963 (93.01%)

Number of detected SNPs on target

Number of detected SNPs near target

Total number of SNPs 45,671 Synonymous-coding 8,036 Missense 6,817 Nonsense 51 Readthrough 9 Splice site (4)347 Intron 27,151

5' UTRs(5)1,381

3' UTRs 1,548 Intergenic 331 注：

(1)Number of genomic positions for calling SNPs：指*.cns文件中的所有位点，即包括捕获的

目标区域和前后200bp的侧翼区域。

(2)Number of high-confidence genotypes：*.cns文件中质量值不低于20的碱基数

(3)Number of high-confidence genotypes in target regions：*.cns文件中，目标区域内质量值

不低于20的碱基数

(4)Number of known dbSNP sites in target region：目标区域内所有在dbSNP数据库中已知

SNP位点数。

(5)Coverage of known dbSNP sites：在目标区域内，我们所定义的高可信度的位点(即*.cns

文件中碱基质量值不低于20的位点)所覆盖到的已知SNP位点数（dbSNP）的比例。

(6)Total number of SNPs：最终得到的高可信度(采用一定的过滤标准过滤之后的结果)的SNP

位点数。

(7)Splice site：外显子与内含子交界处4bp的内含子SNP位点？

(8)5' UTRs：指初始密码子上游200bp；3' UTRs则指终止密码子下游200bp；

3.1.6插入/缺失(indels)检测

通过对获得的测序reads重新组装，可发现外显子区的插入与缺失(InDels)。重新组装是运用SOAPdenovo (Li et al. Genome Res, 2010)软件，随后，通过LASTZ 软件将组装的一致性序列比对到参考基因组上。将比对结果输入到axtBest (Schwartz et al. Genome Res, 2003)，以将orthologous比对与paralogous比对分离。最后，检测到比对的断裂点（breakpoints），以及进行后续的Indels的注释。

3.1.7插入/缺失(indels)注释

对检测出的indels结果进行统计，举例统计信息见下表：

表 3.3 InDels统计

SampleID SH002 SH003 SH005 SH029 SH048 SH050 Total number of InDels 640 466 436 629 579 635

Ins-coding (1)82 57 55 62 70 74

Del-coding (2)79 55 56 78 74 73

5' UTRs 13 12 4 10 10 13

3' UTRs 23 20 17 22 16 17 Intergenic 593 311 341 533 563 513

Total insertion 345 240 220 347 299 331

Total deletion 295 226 216 282 280 304 Heterozygous InDels 442 254 226 440 383 447 Homozygous InDels 198 212 210 189 196 188

(1)指编码区的插入（insertion）

(2)指编码区的缺失（deletion）

3.2个性化分析

3.2.1氨基酸替换预测

在遗传学中，遗传变异对表型的影响具有很重要的意义。引起蛋白序列中单氨基酸替换的遗传变异类型为非同义的SNP(non-synonymous single nucleotide polymorphism, nsSNP)。非同义的SNP很可能影响蛋白质的功能，从而影响表型。

我们可采用SIFT (Sorting Intolerant From Tolerant)软件和PolyPhen(Polymorphism Phenotyping)软件进行预测，预测单氨基酸替换对蛋白质

功能的影响。

SIFT简介

SIFT(S orting I ntolerant F rom T oleran)是一个用于预测氨基酸替换对蛋白质功能影响的软件，它可以判断出这个氨基酸置换在蛋白质功能上是无害的（functionally neutral）的还是有害的（deleterious），研究者可以由这个结果推断是否要对这种替换做进一步的研究。详细信息见https://www.360docs.net/doc/752176624.html,/。SIFT预测结果举例如下：

表 3.4 SIFT预测结果举例

Coordinates Codons Substitution SNP Type Prediction Score[1]Median

Info[2]

Gene

Name

10,17125881,1, C/G AGG-AGc R1260S Nonsynonymous

DAMAGING

*Warning! Low

confidence.

0 3.38 CUBN

10,22062710,1,

C/T

ACC-AtC T835I Nonsynonymous TOLERATED 0.06 3.4 MLLT10 11,116138821,

1,G/A

CGT-tGT R232C Nonsynonymous DAMAGING 0.02 3.05 BUD13 1,111830738,1,

G/A

ACC-ACt T147T Synonymous N/A N/A N/A ADORA3 15,29004656,1,

C/T

CCG-CtG P736L Nonsynonymous DAMAGING 0.01 3.05 MTMR15 19,12624007,1,

G/A

CCG-CtG P669L Nonsynonymous TOLERATED 0.75 3.02 MAN2B1 19,15137764,1,

C/T

CGG-CaG R1834Q Nonsynonymous TOLERATED 1 3.03 NOTCH3 2,10103771,1,

G/A

CGG-CaG R29Q Nonsynonymous DAMAGING 0.03 3.03 KLF11 2,31426431,1,

C/T

GCA-aCA A932T Nonsynonymous DAMAGING 0 3.05 XDH 3,128822344,1,

G/A

ATG-A Ta M793I Nonsynonymous TOLERATED 0.13 3.05 MCM2 4,69830873,1,

T/A

AGA-AGt R428S Nonsynonymous DAMAGING 0.01 2.95 UGT2A3 9,138364025,1,

G/A

GTG-aTG V459M Nonsynonymous TOLERATED 0.15 3.36 GPSM1 X,48432692,1,

C/T

CCT-tCT P460S Nonsynonymous TOLERATED 0.24 4.32 WAS 7,102503456,1,

G/T

- NA NA Not scored NA NA 注：

[1]Coordinates：突变发生的染色体编号及坐标位置

[2]Codons：密码子的变化情况

[3]Substitution：氨基酸的替换信息

[4]SNP Type：SNP的类型

[5]Prediction：预测结果(damaging/tolerated)

[6]Score：SIFT对于一个氨基酸置换的预测结果被计算为一个标准化的分值，变化范围从0

到1，当这个值大于0.05的时候表示这个突变是可以容忍的，即对蛋白质功能没有影响或影响很小；小于等于0.05的时候则说明这个突变是有害的，即对蛋白质功能有较大影响。

[7]Median Info：中值信息。用来衡量用于比对的蛋白质序列的多样性情况，变化范围从0

到4.32，理论上应该在2.75到3.5之间。如果这个值大于3.25，系统将会发出警告信息，因为这说明本次预测分析是基于一系列紧密联系的蛋白质序列的，结果可信度可能不高。

[8]Gene Name：发生替换所在的基因名称

PolyPhen简介

PolyPhen(Polymorphism Phenotyping)也是一种预测氨基酸置换对蛋白质结构和功能影响的工具。详细信息见https://www.360docs.net/doc/752176624.html,/pph/ PolyPhen预测结果主要包括三部分，Query、Prediction、Details。Query部分包含查询信息，与输入文件类似。Prediction部分显示了预测的结果。Details 部分显示了PolyPhen预测的详细信息，包括所有的数据信息。我们着重关注的为预测结果，如“This variant is predicted to be probably damaging”。详细说明见：https://www.360docs.net/doc/752176624.html,/pph/pph_help_text.html#OutputQueryAccession 举例如下：

表 3.5 PolyPhen预测结果举例

Query

Acc number Position AA1AA2Description

21040341 176 C Y .1|hemochromatosis protein isoform 3 precursor, hereditary

haemochromatosis protein[Homo sapiens] Prediction

This variant is predicted to be probably damaging

Prediction Available data Prediction basis Substitution effect Prediction data(1) Probably damaging FT alignment alignment N/A PSIC score

difference:2.943 Details

PSIC PROFILE SCORES FOR TWO AMINO ACID VARIANTS

Score1(2)Score2(3)|Score1-Score2| Observations(4)Diagnostics(5)Multiple alignment

around substitution

position

+2.415 -0.528 2.943 9 precomputed Secquences: Flanks: MAPPING OF THE SUBSTITUTION SITE TO KNOWN PROTEIN 3D STRUCTURES

Database Initial number of structures Number of structure

PQS 709 0

3.2.2群体SNP检测和等位基因频率估计

在群体分析中，不同于单个样本的分析研究，它不考虑单个个体基因型的可信度，而是在群体的层面上得到位点的基因型信息，通常可以有较低的测序深度。群体分析时，对于每一个位点，通过贝叶斯算法估计每个可能基因型的概率、为SNP的概率以及群体等位基因频率。由于较大的数据量，这样与单个样本的SNP 检测相比能够更有力地检测变异信息，其结果更具有说服力，并且能发现很多低频罕见变异。这种方法成功应用于50个藏族人(Yi et al. Science, 2010)和200个丹麦人(Li et al. Nature Genetics, 2010)的外显子分析。

分析结果举例如下：

图3.3群体外显子分析的可变位点频谱（SFS）

图3.3为群体分析中，外显子区域的可变等位基因的频谱。横坐标表示可变

等位基因频率0~1，纵坐标表示对应频率的SNP数目，图中红色表示新的SNP

数目，蓝色表示数据库(dbSNP v129)中已知的SNP数目，由图可以看出，在低频范围内，可以找出更多的新的SNP，这些低频SNP很可能与罕见疾病变异密切相关。

3.2.3孟德尔遗传病分析

孟德尔遗传病通常指单基因遗传病，简称单基因病（monogenic disease/single gene disorder），是指单一基因突变引起的疾病，符合孟德尔遗传方式，所以也称为孟德尔式遗传病。对变异结果进行注释后，我们致力于寻找候选基因，从而进一步确定致病基因。

筛选候选基因的方法如下：首先，将每个病例中已知的SNPs进行过滤，采用的筛选数据库主要包括dbSNP129、千人基因组数据库、hapmap外显子数据库，以及正常样本的数据。其次，假定候选变异都是非同义突变或者在剪接位点，因此我们可以去除其它不改变蛋白产物的变异。最后，我们得到在所有或大部分病例中存在的变异。这样就大大减少了候选变异的数量，缩小了寻找范围。

改为：

筛选候选基因的方法如下：首先，过滤每个病例中已知的SNPs，筛选用到的数据库包括dbSNP129，千人基因组数据库，Hapmap外显子数据库以及正常对照的SNP数据。其次，假定疾病是由非同义突变或者剪接位点突变导致，则去除其它不改变蛋白产物的变异。最后，我们筛选出在所有或大部分病例中存在的变异，以减少候选变异的数量，从而缩小寻找范围。

举例如下：

表 3.6 不同范畴内的SNPs统计

Filter Sample

Sample

(A+B)

Sample

(A+B+C)

Sample

(A+B+C+D)

2 affected (Whole/

Locus)

(Whole/

Locus)

(Whole/

Locus)

(Whole/

Locus)

(Whole/

Locus)

(Whole/

Locus)

(Whole/Locus) (Whole/Locus)

NS/SS/Indel 5796/

5649/

5780/

5842/

3964/

3099/26 2443/20

3736-3964/26

-30

Notin dbSNP

129

869/6 734/9 931/8 891/8 288/3 134/3 68/2 207-288/3-5

Not in dbSNP

129, nor in

eight HapMap

exomes

616/6 520/6 674/7 661/7 155/3 43/3 15/2 87-155/3-4

Not in dbSNP

129,eightHapM

ap exomes, nor

in dbSNP1000

genomes

309/4 262/3 341/6 384/5 75/1 1-May 1-Jan 48-101/1

Predicted to be

damaging

211/1 203/1 214/1 212/1 48/1 3/1 1/1 36-52/1 注：Whole/Locus：Whole表示整个外显子区域，Locus表示特定的区域；NS/SS/Indel：表示非同义突变位点、剪接位点以及Indel的个数总和；2 affected：表示在两两不同组合病人中所检测到的相应信息的数量范围。

3.2.4 NGS-GWAS 分析

基于芯片的GWAS分析不能检测出稀有突变（即次等位基因频率MAF小于0.05的突变），外显子测序技术能够获得MAF≥0.02的等位基因频谱(200 Danish exome, Li et al. Nature Genetics,2010)，这些有助于我们进行基于新一代测序技术的GWAS分析。

3.2.5正向选择信号的检测

通常更多的研究指向正向选择的基因，我们可通过大量的数据集对每一个基因进行检测，看其固定替换的比例是否显著偏移全基因组范围的期望，通常采用HKA test (Hudson-Kreitman-Aguadé)检验方法进行检验。最近一项研究表明这种检验方法在检测正向选择上具有很大的效力(Zhai et al. MolBiolEvol, 2009)。

采用之前的研究结果进行举例说明，显示结果如下：

表3.7 HKA检验

Gene Symbol Description F P F/P Score KIR3DP1 killer-cell Ig-like receptor 82 10 8.20 >7 LILRA1 leukocyte immunoglobulin-like receptor, 60 7 8.57 7

TPTE transmembrane phosphatase with tensin

homology 86 16 5.38 7

KIR2DL1 killer cell immunoglobulin-like receptor, two 40 3 13.33 6.05 VPS13D vacuolar protein sorting 13D isoform 1 39 4 9.75 5.19

FLG filaggrin 99 28 3.54 5.03 CES2 carboxylesterase 2 isoform 1 22 0 ∞ 4.95 TPRX1 tetra-peptide repeat homeobox 22 0 ∞ 4.95 HMCN1 hemicentin 1 62 15 4.13 4.12 TRPM2 transient receptor potential cation channel, 32 4 8.00 3.92 KIR2DL3 killer cell immunoglobulin-like receptor, two 34 5 6.80 3.76 KIAA1199 KIAA1199 21 1 21.00 3.75 SORBS2 sorbin and SH3 domain containing 2 isoform 2 24 2 12.00 3.62 TTC26 tetratricopeptide repeat domain 26 isoform 1 16 0 ∞ 3.60 SULT1C3 sulfotransferase family, cytosolic, 1C, member 33 5 6.60 3.59 HERC2 hect domain and RLD 2 43 9 4.78 3.50 SGTA small glutamine-rich tetratricopeptide 15 0 ∞ 3.37 DYNC1H1 cytoplasmic dynein 1 heavy chain 1 47 11 4.27 3.37 CBWD2 COBW domain-containing protein 2 19 1 19.00 3.33

CSHL1 chorionic somatomammotropin hormone-like

1 2

2 2 11.00 3.24

注：

P：观察到的多态替换数；F：观察到的固定替换数；F/P：固定替换和多态替换的比值；Score：HKA检验的得分。

4 数据分析方法说明

4.1信息分析软件及常用参数介绍

1.SOAPaligner(soap

2.21)：用于将reads与参考序列进行比对

参数设置如下：-a -b -D -o -u -p -2 -m -x -s 40 -l 35 -v 3

-a 查询文件，包含single-end比对的所有reads文件或者包含pair-end比对的其中一端的所有reads的文件

-b 查询文件，包含pair-end比对的另一端的reads

-D 参考序列索引的前缀[*.index]

-o 比对结果的输出文件

-u 包含没有比对上的reads输出文件

-p 使用的线程数

-2 包含pair-end比对中只有一端比对上的所有reads的文件

-m pair-end比对最小插入片段长度

-x pair-end比对最大插入片段长度

-s 最小的比对长度，我们设置的参数一般为40bp

-l 对于3'端具有较高的错误率而无法比对整个长度的长reads，则先比对5' 端设置的长度序列作为种子序列，默认值为256，表示使用reads的全长。？

-v 一条reads中允许的最大错配数

2.SOAPsnp：主要用于一致序列的组装

参数设置如下： -i -d -o -r 0.0005 -e 0.001 -u -L 150 -T -s -2

-i 将排序后的SOAP比对结果作为输入文件

-d FASTA格式的DNA参考序列

-o 输出文件(CNS文件)

-r 新的纯合SNP的先验概率，默认值为0.0005

-e 新的杂合SNP的先验概率，默认值为0.001

-u 秩和检验，检验可能杂合子的两个等位基因是否具有相同的测序质量

-L 最大read长度

-T 进行一致序列组装的目标区域

-s 已知SNP的信息文件

-2 通过已知的SNP信息对SNP进行修正

关于这两个软件的详细信息，请登录网站https://www.360docs.net/doc/752176624.html,/

4.2参考数据库

1. dbSNP数据库ftp://https://www.360docs.net/doc/752176624.html,/snp/organisms/human_9606

2. Human reference genome(人类参考基因组)：UCSC(NCBI build36.3)

https://www.360docs.net/doc/752176624.html,/goldenPath/hg18/bigZips/

注：我们分析中所用的染色体坐标参照UCSC Santa Cruz hg18, build 36.3

3. Target regions(目标区域)：使用的外显子芯片探针所覆盖到的区域

https://www.360docs.net/doc/752176624.html,/seqcap/

https://https://www.360docs.net/doc/752176624.html,/earray/

https://www.360docs.net/doc/752176624.html,DS数据库

ftp://https://www.360docs.net/doc/752176624.html,/pub/CCDS/current_human/

5.RefSeq gene数据库

6.Ensembl数据库

https://www.360docs.net/doc/752176624.html,/

4.3数据文件格式

1.*.fq[12].gz —fastq文件

@A201GMABXX:5:1:14057:2058#GATCAG/1

GCTATCCAGTGAGTCCTGCAAGACTTCAGGCTCTACTACCTCCAGCAG

Feffffafffecffffffffeffffceefffcddffeecfcadddddd

格式说明：

每一条reads信息由四行组成，第一行以'@'开头，其后接着序列的标志信息；第二行为序列的碱基组成；第三行以'+'开头，其后可接与第一行相同的序列标志信息（可选）；

第四行为第二行序列碱基的对应质量值，为一一对应关系，以ASCII码表示。

2.*.soap.gz—SOAP alignment of HiSeq 2000reads (含有比对上参考序列的所有reads信息)

234

GCTATCCAGTGAGTCCTGCAAGACTTCAGGCTCTACTACCTCCAGCAG

feffffafffecffffffffeffffceefffcddffeecfcadddddd

1 a 48 + chr1 14665369

2 1 T->0G2 90M 0T89

格式说明(共13列）：

1.Read的ID号

2.Read序列的碱基组成。当第7列为- 时（即比对到负链），此序列为原序列的反向

互补序列。

3.Read序列的质量值，和第二列的序列成一一对应关系。

计算方法为：质量值= 相应的ASCII 值- 64 ，质量值范围一般为0~40。

4.best hit数。没有hit的reads被忽略掉。

5.Read来源于哪个文件(a/b)，对于pair-end，包含-a –b 两个参数，即含有两个文件，

对于single-end，此列仅为"a"。

6.Read长度。

7.比对参考序列的正负链。+为正链，-为负链。

8.染色体ID号

9.Read的起始碱基在参考序列上的坐标

10.Read的碱基错配数

11.Read的错配信息

例：T->0G2 T为参考序列上的碱基类型，G为reads上的碱基类型，0为其在reads 上的位置，2为对应质量值。

12.匹配上的碱基数

13.reads的错配情况

例：6T1A64 T和A为错配的碱基，即在参考序列上对应位置是T和A，但测得的reads上（第七和第九个位置）和参考序列不一致。

详细信息请登录：https://www.360docs.net/doc/752176624.html,/

3.*.cns.gz—CNS文件，由SOAPsnp软件生成，包含识别出的外显子区域中一致序列基因

型。

chrY 140161 G G 1 G 0 0 0 T 0 0 0 0 1.00000 255.000 0

格式说明：

1.染色体ID号

2.染色体上的坐标号

3.参考序列上的基因型(hg18, Mar. 2006)

4.样本的一致序列二倍体基因型，.这里的基因型都是与参考序列的正链相关。

5.一致基因型的质量得分

6.最佳碱基，即根据贝叶斯先验概率，样本在此位置最可能的等位基因型。

7.最佳碱基的质量得分

8.唯一匹配上的最佳碱基数

9.所有匹配上的最佳碱基数

10.次佳碱基，即根据贝叶斯先验概率，样本在此位置次可能的等位基因型。

11.次佳碱基的质量得分

12.唯一匹配上的次佳碱基数

13.所有匹配上的次佳碱基数

14.此位点的测序深度

15.秩和检验的P值

16.附近区域的平均拷贝数

17.此位点是否为dbSNP

4.*.snp—SNP文件，包含样本中所有可能的SNP位点，即一致序列基因型与参考序列基

因型不同的位点。

chrY 2782506 A G 1 A 0 0 0 T 0 0 0 0 1.00000 255.000 1

3782506

格式说明：

在CNS文件中增加一列，前17列格式说明与CNS文件相同。第18列指这个SNP位点与其最相邻的SNP位点的距离，即相隔碱基数，

5.*.snp.filter—SNP文件，在*.snp基础上按一定标准过滤之后所得到的最终SNP集合。

格式说明：

与*.snp说明一致。此文件中产生的SNP均为高置信度的SNP。

过滤标准：

1.位点质量值不低于20，即过滤出*.snp文件中第5列的值大于19的所有位点

2.位点的测序总深度不低于4X，对于杂合位点，第一碱基的最佳碱基数和第二碱基

的最佳碱基数分别大于4X*0.5

6.*.snp.filter.gff—gff注释文件，对结果SNPs的详细注释

人全外显子组序列捕获及第二代测序

人全外显子组序列捕获及第二代测序概述外显子组是指全部外显子区域的集合，该区域包含合成蛋白质所需要的重要信息，涵盖了与个体表型相关的大部分功能性变异。外显子组序列捕获及第二代测序是一种新型的基因组分析技术：外显子序列捕获芯片（或溶液）可在同一张芯片上以高特异性和高覆盖率捕获研究者感兴趣的目标外显子区域，后续利用Solexa/SOLiD/Roche 454测序直接解析数据。与全基因组重测序相比，外显子组测序只需针对外显子区域的DNA 即可，覆盖度更深、数据准确性更高，更加简便、经济、高效。可用于寻找复杂疾病（如：癌症、糖尿病、肥胖症等）的致病基因和易感基因等的研究。同时，基于大量的公共数据库提供的外显子数据，我们能够结合现有资源更好地解释我们的研究结果。目前，SBC提供的外显子组序列捕获芯片是NimbleGen Sequence Capture 2.1M Human Exome Array及Agilent SureSelect Target Enrichment System（Human Exome）。技术路线以Nimblegen外显子捕获结合Solexa测序为例加以说明：基因组DNA首先被随机打断成500bp左右的片段，随后在DNA片段两端分别连接上接头。经过PCR库检合格后的DNA 片段与NimbleGen 2.1M Human Exome Array芯片进行杂交。去除未与芯片结合的背景DNA 后，将经过富集的外显子区域的DNA片段洗脱下来。这些DNA片段又随机连接成长DNA片段

后，再次被随机打断并在其两端加上测序接头，经过LM-PCR的线性扩增，在经qPCR质量检测合格后即可上机测序。外显子组测序的实验流程示意图（https://www.360docs.net/doc/752176624.html,）生物信息学分析流程图研究内容 1．外显子组捕获与测序将基因组DNA随机打断成片段，通过与人全外显子捕获芯片杂交富集外显子区域，通过第二代测序技术对捕获的序列进行测序。 2．基本数据分析数据产出统计：对测序结果进行图像识别（Base calling），去除污染及接头序列；统计结果包括：测定的序列（Reads）长度、Reads数量、数据产量。 3. 高级数据分析高级数据分析内容包括：（1）Clean reads序列与参考基因组序列比对；（2）目标外显子区域测序深度分析；（3）目标外显子区域一致序列组装；

外显子捕获结题报告

外显子捕获结题报告2010-11-22

内容 1 项目信息 (1) 2 工作流程介绍 (2) 2.1 Agilent液相捕获平台 (2) 2.2 NimbleGen 液相捕获平台 (3) 2.3 生物信息分析流程 (4) 3 分析报告 (5) 结果 (5) 3.1 标准生物信息分析 (5) 3.1.1 数据产出统计 (5) 3.1.2 目标区域单碱基深度分布图 (6) 3.1.3外显子捕获测序的均一性 (7) 3.1.4一致序列组装和SNP检测 (7) 3.1.5 SNP注释 (8) 3.1.6插入/缺失(indels)检测 (9) 3.1.7插入/缺失(indels)注释 (9) 3.2个性化分析 (9) 3.2.1氨基酸替换预测 (9) 3.2.2群体SNP检测和等位基因频率估计 (12) 3.2.3孟德尔遗传病分析 (13) 3.2.4 NGS-GW AS 分析 (14) 3.2.5正向选择信号的检测 (14) 4 数据分析方法说明 (15) 4.1信息分析软件及常用参数介绍 (15) 4.2参考数据库 (16) 4.3数据文件格式 (17)

1 项目信息 PROJECT NAME CONTRACT NUMBER SAMPLE INFORMATION Species Information Genome Information Additional Information CUSTOMER INFORMATION PI Contact Person Company Name Contact Methods Name Tel E-mail Name Tel E-mail CONTACT INFORMATION (BGI) Sales Information Name Tel E-mail Name Tel E-mail Customer Service Name Tel E-mail Name Tel E-mail PROJECT DIRECTOR APPROVAL THE RESULTS HAVE BEEN APPROVED AND CAN BE SUBMITTED Signature: Date:

06-重测序、外显子组试卷答案.pdf

一、名词解释 1.比对将测序序列比对到参考基因组序列 2.单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性 3.三体家系样本，父亲，母亲，和孩子家系外显子组中的一组家系样本 4.小的核苷酸的插入缺失 5.拷贝数变异是由基因组发生重排而导致的,一般指长度为1 kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复二、填空题 1.bwa GATK 2.1% 3. 全基因组重测序全外显子组区域捕获测序 4. snp indel CNV SV 5. 5 50X 6. 1.5 3.5 7.0.1% 1% 8.液氮冻存-80冰箱冻存 9.血液 10.Agilent SureSelect All Exon V4 (+ UTR), NimbleGen SeqCap EZ Human Exome Library v3.0, Illumina TruSeq Exome Enrichment Kit 51M(71M), 64M, 62M 三、问答题 1. 建库：将基因组DNA经Covaris破碎仪随机打断成长度为180-280bp的片段，末端修复和加A 尾后在片段两端分别连接上接头制备 DNA 文库。捕获：带有特异index的文库pooling后与多达543,872个生物素标记的探针进行液相杂交，再使用带链霉素的磁珠将20,965个基因的334,378个外显子捕获下来。扩增及测序：经PCR线性扩增后进行文库质检，合格即可进行测序。 2. 人类85%的疾病位点位于编码区域外显子组可以提供更深的测序深度外显子组花费更低 3. 数据质控，比对到参考基因组，去重复重校正，预测个体snp和indel，预测体细胞突变，预测CNV和SV，候选位点注释 4. 常染色体显性遗传常染色体隐形遗传伴X 染色体显性遗传伴X 染色体隐性遗传伴Y 染色体遗传找Denovo mutation，只在患病孩子有，不在健康父母里存在的位点 5．

寻找基因外显子、内含子的几种方法

寻找基因外显子、内含子的几种方法以人类的wnt3a基因为例一、https://www.360docs.net/doc/752176624.html,/entrez/query.fcgi?CMD=search&DB=gene 1、进入ncbi的gene数据库【网址： https://www.360docs.net/doc/752176624.html,/entrez/query.fcgi?CMD=search&DB=gene】 2、在for栏输入wnt3a，点击limits 3、在All fields 栏选择Gene Name，在Homo sapiens前打勾，点击go 4、出现下图，点击wnt3a 5、鼠标左键点击NC-000001.9，选择Genbank

或在Genomic栏下点击Genbank【图中圈出的部分】 6、出现下图，图中画线部分就是外显子的位点【注意不是图中圆圈的部分】外显子分别为1～149 15617～15858 43606～43871 51936～54210

二、https://www.360docs.net/doc/752176624.html,/ 1、进入https://www.360docs.net/doc/752176624.html,/的网页 2、点击Gene Sorter 3、在genome栏输入human，在search栏输入wnt3a，点击go

4、出现下图，点击图中圈出来的部分： 5、出现下图，点击sequence 6、出现下图，点击Genomic 7、出现下图，点击submit

8、出现序列，其中外显子用大写字母，内含字用小写字母。 9、将其拷贝到word中，鼠标定位到大小写接头的位点，进行定位统计。疑问：奇怪的是得出的结果与方法一、方法三不符，不知是什么原因？请大家指点，看看是哪里错了。这种方法的介绍见：https://www.360docs.net/doc/752176624.html,/bbs/actions/archive/post/6145797_1.html 三、https://www.360docs.net/doc/752176624.html,/

人外显子测序

人外显子测序药明康德基因中心，陆桂1. 什么是外显子测序（whole exon sequencing）？外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究基因的SNP、Indel 等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。 2. 外显子捕获试剂盒有哪些？目前主要有Roche、Illumina和Agilent三家的外显子捕获试剂。Nimblegen和Illumina的捕获试剂盒中的探针是DNA探针，化学性质稳；Agilent的捕获试剂盒是RNA探针，有可能RNA 不是很稳定。 3. 外显子捕获效率是什么？外显子测序过程中要用到杂交过程。在人的染色体上有许多与外显子有同源性的部分，这些有同源性的部分很可能在杂交过程中也被捕获下来。所以，测到的序列中，有一部分不是外显子序列。我们把测序得是外显子的部分占全部测序序列的比列称为捕获效率。 Nimblegen大约是70% Agilent大约是60% Illumina大约是50% 4. 外显子测序一般建议做多少倍的覆盖？一般做100X或者150X。较高的覆盖倍数，对于测异质性的遗传变质，可以发现小比例的突变。另外，外显子测序的覆盖不是很均匀，这样较高的平均覆盖率有利于保证大部分的区域有足够的覆盖倍数。 5. 外显子测序能够测出多大的片段缺失？大致能测出50bp的片段缺失。目前的测序主要还是用Hiseq 2000,单侧的测长就是100bp。由于外显子测序的覆盖很不平均，所以如果有大段的缺失，无法判断是因为杂交没有捕获到，还是因为缺失。目前能够测到的，就是在一个read中发现的缺失。一个read的长度也就是100bp，所以大到50bp以下的片段缺失可以从外显子测序中测出来。 6. 外显子捕获可以做CNV吗？外显子测序因为有一个杂交捕获的过程，这样就会有一个杂交捕获效率的问题。各个外显子的杂交效率是不同的，其同源竞争的情况也不同，所以不同的外显子的覆盖率的差异就很大。所以一般情况下，外显子测序不能用于CNV的检测。但在癌症研究中，利用癌组织和癌旁组织对照，可以检测CNV。现在我们有另外两种常规方法来检测CNV，一种是全基因组重测序，另外一种是用Affymetrix SNP6.0的芯片来测。其中Affymetrix SNP6.0的检测费用大约只有全基因测序费用的1/10，是一个相对经济的手段。 7. 外显子测序的优点是什么？

华大智造外显子捕获测序解决方案

华大智造外显子捕获测序解决方案概述随着测序技术发展和成本降低，临床外显子组测序(cWES)和全外显子测序(WES)在遗传病检测领域崭露头角。外显子测序借助捕获探针(DNA或RNA)对人基因组约1-2%的区域测序，可覆盖绝大多数基因的编码序列和>99%（临床基因组资源库，ClinGen）疾病相关区域。华大智造基于自有的探针合成平台和高通量测序仪（MGISEQ/BGISEQ 系列），能为客户提供外显子测序一站式解决方案。图1 外显子测序示意图（以MGI测序平台为例）

MGIEasy 外显子组捕获V5探针试剂套装 MGIEasy 外显子组捕获V5探针试剂套装除了涵盖传统外显子探针覆盖的区域，还有针对性的做了探针优化，保证了生育健康、新生儿、心脑血管、遗传性肿瘤、单基因病、安全用药、个人基因组、遗传性耳聋、免疫缺陷、线粒体缺陷等致病基因的全覆盖。产品亮点 ●探针区域69Mb ●更多的疾病致病位点 ●更优的数据利用率 ●稳定而高效的捕获效率技术优势数据库覆盖情况 MGI V5与竞品（Vendor A6/N3/I）比，有更多的独有区域，涵盖了华大自主研发的图2 CCDS、GENCODE、UCSC、miRBase和RefSeq数据库基因数量覆盖情况基因覆盖更全面

MGI V5能100%覆盖的基因数达到455个，远高于A5 (125个)、N3 (33个)和I (357个)，其独有100%覆盖基因数达到160个，是A5和N3之和。 BBS10基因是巴比二氏综合征的致病基因，MGI V5完整涵盖了基因区和内含子区，其中包括ClinVar数据库中报道的已知临床突变位点。基因覆盖均一性更优 MGI V5在测序深度达到100x时，96%的区域覆盖度均能达到20X以上。与竞品N3和I共有的区域，MGI V5显示了更优秀的覆盖均一性。性能比较图3 100%覆盖的基因数和BBS10基因覆盖情况图4 >96%区域达到20X覆盖图5 共有区域的覆盖更均一

外显子组测序

技术参数样品要求捕获平台测序策略测序深度项目周期外显子组测序 37天 1. 单基因病/复杂疾病有效测序深度50X以上 2. 肿瘤有效测序深度100X以上注：可根据老师研究目的进行更高深度测序 HiSeq PE150 Agilent SureselectXT Custom Kit 样品总量：≥1.0 μg DNA （提取自新鲜及冻存样本） ≥1.5 μg DNA （提取自FFPE样本）样品浓度：≥20 ng/μl 参考文献外显子组测序（Whole Exome Sequencing，WES）是利用探针杂交富集外显子区域的DNA序列，通过高通量测序，发现与蛋白质功能变异相关遗传突变的技术手段。相比于全基因组测序，外显子组测序更加经济、高效。 1. 直接对蛋白编码序列进行测序，找出影响蛋白结构的变异 2. 高深度测序，可发现常见变异及频率低于1%的罕见变异 3. 针对外显子组区域测序，约占基因组的1％，有效降低费用，周期和工作量技术优势生物信息分析基本信息分析 1. 数据质控：去除接头污染和低质量数据 2. 与参考序列进行比对、统计测序深度及覆盖度 3. SNP／InDel检测、注释及统计 4. Somatic SNV／InDel检测、注释及统计（成对样本）高级信息分析（单基因病）高级信息分析（复杂疾病）高级信息分析（癌症） 1. 突变位点过滤 2. 显/隐性遗传模式分析（需老师提供家系信息） 2.1. 显性遗传模式分析 2.2. 隐性遗传模式分析 3. 候选基因功能注释 4. 新生突变筛选及分析（成三/成四家系） 4.1. de novo mutation 筛选 4.2. 新生突变速率计算 5. 候选基因功能富集 6. 蛋白互作网络分析（PPI） 7. 基因显著性分析（推荐20对Case/Control or trios样本） 1. 突变位点过滤 2. 显/隐性遗传模式分析（需老师提供家系信息） 2.1. 显性遗传模式分析 2.2. 隐性遗传模式分析 3. 候选基因功能注释 4. 基因功能及通路分析 5. 家系连锁分析 6. 纯合子区域（ROH）分析 1. 易感基因筛查 2. NMF突变特征及突变频谱分析 3. 已知驱动基因筛选 4. 高频突变基因统计及通路富集分析 5. MRT高频突变基因相关性分析 6. OncodriveCLUST驱动基因预测 7. 高频CNV分布及重现性分析 8. 肿瘤纯度／倍性分析 9. 异质性／克隆结构分析 10. NovoDrug高频突变基因靶向用药预测11. NovoDR耐药突变筛选12. 基因组变异Circos图展示案例解析［案例一］单基因病研究：外显子测序解析卵巢早衰的遗传因素[12] 卵巢早衰通常是指女性40岁之前闭经，1%的妇女患有此病，病因复杂，被认为受到遗传因素的影响。这项研究利用外显子测序技术首次在中东家系1（MO1DA）的卵巢早衰病人中发现了减数分裂基因中的STAG3基因突变可以导致隐性遗传卵巢早衰，也在小鼠动物模型和卵巢早衰病患中得到了证实。为探索卵巢早衰或卵巢功能不全的发生机理，以及阐明该病的临床高度异质性和遗传病因复杂性开辟了一个新的研究途径。［案例二］复杂疾病研究：外显子测序鉴定肌萎缩性脊髓侧索硬化症（ALS）的致病基因[13] 肌萎缩性脊髓侧索硬化症（ALS），又称为渐冻症，是一种成年型的神经退行性疾病。本研究选取了47个父母+患病儿的ALS家系，利用全外显子测序寻找De novo mutatio n 。发现了25个de novo突变基因，进行功能聚类分析，锁定了1个与染色质包装、神经树突生长相关的基因CREST，后期通过细胞试验验证了该基因突变会影响神经元的伸展，证实CREST突变与ALS相关。［案例三］癌症研究：外显子测序研究局限性肺腺癌瘤内异质性[14] 本研究采用多区域取样分析瘤内异质性的研究思路，对11位患者的局限性肺腺癌的48个肿瘤样品进行了外显子测序。共鉴定出7269个体突变，其中21个是已知的与癌症相关的基因突变，76% 的体突变及21个已知癌症基因突变中的20个都可以在同一肿瘤的所有区域样品中检测到，表明对肿瘤的某一区域进行单次活检，以适当的深度对其测序，可以鉴别出绝大多数突变。而前期关于肾透明细胞癌的研究结果表明，肿瘤不同区域样品的共有突变仅占突变总数的31%~37%，说明肿瘤异质性在不同癌种间存在差异。 [1] Krawitz PM, Schweiger MR, R?delsperger C, et al. Identity-by-descent filtering of exome sequence data identifies PIGV mutations in hyperphosphatasia mental retardation syndrome[J]. Nature Genetics, 2010, 42(10): 827-829.[2] Liu Y, Gao M, Lv YM, et al. Confirmation by exome sequencing of the pathogenic role of NCSTN mutations in acne inversa (hidradenitis suppurativa) [J]. Journal of Investigative Dermatology,2011, 131(7): 1570-1572. [3] Wei A H, Zang D J, Zhang Z, et al. Exome sequencing identifies SLC24A5 as a candidate gene for nonsyndromic oculocutaneous albinism[J]. Journal of Investigative Dermatology, 2013, 133(7): 1834-1840. [4] Sanna-Cherchi S, Sampogna R V, Papeta N, et al. Mutations in DSTYK and dominant urinary tract malformations[J]. New England Journal of Medicine, 2013, 369(7): 621-629.[5] Musunuru K, Pirruccello J P , Do R, et al. Exome sequencing, ANGPTL3 mutations, and familial combined hypolipidemia[J]. New England Journal of Medicine, 2010, 363(23): 2220-2227. [6] O'Roak B J, Deriziotis P , Lee C, et al. Exome sequencing in sporadic autism spectrum disorders identifies severe de novo mutations[J]. Nature genetics, 2011, 43(6): 585-589. [7] Jones S, Wang T L, Shih I M, et al. Frequent mutations of chromatin remodeling gene ARID1A in ovarian clear cell carcinoma[J]. Science, 2010, 330(6001): 228-231. [8] Yan X J, Xu J, Gu Z H, et al. Exome sequencing identifies somatic mutations of DNA methyltransferase gene DNMT3A in acute monocytic leukemia[J]. Nature Genetics, 2011, 43(4): 309-315. [9] Rudin C M, Durinck S, Stawiski E W, et al. Comprehensive genomic analysis identifies SOX2 as a frequently amplified gene in small-cell lung cancer[J]. Nature Genetics, 2012, 44(10): 1111-1116. [10] Yi X, Liang Y, Huerta-Sanchez E, et al. Sequencing of 50 human exomes reveals adaptation to high altitude[J]. Science, 2010, 329(5987): 75-78. [11] Tennessen J A, Bigham A W, O’Connor T D, et al. Evolution and functional impact of rare coding variation from deep sequencing of human exomes[J]. Science, 2012, 337(6090): 64-69. [12] Caburet S, Arboleda V A, Llano E, et al. Mutant cohesin in premature ovarian failure[J]. New England Journal of Medicine, 2014, 370(10): 943-949.[13] Chesi A, Staahl B T, Jovicic A, et al. Exome sequencing to identify de novo mutations in sporadic ALS trios[J]. Nature Neuroscience, 2013, 16(7): 851-855.[14] Zhang J, Fujimoto J, Zhang J, et al. Intratumor heterogeneity in localized lung adenocarcinomas delineated by multi region sequencing[J]. Science, 2014, 346: 256-259. 群体研究藏族人高原适应性研究[10]；深度解析人类罕见遗传变异[11]；…… 图1 STAG3 基因结构图（红色箭头为 STAG3 基因突变位置）图2 ALS家系图及CREST突变功能验证图3 产生化疗抗性的个体样本中体突变的数量及频率

基因捕获

什么是基因陷阱或基因捕获（gene trap）？基因陷阱或基因捕获（gene trap）是通过在基因组中创造随机插入突变，来直接获得分子特征。基因陷阱或基因捕获载体包含一个无启动子的报告基因或选择标记，它能在插入位置（内含子）激活所在基因表达。因这系列方法酷似以报道基因为诱饵来捕获基因，故得名基因陷阱或基因捕获。换言之，它主要依靠报告基因的随机插入来产生融合转录物或融合蛋白，通过检测报道基因而推知基因及其功能。一般常用的报道基因有GUS、绿色荧光蛋白（GFP）、Lc基因。在此基础上，还发展了启动子陷阱或启动子捕获（promoter trap）与增强子陷阱或增强子捕获（enhancer trap）。启动子陷阱或启动子捕获是通过将报道基因插入到细胞基因组的外显子上，如果发现它与细胞基因组基因被共同转录或表达，则可推知该报道基因附近有启动子。增强子陷阱或增强子捕获是将某报道基因与一个精巧的启动子相连，组成增强子陷阱重组体，它不会自主起始转录，需要由被插入的细胞基因组中的增强子帮助才可转录。若报道基因得以表达，则可推知插入位点附近有增强子或有基因。图1：在被“捕获”基因的启动子的转录控制下，报告基因与插入位置的内源基因整合。融合的转录体由上游外显子和报告基因组成。在载体中，多聚腺苷酸信号限制到内源转录单位的最后一个外显子。通常采

用外显子陷阱和内含了陷阱两类。内含子陷阱包括一个剪接接受子序列（splice acceptor，SA）（在无启动子报告基因最上游）。外显子陷阱没有剪接接受子序列，在插入外显子后激活报告基因表达。（Figure 1.Integration within an endogenous gene places the reporter gene under the transcriptional control of the "trapped" gene's promoter. A fusion transcript is generated between upstream exons and the reporter gene. The polyadenylation signal (pA) within the vector defines the final exon of the endogenous transcription unit. Two types of vectors are commonly used, each of which can be introduced by electroporation or retroviral infection. The "intron trap" includes a splice acceptor sequence immediately upstream of a promoterless reporter gene that is activated following insertions in introns of genes. The "exon trap" lacks a splice acceptor and is designed to activate the reporter following insertions in exons.）更多的信息参阅国际基因陷阱或基因捕获联合会（IGTC, International Gene-Trap Consortium）网站：http://www.igtc.ca/FAQ.html 基因陷阱或基因捕获有什么特点、优势和劣势？基因陷阱和启动子陷阱都有位置限制。基因陷阱重组体由报道基因和剪接接受子或部位（splice acceptor，SA）组成（接受体剪接部位在报道基因上游），该重组体需要插入到细胞基因组的内含子中随着基因转录和表达。如能检测到融合转录物或融合蛋白，就可证明插入位置附近有基因存在。启动子陷阱或启动子捕获需插入到内含子。因为增强子的作用特点，其位置与基因的位置可近可远，所以增强子陷阱不易定位基因。另外，对启动子陷阱和基因陷阱而言，插入可能导致基因失活。基因陷阱的优势在于它只在表达水平上定位基因，细胞基因本身的转录和

外显子组测序数据分析流程

外显子组测序介绍外显子（exon）是真核生物基因的一部分，包含着合成蛋白质所需要的信息。全部外显子被称为“外显子组”（Exome）。外显子组测序（Exome sequencing）是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于外显子组测序捕获目标区域只占人类基因组长度的约1%，因此远比进行全基因组序列测序来得更简便、经济，目标区域覆盖度也更高，便于变异检测。该项技术可用于以下研究 1）检测疾病样本中外显子区域内高风险碱基变异位点； 2）配合大样本分析，确定孟德尔遗传疾病相关外显子SNP位点和基因； 3）在癌症研究过程中，检测癌症样本外显子区域内的体细胞突变位点和潜在的融合基因； 4）用于种群遗传学研究的大规模样本基因组分析，检测SNP位点、LD并绘制种群图谱。我们能提供详尽的全基因组重测序数据的处理和分析服务。如您没有标准化的数据、只需流程中的局部分析内容或要求特立独行的数据分析思路，我们亦能满足您的要求。数据处理和分析流程图

预期结果示例图示例图1 各类型SNV在样本中的个数统计。示例图2 不同类型外显子区域上的SNV类型统计。示例图4 融合基因预测[1]

示例图4 大量样本的GWAS分析结果[2] 示例图5 肿瘤样本高频率突变基因统计[3] 示例图来源文献 [1]. Kangaspeska, S., et al., Reanalysis of RNA-sequencing data reveals several additional fusion genes with multiple isoforms. PLoS One, 2012. 7(10): p. e48745. [2]. Craig, J.E., et al., Rapid inexpensive genome-wide association using pooled whole blood. Genome Res, 2009. 19(11): p. 2075-80.

基因捕获技术

基金项目:国家重点基础研究发展计划(973)项目(N o. 2001C B509901) 作者单位:200025,上海交通大学医学院遗传学教研室通讯作者:王铸钢(E2mail:zhugangw@https://www.360docs.net/doc/752176624.html,)?综述? 基因捕获技术党素英　王铸钢【摘要】　基因捕获技术是一种产生大规模基因突变的便利手段,对于揭示大量基因序列所对应的基因功能具有重要应用价值。本文综述了基因捕获技术的基本原理和研究方法、发展现状及远景。【关键词】　基因捕获;　基因捕获载体;　表达筛选 “G ene2trapping”T echnique.　DANG Su2ying,WANG Zhu2gang.　(Department o f Medical G enetics,Shanghai Jiao Tong Univer sity Medical School,Shanghai200025,P.R.China) Corresponding author:WANG Zhu2gang.　E2mail:zhugangw@https://www.360docs.net/doc/752176624.html, 【Abstract】　G ene2trapping is an advantageous technique for generating gene mutations massively which is im2 portant to identify the functions of large quantities of gene sequence.In this review,the basic theory,study strategies, the development and future directions of gene2trap mutagenesis are discussed. 【K ey w ords】　G ene2trapping;　G ene2trapping vector;　Expression screens 随着人类和其他一些重要动、植物序列数据的快速积累,我们面临着如何鉴定这些序列数据所代表的生物学功能的巨大挑战。基因捕获(gene2trap2 ping)技术通过报告载体随机整合到基因组、标签插入位点、产生插入失活突变并揭示基因表达模式及其功能,已成为建立高通量、大规模基因突变模型的一种便利手段。随着多种新型载体及捕获策略的出现,基因捕获技术已被成功应用于克隆诸如特异组织发育相关基因、特殊信号传导途径相关基因等多种研究中,在功能基因组学研究中具有广阔的应用前景。 1　基因功能研究的策略基因芯片、组织表达谱分析等多种传统的分子遗传学方法对于揭示基因功能及复杂的发育事件具有重要意义,但阐释某一基因功能的直接策略是基于对该基因突变后细胞或动物模型的表型分析。因此,X射线、化学诱变、逆转录病毒转染及转基因技术等多种产生突变的方法相继出现并被应用于基因功能研究。但这些方法都带有不稳定性,如经常影响多个基因或引起染色体重排,或不能提供分子标记来克隆突变基因[1]。在胚胎干细胞(embry onic stem cell,ES)内利用同源重组产生特定基因突变的基因打靶技术,即基因敲除和敲进技术(knock2out or knock2in)是目前被用来研究结构信息明确的基因功能的最重要的手段之一。然而,由于同源重组几率低、动物繁育耗时费力且产生的功能失活突变(无义突变,null mutations)常常与疾病中发现的分子损伤类型不同,因此,随机突变筛选策略更受研究者青睐。基因捕获是一种结合随机突变与对分子信息明确的基因突变二者之优势的突变策略,即“随机基因打靶”,广泛应用于植物、线虫、果蝇及小鼠的研究中。 2　基因捕获的基本原理基因捕获的方法酷似以报告基因为诱饵来捕获基因。其基本过程是将一含报告基因的DNA载体随机插入基因组,从而产生内源基因失活突变,并通过报告基因的表达激活提示插入突变的存在,及突变内源基因表达特点。通过筛选得到的插入突变的ES细胞克隆经囊胚注射转化为基因突变动物模型,进而分析表型来研究突变基因功能。每一种ES细胞克隆中含有不同的突变基因,在短期内可建立大量含不同基因突变的ES细胞克隆库。突变基因的序列可通过基于PCR的一些方法鉴定,同时还可能

全外显子组测序在肺癌的发病机制研究和诊治中的临床意义

２０１９年一２月第３９卷一第２期基础医学与临床Ｂａｓｉｃ＆ＣｌｉｎｉｃａｌＭｅｄｉｃｉｎｅＦｅｂｒｕａｒｙ２０１９Ｖｏｌ.３９一Ｎｏ.２收稿日期:２０１７￣１１￣０９一一修回日期:２０１８￣０３￣２７基金项目:湖北省教育厅重点项目(Ｄ２０１７１２０５)?湖北省自然科学基金(２０１７ＣＦＢ４５５) ?通信作者(ｃｏｒｒｅｓｐｏｎｄｉｎｇａｕｔｈｏｒ):ｚｒｔ０１１６＠１２６.ｃｏｍ文章编号:１００１￣６３２５(２０１９)０２￣０２７２￣０５短篇综述一全外显子组测序在肺癌的发病机制研究和诊治中的临床意义唐永莉?张瑞涛? (三峡大学医学院?湖北宜昌４４３０００) 摘要:全外显子组测序(ＷＥＳ)是利用序列捕获技术将全外显子区域ＤＮＡ捕捉并富集后进行高通量测序的基因分析方法?外显子组测序较全基因组序列测序更简便二经济和高效?其目标区域覆盖度也更高?便于变异检测?外显子组测序技术已经应用到寻找与各种复杂疾病相关的致病基因和易感基因的研究中?肺癌是常见的恶性肿瘤之一?基于国内外对全外显子测序在肺癌中的研究成果?现就全外显子测序在肺癌的诊治以及肺癌的发生机制的研究进行综述? 关键词:全外显子组测序?肺癌?易感基因?基因突变中图分类号:Ｒ７３４２一一文献标志码:ＡＣｌｉｎｉｃａｌｓｉｇｎｉｆｉｃａｎｃｅｏｆｗｈｏｌｅｅｘｏｍｅｓｅｑｕｅｎｃｉｎｇｉｎｍｅｃｈａｎｉｓｍｒｅｓｅａｒｃｈａｎｄｔｒｅａｍｅｎｔｉｎｌｕｎｇｃａｎｃｅｒＴＡＮＧＹｏｎｇ￣ｌｉ?ＺＨＡＮＧＲｕｉ￣ｔａｏ? (ＭｅｄｉｃａｌＣｏｌｌｅｇｅｏｆＣｈｉｎａＴｈｒｅｅＧｏｒｇｅｓＵｎｉｖｅｒｓｉｔｙ?Ｙｉｃｈａｎｇ４４３０００?Ｃｈｉｎａ)Ａｂｓｔｒａｃｔ:Ｗｈｏｌｅｅｘｏｍｅｓｅｑｕｅｎｃｉｎｇ(ＷＥＳ)ｉｓａｇｅｎｅａｎａｌｙｓｉｓｍｅｔｈｏｄｔｈａｔｕｓｅｓｔｈｅｓｅｑｕｅｎｃｅｃａｐｔｕｒｅｔｅｃｈ￣ｎｉｑｕｅｔｏｃａｐｔｕｒｅａｎｄｅｎｒｉｃｈｔｈｅｗｈｏｌｅｅｘｏｎｒｅｇｉｏｎＤＮＡａｎｄｔｏｐｅｒｆｏｒｍｈｉｇｈ￣ｔｈｒｏｕｇｈｐｕｔｓｅｑｕｅｎｃｉｎｇ.ＷＥＳｃａｎｂｅｕｓｅｄｔｏｄｅｔｅｃｔｇｅｎｅｔｉｃｍｕｔａｔｉｏｎｓａｓｓｏｃｉａｔｅｄｗｉｔｈｐｒｏｔｅｉｎｆｕｎｃｔｉｏｎａｌｖａｒｉａｂｉｌｉｔｙｄｉｒｅｃｔｌｙ.ＳｉｎｃｅｔｈｅＷＥＳｉｓｓｅ￣ｑｕｅｎｃｅｄｏｎｌｙｆｏｒｔｈｅＤＮＡｏｆｔｈｅｅｘｏｎｒｅｇｉｏｎ?ｉｔｉｓｍｕｃｈｓｉｍｐｌｅ?ｍｏｒｅｅｃｏｎｏｍｉｃａｌａｎｄｅｆｆｉｃｉｅｎｔｔｈａｎｔｈｅｗｈｏｌｅｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ?ａｎｄｉｔｓｔａｒｇｅｔａｒｅａｃｏｖｅｒａｇｅｉｓｈｉｇｈｅｒ?ｗｈｉｃｈｉｓｅａｓｙｔｏｄｅｔｅｃｔ.Ａｔｐｒｅｓｅｎｔ?ＷＥＳｈａｓｂｅｅｎａｐｐｌｉｅｄｔｏｔｈｅｓｔｕｄｙｏｆｐａｔｈｏｇｅｎｉｃｇｅｎｅｓａｎｄｓｕｓｃｅｐｔｉｂｉｌｉｔｙｇｅｎｅｓａｓｓｏｃｉａｔｅｄｗｉｔｈｖａｒｉｏｕｓｃｏｍｐｌｅｘｄｉｓｅａｓｅｓｓｕｃｈａｓｌｕｎｇｃａｎｃｅｒ.Ｉｎｔｈｉｓｐａｐｅｒ?ＴｈｅｃｌｉｎｉｃａｌｓｉｇｎｉｆｉｃａｎｃｅｏｆＷＥＳｉｎｍｅｃｈａｎｉｓｍｒｅｓｅａｒｃｈａｎｄｔｒｅａｍｅｎｔｉｎｌｕｎｇｃａｎｃｅｒｗａｓｂｅｅｎｒｅｖｉｅｗｅｄ.Ｋｅｙｗｏｒｄｓ:ｗｈｏｌｅｅｘｏｍｅｓｅｑｕｅｎｃｉｎｇ?ｌｕｎｇｃａｎｃｅｒ?ｐｒｅｄｉｓｐｏｓｉｎｇｇｅｎｅｓ?ｇｅｎｅｍｕｔａｔｉｏｎ一一外显子组是一个物种基因组中全部外显子区域的总和?它是基因行使其功能最直接的体现?人类外显子组序列约占人类全部基因组序列的１％?但大约包含８５％的致病突变?全外显子组测序(ｗｈｏｌｅｅｘｏｍｅｓｅｑｕｅｎｃｉｎｇ?ＷＥＳ)是一种高效的基因组分析法?基于捕获技术的准确性和测序技术的高通量性?将基因组中全部的外显子区域捕获富集并进行测序?外显子组测序是一种特异性测序?单纯针对基因组编码区域及其侧翼序列?其基本流程包括外显子区域序列的富集二高通量测序及测序数据

41.ACMG全外显子测序指南.

ACMG全外显子测序指南摘要：美国医学遗传学与基因组学学会（ACMG）以前为序列突变的解释提供了指导.1在过去十年中，随着高通量测序的出现，测序技术迅速发展。通过采用和利用下一代测序，临床实验室正在进行基因分型，单基因，基因组，外显子，基因组，转录组和遗传疾病表观遗传学检测的不断增加的遗传检测目录。由于复杂性增加，基因检测的这种转变伴随着序列解释的新挑战。在这方面，ACMG于2013年召集了一个由ACMG，分子病理学协会（AMP）和美国病理学家学会的代表组成的工作组，重新审视和修订了序列突变解释的标准和准则。该组由临床实验室主任和临床医生组成。本报告代表ACMG，AMP和美国病理学家利益相关者联盟组成的工作组的专家意见。这些建议主要适用于临床实验室使用的遗传检测的范围，包括基因分型，单基因，panel，外显子和基因组。本报告建议使用具体的标准术语- “致病性”，“可能致病性”，“不确定性意义”，“可能良性”和“良性”来描述在导致孟德尔病症的基因中鉴定的突变。此外，该建议描述了基于使用典型类型的突变证据（例如，群体数据，计算数据，功能数据，分离数据）的标准将突变分类为这五个类别的过程。由于本报告中描述的临床基因检测的分析和解释的复杂性增加，ACMG强烈建议临床分子遗传学检测应在经过临床实验室改进修订批准的实验室进行，结果由相关职业认证的临床分子遗传学家或分子遗传病理学家或同等学科专家进行解释。关键词：ACMG实验室指导; 临床遗传检测; 解释；报告; 序列变异术语；突变报告前言临床分子实验室正在不断增加检测的新的序列突变，因为在检测患者标本时不断发现大量与基因疾病相关的基因。虽然一些表型与单个基因相关，但许多与多个基因相关。我们对任何给定序列突变的临床意义的理解是循序渐进的，其范围从那些几乎肯定是疾病致病性突变到几乎肯定是良性的突变。虽然以前的美国医学遗传学和基因组学会（ACMG）的建议提供了序列突变的解释类别和解释算法，但是这些建议没有提供定义的术语或详细的突变分类指南.1。本报告

外显子、内含子、mRNA、CDS、ORF区别与联系

创作编号： GB8878185555334563BT9125XW 创作者：凤呜大王* 外显子、内含子、mRNA、CDS、ORF区别与联系 1、DNA复制：以DNA为模板，在DNA聚合酶的催化作用下，将四种游离的dNTP按照碱基互补配对原则合成新链DNA 转录：以DNA为模版，在DNA指导的RNA聚合酶的作用下，将四种游离的NTP按照碱基互补配对的原则合成RNA 翻译：以mRNA为模板，在核糖体内合成蛋白质的过程特点： DNA复制：模板为双链DNA，合成的新链与模板链一模一样，原料为四种dNTP，为半保留复制，需要引物转录：模板为双链DNA，为半不连续转录需要引物，原料为四种NTP，合成的新链除了把DNA上的T改为U外，其他一样翻译：模板为mRNA，原料为20中游离的氨基酸，3个碱基决定一个氨基酸 2、mRNA

mRNA （messenger RNA，信使RNA）信使RNA是由DNA经hnRNA剪接而成，携带遗传信息的能指导蛋白合成的一类单链核糖核酸。 3、基因DNA分为编码区和非编码区，编码区包含外显子和内含子，一般非编码区具有基因表达的调控功能，如启动子在非编码区。编码区则转录为mRNA并最终翻译成蛋白质。外显子和内含子都被转录到mRNA前体hnRNA中，当hnRNA进行剪接变为成熟的mRNA时，内含子被切除，而外显子保留。实际上真正编码蛋白质的是外显子，而内含子则无编码功能，内含子存在于DNA中，在转录的过程中，DNA上的内含子也会被转录到前体RNA中，但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。 4、CDS Sequence coding for amino acids in protein 蛋白质编码区CDS是Coding sequence的缩写，是编码一段蛋白产物的序列，是结构基因组学术语。与开放读码框ORF的区别开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列；不是所有读码框都能被表达出蛋白产物，或者能表达出占有优势或者能产生生物学功能的蛋白。 CDS，是编码一段蛋白产物的序列。 cds必定是一个orf。但也可能包括很多orf。反之，每个orf不一定都是cds。

目标序列捕获技术综述

靶基因分离技术——与新一代测序技术的完美组合吴仁花深圳华大基因研究院摘要：以Ilumina 的solexa, AB BIOMERIEUX的SOLID 以及Roche的454为代表的新一代测序技术出现，不仅大大提高了测序的通量和精确度，还使测序成本降低了100倍，但整个基因组例如人或其它大的基因组重测序成本依然是巨大的，因此分离靶基因进行测序成为进行大量重测序的首选。而靶基因的分离已成为基因重测序发展的瓶颈，除了对传统的PCR 分离基因技术的改进，近两年涌现出一些新的基因分离技术：基于杂交和DNA分子微阵列技术的MGS(microarray-based genomic selection)技术；以MIP（molecular inversion probe）和PCR原理为基础的gen-coleteor，selector，Agilent的液相杂交技术和SMART（Spacer multiplex amplification reaction）等新的基因捕获技术。这些基因分离技术和新一代高通量测序技术的结合将大大降低测序成本，从而推动遗传学及基因组学的发展，并在人类基因测序成本降低到1000美元之前成为不可替代的手段。近年来测序技术突飞猛进的发展，Illumina 的solexa, AB BIOMERIEUX的SOLID 以及Roche的454 等新一代测序技术，不仅快速，高通量，高精确度，以及成本低(2)。但是全基因组的测序费用仍是庞大的，目前人的全基因组测序成本仍在200000美元以上（2），要达到人的基因组测序成本1000美元，还需要几年时间。因此分离目的基因进行测序成为人们研究目标基因变异的重要手段(2,3)。近两年来，人们在致力于靶基因分离技术的研究，除了有传统的PCR方法外，提出了一些新的方法，如基于杂交和DNA微阵列技术的MGS(microarray-based genomic selection)，以MIP（molecular inversion probe）和PCR原理为基础的gen-coleteor，selector，Agilent 的液相分离技术，SMART（Spacer multiplex amplification reaction）技术等（3-12）。 1.1传统的PCR分离基因方法传统的PCR方法，首先根据目标DNA序列设计特异性引物，利用特异引物进行PCR 反应扩增靶基因，再用Sanger法对扩增产物测序（4,5）。这种方法适用于小范围的基因分离，及Sanger法测序，而对于大的基因区域则无能为力了。例如，要分离100k的DNA ，则至少需要2000个500bp的PCR反应，至少要设计4000条引物。成本和人力都是一般实验室无法承受的。尽管人们将多对引物混在进行PCR反应，但混合PCR会导致更多的非特异扩增及扩增效率降低，为后续的测序工作到来麻烦。而且PCR分离基因的方法适合于Sanger 测序，而对高通量的新一代测序系统，因此人们开始寻求其他方法。 1.2 MGS(microarray-based genomic selection)——基于杂交和DNA微阵列技术的基因分离方法 MGS(microarray-based genomicselection)——基因分离方法是Roche NimbleGen 于2007年（6-8）发表的一种利用DNA微阵列和杂交技术方法，可以从复杂的真核生物基因组中分离特定基因。2008年4月份首先将此技术商品化，目前NimbleGen 已对外提供385000芯片和HD2.1芯片，385000芯片铺有385000探针，可以分离得到5M的碱基；HD2.1芯片铺有2100000探针，可以分离到得到30M的碱基。NimbleGen探针长度为50-92bp之间。NimbleGen分离靶基因的基本的步骤包括（图1）：（一）物理方法剪切基因组DNA得到平均大小为300bp随机片段，（二）DNA片段末端修复并加上接头，（三）DNA片段与芯片