转录组测序结题报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

转录组测序结题报告

1.mRNA纯化:

抽提得到的总RNA首先利用10U的DNaseI(Ambion,美国)在37℃消化1小时;然后利用Micropoly(A)PuristTM mRNA purification kit(Ambion,美国),进行mRNA纯化:把RNA稀释到250μl的体积,按照Kit的操作步骤(Cat.No:

1919)进行;最后得到的mRNA用100μl预热的THE缓冲液洗脱,利用NanoDrop 进行定量。

2.cDNA合成:

cDNA合成是在Ng等2005年发表的方法基础上改进而成(文献1,图1)。第一链cDNA合成利用GsuI-oligo dT作为反转录引物,10μg的mRNA作为模板,用1000 单位的Superscript II reverse transcriptase (Invitrogen,美国)在42℃作用1小时完成;随后利用NaIO4(Sigma,美国)氧化mRNA的5’帽子结构,并连接生物素;通过Dynal M280磁珠(Invitrogen,美国)筛选连接了生物素的mRNA/cDNA,并通过碱裂解释放第一链cDNA;然后通过DNA ligase(TaKaRa,日本)在第一链cDNA的5’末端加上接头,然后通过Ex Taq polymerase (TaKaRa,日本)合成第二链cDNA。最后通过GsuI酶切去除polyA和5’端接头。

图1. 全长cDNA合成示意图

3.cDNA测序:

合成的cDNA利用超声仪(Fisher)打断到300-500bp的范围,利用Ampure beads(Agencourt,美国)进行纯化。随后纯化的cDNA利用TruSeq TM DNA XXmple Prep Kit – Set A (illumina,美国)制备文库,并利用TruSeq PE Cluster Kit (illumina,美国)进行扩增。最后在illumina机器上进行测序反应。

测序得到的数据统计见表1.

表1. Solexa测序统计

样品对照 1 2

Reads数目(对) 5,500,000 10,254,848 11,160,428

Clean data 5,442,815

(98.96%)

10,160,130

(99.08%)

10,998,951

(98.55%)

平均长度100 100 100

5.EST拼装:

利用trinity进行拼装。共得到45,308个EST cluster(contigs)。具体拼装结果见表2和图2。

表2. 拼装统计

样品XX

Contig数目45,308

Contig平均长度698

Contig长度范围201-16,169

图2. Contigs长度分布(横坐标为基因长度分布,纵坐标为基因数量分布)

6.数据分析:

6.1 基因预测:采用EMBOSS工具包(参考文献2)中的’GetORF’对拼装得到的contigs进行基因预测,从不同contigs中找到蛋白编码序列。

6.2 基因注释:将预测得到的蛋白编码序列与GenBank的NR、GO、KEGG、KOG等数据库利用blastp进行比对,条件为E value<1e-5,选择匹配最好的一项作为注释信息。

详细结果见annotation.xls,由左至右分别为拼接软件产生的contig名称、基因功能注释、ORF起始与终止位点坐标、正反义链、氨基酸长度、KOG分类。

6.3 GO分析:GO分析利用GoPipe(参考文献3)进行,预测蛋白首先与Swiss-Prot 和TrEMBL数据库进行比对,条件为blastp,E value<1e-5,然后比对结果利用GoPipe程序,根据gene2go,得到预测蛋白的GO信息。共有4,823个预测蛋白,匹配28,168项GO terms,如图3所示。

详细结果见annotation.xls中“GO”sheet栏。

图3. GO分布

6.4 代谢通路构建:利用KEGG数据库(参考文献3),将预测蛋白与KEGG数据库进行比对,条件为双向blast,E value <1e-3;得到预测蛋白的KO number,再根据KO number,获得预测蛋白参与的代谢通路信息。结果共有2,706个蛋白获得了KO number,它们参与的代谢通路如如图4所示。

详细结果见annotation.xls中“KEGG pathway ”sheet栏。

图4. 编码蛋白所参与的代谢通路类别

6.5 表达丰度分析:首先去除低值序列得到clean reads(图5),然后mapping 到拼接的contig上(图6,图7显示mapping的结果),统计每个conig中分别来自2个样品的reads数目,接着转换成RPKM(参考文献4),最后利用DEGseq 程序包中的MARS (MA-plot-based method with Random XXmpling model)模型(参考文献5),计算每个contig代表的基因在2个样品中的表达丰度差异,FDR 值小于0.001的即被认定为具有显著性差异。

详细结果见annotation.xls中“DGE”sheet栏或”express.xlsx”。

图5. 序列质量分析(clean reads为不含N且质量大于5的碱基数至少占全长的一半)

图6. 测序饱和度分析(横坐标为reads number,纵坐标为gene number)

图7.基因覆盖率统计

样本间差异统计详见annotation.xls中“DGE”sheet栏:由左至右分别是基因名称、基因长度、样品A 统计reads数、样品A RPKM值、样品B统计reads 数、样品B RPKM 值、样品A相对样品B表达差异倍数(取Log值)、q-value、显著性判断。

表3. 样品间显著性差差异基因统计

样品上调基因数(p<0.001)下调基因数(p<0.001)

1/对照2,961 1,005

2/对照2,257 36

2/1 3,352 2,541

图8.上下调基因变化(横坐标为gene,纵坐标为统计值)

6.6 富集分析:对于每一个代谢通路和GO类别,我们利用超几何分布统计,计

相关文档
最新文档