有参考基因组的转录组生物信息分析模板
有参考基因组的转录组生物信息分析

一、生物信息分析流程获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:二、项目结果说明1 原始序列数据高通量测序(如illumina HiSeq TM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
FASTQ格式文件中每个read由四行描述,如下:@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACGGCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT+@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。
illumina 测序标识符详细信息如下:第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。
如果测序错误率用e表示,illumina HiSeq TM2000/MiSeq的碱基质量值用Qphred表示,则有下列关系:公式一:Qphred = -10log10(e)illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下:2 测序数据质量评估2.1 测序错误率分布检查每个碱基测序错误率是通过测序Phred数值(Phred score, Qphred)通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。
转录组分析报告

转录组分析报告介绍转录组分析是研究基因组中转录过程的研究领域。
通过转录组分析,我们可以了解到在特定条件下细胞中正在转录的所有基因。
这些信息对于理解细胞功能、疾病发展以及生物技术的开发都非常重要。
本报告将介绍转录组分析的一般步骤和常用方法。
步骤一:实验设计转录组分析的第一步是设计实验。
在这个步骤中,我们需要确定要研究的样本类型、实验条件和重复次数。
合理的实验设计可以最大程度地减少误差,并提高结果的可靠性。
步骤二:RNA提取在转录组分析中,我们需要从样本中提取RNA。
RNA是细胞中转录的产物,它可以反映细胞中正在表达的基因信息。
RNA提取的质量和纯度对后续的转录组分析非常重要。
常用的提取方法包括酚氯仿法、磁珠法和硅胶膜法等。
步骤三:RNA测序RNA测序是转录组分析的核心步骤之一。
通过RNA测序,我们可以将RNA样本转化为对应的DNA序列,并确定每个基因的表达水平。
常见的RNA测序技术包括Sanger测序、二代测序和三代测序等。
二代测序技术如Illumina和Ion Torrent等已经成为转录组分析的主流技术。
步骤四:数据预处理RNA测序会产生大量的原始数据,这些数据需要进行预处理以去除噪音和提高数据质量。
数据预处理包括去除低质量的reads、去除接头序列、去除重复序列和过滤低表达基因等。
预处理后的数据可以为后续的分析提供可靠的基础。
步骤五:差异表达基因分析差异表达基因分析是转录组分析的重要环节之一。
通过比较不同条件下基因的表达水平,我们可以找到与特定条件相关的差异表达基因。
常用的差异表达基因分析方法包括DESeq、edgeR和limma等。
这些方法可以帮助我们发现与特定条件相关的生物学过程和信号通路。
步骤六:功能注释和富集分析一旦确定了差异表达基因,我们可以对这些基因进行功能注释和富集分析。
功能注释可以帮助我们了解差异表达基因的功能和参与的生物学过程。
而富集分析可以帮助我们发现差异表达基因在特定功能和通路中的富集情况。
有参考基因组的转录组生物信息分析模板

有参考基因组的转录组生物信息分析模板转录组是指一些特定生物体在特定时期和特定环境下,在其中一种特定的组织或细胞中所表达的所有基因的mRNA的总和。
转录组测序技术的发展使得我们能够全面了解基因的表达水平和差异,并帮助我们深入探索特定生物体的功能和特性。
本文将为您提供一个转录组生物信息分析的模板,以帮助研究者进行转录组数据分析。
一、质检与预处理1. 检查转录组测序数据的质量,使用FastQC等工具查看测序质量报告。
2. 根据报告,去除测序中存在的接头污染、低质量碱基,以及过短或过长的reads。
3. 使用Trimmomatic等工具进行reads修剪和过滤,保留高质量的reads。
二、比对到参考基因组2. 使用比对软件如Bowtie2、STAR等将reads比对到参考基因组上。
3. 根据比对结果生成BAM/SAM文件,并使用Samtools等工具对文件进行排序和索引。
三、基因表达量估计1. 使用HTSeq、featureCounts等软件对比对结果进行基因表达量估计,生成基因计数矩阵。
2. 将基因计数矩阵导入R或Python环境,进行表达量分析和统计。
3. 使用DESeq2、edgeR等软件对不同样本之间的差异表达基因进行筛选和统计。
四、差异表达基因分析1. 使用DESeq2、edgeR等软件进行差异表达基因分析,确定在不同条件下表达显著变化的基因。
2.使用热图、散点图、MA图等工具可视化差异表达基因的分布和表达模式。
五、注释分析1. 使用生物信息学工具如DAVID、enrichR等进行功能富集和通路分析,找出差异表达基因所涉及的生物学过程和通路。
2. 利用基因本体论(Gene Ontology)和KEGG数据库等进行差异表达基因的功能注释。
六、蛋白质互作网络分析1.将差异表达基因输入蛋白质互作数据库如STRING等,构建差异表达基因的蛋白质互作网络。
2. 使用Cytoscape等工具进行蛋白质互作网络的可视化和分析。
有参考基因组的转录组生物信息分析模板

v1.0 可编辑可修改一、生物信息分析流程获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:二、项目结果说明1 原始序列数据高通量测序(如illumina HiSeq TM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
FASTQ格式文件中每个read由四行描述,如下:@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACGGCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT+@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。
illumina 测序标识符详细信息如下:第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。
如果测序错误率用e表示,illumina HiSeq TM2000/MiSeq的碱基质量值用Qphred表示,则有下列关系:公式一:Qphred = -10log10(e)illumina Casava 版本测序错误率与测序质量值简明对应关系如下:2 测序数据质量评估测序错误率分布检查每个碱基测序错误率是通过测序Phred数值(Phred score, Q)通过公式1phred转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:illumina Casava 版本碱基识别与Phred分值之间的简明对应关系测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。
转录组有参考生物信息分析结题报告模版-V2.0

转录组有参考基因组生物信息分析结题报告获得原始测序序列(Sequenced Reads)后,并且其相应的基因组参考序列( Reference Genome )可以获得的情况下,可以用有参考基因组信息分析流程对数据进行详细的分析,分析流程图如下:1. 原始序列数据高通量测序(如Illunima HiSeq TM2000/ Miseq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
测序样品中真实数据随机截取结果如下:@HWI-ST1106:227:D14F6ACXX:1:1101:1202:2188 1:N:0:GCCAAT CGGATGATCTTCTTAATCTCTCCTTGCATAGTTATGAAACAGTCCGTGGACTTGCTGGAAAATCTCTCTTGAAGATGATGAAGAGATGGCCCTCTACAAT +CCCFFFDFFHHHHJJJJJIJIGGGIGICIGIIJEIIJIIJJI@DHEDHECFGGAHGGJGHIICGEEIEHGGGIECEEHH@HE>C@EBBE@CCDDCCCDDC @HWI-ST1106:227:D14F6ACXX:1:1101:1237:2217 1:N:0:GCCAAT GAAGGTGAGTCTGAGGAGGCCAAGGAGGGAATGTTTGTGAAAGGATATGTCTACTAAGATATTAGAAAGTATGTACTACTACTACTACTACATGTTTTCA +@@@FDADDFDHFHIIIDHIIJJJGICGGGCGHGFIGHBHEHHGI;BDHHCFGCHIIIIEHGIGHHIJJE7??ACHCDFFFFFEEECCEE>C>ACCCDC>@ @HWI-ST1106:227:D14F6ACXX:1:1101:1382:2195 1:N:0:GCCAAT TTTTGCAACAATGGCTTCCACCATGATGACTACTCTACCACAGTTCAATGGACTCAAACCCCAACCTTTCTCAGCTTCTCCAATTCAAGGCTTGGTGGCA +@@@DD3DDFFFF:CDGI@GIEEDH<F49C?EGFBF9?FF?C@BFEFGIII3BDDFFIIG7FFFIIBEFFIFDC3ACBDDDBD@>@AAD;;;@@####### @HWI-ST1106:227:D14F6ACXX:1:1101:1255:2239 1:N:0:GCCAAT CGGATTTTCAAGGGCCGCCGGGAGCGCACCGGACACCACGCGACGTGCGGTGCTCTTCCAGCCGCTGGACCCTACCTCCGGCTGAGCCGATTCCAGGGTG +CCCDFFFFHHH?FHIIIJJJJJIGBEHHJJBHBDDCDAC??@@BDBBBBD8BDDCDDACC@A?@BBB@<<CB?CB<AD?9<B@>(8>?395?4:(:<@## @HWI-ST1106:227:D14F6ACXX:1:1101:1423:2239 1:N:0:GCCAAT CTTGTATTGCTCTCCCACAACCCCGTTTTCACGGTTTAGGCTGCTCCCATTTCGCTCGCCGCTACTACGGGAATCGCTTTTGCTTTCTTTTCCTCTGGCT +CCCFDFFFHHHHHJJIJJJJJIJJGGIHIIGIIJGIGGIJJGGGJGIJ>FGIIGHGGBEHBCCBBDDD@BB@@<AABDDBCACDCDACDCD@:>@C::@C2.测序数据质量评估2.1 测序错误率分布检查测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。
植物基因组与转录组的分析

植物基因组与转录组的分析近年来,随着生物信息学和计算机科学的不断发展,对植物基因组和转录组的研究也越来越深入。
基因组是组成生物体的所有基因序列的集合,而转录组则是指一个物种所有被转录为RNA的基因集合。
对植物基因组和转录组的深入研究不仅可以帮助我们更加理解植物的生长发育和适应环境能力,还可以为植物育种和改良提供科学依据。
一、植物基因组的测序和注释测序是分析植物基因组的第一步,它可以帮助我们确定基因组的大小和基因的位置。
目前,测序技术主要包括第一代测序技术和第二代测序技术。
第一代测序技术包括Sanger测序技术和454测序技术,虽然精度较高,但是效率低下,成本较高。
而第二代测序技术,如Illumina、Ion Torrent、PacBio以及Oxford Nanopore 等,由于其高通量、高精度和低成本等优点,已经成为当前主流的测序技术。
在基因组测序完成后,需要对其进行注释。
基因组注释是指确定基因的具体序列和位置等信息,也包括预测调控元件、非编码RNA和之间的相互作用等方面的信息。
基因组注释的方法主要包括题目比对、转录组测序和结构预测等。
我们需要将不同来源的数据结合起来进行注释,以最大限度地减少错误预测和漏预测的概率。
二、植物转录组的分析一旦获得了植物基因组的序列信息,我们接着需要了解基因组是如何表达为蛋白质的。
转录组就是表达的基因的RNA序列的总和。
分析植物转录组可以帮助我们更深入地研究基因表达调控机制以及物种的适应性和进化。
对植物转录组的分析主要包括差异表达基因分析、异构体分析、基因共表达网络分析和功能注释等。
其中差异表达基因分析是最为常见的方法,它通过比较不同条件下基因的表达情况,筛选出在不同条件下表达量有显著变化的基因。
三、植物基因组和转录组的应用对植物基因组和转录组的深入研究可以在植物育种和改良方面提供科学依据。
以水稻为例,基因组和转录组的研究揭示了水稻中关键基因的功能和表达调控机制,可以帮助我们更好地理解水稻的生长发育和适应环境的能力,也为水稻的育种和改良提供了新思路。
转录组测序数据分析(有参考基因组)

转录组测序数据分析(有参考基因组)一、数据分析流程二、数据分析内容1. 数据预处理目的:对原始测序数据进行一定程度的过滤。
原理:根据测序接头以及测序质量对原始的测序数据进行预处理,其中,测序质量Q与测序错误E之间的关系如下:结果:对预处理后质量以及碱基分布统计进行统计2. 比对基因组目的:将经过预处理的测序数据与参考基因组进行相似性比对。
原理:Burrower-Wheeler转换算法与splicing比对算法。
1)Burrower-Wheeler转换算法:由于测序数据量非常大,与整条基因组比对所需资源与时间是较为巨大的。
目前,我们采用Burrower-Wheeler(BWT)算法对基因进行建立索引、碱基压缩等过程,这样可以很大程度上加快比对速度,减少比对过程中所需资源。
2)splicing比对算法:即分段比对算法,当某条测序序列位于转录本剪切位点时,也就是这条序列同时属于两个外显子,如果将它与参考基因组进行比对,由于基因组两个外显子之间含有intron区,那么它将无法找到它合适的位置;但是应用分段比对算法就可以将这条测序序列分割变成多段子序列,然后应用这些段子序列与基因组进行比对,这样就可以找到它们真正的位置。
Vps28基因的一个分段比对的结果,蓝线连接的两端即为被分割的子序列,可见此种算法非常的适用于转录组测序。
结果展示:应用比对结果进行一些相关mapping统计,测序饱和度及测序5’,3’ bias统计。
Multi mapping,Unique mapping及Unique gene-body mapping统计。
饱和度分析,当reads达到一定测序量后,基因覆盖率基本达到饱和。
测序3’,5’偏好性统计,测序主要集中于基因bady区,两端偏向性较轻。
3. 基因表达水平研究目的:应用基因组比对结果进行基因定量。
原理:从指定物种基因模型(基因结构)中得到gene、exon、intron以及UTR等位置信息,通过基因组比对结果计算出在不用区域富集片段数目,然后应用RPKM/FPKM标准化公式对富集片段的数量进行归一化。
生物信息学的转录组数据分析

生物信息学的转录组数据分析一、引言转录组是一个生物组织或细胞中所有转录的RNA分子的总和,它反映了基因在特定条件下的表达水平。
转录组数据分析是生物信息学中的一个重要领域,它通过对转录组数据的处理和解读,可以揭示基因的功能和调控机制,以及在疾病发生发展中的作用。
本文将介绍转录组数据分析的基本步骤和方法。
二、数据预处理转录组数据通常以测序的形式存在,因此首先需要进行数据质控和预处理。
数据质控主要包括去除接头序列、低质量序列过滤、去除待测序列污染等步骤,以保证后续分析的准确性和可靠性。
预处理包括剔除低质量碱基、去除接头序列、剪切序列、质量修剪、构建序列库等步骤,以准备分析所需的干净数据。
三、基因表达分析基因表达分析是转录组数据分析的核心内容之一。
它通过比较不同条件下的基因表达水平,揭示基因的差异表达情况。
基因表达分析方法包括差异基因表达分析、基因聚类分析和基因富集分析等。
差异基因表达分析可以筛选出在不同条件下表达显著差异的基因,通过Gene Ontology(GO)和通路富集分析可以进一步了解这些差异基因的功能和相关通路。
四、基因调控网络分析基因调控网络分析是转录组数据分析的另一个重要方面。
它通过挖掘转录因子和靶基因之间的关系,揭示基因调控网络的结构和功能。
基因调控网络分析方法包括共表达网络分析和转录因子-靶基因分析等。
共表达网络分析可以用来发现与特定条件相关的基因模块,而转录因子-靶基因分析可以用来确定重要的转录因子并预测其功能。
五、功能注释与通路分析功能注释和通路分析是转录组数据分析的重要环节。
功能注释用于对差异表达基因进行功能注释,以了解其可能的生物学功能和参与的调控通路。
通路分析则是将差异基因映射到特定通路中,以揭示基因在特定生物学过程中的功能和相互作用关系。
功能注释和通路分析可以辅助我们理解基因调控网络的功能和调控机制。
六、数据可视化数据可视化是转录组数据分析的一个重要环节,它通过图表、散点图、热图等形式展示转录组数据的信息,增强数据分析结果的直观性和可解释性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
亠、生物信息分析流程获得原始测序序列(Sequeneed Reads)后,在有相关物种参考序列或参考 基因组的情况下,通过如下流程进行生物信息分析:原始测序序別测序数据质量评佶切娈剪功分析 新转录△预测1、项目结果说明1原始序列数据高通量测序(如illumina HiSeq TM 2000/MiSeq 等测序平台)测序得到的原 始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequeneed Reads),我们称之为 Raw Data 或 Raw Reads ,结果以 FASTQ(简 称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序 质量信息。
FASTQ 格式文件中每个read 由四行描述,如下:@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT +@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF其中第一行以“ @开头,随后为illumina测序标识符(SequeneeIdentifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“ +”开头, 随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cockr---------------------------------------、RNA-£E 口整体质量评估 基因差异表达分桁蛋口网络互作分析 k ____________ ______ )GO 富集分析KEGCg 集分析et al.)。
illumi na 测序标识符详细信息如下:EAS139 Uni que in strume nt n ame136 Run IDFC706VJ Flowcell ID2 Flowcell la ne2104 Tile n umber with in the flowcell la ne15343 'x'-coord in ate of the cluster within the tile197393 'y'-coordi nate of the cluster within the tile1 Member of a pair, 1 or2 (paired-e nd or mate-pair reads only)Y Y if the read fails filter (read is bad), N otherwise18 0 when none of the control bits are on, otherwise it is an even number ATCACG In dex seque nee第四行中每个字符对应的ASCII值减去33 ,即为对应第二行碱基的测序质量值。
如果测序错误率用 e表示,illumina HiSeq TM2000/MiSeq 的碱基质量值用Q phred表示,则有下列关系:公式一:Q phred = -10lOg 10(e)illumi na Casava 1.8 版本测序错误率与测序质量值简明对应关系如下:测序错误率测序质量值对应字符5% 131% 20 50.1% 30 ?0.01% 40 I2测序数据质量评估2.1 测序错误率分布检查每个碱基测序错误率是通过测序 Phred数值(Phred score, Q phred)通过公式 1转化得到,而Phred数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:illumina Casava 1.8 版本碱基识别与 Phred分值之间的简明对应关系Phred分值不正确的碱基识别碱基正确识别率Q-sorce10 1/10 90% Q1020 1/100 99% Q2030 1/1000 99.9% Q3040 1/10000 99.99% Q40测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。
对于RNA-seq技术,测序错误率分布具有两个特点:(1) 测序错误率会随着测序序列(Sequeneed Reads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumi na 高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jia ng et al.) 。
(2) 前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。
所以推测前6个碱基测序错误率较高的原因为随机引物和 RNA模版的不完全结合(Jiang et al.)。
测序错误率分布检查用于检测在测序长度范围内,有无异常的碱基位置存在高错误率,比如中间位置的碱基测序错误率显著高于其他位置。
一般情况下,每个碱基位置的测序错误率都应该低于 0.5%。
图2.1 测序错误率分布图横坐标为reads的碱基位置,纵坐标为单碱基错误率Error rate dislribuLion along reads (HSl JPosiLorr alortg reads2.2 GC 含量分布检查GC 含量分布检查用于检测有无 AT 、GC 分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。
在 illumina 测序平台的转录组测序中,反转录成 cDNA 时所用的 6bp 的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。
而这种偏好性与测序的物种和实验室环境无关,但会影响转录组测序的均一化程度 (Hansen et al.) 。
除此之外,理论上 G 和 C 碱基及 A 和 T 碱基含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。
对于 DGE 测序来说,由于随机引物扩增偏差等原因,常常会导致在测序得到的每个 read 前 6-7 个碱基有较大的波动,这种波动属于正常情况。
T 11111II1 1fl 4060 00 WO 120 140 160 18CPosition along reads图2.2 GC 含量分布图横坐标为reads 的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型2.3 测序数据过滤测序得到的原始测序序列,里面含有带接头的、低质量的 reads ,为了保证 信息分析质量,必须对raw reads 进行过滤,得到clean reads ,后续分析都 基于 clean readsBases content along reads (HS1)O■2窗BqO C ①olo d数据处理的步骤如下:⑴去除带接头(adapter)的reads ;⑵去除N(N表示无法确定碱基信息)的比例大于10%的reads ;⑶去除低质量reads。
TM RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeqRNA and DNA Sample Prep Kits) 信息:RNA 5 ' Adapter (RA5), part # 150132055' -AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT- 3'RNA 3 ' Adapter (RA3), part # 15013207 :5' -GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6 _位index)ATCTCGTATGCCGTCTTCTGCTTG- 3'Classification of Raw Reads (HS1)图2.3 原始数据过滤结果2.4 测序数据质量情况汇总表2.4 数据产出质量情况一览表Clean Reads [35175205. 96.16%) Containing N (15020, 0.04%) Low Qualrty (1212560. 3 31 %) Adapter Related (176803, 0.48%)SampleRaw readsClean n ame reads clea n Error GCQ20(%) Q30(%)bases rate(%) con te nt(%)HS1_ _1 36579608 35175205 3.52G 0.03 97.88 92.88 49.39 HS1_ _2 36579608 35175205 3.52G 0.03 96.50 90.38 49.59 HS2 1 36547734 35119463 3.51G 0.03 97.85 92.81 49.53数据质量情况详细内容如下:(1) Raw reads :统计原始序列数据,以四行为一个单位,统计每个文件的测序序列的个数。
⑵Clean reads :计算方法同 Raw Reads,只是统计的文件为过滤后的测序数据。
后续的生物信息分析都是基于Clean reads。
⑶Clean bases :测序序列的个数乘以测序序列的长度,并转化为以G为单位。
⑷Error rate :通过公式1计算得到。
⑸Q20、Q30 :分别计算Phred数值大于20、30的碱基占总体碱基的百分比。
⑹GC content :计算碱基G和C的数量总和占总的碱基数量的百分比。
3参考序列比对分析测序序列定位算法:根据不同的基因组的特征,我们选取相对合适的软件(动植物用TopHat(Trapnell et al., 2009) 、真菌或者基因密度较高的物种用Bowtie),合适的参数设置(如最大的内含子长度,会根据已知的该物种的基因模型来进行统计分析),将过滤后的测序序列进行基因组定位分析。
下图为TopHatTophat 的算法主要分为两个部分:(1) 将测序序列整段比对到外显子上。
(2) 将测序序列分段比对到两个外显子上。
我们统计了实验所产生的测序序列的定位个数 (Total Map ped Reads) 及其 占clean reads 的百分比,其中包括多个定位的测序序列个数(MultipleMapped Reads)及其占总体(clean reads )的百分比,以及单个定位的测序序 列个数(Uniquely Mapped Reads) 及其占总体(clean reads )的百分比。
3.1 Reads 与参考基因组比对情况统计的算法示意图:■严生于E SL 的測序序列un 产生于测序=>氐中1,E “胆的连按区壇測序片段将■测序序列81段比対到?卜显子上(氐彌Hud Uappin^ )将测序序列分段比刘到两个外显子上(Juncticin Keads Mapp me )TopHat 外显子优先定位算法Eson.-flist MappingRNA■ KI 口表3.1 Reads与参考基因组比对情况一览表Sample n ame HS1 HS2 HT1 HT2 HW1 HW2Total reads 70350410 70238926 76161678 50666084 46573662 4054311860529821 60232484 63555439 43461327 40246848 34971284Total mapped(86.04%) (85.75%) (83.45%) (85.78%) (86.42%) (86.26%)Multiple 606556 633575 714678 450156 389470 335509mapped (0.86%) (0.9%) (0.94%) (0.89%) (0.84%) (0.83%)Uni quely 59923265 59598909 62840761 43011171 39857378 34635775mapped (85.18%) (84.85%) (82.51%) (84.89%) (85.58%) (85.37%) 30176973 29987004 31592931 21654629 20028779 17411209 Read-1(42.9%) (42.69%) (41.48%) (42.74%) (43%) (43.02%)29746292 29611905 31247830 21356542 19828599 17224566 Read-2(42.28%) (42.16%) (41.03%) (42.15%) (42.57%) (42.35%)Reads map to 29930036 29783311 31409912 21476601 19923501 17289330 '+' (42.54%) (42.4%) (41.24%) (42.39%) (42.78%) (42.61%)Reads map to 29993229 29815598 31430849 21534570 19933877 173464451 1 (42.63%) (42.45%) (41.27%) (42.5%) (42.8%) (42.76%)Non-splice 42357242 42528691 45227757 31347392 28062847 24725216 reads (60.21%) (60.55%) (59.38%) (61.87%) (60.25%) (61.1%)17566023 17070218 17613004 11663779 11794531 9910559Splice reads(24.97%) (24.3%) (23.13%) (23.02%) (25.32%) (24.26%)Reads mapped 53795182 54428240 56181352 38524314 36101400 31246362in proper(76.47%) (77.49%) (73.77%) (76.04%) (77.51%) (77.25%)pairs比对结果统计详细内容如下:(1) Total reads :测序序列经过测序数据过滤后的数量统计 (Clean data) <⑵Total map ped :能定位到基因组上的测序序列的数量的统计;一般情况下,如果不存在污染并且参考基因组选择合适的情况下,这部分数据的百分比大于70%。