高通量数据处理的一些经验和建议

最近一年时间里收到很多同学和朋友关于454数据处理的询问，通过QQ,微信，人人网和

邮件等各种途径，当然不少也是面对面的讨论。这些同学和朋友包括同组的，跨组的，同所的，跨所的，其他大学的，来自北京的、南京的、广州的、西安的，甚至也有国外的中国朋友。有些朋友我素未谋面，也不知长相如何，不知男女。有时候同一天能收到五六份邮件，问题之五花八门，有时已经超越了我所能够解答的范围。

这些现象也反映了当前生物信息学的急剧变革，第二代测序技术就像Iphone 问世一些，彻底席卷和重新定义了当前生态学研究的方法和手段。而几年前费用昂贵的第二代测序如今已“旧时王谢堂前燕，飞入寻常百姓家”，于是乎大潮裹挟之下的硕士生博士生们都想出来耍耍，扔个十几万块钱，希望能够轻松的收获几篇文章。

科研论文的发表讲究“猎奇性”，大家都喜欢看到新奇的方法和漂亮的图表。但我认为这其实也是当今科研界的弊端之一，讲究创新和手段的先进，而忽视了研究的重要性。以微生物生态学的旗舰杂志ISMEJ为例，最近一年多发表的学术论文里，第二代测序技术已经是

寻常方法，所谓第三代的单细胞测序技术也开始出现。研究生物信息学的来自美国科罗拉多的Rob Knight能够作为ISMEJ的高级主编，方法对于微生物生态学研究的重要性可见一斑。

前几天读到阿伯丁大学的James Prosser 教授在Nature 上发表的一篇观点文章“ Think before you sequence “，在这里面他讲到，第二代测序只不过是一个工具而已，我们的研究依旧要从扎扎实实的假设出发，设计实验来解决问题和验证假设。高通量测序并不能弥补实验设计的缺陷。我在阅读文章的过程中也发现，设计合理和完整的实验，即使使用传统的Sanger 测序技术，依旧能够说明和解决问题，并能够发表到高档次期刊上。而如果使用第二代测序技术，但是数据处理有问题，数据质量控制不好，文章也很难得到发表，相当于花钱买罪受。

我从2011 年秋天开始学习454 数据的处理，在学习的起始阶段，能够和师弟袁超磊一起探讨和交流，并且几乎阅读了ISMEJ上所有与第二代测序技术有关的文章，所以能够很快的上手。在此我也对师弟袁超磊表示正式的感谢，祝愿他在阿德雷德大学能吃上可口的饭菜。

很多朋友的问题我未能一一解答，在此也表示歉意。我经历过学习454数据处理的漫长和痛苦的过程，我很清楚有时候一句话或者一段话很难解决所问的问题。去年我自己投出的

文章经历了很多次的拒稿，十几位审稿人和生物信息学家对数据处理提出了建议，现在经过

在悉尼和生物信息学专家的讨论，我也能够更加合理地看待数据处理的问题。摸着石头过河的一些经验和建议，在这里进行分享，希望正在摸索和思考中的你，觉得并不孤单。

1. Mothur 和QIIME 那个软件更好

Mothur 是美国密歇根大学的Patrick Schloss 在2009 年开发的数据处理平台，它的前身是Dothur

软件，相信大家都听说过。这两个软件的发音分别为Mother 和Daughter ，是Dr Parick 献给他的妻子和女儿的。另一个被广泛使用的数据处理平台是QIIME, 也是美国科罗拉多Rob Knight 等人于2009 年开发出来的。截至今天，Mothur 的方法文献已经被引用1229次，而QIIME被引用574次。这说明Mothur比QIIME有更广泛的群众基础。

我刚开始学习使用的就是Mothur, 我个人非常喜欢这个开源的数据处理平台，基本能够实现我的所有数据处理目的。Mothur软件无需安装，在Win dos, Li nix, 和MacOS系统上都

可以运行。我研究了Mothur 每一个中间导出文件的格式和原理，所以我能够将这些中间产生的文件导入其他软件进行处理和做图，比如R语言。很多人不喜欢Mothur，都是因为Mothur

不能够直接出图，必须依赖于其他软件。而这正式我所喜欢的原因，我现在也正在进一步学习R语言，R的做图功能是非常强大的，其实大家平时看到文章上那些非常漂亮的图，大都是R语言做出来的。所以，如果将Mothur和R结合，我认为是一个能正确处理数据并完美

展现数据的途径。除了罗氏454 数据处理之外，Mothur 现在也有了针对Illumina 数据的处理方式，大家从Mothur 的网页上就可以读到Dr. Patick 写的标准数据处理流程。

现在QIIME携苹果电脑的时髦，也得到了很多人的青睐。这个软件我本人没有真正使用

过，但是知道QIIME只能在MacOS和Li nix系统上运行，当然也可以通过在Win dos系统上

安装Virtual Box来运行。这个软件出图的效果比较好，很多人把直接出的图用来发表文章。

我所在的悉尼这边的研究所的生物信息学专家也是用QIIME来处理数据。我就这个软件问题

和他讨论了好多次。基本来说，两个软件都可以帮助我们实现正确的数据处理，并不存在哪个更好的问题，只有个人在使用上的喜好。

我希望你无论使用那个软件，都仔仔细细阅读软件网页上的教程，并熟悉所有的命令。自己一一试试各个命令，合理组合命令，这样才会通过修改命令来正确处理自己的数据。这个过程没人可以帮你，只有你自己能够救赎自己。

2.数据处理难学吗

这是一个我一直以来很想告诉所有人的问题。说实话，那两个软件都很好使用，有标准的处理流程在那里等着你，把所有数据处理下来绝对不超过十天时间。但是，为什么我们几个月甚至一年都拿不下来数据处理

因为数据处理的难点不在于软件的使用，而在于你对微生物生态学基本概念的了解。我认为我们需要在数据处理之前就应该特别清楚的是1) a多样性的各种指标。数据条数的多

少会直接影响a多样性的计算结果，它们之间是正相关关系。所以计算a多样性必须统一序列条数。而我们知道统一序列条数就会舍弃很多条数不足的样品，这个取舍就涉及到很多

的经验问题，需要你阅读很多的文献来了解；2) 3 多样性的表征方式。我研究3多样性的

时候，阅读了很多相关的文献，对Bray-Curtis 指数，UniFrac 等都非常了解。选择能够最好表现你多样性差异的指数，需要花很多很多的汗水。3) 多元统计方法。这个又是更大的难点了，Mothur不会告诉你，QIIME也不会告诉你。你只有去阅读教材，阅读文章，才能弥补这些缺陷。不然你连那些命令都读不懂，还谈什么数据处理，修改命令。4) 文章的构思。这

又是更高一级的知识预储备了。在你的数据处理之前，请阅读所有高质量期刊上的相关文章，至少需要预估计，你可以出哪些图，做哪些分析。其实在数据处理的过程中已经是你不断验证假设和推翻假设的过程。

希望你在数据处理之前踏踏实实地做好这些功课，不然你很难完美运行各个命令。另外，要仔细研究各个软件的原理，做到人机合一的效果。因为有时候软件并不能解决所有问题，比如在alignment 的时候，有时候在部分区域比对效果不好，你需要使用合适的软件打开这些中间文件，手动进行删除，不然会影响后续的多样性计算。所以，你需要把自己练成一台机器。2010 年我做过同位素超高速离心，尽管已经有很多文献可供参考，我当时还是研究了离心机的原理和等密度梯度离心的原理，所以自己就很清楚应当如何优化实验条件，获得最好的数据。

3 细菌和古菌16S 数据和功能基因数据处理的不同

如果你处理的是细菌16S 数据，那么恭喜你，你应该很容易完成数据处理，因为Mothur 和QIIME 都包含了细菌16S 比对和分类的数据库。因为细菌的研究已经非常多，所以分类的效果也很好，未知的类别一般也很少。

如果是古菌16S的话，RDP Greengenes, SILVA等数据库我都用过，分类效果都很差，但是不影响你的多样性分析。因为古菌的纯培养仍然很少，分类问题仍然是处于发展阶段。你基本也可以顺利按照标准流程完成数据处理。

但是功能基因的话，就面临很大很大的难题。如果想测序功能基因的同学，一定要三思而后行，我自己在这方面进行了很多的尝试，虽然知道处理的方式，但是解释起来真的很难。就像我在上面所说的，如果你不了解Mothur和QIIME的文件格式，基本架构，我很难告诉

你怎么去实现自己的目的。所以大家也可以看到，现在发表的关于功能基因测序的文章很少很少。大家基本都是DIY，都是一些很熟悉生物信息学的国外实验室发表的。希望你能认识到功能基因处理的难点1) 第一步是比对alignment ，一开始就做不了。因为没有可供使用的alignment reference 数据库。我的经验是自己做一些，从NCBI 上下载功能基因序列，然后自己通过MUSCL或者ARB比对的很齐，然后作为参比序列；2)分类。这个更难，需要经过alignment之后，分成不同的OTU然后从每个OTU中选择一个代表序列，通过BLAST进行

分类。3)分OTU对于细菌和古菌16S而言，97%弋表species水平，但是功能基因就完全不一样。以氨氧化微生物研究为例，AOA的species-level OTU 应当是87%而AOB应当是

80%所以和16S数据完全不同。

对于必须要做功能基因的同学，我建议可以考虑基因芯片(microarray) 的方法。现在针对pmoA 和amoA基因的基因芯片都已经开发的非常完善，国际合作也不是难题。Microarray

通过设计的探针合理解决了分类的问题，价格比454 测序也便宜，数据处理简单。所以我认为是一种更好的方式。

以上所写，难免有错误之处。我以分享知识为乐趣，也祝各位同学和朋友数据处理顺利。Mothur命令手册-Mothur命令中文解释(一)

这个命令使你计算16S rRNA基因序列中潜在的错配碱基对数目。如果你对ARB的编辑窗口

熟悉的话，这与计算~，#，-和=这些符号的数目相同。用greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令，你必须提供FASTA格式的序列文件。

这个命令把用户提供的FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。

通用的方法是：

1.采用kmer searching ( apps/mediawiki/kmer/title=Main_Page )，blastn 或suffix tree searchi ng找到每个候选序列的最接近模板

2.在候选序列文件和空位模板序列之间进行碱基配对，采用Needleman-Wunsch，Gotoh，或

者blastn算法规则。

3.重新在候选和模板序列对之间插入间隔(空位)，采用NAST算法，这样候选序列就能与

原始模板序列兼容。

我们提供了一些16S和18S基因序列的数据库，这些是与greengenes和SILVA队列兼容的。然而，自定义的任何DNA序列的排列都可以用作模板，所以鼓励用户分享他们的排列供其他人使用。普遍来说，进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中，而且质量像SINA aligner 做的一样好。另外，这个速率可以由多个处理器加倍。

Amova

分子方差分析(Analysis of molecular varianee )是一种传统方差分析的非参数模拟。这种方法被广泛应用在种群遗传学以检测关于两个种群的遗传多样性不是显著不同于由这两个种群的共同联合导致的多样性这样一个假设。

Ano sim

参考文献：Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in commu nity structure. _Australia n Journal of Ecology_ 18, 117-143. 群落结构变化的

非参数多元分析《澳大利亚生态学报》

这个命令输出一个fasta格式的文件，其中序列根据它们所属的OTU进行排序。这样的输出

也许对一个OTU生成特异性引物有帮助，用来对序列进行分类。

Catchall

这个命令使mothur 与Lin da Woodard, Sea n Conn oily 和Joh n Bu nge 开发的catchall 程序连接。获取更多信息，请参看。catchall的可执行程序必须与你的mothur在同一个文件夹

关于mono的链接。

采用Bellerophon方法生成一个挑选的优先嵌合序列的得分列表。

采用Ccode方法。对每个词语，在查询序列和参考序列之间对比距离的差异，以及参考序列

与它们自己。

采用chimeraCheck方法… 注意：从RDP莫型中，这个方法不能决定一个序列是否是嵌合的，但是让你决定那些基于产生的IS值的序列。

查看“查询的序列的左边到它的最近的匹配的距离+查询的右边到它最近的匹配的距离-整

个查询序列到它最近的匹配的距离”，通过多个窗口

这个命令读取并命名一个fasta文件，输出潜在的嵌合序列。

采用Pin tall 方法。在不同的窗口中查询一个序列，查看期望的差异与观察到的差异之间

的不同

这个命令已经被拆分为6个分离的命令。

目前，mothur执行六种方法以确定一个序列是不是嵌合的。如果有一个你喜欢看到的算法可以实施，请考虑一下或者贡献给mothur项目，或者联系开发者，我们将会考虑我们能做

什么。

这个命令读取一个fasta文件和参照文件，并输出潜在的嵌合序列。原始算法的开发者建议采用一个特殊的模版参照（例如，gold ）。我们用silva参照文件提供silva-based 排列

的数据库。你将需要在blast/bin 文件夹中有megablast和formatdb可执行文件的拷贝，

这里blast文件夹与mothur可执行程序相邻。megablast/formatdb 的版本可以在这里

2.2.25，或者它们就包含在mothur的程序版本中。

高通量测序NGS数据分析中的质控

高通量测序错误总结一、生信分析部分 1）Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%，错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%，错误率为1%。对于整个数据来说，我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中，背景颜色沿y-轴将坐标图分为3个区：最上面的绿色是碱基质量很好的区，Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区，Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中，比如以检查差异表达为目的的RNA-seq分析，一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中，一般要求碱基质量要在Q30以上。一般来说，测序质量分数的分布有两个特点： 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高，质量值相对较低。在图中这个例子里，左边的数据碱基质量很好，而右边的数据碱基质量就比较差，需要做剪切（trimming），根据生信分析的目的不同，要将质量低于Q20或者低于Q30的碱基剪切掉。 2）序列的平均质量这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值，纵坐标代表序列数量。通过序列的平均质量报告，我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说，当绝大部分碱基序列的平均质量值的峰值大于30，可以判断序列质量较好。如这里左边的图，我们可以判断样品里没有显着数量的低质量序列。但如果曲线如右边的图所示，在质量较低的坐标位置出现另外一个或者多个峰，说明测序数据中有一部分序列质量较差，需要过滤掉。 3）GC含量分布这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的GC含量。将样品序列的GC 含量和理论的GC含量分布图进行比较，用来检测样品数据是否有污染等问题。理论上，GC含量大致是正态分布，正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分布，如右图出现两个或者多个峰值，表明测序数据里可能有其他来源的DNA序列污染，或者有接头序列的二聚体污染。这种情况下，需要进一步确认这些污染序列的来源，然后将污染清除。 4）序列碱基含量

高通量数据处理的一些经验和建议

高通量数据处理的一些经验和建议最近一年时间里收到很多同学和朋友关于454数据处理的询问，通过QQ，微信，人人网和邮件等各种途径，当然不少也是面对面的讨论。这些同学和朋友包括同组的，跨组的，同所的，跨所的，其他大学的，来自北京的、南京的、广州的、西安的，甚至也有国外的中国朋友。有些朋友我素未谋面，也不知长相如何，不知男女。有时候同一天能收到五六份邮件，问题之五花八门，有时已经超越了我所能够解答的范围。这些现象也反映了当前生物信息学的急剧变革，第二代测序技术就像Iphone问世一些，彻底席卷和重新定义了当前生态学研究的方法和手段。而几年前费用昂贵的第二代测序如今已“旧时王谢堂前燕，飞入寻常百姓家”，于是乎大潮裹挟之下的硕士生博士生们都想出来耍耍，扔个十几万块钱，希望能够轻松的收获几篇文章。科研论文的发表讲究“猎奇性”，大家都喜欢看到新奇的方法和漂亮的图表。但我认为这其实也是当今科研界的弊端之一，讲究创新和手段的先进，而忽视了研究的重要性。以微生物生态学的旗舰杂志ISMEJ为例，最近一年多发表的学术论文里，第二代测序技术已经是寻常方法，所谓第三代的单细胞测序技术也开始出现。研究生物信息学的来自美国科罗拉多的Rob Knight能够作为ISMEJ的高级主编，方法对于微生物生态学研究的重要性可见一斑。前几天读到阿伯丁大学的James Prosser教授在Nature上发表的一篇观点文章“Think before you sequence“，在这里面他讲到，第二代测序只不过是一个工具而已，我们的研究依旧要从扎扎实实的假设出发，设计实验来解决问题和验证假设。高通量测序并不能弥补实验设计的缺陷。我在阅读文章的过程中也发现，设计合理和完整的实验，即使使用传统的Sanger 测序技术，依旧能够说明和解决问题，并能够发表到高档次期刊上。而如果使用第二代测序技术，但是数据处理有问题，数据质量控制不好，文章也很难得到发表，相当于花钱买罪受。我从2011年秋天开始学习454数据的处理，在学习的起始阶段，能够和师弟袁超磊一起探讨和交流，并且几乎阅读了ISMEJ上所有与第二代测序技术有关的文章，所以能够很快的上手。在此我也对师弟袁超磊表示正式的感谢，祝愿他在阿德雷德大学能吃上可口的饭菜。很多朋友的问题我未能一一解答，在此也表示歉意。我经历过学习454数据处理的漫长和痛苦的过程，我很清楚有时候一句话或者一段话很难解决所问的问题。去年我自己投出的文章经历了很多次的拒稿，十几位审稿人和生物信息学家对数据处理提出了建议，现在经过在悉尼和生物信息学专家的讨论，我也能够更加合理地看待数据处理的问题。摸着石头过河的一些经验和建议，在这里进行分享，希望正在摸索和思考中的你，觉得并不孤单。 1. Mothur和QIIME那个软件更好?

高通量测序数据分析-环境样品数据处理方法

环境微生物群落多样性分析 QQ空间新浪微博腾讯微博微信更多71微生物群落多样性的基本概念环境中微生物的群落结构及多样性和微生物的功能及代谢机理是微生物生态学的研究热点。长期以来，由于受到技术限制，对微生物群落结构和多样性的认识还不全面，对微生物功能及代谢机理方面了解的也很少。但随着高通量测序、基因芯片等新技术的不断更新，微生物分子生态学的研究方法和研究途径也在不断变化。第二代高通量测序技术（尤其是Roche 454高通量测序技术）的成熟和普及，使我们能够对环境微生物进行深度测序，灵敏地探测出环境微生物群落结构随外界环境的改变而发生的极其微弱的变化，对于我们研究微生物与环境的关系、环境治理和微生物资源的利用以及人类医疗健康有着重要的理论和现实意义。在国内，微生物多样性的研究涉及农业、土壤、林业、海洋、矿井、人体医学等诸多领域。以在医疗领域的应用为例，通过比较正常和疾病状态下或疾病不同进程中人体微生物群落的结构和功能变化，可以对正常人群与某些疾病患者体内的微生物群体多样性进行比较分析，研究获得人体微生物群落变化同疾病之间的关系；通过深度测序还可以快速地发现和检测常见病原及新发传染病病原微生物。研究方法进展环境微生物多样性的研究方法很多，从国内外目前采用的方法来看大致上包括以下四类：传统的微生物平板纯培养方法、微平板分析方法、磷脂脂肪酸法以及分子生物学方法等等。近几年，随着分子生物学的发展，尤其是高通量测序技术的研发及应用，为微生物分子生态学的研究策略注入了新的力量。目前用于研究微生物多样性的分子生物学技术主要包括:DGGE/TGGE/TTGE、T-RFLP、SSCP、FISH、印记杂交、定量PCR、基因芯片等。DGGE等分子指纹图谱技术，在其实验结果中往往只含有数十条条带，只能反映出样品中少数优势菌的信息；另一方面，由于分辨率的误差，部分电泳条带中可能包含不只一种 16S rDNA序列，因此要获悉电泳图谱中具体的菌种信息，还需对每一条带构建克隆文库，并筛选克隆进行测序，此实验操作相对繁琐；此外，采用这种方法无法对样品中的微生物做到绝对定量。生物芯片是通过固定在芯片上的探针来获得微生物多样性的信息，“只能验证已知，却无法探索未知”，此方法通过信号强弱判断微生物的丰度也不是非常的准确。而近年来以454焦磷酸测序为代表的高通量测序技术凭借低成本、高通量、流程自动化的优势为研究微生物群落结构提供了新的技术平台。Roche 454高通量测序技术能同时对样品中的优势物种、稀有物种及一些未知的物种进行检测，获得样品中的微生物群落组成，并将其含量进行数字化。最近，美吉生物推出了新的测序平台———MiSeq。MiSeq高通量测序平台集中了Roche 454和Illumina HiSeq 2500的优点，不仅可实现