注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

测序数据分析之专家指南  

2011-10-12 11:48:54|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

转载自生物通 Sep.2011

测序确实是越来越快,也越来越便宜了。随着个人型测序仪的不断上市,许多实验室也跃跃欲试,准备开展这方面的研究。然而,前辈告诉我们,测序并不难,真正困难的工作是数据分析。

目前有不少用于基因组装配和比对的程序和算法,但是该选哪一个呢?许多序列分析的专家认为,这取决于基因组的大小、读取有多长,以及采用的是哪种测序技术。通常,软件还需要优化,以满足每个实验室的独特需求。

为了让大家更好地开展数据分析,《Genome Technology》杂志特邀了一些这方面的专家,与大家分享他们在数据分析方面的经验。通过他们的一问一答,希望您也能从中受益。

Q1:您使用哪个基因组装配或比对软件,为什么?

Inna Dubchak(美国能源部联合基因组研究所)

我们设计了一个名为VISTA的计算系统,它融合了长基因组序列的不同比对 算法。不同项目需要不同的算法,如AVID适合精确序列或序列草图的整体两两比对,LAGAN适合精确序列的整体两两比对或多个比对,而Shuffle- LAGAN适合精确序列的glocal两两比对,因为它检测重排。

Jim Kent(加州大学圣克鲁兹分校)

我们自己比较少做基因组装配。我们主要是从装配好的基因组开始的。关于比 对,我们使用BLAT进行一个物种内的RNA/DNA比对及其他比对,使用blastz和lastz进行物种之间的两两比对,并用axtChain和 chain-Net进一步处理。关于多个比对,我们正在用multiz,但也在试一些新软件。

Ian Korf(加州大学戴维斯分校)

因为我们运行Assemblathon竞争,所以我们运行多个装配和比对程序。每一个都有自己的优势和劣势。事实上,我们也不知道哪个更好。有时候有的程序更方便。

Li-jun Ma(马萨诸塞大学)

我所做的大部分基因组装配都是利用Arachne或AllPath完成的, 它们是由Broad开发的。选择这些装配工具的主要原因是,它们是由Broad研究院的软件工程师经过多年艰苦工作而开发的。它们是可靠的工具。它们已经 通过很多基因组的多个数据组形式检验过,这些基因组大小不同,性质各异。它们很复杂,但非常可靠。现在,我们也使用Velvet来装配Illumina的 数据组。它使用简单,运行快。

Bud Mishra(纽约大学)

我们是一个生物信息学小组,致力于开发新的装配、碱基检出和比对工具。我们 的目标是让这些工具以一种与技术无关的方式共同工作,得到准确的结果,以便更好地进行全基因组关联研究(GWAS)。基于这些目的,我们主要关注一种碱基 检出工具TotalReCaller和一种装配工具SUTTA。为了比较,我们也与其他序列装配和比对工具共同使用:SOAPdenovo、Abyss、 CABOG、Velvet、TIGR、Arachne等开放工具以及Illumina开发的Bustrad、Ibis、Rolexa、BayesCall 等。根据我们的经验,对于高覆盖度的Illumina序列,可从Illumina的Bustrad碱基检出开始,然后用SOAPdenovo或 Allpaths来装配读取,之后可能还要确认。今后,一种更加一体化的方法将把Illumina的序列和光学图谱与TotalReCaller和 SUTTA结合起来,得到基因型或单体型序列。

Mihai Pop(马里兰大学)

这个问题可没什么标准答案。它取决于实际的应用。对于短读取的快速严格比 对,我使用Bowtie。对于没那么严格的长读取,我使用MUMmer。这个选择主要是基于习惯和对这些工具的熟悉程度。对于装配,我也依靠多个工具,同 样取决于实际应用。对于Sanger或454读取,我使用Celera Assembler,而Newbler对于454数据也非常好,而短序列我会使用SOAPdenovo或Velvet。我通常对那些unitigging 使用这些装配工具,生成相对保守的contig。然后,我使用自己的工具Bambus,掺入mate-pair信息或其他相关信息。我使用Bambus是 因为我能更好控制装配工具实际产生的。大部分现代装配工具只生成一个FASTA文件,抛弃了读取在哪里比对的信息。在很多应用(如宏基因组学)中,这个信 息才是真正有用的。

Steven Salzberg(约翰霍普金斯大学医学院)

我们使用6个主要的基因组装配工具包:CABOG(之前称为Celera Assembler)、SOAPdenovo、the AMOS package、Allpaths-LG、Velvet,以及我们最近开始用的SGA。对于比对,我只能回答新一代DNA序列读取与参考基因组的比对,我 使用Bowtie(我们小组开发的)。如果读取代表了RNA-Seq实验中的RNA,我们使用TopHat来比对,并用Cufflinks来装配和定量转 录本。

Robert Settlage(弗吉尼亚生物信息学研究所)

我们都使用了多个工具。装配一般使用Velvet、Newbler、 Abyss、SSAKE、CLCBio,而比对也同样使用了多个工具。我们特别喜欢使用Velvet,它使装配明显加速。CLCBio也很好,是少数几个 能够在单次装配中使用短读取和长读取的装配工具之一。我们不依赖单个工具的理由是,目前没有一个工具是完美的。

Q2:您采用哪种方法进行多个序列比对?

Inna Dubchak(美国能源部联合基因组研究所)

我们对长达2 Mb的基因组序列使用LAGAN,对完整的基因组装配使用Shuffle-LAGAN算法的全基因组延伸。

Ian Korf(加州大学戴维斯分校)

我们一般似乎用T-COFFEE,有时也用DIALIGN或CLUSTALW。

Bud Mishra(纽约大学)

我们的工具是为单体型和宏基因组学设计的,但仍在开发中。

Mihai Pop(马里兰大学)

我的研究中并不常使用多序列比对工具。我发现CLUSTALW是一个很好的 程序,它灵活、高效且准确,尤其对于DNA比对。在装配中,Celera Assembler、Newbler、AMOS及一些旧的装配算法产生了共装配序列的严格比对。对于包含非常相似序列的大数据组,如16S研究,传统的多 比对方法不太好,我使用DNAclust和Uclust等工具来产生序列的“星号”比对。

Steven Salzberg(约翰霍普金斯大学医学院)

对于快速的多序列比对,例如不同物种的20个蛋白比对,我个人使用 MUSCLE程序,我已经用了很多年。如果问题是全基因组多序列比对,如10个完整的细菌染色体相互比对,我会使用我之前的博士生Sam Anguioli开发的MUGSY程序。这是个相当好的程序,也是开源的。

Q3:您如何优化原始数据,以便获得最佳的装配或比对结果?

Inna Dubchak(美国能源部联合基因组研究所)

我们的比对方法最适合装配好的数据。原始数据最好由局部比对程序来处理。

Li-jun Ma(马萨诸塞大学)

质量过滤是关键的一步。我们总是过滤原始读取,除去低质量的读取,修剪接头序列,并除去修剪后非常短的读取。

Bud Mishra(纽约大学)

TotalReCaller使用原始强度测序数据和参考序列来改善碱基检 出,并优化比对结果。既然它使用参考序列,那么似乎不适合de novo序列装配;然而,在近期Giuseppe Narzisi的博士论文中,作者表明通过boot-strap方法,TotalReCaller和SUTTA联合可显著改善装配质量。

Mihai Pop(马里兰大学)

我主要依靠错误修剪工具,如fastx toolkit。有时我也使用错误纠正工具,但我担心在某些情况下,这些工具可能引入错误。我个人倾向于抛弃可疑的序列,即便它们占据了相当的比例,而不 是试图纠正错误。例如,在16S研究中,我抛弃那些有一个含糊代码或者太短的序列,通常我会抛弃25-30%的数据。测序成本正变得足够低,且通量足够 高,我们可以承受这些浪费。

Steven Salzberg(约翰霍普金斯大学医学院)

我们经常花费大量精力来修剪载体和低质量序列,这取决于任务。对于全基因组 测序项目,我们运行错误纠正软件(如Quake)来修复错误的碱基检出。一些基因组装配工具干得很好,自己能除去低质量的数据或纠正错误,但另一些不行。 如果读取是配对的,且片段足够短,配对读取能够重叠,那么我们运行另一个程序,在装配之前将这些配对片段融合成更长的序列。

Robert Settlage(弗吉尼亚生物信息学研究所)

我们的首选方法是猛烈的修剪。如果它看似个接头,去掉。如果它质量有疑问,去掉。通常我们有足够的读取,因此最好猛烈一点。我们之后常将数据补回,看它是否分辨了一些模棱两可。

Q4:确认装配或比对准确性的最佳方法是什么?

Inna Dubchak(美国能源部联合基因组研究所)

这是个很难的问题。通常我们使用基因组覆盖度统计数字,并与其他确立的比对方法比较。

Jim Kent(加州大学圣克鲁兹分校)

对于装配:与已知参考基因组比较(如果有的话),检查mRNA/基因组比对,或检查配对读取相对基因组的比对。

Ian Korf(加州大学戴维斯分校)

这是个很难的问题。我们通常不知道正确的答案。对基因组的一部分测序可能非 常有用。另一个有用的方法是寻找如高度保守的基因或长转录本。对于序列比对,它取决于你所作的搜索类型。主要有两种搜索,我称之为定位(mapping) 和探索(exploring)。在定位序列时,一条序列与另一条序列是相同,或几乎相同的。例如,开展ChIP-seq分析,你需要将读取定位回参考序 列。你希望比对是相同的,但如果它们有一些错误或多态性也能接受。如果有一些完美比对,你认为比对是准确的。在探索远亲关系时,比如寻找蛋白的同源物,错 配和缺口是意料之中的。如果你的序列是已知蛋白家族的一部分,你的确认策略应当包括,比对与家族的其他成员相符合,也就是说,该家族的保守部分在两两比对 中也同样保守。

Li-jun Ma(马萨诸塞大学)

确认装配准确性的方法包括:1)将装配定位到染色体或连锁图上;2)将装配与任何已知序列比较,如PCR产物、基因、粘粒、BAC或质粒的序列;3)如有必要,PCR扩增你有疑问的基因组区域,以确认装配的准确性。

Bud Mishra(纽约大学)

由于SUTTA是为自我确认而设计的,它在装配过程中不断验证。我们也开发 了一种新的度量办法,称为Feature-Response Curve,它能捕获contig覆盖之间的交换,以及不同的准确性特征。最近,我们还设计了新的统计学分析工具,能更好地了解各个传统特征之间的关系, 并捕获这些特征的核心结构。

Steven Salzberg(约翰霍普金斯大学医学院)

准确性有很多内部和外部的测定。如果使用的话,外部测定非常有用,我指的是 与真正的基因组比较。有时这不可能,但对于已知物种如人的重装配,我们还是能够检查。内部测定包括mate-pair距离、配对读取的方向,和覆盖深度。 我们检查这些参数。我的同事Adam Phillippy、Mike Schatz,和Mihai Pop在2008年开发了一个“assembly QC”的工具包,它包含了一些非常有用的软件工具,来检查装配的有效性。

  评论这张
 
阅读(1550)| 评论(1)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016