云之南

风声，雨声，读书声，声声入耳；家事，国事，天下事，事事关心

日志

关于我

云之南

专业背景：计算机科学研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

文章分类

测序数据分析之专家指南

2011-10-12 11:48:54| 分类：生物信息学 | 标签： |举报 |字号大中小订阅

下载LOFTER 我的照片书 |

转载自生物通 Sep.2011

测序确实是越来越快，也越来越便宜了。随着个人型测序仪的不断上市，许多实验室也跃跃欲试，准备开展这方面的研究。然而，前辈告诉我们，测序并不难，真正困难的工作是数据分析。

目前有不少用于基因组装配和比对的程序和算法，但是该选哪一个呢？许多序列分析的专家认为，这取决于基因组的大小、读取有多长，以及采用的是哪种测序技术。通常，软件还需要优化，以满足每个实验室的独特需求。

为了让大家更好地开展数据分析，《Genome Technology》杂志特邀了一些这方面的专家，与大家分享他们在数据分析方面的经验。通过他们的一问一答，希望您也能从中受益。

Q1：您使用哪个基因组装配或比对软件，为什么？

Inna Dubchak（美国能源部联合基因组研究所）

我们设计了一个名为VISTA的计算系统，它融合了长基因组序列的不同比对算法。不同项目需要不同的算法，如AVID适合精确序列或序列草图的整体两两比对，LAGAN适合精确序列的整体两两比对或多个比对，而Shuffle- LAGAN适合精确序列的glocal两两比对，因为它检测重排。

Jim Kent（加州大学圣克鲁兹分校）

我们自己比较少做基因组装配。我们主要是从装配好的基因组开始的。关于比对，我们使用BLAT进行一个物种内的RNA/DNA比对及其他比对，使用blastz和lastz进行物种之间的两两比对，并用axtChain和 chain-Net进一步处理。关于多个比对，我们正在用multiz，但也在试一些新软件。

Ian Korf（加州大学戴维斯分校）

因为我们运行Assemblathon竞争，所以我们运行多个装配和比对程序。每一个都有自己的优势和劣势。事实上，我们也不知道哪个更好。有时候有的程序更方便。

Li-jun Ma（马萨诸塞大学）

我所做的大部分基因组装配都是利用Arachne或AllPath完成的，它们是由Broad开发的。选择这些装配工具的主要原因是，它们是由Broad研究院的软件工程师经过多年艰苦工作而开发的。它们是可靠的工具。它们已经通过很多基因组的多个数据组形式检验过，这些基因组大小不同，性质各异。它们很复杂，但非常可靠。现在，我们也使用Velvet来装配Illumina的数据组。它使用简单，运行快。

Bud Mishra（纽约大学）

我们是一个生物信息学小组，致力于开发新的装配、碱基检出和比对工具。我们的目标是让这些工具以一种与技术无关的方式共同工作，得到准确的结果，以便更好地进行全基因组关联研究（GWAS）。基于这些目的，我们主要关注一种碱基检出工具TotalReCaller和一种装配工具SUTTA。为了比较，我们也与其他序列装配和比对工具共同使用：SOAPdenovo、Abyss、 CABOG、Velvet、TIGR、Arachne等开放工具以及Illumina开发的Bustrad、Ibis、Rolexa、BayesCall 等。根据我们的经验，对于高覆盖度的Illumina序列，可从Illumina的Bustrad碱基检出开始，然后用SOAPdenovo或 Allpaths来装配读取，之后可能还要确认。今后，一种更加一体化的方法将把Illumina的序列和光学图谱与TotalReCaller和 SUTTA结合起来，得到基因型或单体型序列。

Mihai Pop（马里兰大学）

这个问题可没什么标准答案。它取决于实际的应用。对于短读取的快速严格比对，我使用Bowtie。对于没那么严格的长读取，我使用MUMmer。这个选择主要是基于习惯和对这些工具的熟悉程度。对于装配，我也依靠多个工具，同样取决于实际应用。对于Sanger或454读取，我使用Celera Assembler，而Newbler对于454数据也非常好，而短序列我会使用SOAPdenovo或Velvet。我通常对那些unitigging 使用这些装配工具，生成相对保守的contig。然后，我使用自己的工具Bambus，掺入mate-pair信息或其他相关信息。我使用Bambus是因为我能更好控制装配工具实际产生的。大部分现代装配工具只生成一个FASTA文件，抛弃了读取在哪里比对的信息。在很多应用（如宏基因组学）中，这个信息才是真正有用的。

Steven Salzberg（约翰霍普金斯大学医学院）

我们使用6个主要的基因组装配工具包：CABOG（之前称为Celera Assembler）、SOAPdenovo、the AMOS package、Allpaths-LG、Velvet，以及我们最近开始用的SGA。对于比对，我只能回答新一代DNA序列读取与参考基因组的比对，我使用Bowtie（我们小组开发的）。如果读取代表了RNA-Seq实验中的RNA，我们使用TopHat来比对，并用Cufflinks来装配和定量转录本。

Robert Settlage（弗吉尼亚生物信息学研究所）

我们都使用了多个工具。装配一般使用Velvet、Newbler、 Abyss、SSAKE、CLCBio，而比对也同样使用了多个工具。我们特别喜欢使用Velvet，它使装配明显加速。CLCBio也很好，是少数几个能够在单次装配中使用短读取和长读取的装配工具之一。我们不依赖单个工具的理由是，目前没有一个工具是完美的。

Q2：您采用哪种方法进行多个序列比对？

Inna Dubchak（美国能源部联合基因组研究所）

我们对长达2 Mb的基因组序列使用LAGAN，对完整的基因组装配使用Shuffle-LAGAN算法的全基因组延伸。

Ian Korf（加州大学戴维斯分校）

我们一般似乎用T-COFFEE，有时也用DIALIGN或CLUSTALW。

Bud Mishra（纽约大学）

我们的工具是为单体型和宏基因组学设计的，但仍在开发中。

Mihai Pop（马里兰大学）

我的研究中并不常使用多序列比对工具。我发现CLUSTALW是一个很好的程序，它灵活、高效且准确，尤其对于DNA比对。在装配中，Celera Assembler、Newbler、AMOS及一些旧的装配算法产生了共装配序列的严格比对。对于包含非常相似序列的大数据组，如16S研究，传统的多比对方法不太好，我使用DNAclust和Uclust等工具来产生序列的“星号”比对。

Steven Salzberg（约翰霍普金斯大学医学院）

对于快速的多序列比对，例如不同物种的20个蛋白比对，我个人使用 MUSCLE程序，我已经用了很多年。如果问题是全基因组多序列比对，如10个完整的细菌染色体相互比对，我会使用我之前的博士生Sam Anguioli开发的MUGSY程序。这是个相当好的程序，也是开源的。

Q3：您如何优化原始数据，以便获得最佳的装配或比对结果？

Inna Dubchak（美国能源部联合基因组研究所）

我们的比对方法最适合装配好的数据。原始数据最好由局部比对程序来处理。

Li-jun Ma（马萨诸塞大学）

质量过滤是关键的一步。我们总是过滤原始读取，除去低质量的读取，修剪接头序列，并除去修剪后非常短的读取。

Bud Mishra（纽约大学）

TotalReCaller使用原始强度测序数据和参考序列来改善碱基检出，并优化比对结果。既然它使用参考序列，那么似乎不适合de novo序列装配；然而，在近期Giuseppe Narzisi的博士论文中，作者表明通过boot-strap方法，TotalReCaller和SUTTA联合可显著改善装配质量。

Mihai Pop（马里兰大学）

我主要依靠错误修剪工具，如fastx toolkit。有时我也使用错误纠正工具，但我担心在某些情况下，这些工具可能引入错误。我个人倾向于抛弃可疑的序列，即便它们占据了相当的比例，而不是试图纠正错误。例如，在16S研究中，我抛弃那些有一个含糊代码或者太短的序列，通常我会抛弃25-30%的数据。测序成本正变得足够低，且通量足够高，我们可以承受这些浪费。

Steven Salzberg（约翰霍普金斯大学医学院）

我们经常花费大量精力来修剪载体和低质量序列，这取决于任务。对于全基因组测序项目，我们运行错误纠正软件（如Quake）来修复错误的碱基检出。一些基因组装配工具干得很好，自己能除去低质量的数据或纠正错误，但另一些不行。如果读取是配对的，且片段足够短，配对读取能够重叠，那么我们运行另一个程序，在装配之前将这些配对片段融合成更长的序列。

Robert Settlage（弗吉尼亚生物信息学研究所）

我们的首选方法是猛烈的修剪。如果它看似个接头，去掉。如果它质量有疑问，去掉。通常我们有足够的读取，因此最好猛烈一点。我们之后常将数据补回，看它是否分辨了一些模棱两可。

Q4：确认装配或比对准确性的最佳方法是什么？

Inna Dubchak（美国能源部联合基因组研究所）

这是个很难的问题。通常我们使用基因组覆盖度统计数字，并与其他确立的比对方法比较。

Jim Kent（加州大学圣克鲁兹分校）

对于装配：与已知参考基因组比较（如果有的话），检查mRNA/基因组比对，或检查配对读取相对基因组的比对。

Ian Korf（加州大学戴维斯分校）

这是个很难的问题。我们通常不知道正确的答案。对基因组的一部分测序可能非常有用。另一个有用的方法是寻找如高度保守的基因或长转录本。对于序列比对，它取决于你所作的搜索类型。主要有两种搜索，我称之为定位（mapping）和探索（exploring）。在定位序列时，一条序列与另一条序列是相同，或几乎相同的。例如，开展ChIP-seq分析，你需要将读取定位回参考序列。你希望比对是相同的，但如果它们有一些错误或多态性也能接受。如果有一些完美比对，你认为比对是准确的。在探索远亲关系时，比如寻找蛋白的同源物，错配和缺口是意料之中的。如果你的序列是已知蛋白家族的一部分，你的确认策略应当包括，比对与家族的其他成员相符合，也就是说，该家族的保守部分在两两比对中也同样保守。

Li-jun Ma（马萨诸塞大学）

确认装配准确性的方法包括：1）将装配定位到染色体或连锁图上；2）将装配与任何已知序列比较，如PCR产物、基因、粘粒、BAC或质粒的序列；3）如有必要，PCR扩增你有疑问的基因组区域，以确认装配的准确性。

Bud Mishra（纽约大学）

由于SUTTA是为自我确认而设计的，它在装配过程中不断验证。我们也开发了一种新的度量办法，称为Feature-Response Curve，它能捕获contig覆盖之间的交换，以及不同的准确性特征。最近，我们还设计了新的统计学分析工具，能更好地了解各个传统特征之间的关系，并捕获这些特征的核心结构。

Steven Salzberg（约翰霍普金斯大学医学院）

准确性有很多内部和外部的测定。如果使用的话，外部测定非常有用，我指的是与真正的基因组比较。有时这不可能，但对于已知物种如人的重装配，我们还是能够检查。内部测定包括mate-pair距离、配对读取的方向，和覆盖深度。我们检查这些参数。我的同事Adam Phillippy、Mike Schatz，和Mihai Pop在2008年开发了一个“assembly QC”的工具包，它包含了一些非常有用的软件工具，来检查装配的有效性。

评论这张

转发至微博

阅读(1928)| 评论(1)

历史上的今天

this.p={  m:2,
              b:2,
              loftPermalink:'',
              id:'fks_087067086087085064083084087071072087089069093095087070080',
              blogTitle:'测序数据分析之专家指南',
              blogAbstract:'                  <div\><p\>转载自生物通 Sep.2011</p\> <p\><span style=\"font-family: Arial;\"  \>测序确实是越来越快，也越来越便宜了。随着个人型测序仪的不断上市，许多实验室也跃跃欲试，准备开展这方面的研究。然而，前辈告诉我们，测序并不难，真正困难的工作是数据分析。</span\></p\> <p\><span style=\"font-family: Arial;\"  \>目前有不少用于基因组装配和比对的程序和算法，但是该选哪一个呢？许多序列分析的专家认为，这取决于基因组的大小、读取有多长，以及采用的是哪种测序技术。通常，软件还需要优化，以满足每个实验室的独特需求。</span\></p\> <p\><span style=\"font-family: Arial;\"  \>为了让大家更好地开展数据分析，《Genome Technolog</span\></p\></div\>',
              blogTag:'',
              blogUrl:'blog/static/186991542011912114854763',
              isPublished:1,
              istop:false,
              type:0,
              modifyTime:0,
              publishTime:1318391334763,
              permalink:'blog/static/186991542011912114854763',
              commentCount:1,
              mainCommentCount:1,
              recommendCount:1,
              bsrk:-100,
              publisherId:0,
              recomBlogHome:false,
              currentRecomBlog:false,
              attachmentsFileIds:[],
              vote:{},
              groupInfo:{},
              friendstatus:'none',
              followstatus:'unFollow',
              pubSucc:'',
              visitorProvince:'',
              visitorCity:'',
              visitorNewUser:false,
              postAddInfo:{},
              mset:'000',
              mcon:'',
              srk:-100,
              remindgoodnightblog:false,
              isBlackVisitor:false,
              isShowYodaoAd:true,
              hostIntro:'专业背景：计算机科学                           \n\n研究方向与兴趣: JavaEE-Web软件开发,\n生物信息学, 数据挖掘与机器学习, 智能信息系统                                                                \n目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学',
              hmcon:'1',
              selfRecomBlogCount:'0',
              lofter_single:'<iframe width="140" height="560" style="overflow:hidden;" src="http://www.lofter.com/mailEntry.do?blogad=1&blog" frameBorder="0"></iframe>'
            }

{list a as x}
    {if !!x}
    <div class="iblock nbw-fce nbw-f40">
      <a class="fc03 noul" target="_blank" hidefocus="true" href="http://blog.163.com/${x.visitorName}/">
      {if x.visitorName==visitor.userName}
      <img alt="${x.visitorNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.visitorName)}&r=${visitor.imageUpdateTime}"/>
      {else}
      <img alt="${x.visitorNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.visitorName)}"/>
      {/if}
      </a>
      <div class="cwd vname thide">
        {if x.moveFrom=='wap'}
          <a class="noul pnt" target="_blank" href="http://blog.163.com/services/wapblog.html?frompersonalbloghome"><span title="来自网易手机博客" class="iblock wapIcon"> </span></a>
        {elseif x.moveFrom=='iphone'}
          <a class="noul pnt" target="_blank"><span title="来自iPhone客户端" class="iblock iphoneIcon"> </span></a>
        {elseif x.moveFrom=='android'}
          <a class="noul pnt" target="_blank"><span title="来自Android客户端" class="iblock androidIcon"> </span></a>
        {elseif x.moveFrom=='mobile'}
          <a class="noul pnt" target="_blank" href="http://blog.163.com/services/emsblog.html?frompersonalbloghome"><span title="来自网易短信写博" class="iblock wapIcon"> </span></a>
        {/if}
        <a class="fc03 m2a"  target="_blank" hidefocus="true" href="http://blog.163.com/${x.visitorName}/">
          ${fn(x.visitorNickname,8)|escape}
        </a>
      </div>
    </div>
    {/if}
    {/list}

<#--最新日志，群博日志--> <#--推荐日志-->

<p class="fc06">推荐过这篇日志的人：</p>
    <div>
      {list a as x}
      {if !!x}
      <div class="iblock nbw-fce nbw-f40">
        <a class="fc03 noul" target="_blank" hidefocus="true" href="http://blog.163.com/${x.recommenderName}/">
        <img alt="${x.recommenderNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.recommenderName)}"/>
        </a>
        <div class="cwd thide">
          <a class="fc03 m2a" target="_blank" hidefocus="true" href="http://blog.163.com/${x.recommenderName}/">
            ${fn(x.recommenderNickname,6)|escape}
          </a>
        </div>
      </div>
      {/if}
      {/list}
    </div>
    {if !!b&&b.length>0}
    <p  class="fc06">他们还推荐了：</p>
    <ul>
    {list b as y}
      {if !!y}
        <li class="rrb"><span class="iblock">·</span><a class="fc03 m2a" target="_blank" href="http://blog.163.com/${y.recommendBlogPermalink}/?from=blog/static/186991542011912114854763">${y.recommendBlogTitle|escape}</a></li>
      {/if}
    {/list}
    </ul>
    {/if}

<#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇，下一篇--> <#-- 热度 -->

{list a as x}
    {if !!x}
    <div class="hotItem iblock nbw-fce nbw-f40">
      <a class="fc03 noul" target="_blank" hidefocus="true" href="http://blog.163.com/${x.publisherUsername}/">
      {if x.publisherUsername==visitor.userName}
      <img alt="${x.publisherNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.publisherUsername)}&r=${visitor.imageUpdateTime}"/>
      {else}
      <img alt="${x.publisherNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.publisherUsername)}"/>
      {/if}
      </a>
      <div class="cwd vname thide">
        <a class="fc03 m2a"  target="_blank" hidefocus="true" href="http://blog.163.com/${x.publisherUsername}/">
          ${fn(x.publisherNickname,8)|escape}
        </a>
      </div>
      <a class="f-myLikeIcons hottype {if x.type==1} js-liketype{elseif x.type==2} js-reblogtype{elseif x.type==3} js-sharetype{else}{/if}" target="_blank" hidefocus="true" href="http://blog.163.com/${x.publisherUsername}/"> </a>
    </div>
    {/if}
    {/list}

<#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->

页脚

我的照片书 - 手机博客 - 下载LOFTER APP - 订阅此博客

云之南

导航

日志

测序数据分析之专家指南

历史上的今天

最近读者

热度

评论

页脚