云之南

风声，雨声，读书声，声声入耳；家事，国事，天下事，事事关心

日志

关于我

云之南

专业背景：计算机科学研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

文章分类

新版BLAST+进行生物序列同源性检索使用

2010-04-29 19:35:20| 分类：生物信息学 | 标签： |举报 |字号大中小订阅

下载LOFTER 我的照片书 |

http://biflife.blog.163.com/blog/static/139815582201031393851149/

安装BLAST+

在前面的文章已经提过了如何安装BLAST+ （http://biflife.blog.163.com/blog/static/1398155822010220393975/），这里再介绍一个绿色版的安装，从NCBI FTP下载ncbi-blast-2.2.23+-ia32-win32.tar.gz文件下载地址：ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.23/，然后解压到任意位置，例如D:\Bif下面，进入解压后的文件夹内的bin目录（在我电脑上是D:\Bif\ncbi-blast-2.2.23+\bin），可以看到已经编译好的BLAST+程序了，见图 1。启动Windows命令行界面，进入到当前bin目录，输入“blastn help”命令，如果屏幕显示blastn命令参数的帮助信息，则说明程序完好，可以运行，见图 2。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 1 解压后BLAST+文件夹内bin目录下面包含有可执行的各种程序

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 2 运行blastn help命令

BLAST+程序结构

关于BLAST+的主要变化已经在这篇文章中介绍过了，这里主要介绍一下BLAST+中的主要应用程序。最为重要的一个改变就是BLAST+中没有blastall程序了，取而代之的是blastn, blastx, blastp等之前出现在blastall p 参数后面的属性值。图 3标明了新老版本程序的进化关系。

另外需要注意的是，blastn以及blastp新增加了-task参数，可用的值参见图 4。这个参数如同其名称所示，是执行相应任务的，例如，对于短序列，例如探针、引物，则应该选择-task blastn-short。通常情况下，选择-task blastn。因为blastn的参数较多，对于不同的任务（引物序列vs基因组片段）需要选择不同的参数，而普通用户常常不太熟悉这些参数，导致相似性搜索失败。根据不同的任务类型，将其封装起来，形成-task参数，确实是一个大的进步，着实为用户着想。感谢NCBI。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 3 BLAST新老版本程序对应图

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 4 BLAST+中的-task参数可用属性值列表

下载数据库

本地化搜索没有本地数据库是不行的，这篇文章介绍了如何使用update_blastdb.pl下载数据库，但如果电脑使用代理上网的话，就会出现错误导致无法下载。建议还是直接到NCBI FTP（ftp://ftp.ncbi.nih.gov/）上下载数据库，使用lftp (Linux)或者迅雷（没试过）还可以多线程下载，用update_blastdb.pl下载比较慢。

作为测试，本文下载了人类的mRNA数据库，下载地址是：ftp://ftp.ncbi.nih.gov/refseq/H_sapiens/mRNA_Prot/human.rna.fna.gz 。解压后存放在 D:\Bif\test目录下。

格式化数据库

Blastn要求格式化好的数据库，从NCBI ftp站点下载下来的fasta格式的数据库不能直接使用，需要使用makeblastdb程序来格式化，命令如下（图 5）：

D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\makeblastdb.exe” -in human.rna.fna -parse_seqids -hash_index -dbtype nucl

-in参数后面接将要格式化的数据库，-parse_seqids, -hash_index两个参数一般都带上，主要是为blastdbcmd取子序列时使用，-dbtype nucl告诉程序这是核酸数据库,默认为蛋白 prot。

注意：BLAST+2.2.24中这个参数不要加 -parse_seqids，不然成死循环

makeblastdb -in nr -parse_seqids -hash_index -dbtype prot

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 5 格式化数据库

准备自己的查询序列

BLAST+系列程序均要求查询序列以fasta格式存在，fasta格式已经程序事实上的序列标准被广泛采用，几乎所有的序列处理程序都要求fasta格式。所谓FASTA格式是指DNA序列第一行开始于一个标识符：">"，紧接着（没有空格）是对该序列的唯一描述（即ID），然后一个空格，接着是对该序列的描述（也可以没有），从第二行开始就是一行行的序列，中间的空格，换行没有影响。为了方便阅读，每一行序列最好不要超过80个字母。详细的说明请看着这里http://biocompute.bmi.ac.cn/MPprimer/Fasta_help.html 。

本文准备了fasta格式的人源NGB mRNA序列，见图 6。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 6 Fasta格式的人源NGB mRNA序列

运行blastn (BLAST+)

当一切都准备好之后，运行blastn就非常简单了，命令如下：

D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\blastn.exe” -task blastn -query NGB.rna -db human.rna.fna out NGB_blast.txt

-task blastn：任务类型，前面已有描述；

-query NGB.rna：查询序列，必须是fasta格式；

-db human.rna.fna：格式化好的查询数据库；

-out NGB_blast.txt：结果输出文件，见图 8；

其他参数请使用blastn help查阅。

另外新版blastn还有一个可以定制输出结果的参数-outfmt，有了这个参数，BioPerl、 Biopython中的blast解析器就可以不必使用了。这确实又是BLAST+新版另外一个最大的提高，非常非常方便。本人的一些工作就依赖于BLAST结果的解析，有了这个参数，就不需要解析BLAST结果了，确实很好很强大。具体如何使用，各位可以摸索一下，非常简单。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 7 运行blastn程序

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 8 blastn结果文件示例

其他

完整的BLAST+说明文档请参阅解压后的BLAST+目录/doc文件夹下的NCBI-BLAST-user_manual.pdf文件。

本文引用地址：http://biflife.blog.163.com/blog/static/1398155822010313938

评论这张

转发至微博

阅读(3449)| 评论(3)

历史上的今天

this.p={  m:2,
              b:2,
              loftPermalink:'',
              id:'fks_080070083095087074085087087095085094087074093087083071',
              blogTitle:'新版BLAST+进行生物序列同源性检索使用',
              blogAbstract:'  <P style=\"TEXT-INDENT: 2em;\"  \> </P\>  <P style=\"TEXT-INDENT: 2em;\"  \><A href=\"http://biflife.blog.163.com/blog/static/139815582201031393851149/\"  \>http://biflife.blog.163.com/blog/static/139815582201031393851149/</A\></P\>  <P style=\"TEXT-INDENT: 2em;\"  \>安装BLAST+</P\>  <P style=\"TEXT-INDENT: 2em;\"  \>在前面的文章已经提过了如何安装BLAST+ （http://biflife.blog.163.com/blog/static/1398155822010220393975/），这里再介绍一个绿色版的安装，从NCBI FTP下载ncbi-blast-2.2.23+-ia32-win32.tar.gz文件 下载地址：<A rel=\"nofollow\" href=\"ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.23/\"  \>ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.23/</A\>，然后解压</P\>',
              blogTag:'',
              blogUrl:'blog/static/18699154201032973520753',
              isPublished:1,
              istop:false,
              type:0,
              modifyTime:1317057318426,
              publishTime:1272540920753,
              permalink:'blog/static/18699154201032973520753',
              commentCount:3,
              mainCommentCount:2,
              recommendCount:0,
              bsrk:-100,
              publisherId:0,
              recomBlogHome:false,
              currentRecomBlog:false,
              attachmentsFileIds:[],
              vote:{},
              groupInfo:{},
              friendstatus:'none',
              followstatus:'unFollow',
              pubSucc:'',
              visitorProvince:'',
              visitorCity:'',
              visitorNewUser:false,
              postAddInfo:{},
              mset:'000',
              mcon:'',
              srk:-100,
              remindgoodnightblog:false,
              isBlackVisitor:false,
              isShowYodaoAd:true,
              hostIntro:'专业背景：计算机科学                           \n\n研究方向与兴趣: JavaEE-Web软件开发,\n生物信息学, 数据挖掘与机器学习, 智能信息系统                                                                \n目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学',
              hmcon:'1',
              selfRecomBlogCount:'0',
              lofter_single:'<iframe width="140" height="560" style="overflow:hidden;" src="http://www.lofter.com/mailEntry.do?blogad=1&blog" frameBorder="0"></iframe>'
            }

{list a as x}
    {if !!x}
    <div class="iblock nbw-fce nbw-f40">
      <a class="fc03 noul" target="_blank" hidefocus="true" href="http://blog.163.com/${x.visitorName}/">
      {if x.visitorName==visitor.userName}
      <img alt="${x.visitorNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.visitorName)}&r=${visitor.imageUpdateTime}"/>
      {else}
      <img alt="${x.visitorNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.visitorName)}"/>
      {/if}
      </a>
      <div class="cwd vname thide">
        {if x.moveFrom=='wap'}
          <a class="noul pnt" target="_blank" href="http://blog.163.com/services/wapblog.html?frompersonalbloghome"><span title="来自网易手机博客" class="iblock wapIcon"> </span></a>
        {elseif x.moveFrom=='iphone'}
          <a class="noul pnt" target="_blank"><span title="来自iPhone客户端" class="iblock iphoneIcon"> </span></a>
        {elseif x.moveFrom=='android'}
          <a class="noul pnt" target="_blank"><span title="来自Android客户端" class="iblock androidIcon"> </span></a>
        {elseif x.moveFrom=='mobile'}
          <a class="noul pnt" target="_blank" href="http://blog.163.com/services/emsblog.html?frompersonalbloghome"><span title="来自网易短信写博" class="iblock wapIcon"> </span></a>
        {/if}
        <a class="fc03 m2a"  target="_blank" hidefocus="true" href="http://blog.163.com/${x.visitorName}/">
          ${fn(x.visitorNickname,8)|escape}
        </a>
      </div>
    </div>
    {/if}
    {/list}

<#--最新日志，群博日志--> <#--推荐日志-->

<p class="fc06">推荐过这篇日志的人：</p>
    <div>
      {list a as x}
      {if !!x}
      <div class="iblock nbw-fce nbw-f40">
        <a class="fc03 noul" target="_blank" hidefocus="true" href="http://blog.163.com/${x.recommenderName}/">
        <img alt="${x.recommenderNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.recommenderName)}"/>
        </a>
        <div class="cwd thide">
          <a class="fc03 m2a" target="_blank" hidefocus="true" href="http://blog.163.com/${x.recommenderName}/">
            ${fn(x.recommenderNickname,6)|escape}
          </a>
        </div>
      </div>
      {/if}
      {/list}
    </div>
    {if !!b&&b.length>0}
    <p  class="fc06">他们还推荐了：</p>
    <ul>
    {list b as y}
      {if !!y}
        <li class="rrb"><span class="iblock">·</span><a class="fc03 m2a" target="_blank" href="http://blog.163.com/${y.recommendBlogPermalink}/?from=blog/static/18699154201032973520753">${y.recommendBlogTitle|escape}</a></li>
      {/if}
    {/list}
    </ul>
    {/if}

<#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇，下一篇--> <#-- 热度 -->

{list a as x}
    {if !!x}
    <div class="hotItem iblock nbw-fce nbw-f40">
      <a class="fc03 noul" target="_blank" hidefocus="true" href="http://blog.163.com/${x.publisherUsername}/">
      {if x.publisherUsername==visitor.userName}
      <img alt="${x.publisherNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.publisherUsername)}&r=${visitor.imageUpdateTime}"/>
      {else}
      <img alt="${x.publisherNickname|escape}" onerror="this.src=location.f40" class="cwd bdwa bdc0" src="${fn1(x.publisherUsername)}"/>
      {/if}
      </a>
      <div class="cwd vname thide">
        <a class="fc03 m2a"  target="_blank" hidefocus="true" href="http://blog.163.com/${x.publisherUsername}/">
          ${fn(x.publisherNickname,8)|escape}
        </a>
      </div>
      <a class="f-myLikeIcons hottype {if x.type==1} js-liketype{elseif x.type==2} js-reblogtype{elseif x.type==3} js-sharetype{else}{/if}" target="_blank" hidefocus="true" href="http://blog.163.com/${x.publisherUsername}/"> </a>
    </div>
    {/if}
    {/list}

<#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->

页脚

我的照片书 - 手机博客 - 下载LOFTER APP - 订阅此博客

云之南

导航

日志

新版BLAST+进行生物序列同源性检索使用

历史上的今天

最近读者

热度

评论

页脚