登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

新版BLAST+进行生物序列同源性检索使用  

2010-04-29 19:35:20|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

http://biflife.blog.163.com/blog/static/139815582201031393851149/

安装BLAST+

在前面的文章已经提过了如何安装BLAST+ (http://biflife.blog.163.com/blog/static/1398155822010220393975/),这里再介绍一个绿色版的安装,从NCBI FTP下载ncbi-blast-2.2.23+-ia32-win32.tar.gz文件 下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.23/,然后解压到任意位置,例如D:\Bif下面,进入解压后的文件夹内的bin目录(在我电脑上是D:\Bif\ncbi-blast-2.2.23+\bin),可以看到已经编译好的BLAST+程序了,见图 1。启动Windows命令行界面,进入到当前bin目录,输入“blastn help”命令,如果屏幕显示blastn命令参数的帮助信息,则说明程序完好,可以运行,见图 2。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 1 解压后BLAST+文件夹内bin目录下面包含有可执行的各种程序

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 2 运行blastn help命令

BLAST+程序结构

关于BLAST+的主要变化已经在这篇文章中介绍过了,这里主要介绍一下BLAST+中的主要应用程序。最为重要的一个改变就是BLAST+中没有blastall程序了,取而代之的是blastn, blastx, blastp等之前出现在blastall p 参数后面的属性值。图 3标明了新老版本程序的进化关系。

另外需要注意的是,blastn以及blastp新增加了-task参数,可用的值参见图 4。这个参数如同其名称所示,是执行相应任务的,例如,对于短序列,例如探针、引物,则应该选择-task blastn-short。通常情况下,选择-task blastn。因为blastn的参数较多,对于不同的任务(引物序列vs基因组片段)需要选择不同的参数,而普通用户常常不太熟悉这些参数,导致相似性搜索失败。根据不同的任务类型,将其封装起来,形成-task参数,确实是一个大的进步,着实为用户着想。感谢NCBI。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 3 BLAST新老版本程序对应图

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 4 BLAST+中的-task参数可用属性值列表

下载数据库

本地化搜索没有本地数据库是不行的,这篇文章介绍了如何使用update_blastdb.pl下载数据库,但如果电脑使用代理上网的话,就会出现错误导致无法下载。建议还是直接到NCBI FTP(ftp://ftp.ncbi.nih.gov/)上下载数据库,使用lftp (Linux)或者迅雷(没试过)还可以多线程下载,用update_blastdb.pl下载比较慢。

作为测试,本文下载了人类的mRNA数据库,下载地址是:ftp://ftp.ncbi.nih.gov/refseq/H_sapiens/mRNA_Prot/human.rna.fna.gz 。解压后存放在 D:\Bif\test目录下。

格式化数据库

Blastn要求格式化好的数据库,从NCBI ftp站点下载下来的fasta格式的数据库不能直接使用,需要使用makeblastdb程序来格式化,命令如下(图 5):

D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\makeblastdb.exe” -in human.rna.fna -parse_seqids -hash_index -dbtype nucl

-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype nucl告诉程序这是核酸数据库,默认为蛋白 prot。

注意:BLAST+2.2.24中这个参数不要加 -parse_seqids,不然成死循环

makeblastdb -in nr -parse_seqids -hash_index -dbtype prot

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 5 格式化数据库

准备自己的查询序列

BLAST+系列程序均要求查询序列以fasta格式存在,fasta格式已经程序事实上的序列标准被广泛采用,几乎所有的序列处理程序都要求fasta格式。所谓FASTA格式是指DNA序列第一行开始于一个标识符:">",紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列的描述(也可以没有),从第二行开始就是一行行的序列,中间的空格,换行没有影响。为了方便阅读,每一行序列最好不要超过80个字母。详细的说明请看着这里http://biocompute.bmi.ac.cn/MPprimer/Fasta_help.html 。

本文准备了fasta格式的人源NGB mRNA序列,见图 6。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 6 Fasta格式的人源NGB mRNA序列

运行blastn (BLAST+)

当一切都准备好之后,运行blastn就非常简单了,命令如下:

D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\blastn.exe” -task blastn -query NGB.rna -db human.rna.fna out NGB_blast.txt

-task blastn:任务类型,前面已有描述;

-query NGB.rna:查询序列,必须是fasta格式;

-db human.rna.fna:格式化好的查询数据库;

-out NGB_blast.txt:结果输出文件,见图 8;

其他参数请使用blastn help查阅。

另外新版blastn还有一个可以定制输出结果的参数-outfmt,有了这个参数,BioPerl、 Biopython中的blast解析器就可以不必使用了。这确实又是BLAST+新版另外一个最大的提高,非常非常方便。本人的一些工作就依赖于BLAST结果的解析,有了这个参数,就不需要解析BLAST结果了,确实很好很强大。具体如何使用,各位可以摸索一下,非常简单。

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 7 运行blastn程序

使用新版BLAST+进行生物序列同源性检索 - fhqdddddd - 流浪云南

图 8 blastn结果文件示例

其他

完整的BLAST+说明文档请参阅解压后的BLAST+目录/doc文件夹下的NCBI-BLAST-user_manual.pdf文件。

本文引用地址:http://biflife.blog.163.com/blog/static/1398155822010313938

  评论这张
 
阅读(3439)| 评论(3)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018