注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

HMMER搜索含有特定Motif的蛋白—以大豆NBS-LRR类抗病基因为例  

2013-06-24 13:40:03|  分类: 生信分析软件 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://linxiao.name/archives/406

先 来简单介绍下HMMER,这是个用来搜索同源蛋白的程序,基于隐马尔科夫模型(profile hidden Markov Models, profile HMMs)。比起BLAST, FASTA等传统序列比对和同源搜索工具,HMMER利用的数学模型能够更加准确并且能发现亲缘关系较远的同源体。

下载和说明文档:http://hmmer.janelia.org/

安装方法见:http://boyun.sh.cn/bio/?p=1753

接下来还得介绍下Pfam。这是一个蛋白家族的数据库(http://pfam.janelia.org/)。 它是由两个库够成,Pfam-A和 Pfam-B。Pfam-A质量更高,都经过手工验证,尽管其包含了很大比例的蛋白家族,但是为了覆盖更多的已知蛋白结构,又通过 ADDA(Automatic Domain Decomposition Aligorithm)生成了一个Pfam-B做为补充。Pfam-A还根据相关的蛋白家族生成了一个更高级别的组,叫做Clan。

如果知识想看看你手里的蛋白含有哪些结构域,直接把氨基酸序列贴到网站上查下就好(http://pfam.janelia.org/search/sequence),没必要把整个Pfam库下载到本地(Pfam-A完整的库要1.5GB以上)。以烟草中的N基因(GenBank: AAA50763.1)为例,这是一个典型的TIR类抗病基因,具有TIR, NB-ARC和LRR结构域。

下面以植物抗病NBS-LRR类抗病基因为例介绍如何利用HMMER工具和Pfam库从基因组中调取某一类蛋白家族。

①安装HMMER(见上文)

②下载所需蛋白家族的Pfam文件(以NB-ARC为例),可以在keyword里面直接搜索NB-ARC或者PF00931,然后跳转到如下界面.

点Alignment,下载比对好的文件,记得选择「Stockholm」格式

下好的文件其实就是一个Alignment文件

③构建hmm检索文件,打开命令行输入

> hmmbuild output.hmm input.ann

这步完成了就构建好了用于搜索的hmm文件,如果要用自己蛋白构建特殊的Pfam库也可以自己把比对好的蛋白序列调整好格式进行hmmbuild,具体步骤可以见说明文档。

生成的hmm文件是这样的

④在一个蛋白库里调取所有该家族蛋白,这里以大豆基因组预测出来的所有蛋白为例(下载地址:ftp://ftp.jgi-psf.org/pub/compgen/phytozome/v9.0/Gmax/annotation/

> hmmsearch NB-ARC.hmm Gmax_109_peptide.fa > Gmax-NB-ARC.out

 

⑤生成的.out文件就是大豆蛋白文件中所有含有NB-ARC的蛋白了,如果想要把hmm的输出文件转化成FASTA或者想要把同样名字的cds序列调取出来,还要通过一系列PERL脚本进行,具体方法下回再讲。

  评论这张
 
阅读(2412)| 评论(3)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016