注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

ClustalW、ClustalX介绍及最新版下载地址  

2010-06-04 15:23:50|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://liucheng.name/387/

 

Clustal的使用 http://blog.sina.com.cn/s/blog_4a215df70100g9tx.html
 1.Clustalx
 2.Clustalw
序列同源性分析:
     是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;
Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。
CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。

Clustalx的工作界面(多序列比对模式)

多序列比对与Clustal的使用(一)

Clustalx的工作界面(剖面(profile)比对模式)

多序列比对与Clustal的使用(一)

Clustal的工作原理

Clustal输入多个序列>>>快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。>>>邻接法(NJ)构建一个树(引导树)>>>根据引导树,渐进比对多个序列。

Clustal的应用
1.输入输出格式。
输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。

输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。

2.两种工作模式。
   a.多序列比对模式。
   b.剖面(profile)比对模式。

3.一个实际的例子。
输入文件的格式(fasta):

>KCC2_YEAST
 NYIFGRTLGAGSFGVVRQARKLSTN……
>DMK_HUMAN
 DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….
>KPRO_MAIZE
 TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……
>DAF1_CAEEL
QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……
>1CSN
 HYKVGRRIGEGSFGVIFEGTNLLNN……

第一步:输入序列文件。

多序列比对与Clustal的使用(一)

第二步:设定比对的一些参数。

多序列比对与Clustal的使用(一)

参数设定窗口。

多序列比对与Clustal的使用(一)

 第三步:开始序列比对。

多序列比对与Clustal的使用(一)

 

多序列比对与Clustal的使用(一)

 

第四步:比对完成,选择保存结果文件的格式

多序列比对与Clustal的使用(二)多序列比对与Clustal的使用(二)

Clustalw的使用(一)

 

多序列比对与Clustal的使用(二)

Clustalw还提供了命令调用形式的使用方式,方便于批处理过程,下面是一个典型的执行多序列比对的clustalw命令:

$ ./clustalw –infile=dna.fa –type=dna –gapopen=10 –gapext=2 –output=gcg –outfile=align.gcg -align

EBI提供的在线clustalw服务
http://www.ebi.ac.uk/clustalw/

多序列比对与Clustal的使用(二)

可以在这里得到更多关于clustal的帮助:
http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html

 


Clustal 命令行

http://wanguan2000.blog.ubuntu.org.cn/2009/03/page/2/

         Clustal的基本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序的一部分,Clusal可以输出用于构建进化树的数据。

 

         Clustal程序有许多版本,ClustalW(Thompson等,1994),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变异性。

  ClustalX-是CLUSTAL多重序列比对程序的Windows版本。Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。

下列网站提供在线ClustalW服务:

http://align.genome.jp/ (推荐)

http://www.ebi.ac.uk/Tools/clustalw/

http://www.ch.embnet.org/software/ClustalW.html

http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_clustalw.html

http://clustalw.ddbj.nig.ac.jp/top-e.html

ClustalW、ClustalX最新版本下载,目前最新版本为2.0.11,有WIN版本和Linux版本:

http://www.clustal.org/download/current/

EMBL的下载地址:

 ftp://ftp.ebi.ac.uk/pub/software/clustalw2/

参考文献:
Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins DG.
(2007). Clustal W and Clustal X version 2.0. Bioinformatics, 23, 2947-2948.

有点相关的文章
本文详细出处参考:http://liucheng.name/387/

 

clustalw 命令行

clustalw -INFILE=myfile.seqs -GAPOPEN=2 -GAPEXT=4 -OUTPUTTREE=nj

clustalw -INFILE=2.txt -OUTPUTTREE=nj -TYPE=PROTEIN

DATA (sequences)

-INFILE=file.ext :input sequences.
-PROFILE1=file.ext and -PROFILE2=file.ext :profiles (old alignment).

VERBS (do things)

-OPTIONS :list the command line parameters
-HELP or -CHECK :o utline the command line params.
-ALIGN :do full multiple alignment
-TREE :calculate NJ tree.
-BOOTSTRAP(=n) :bootstrap a NJ tree (n= number of bootstraps; def. = 1000).
-CONVERT :o utput the input sequences in a different file format.

PARAMETERS (set things)

***General settings:****
-INTERACTIVE :read command line, then enter normal interactive menus
-QUICKTREE :use FAST algorithm for the alignment guide tree
-NEGATIVE :protein alignment with negative values in matrix
-OUTFILE= :sequence alignment file name
-OUTPUT= :GCG, GDE, PHYLIP or PIR
-OUTORDER= :INPUT or ALIGNED
-CASE :LOWER or UPPER (for GDE output only)
-SEQNOS= :OFF or ON (for Clustal output only)

***Fast Pairwise Alignments:***
-KTUPLE=n :word size -TOPDIAGS=n :number of best diags.
-WINDOW=n :window around best diags. -PAIRGAP=n :gap penalty
-SCORE :P ERCENT or ABSOLUTE

***Slow Pairwise Alignments:***
-PWMATRIX= :P rotein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-PWDNAMATRIX= :D NA weight matrix=IUB, CLUSTALW or filename2
-PWGAPOPEN=f :gap opening penalty -PWGAPEXT=f :gap extension penalty

***Multiple Alignments:***
-NEWTREE= :file for new guide tree
-USETREE= :file for old guide tree
-MATRIX= :P rotein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-DNAMATRIX= :D NA weight matrix=IUB, CLUSTALW or filename
-GAPOPEN=f :gap opening penalty -GAPEXT=f :gap extension penalty
-ENDGAPS :no end gap separation pen. -GAPDIST=n :gap separation pen. range
-NOPGAP :residue-specific gaps off -NOHGAP :hydrophilic gaps off
-HGAPRESIDUES= :list hydrophilic res. -MAXDIV=n :% ident. for delay
-TYPE= :P ROTEIN or DNA -TRANSWEIGHT :transitions weighted.

***Profile Alignments:***
-PROFILE :Merge two alignments by profile alignment
-NEWTREE1= :file for new guide tree for profile1
-NEWTREE2= :file for new guide tree for profile2
-USETREE1= :file for old guide tree for profile1
-USETREE2= :file for old guide tree for profile2

***Sequence to Profile Alignments:***
-SEQUENCES :Sequentially add profile2 sequences to profile1 alignment
-NEWTREE= :file for new guide tree
-USETREE= :file for old guide tree

***Structure Alignments:***
-NOSECSTR1 :do not use secondary structure-gap penalty mask for profile 1
-NOSECSTR2 :do not use secondary structure-gap penalty mask for profile 2
-SECSTROUT= :STRUCTURE or MASK or BOTH or NONE output in alignment file
-HELIXGAP=n :gap penalty for helix core residues
-STRANDGAP=n :gap penalty for strand core residues
-LOOPGAP=n :gap penalty for loop regions
-TERMINALGAP=n :gap penalty for structure termini
-HELIXENDIN=n :number of residues inside helix to be treated as terminal
-HELIXENDOUT=n :number of residues outside helix to be treated as terminal
-STRANDENDIN=n :number of residues inside strand to be treated as terminal
-STRANDENDOUT=n:number of residues outside strand to be treated as terminal

***Trees:***
-OUTPUTTREE=nj OR phylip OR dist
-SEED=n :seed number for bootstraps.
-KIMURA :use Kimura’s correction. -TOSSGAPS :ignore positions with gaps.

  评论这张
 
阅读(9518)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016