Clustal的使用 http://blog.sina.com.cn/s/blog_4a215df70100g9tx.html
序列同源性分析:
Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。
CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
Clustalx的工作界面(多序列比对模式)
Clustalx的工作界面(剖面(pro
Clustal的工作原理
Clustal输入多个序列>>>快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。>>>邻接法(NJ)构建一个树(引导树)>>>根据引导树,渐进比对多个序列。
Clustal的应用
1.输入输出格式。
输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。
输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。
2.两种工作模式。
3.一个实际的例子。
输入文件的格式(fasta):
>KCC2_YEAST
>DMK_HUMAN
>KPRO_MAIZE
>DAF1_CAEEL
QIRLTGRVGSGRFGNVSRGDYRGE
>1CSN
第一步:输入序列文件。
第二步:设定比对的一些参数。
参数设定窗口。
第四步:比对完成,选择保存结果文件的格式
Clustalw的使用(一)
Clustalw还提供了命令调用形式的使用方式,方便于批处理过程,下面是一个典型的执行多序列比对的clustalw命令:
$ ./clustalw –infile=dna.fa –type=dna –gapopen=10 –gapext=2 –output=gcg –outfile=align.gcg -align
EBI提供的在线clustalw服务
http://www.ebi.ac.uk/clustalw/
可以在这里得到更多关于clustal的帮助:
http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html
Clustal 命令行
http://wanguan2000.blog.ubuntu.org.cn/2009/03/page/2/
Clustal的基本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序的一部分,Clusal可以输出用于构建进化树的数据。
Clustal程序有许多版本,ClustalW(Thompson等,1994),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变异性。
ClustalX-是CLUSTAL多重序列比对程序的Windows版本。Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。
下列网站提供在线ClustalW服务:
http://www.ebi.ac.uk/Tools/clustalw/
http://www.ch.embnet.org/software/ClustalW.html
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_clustalw.html
http://clustalw.ddbj.nig.ac.jp/top-e.html
ClustalW、ClustalX最新版本下载,目前最新版本为2.0.11,有WIN版本和Linux版本:
http://www.clustal.org/download/current/
EMBL的下载地址:
ftp://ftp.ebi.ac.uk/pub/software/clustalw2/
参考文献:
Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins DG.
(2007). Clustal W and Clustal X version 2.0. Bioinformatics, 23, 2947-2948.
有点相关的文章
本文详细出处参考:http://liucheng.name/387/
clustalw 命令行
clustalw -INFILE=myfile.seqs -GAPOPEN=2 -GAPEXT=4 -OUTPUTTREE=nj
clustalw -INFILE=2.txt -OUTPUTTREE=nj -TYPE=PROTEIN
DA
-INFILE=file.ext :input sequences.
-PRO
VERBS (do things)
-OPTIONS :list the command line parameters
-HELP or -CHECK utline the command line params.
-ALIGN :do full multiple alignment
-TREE :calculate NJ tree.
-BOOTSTRAP(=n) :bootstrap a NJ tree (n= number of bootstraps; def. = 1000).
-CONVERT utput the input sequences in a different file format.
PARAMETERS (set things)
***General settings:****
-INTERACTIVE :read command line, then enter normal interactive menus
-QUICKTREE :use FAST algorithm for the alignment guide tree
-NEGATIVE :protein alignment with negative values in matrix
-OUTFILE= :sequence alignment file name
-OUTPUT= :GCG, GDE, PHYLIP or PIR
-OUTORDER= :INPUT or ALIGNED
-CASE :LOWER or UPPER (for GDE output on
-SEQNOS= :OFF or ON (for Clustal output on
***Fast Pairwise Alignments:***
-KTUPLE=n :word size -TOPDIAGS=n :number of best diags.
-WINDOW=n :window around best diags. -PAIRGAP=n :gap penalty
-SCORE ERCENT or ABSOLUTE
***Slow Pairwise Alignments:***
-PWMATRIX= rotein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-PWDNAMATRIX= NA weight matrix=IUB, CLUSTALW or filename2
-PWGAPOPEN=f :gap opening penalty -PWGAPEXT=f :gap extension penalty
***Multiple Alignments:***
-NEWTREE= :file for new guide tree
-USETREE= :file for old guide tree
-MATRIX= rotein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-DNAMATRIX= NA weight matrix=IUB, CLUSTALW or filename
-GAPOPEN=f :gap opening penalty -GAPEXT=f :gap extension penalty
-ENDGAPS :no end gap separation pen. -GAPDIST=n :gap separation pen. range
-NOPGAP :residue-specific gaps off -NOHGAP :hydrophilic gaps off
-HGAPRESIDUES= :list hydrophilic res. -MAXDIV=n :% ident. for delay
-TYPE= ROTEIN or DNA -TRANSWEIGHT :transitions weighted.
***Pro
-PRO
-NEWTREE1= :file for new guide tree for pro
-NEWTREE2= :file for new guide tree for pro
-USETREE1= :file for old guide tree for pro
-USETREE2= :file for old guide tree for pro
***Sequence to Pro
-SEQUENCES :Sequentially add pro
-NEWTREE= :file for new guide tree
-USETREE= :file for old guide tree
***Structure Alignments:***
-NOSECSTR1 :do not use secondary structure-gap penalty mask for pro
-NOSECSTR2 :do not use secondary structure-gap penalty mask for pro
-SECSTROUT= :STRUCTURE or MASK or BOTH or NONE output in alignment file
-HELIXGAP=n :gap penalty for helix core residues
-STRANDGAP=n :gap penalty for strand core residues
-LOOPGAP=n :gap penalty for loop regions
-TERMINALGAP=n :gap penalty for structure termini
-HELIXENDIN=n :number of residues inside helix to be treated as terminal
-HELIXENDOUT=n :number of residues outside helix to be treated as terminal
-STRANDENDIN=n :number of residues inside strand to be treated as terminal
-STRANDENDOUT=n:number of residues outside strand to be treated as terminal
***Trees:***
-OUTPUTTREE=nj OR phylip OR dist
-SEED=n :seed number for bootstraps.
-KIMURA :use Kimura’s correction. -TOSSGAPS :ignore positions with gaps.
评论