注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

phylobayes构建系统发育树  

2014-12-20 23:38:11|  分类: 生信分析软件 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |


PhyloBayes 算是贝叶斯方法软件的后起之秀,替代模型更为丰富,主要用于基于氨基酸序列的系统发育树构建。
官网地址: 
http://www.phylobayes.org

1、用户目录下安装phylobayes3.3f
:~> cd phylobayes3.3f/sources/
:~/phylobayes3.3f/sources> make

输入格式为.phy格式

2. 如何开始建树

将下面的代码复制到纯文本文件中保存为“pb.sh”

pb -d sequence.phy -nchain 2 100 0.3 50 rnapo4
For example:
The burnin is chosen as 1/5 of the chain's length. Thus:
pb -d brpo.ali -nchain 2 100 0.3 50 rnapol
will run 2 chains in parallel, for a minimum of 500 (5*100) cycles. Then, every 100 cycles, a bpcomp and a
tracecomp between the two chains are automatically done (with a burnin equal to one fifth of the
total length of the chain) and the run stops once all the discrepancies are lower or equal to 0.3 and all
effective sizes are larger than 50.


-nchain <nchain> [<step> <cutoff> <eff_size>]
runs nchain chains in parallel, for a minimum of burnin_factor x step cycles, where
burnin_factor is a parameter equal to 5 by default; then, every step cycles, checks (using
bpcomp and tracecomp) the discrepancy between the two chains and the effective sample sizes, and
stops if this discrepancies are below the specified cutoff, and the effective sample sizes are larger
than the specified eff_size.


-b <burnin_factor>
tunes the burnin-factor parameter. This parameter is is used to define the burnin when checking for the
convergence of independent chains (see -nchain)


其中,sequence.phy为比对好的氨基酸序列,rnapo4为输出文件名, 最终树文件,带有支持率。sequence.phybear.batpb.exe放同一文件夹,双击bear.bat及开始运算。结果中“rnapo4.con.tre”就是最终树文件,带有支持率。

二:

软件介绍: 

PhyloBayes 是贝叶斯蒙特卡罗马尔可夫链(MCMC)采样器利用蛋白质比对系统发育重建。相比于其他的系统发育MCMC采样(例如 MrBayes),PhyloBayes的主要区别特征是底层的概率模型,CAT(Lartillot和Philippe,2004)。 CAT是一个无限的混合模型占站点特定的氨基酸和核苷酸的偏好。它非常适合使用大型多基因比对phylogenomic研究。

安装步骤: 

1、用户目录下安装

tar -xzvf pb_mpi1.5a.tar.gz
:~> cd pb_mpi1.5a/sources/
:~/pb_mpi1.5a/sources> make
 
2、提交作业:mpirun -n 8 pb_mpi -d datafile -cat -gtr chainname

mpirun -n 8 pb_mpi -d datafile -cat -gtr chain1
mpirun -n 8 pb_mpi -d datafile -cat -gtr chain2
bpcomp -x 1000 10 <chain1> <chain2>


  bsub -n 8 mpirun -n 8 ./pb_mpi -cat -mtart -d ~/pb_mpi1.5a/combined_aa.phy ~/pb_mpi1.5a/test/aaa1 &
  bsub -n 8 mpirun -n 8 ./pb_mpi -cat -mtart -d ~/pb_mpi1.5a/combined_aa.phy ~/pb_mpi1.5a/test/aaa2 &


3、比较两个链: 

bpcomp -x 1000 10 <chain1> <chain2>
Here, using a burn-in of 1000, and sub-sampling every 10 trees, the bpcomp program will
output the largest (maxdiff) and mean (meandiff) discrepancy observed across all biparti-
tions. It will also produce a le (bpcomp.con.tre) with the consensus obtained by pooling
all the trees of the chains given as arguments.

-x <burn-in> [<every> <until>]

-x 1000 10 11000,   通常10000到30000收敛,但是要看数据大小。
a burn-in of 1000, taking one every 10 trees, up to the 11 000th point of the chains (or less,
if the chains are shorter). If the chain is long enough, this implies a sample size of 1000.

  bpcomp aaa1 aaa2
查看输出结果:
:~/pb_mpi1.5a/test> bpcomp aaa1 aaa2

initialising random
seed was : 791961

aaa1.treelist : 1630 trees
aaa2.treelist : 3129 trees

maxdiff     : 0.253139
meandiff    : 0.0146816

bipartition list in : bpcomp.bplist
consensus in        : bpcomp.con.tre

Maxdiff<0.1时最好。
 
4、停止:
  stoppb aaa1
  stoppb aaa2
 
5、继续计算:
 bsub -n 8 -m "node44" mpirun -n 8 pb ~/pb_mpi1.5a/test/aaa1 &
 bsub -n 8 -m "node44" mpirun -n 8 pb ~/pb_mpi1.5a/test/aaa2 &

  评论这张
 
阅读(25)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017