注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

基因组gap closer软件:GapFiller  

2015-07-15 15:18:49|  分类: 生信分析软件 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

1. GapFiller简介

组装出来的基因组草图的scaffold需要进一步进行gaps的关闭。进行这样功能的软件有:SOAPdenovo GapCloser v1.12r6; IMAGE; GapFiller.

GapFiller文章发表在Genome Biology上:Boetzer M,Pirovano W. 2012. Toward almost closed genomes with GapFiller. Genome Biol.13:R56

GapFiller需要输入scaffold序列(FASTA)和NGS paired-read数据(FASTA or FASTAQ),输出FASTA格式文件。
2. GapFiller安装

下载GapFiller的安装包,解压缩后,里面包含bowtie、bwa和example共3个文件,其最重要的是GapFiller.pl文件,为主程序。还有2个PDF格式的manual文件。
3. GapFiller的使用

直接运行主程序,会给出软件的参数说明,如下:

    -l library文件

    -s scaffold序列的fasta文件

    -m default:29 和gap边缘重叠的最小碱基数,该数值最好设置比reads的长度小一点点的数。比如36bp长度的reads,设置该值为30~35.

    -o default:2 在补洞时,延伸一个碱基最小需要的reads数.

    -r default:0.7 在补洞时,至少有该比例reads的碱基一致,才能对该碱基位点进行延伸。

    -d default:50 gap部分序列的允许的最大差异。填补gap后,若值“填补上的序列长度 - gap长度”大于该阈值,则停止补洞;若小于该阈值,则不进行融合。

    -n default:10 在一个scaffold中对邻近的两个contigs进行融合所需要最小重叠的碱基数。

    -t default:10 由于gap边缘的碱基大部分是低质量碱基,补洞时需要先将gap边缘该数目的碱基trim掉,作为N处理。

    -i default:10 迭代的最大次数。

    -g default:1 使用bowtie进行比对的时候允许的最大的gap数,和bowtie中的-v参数一致

    -T default:1 运行时使用的线程数

    -S 跳过重新读取输入文件

    -b 输出文件的basename。

 

-l 参数所指向的library文件需要先行编辑好。该文件包含7列,每一列之间以空格(space)隔开.其例子和格式如下:

    Lib1 bwa file1.1.fasta file1.2.fasta 400 0.25 FR

    Lib1 bowtie file2.1.fasta file2.2.fasta 400 0.25 FR

    Lib2 bowtie file3.1.fastq file3.2.fastq 4000 0.5 RF

 

    第1列:library名称

    第2列:使用的序列比对方法,如果reads长度<50,则使用bowtie;若长度>50并<150,则使用bwa;若长度很大,比如454的reads,则使用bwa。BWA和BWA-sw运行在默认模式下。

    第3,4列:双末端测序的fastq文件或fasta文件。

    第5,6列:插入片段的长度,以及承认的长度。比如上例子中插入片段长度为400bp,成对的reads的片段长度只有在[400-400*0.25,400+400*0.25]范围内才被承认。

    第7列:双端测序reads的方向,有FF,FR,RF和RR几种。

4. 例子

编辑一个libraries.txt文件,内容如下:

    Illumina_160bp bwa fragment.reads1.fastq fragment.reads2.fastq 156 0.25 FR

    Illumina_6000bp bwa jumping.reads1.fastq jumping.reads2.fastq 6170 0.25 FR

运行GapFiller程序,如下:
1    $GapFillerHome/GapFiller.pl -l libraries.txt -s genome.fasta -m 90 -T 8 -b species



  评论这张
 
阅读(589)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016