注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

转录组(transcriptome RNA-Seq) 拼接构建UniGene  

2013-12-26 22:42:35|  分类: 生信分析软件 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
http://boyun.sh.cn/bio/?p=1839

RNA-seq对于两个处理样本进行分别测序,现在需要比对这两个测序结果的差别,使用CAP3,仍然是一个不错的选择。另外一个用途就是对于不断增加的转录组数据进行拼接,建立UniGene。事实上,可以用TGICL(集成了CAP3)或者GICL http://compbio.dfci.harvard.edu/tgi/software/(更高级一些)。

也可以用CD-HIT http://www.bioinformatics.org/cd-hit/ http://blog.sciencenet.cn/blog-54276-466940.html

对于 Trintity组装的结果,你也可以取一组中最长的转录本代表Unigene,怎么做这要看研究什么问题。

根据我们的研究试验,用最长的转录本注释后,结果好多要找的功能基因,根本没有找到。用TGICL或者CAP3聚类的转录本注释后,要找的基因,全部都能找到。所以,我推荐用各个样品分别组装,然后再用TGICL聚类。

Cap3简介

Huang, X. 和 Madan, A 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:

  • 利用正反向进行拼接,更正拼接错误、连接 contigs。
  • 应用 reads 的质量信息。
  • 自动截去 reads5`端、3`端的低质量区。
  • 产生 Consed 程序可读的 ace 格式。
  •  CAP3 能用于 Staden 软件包的中的 GAP4 软件。

下载安装

下载地址http://seq.cs.iastate.edu/cap3.html。根据自己的操作系统和CPU类型(Inter或者AMD ),Opterron processor (AMD公司),下载相应版本,解压后,就可以使用。

CAP3 详细参考文档可见http://deepc2.psi.iastate.edu/aat/cap/capdoc.html

使用说明

程序运行命令行:

cap3  <dna-file in fasta format> [options] >cap3.out

输入 序 列 是 普 通 的 FASTA 格 式 , 如 果 序 列 文 件 名 为 “ xyz ” , 则 质 量 文 件 应 命 名 为“xyz.qual”,约束文件应命名为“xyz.con”。在命令行中只需输入序列文件,程序会自动在
相应的目录中寻找相应的质量文件和约束文件。

“xyz”格式如下:

>Sequence1
 ACGTGCGCGATCGCCTGCTAGGCGTACGTCGCAGGCGATCGATGTGCTAGATCAGATGACA
 >Sequence2
 GGGCTAGATTAGCACCACATACATCGCTCA

“xyz.qual”格式如下:

 >R1
 6  8  8  8 15 17  17 17 12 12  20 20 29 31 34 34 38 38 40 40 49  49 37 33 33
 33 33 30 31 24 24  34 45 45 45  45 38 38 38 45 40 40 40 40 40 40  40 40 40 40
 33 33 33 33 33 33 40  37 40 40  45 45 45 40 40 40 45 45 45 45 49 49  49 49 45
 40 43 43 43  40 40 40 37 40 49 49 40 40 37 37  37 42 45 40
 49 45 45 45 45 40
 36 36 36 36 33 33  27 27 21 19  19 27 33 33 34 36 36 36 36 38 36  36 40 33 35
 >R2
 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98
 37 37 37 37 37 37 37 37 37 37 37 37 37 34 34 34 34 37 37 37 37 34 34 37 38
 34 37 34 37 37 37 37 37 45 37 37 37 37 37 37 37 40 37 37 32 45 41 45 45 41

Cap3设计的时候,其主要测序工具是377或者3730,测序前首先需要建立克隆文库,然后针对每个文库进行测序,测序可以分为两种,单向测序与双向测序,约束文件主要是让程序哪些是双向测序, 属于同一个克隆,插入片段的大小区间,这就为拼接提供了更多的依据。如果不知道这个情况,恐怕很难理解,这个约束文件。现在都是二代测序。所以这个文件完全是可选的。

约束文件xyz.con,每一行都以如下格式:

 ReadA ReadB MinDistance MaxDistance

其中“ReadA”和“ReadB”是两个 reads 的名称;“MinDistance”、“MaxDistance”是
最小、最大距离(bp)。 约束文件*.con 可由此软件包中的 formcon 程序生成,用法:

formcon [序列文件] [最小长度] [最大长度]

此处最小、最大长度指克隆的长度限制,单位为 bp。克隆长度限制要与插入片段长度相差
1000bp 到 1500bp 左右,如:插入片段为 2kb 到 3kb,建议 500 为克隆最小长度,4000 为克隆最大长度。输入的序列文件中一对正反向的 reads 名称在第一个句点前要保持相同。

输出文件格式:

  • 1. xyz.cap.ace: ace 格式文件,注意:reads 的 5`、3`的低质量区没有被显示在 ace 格式中。
  • 2. xyz.cap.contigs:生成的 contigs 序列文件。
  • 3. xyz.cap.contigs.qual:生成的 contigs 质量文件。
  • 4. xyz.cap.singlets:没有用于拼接的 reads 文件。
  • 5. xyz.cap.info:关于拼接的额外信息文件。
  • 6. cap3.out:拼接的结果文件。

参数选项(默认值):

$ ./cap3
VersionDate: 10/15/07
Usage: ./cap3 File_of_reads [options]

File_of_reads is a file of DNA reads in FASTA format

If the file of reads is named 'xyz', then
the file of quality values must be named 'xyz.qual',
and the file of constraints named 'xyz.con'.
Options (default values):
  -a  N  specify band expansion size N > 10 (20)
  -b  N  specify base quality cutoff for differences N > 15 (20)
  -c  N  specify base quality cutoff for clipping N > 5 (12)
  -d  N  specify max qscore sum at differences N > 20 (200)
  -e  N  specify clearance between no. of diff N > 10 (30)
  -f  N  specify max gap length in any overlap N > 1 (20)
  -g  N  specify gap penalty factor N > 0 (6)
  -h  N  specify max overhang percent length N > 2 (20)
  -i  N  specify segment pair score cutoff N > 20 (40)
  -j  N  specify chain score cutoff N > 30 (80)
  -k  N  specify end clipping flag N >= 0 (1)
  -m  N  specify match score factor N > 0 (2)
  -n  N  specify mismatch score factor N < 0 (-5)   -o  N  specify overlap length cutoff > 15 (40)
  -p  N  specify overlap percent identity cutoff N > 65 (90)
  -r  N  specify reverse orientation value N >= 0 (1)
  -s  N  specify overlap similarity score cutoff N > 250 (900)
  -t  N  specify max number of word matches N > 30 (300)
  -u  N  specify min number of constraints for correction N > 0 (3)
  -v  N  specify min number of constraints for linking N > 0 (2)
  -w  N  specify file name for clipping information (none)
  -x  N  specify prefix string for output file names (cap)
  -y  N  specify clipping range N > 5 (100)
  -z  N  specify min no. of good reads at clip pos N > 0 (3)
  • -a   N   specify band expansion size N > 10 (20)
  • -b   N   specify base quality cutoff for differences N > 15 (20)
  • -c   N   去除低质量时的质量值 N > 5 (12)
  • -d   N   specify max qscore sum at differences N > 20 (200)
  • -e   N   specify clearance between no. of diff N > 10 (30)
  • -f    N   重叠部分最大 gap 长度 N > 1 (20)
  • -g   N   gap 罚分 N > 0 (6)
  • -h   N   specify max overhang percent length N > 2 (20)
  • -m  N  比对分值 N > 0 (2)
  • -n   N  不匹配的分值 N < 0 (-5)
  • -o   N   specify overlap length cutoff > 20 (40)
  • -p   N   specify overlap percent identity cutoff N > 65 (80)
  • -r    N   specify reverse orientation value N >= 0 (1)
  • -s   N   specify overlap similarity score cutoff N > 400 (900)
  • -t    N   匹配得最大长度 N > 30 (300)
  • -u   N   用于修正得最小约束数目 N > 0 (3)
  • -v   N   用于连接得最小约束数目 N > 0 (2)
  • -w  N   序列去除信息的文件名 (none)
  • -x   N   输出文件名称的前缀 (cap)
  • -y   N   去除碱基范围 N > 5 (100)
  • -z   N   specify min no. of good reads at clip pos N > 0 (3)

实例

运行命令 cap3 xyz.fa > cap3.out

参考:

  评论这张
 
阅读(3843)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016