登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

短序列组装Sequence Assembly  

2010-02-04 17:17:14|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://blog.sina.com.cn/s/blog_4af3f0d20100fq5i.html

 

短序列组装(Sequence assembly)几乎是近年来next-generation sequencing最热门的话题。简单来说,就是把基因组长长的序列打断(shotgun sequencing),因为我们不知道基因组整条序列是如何排列(成一条链,最后成为一条染色体)组合(如何区分不同染色体)的,而我们又无法实现一次把整条长序列完整测序(现在有单子测序可能是一个新的sunlight)。然后,我们通过算法,计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列。

就好比我们有这样一句话:

    it is just a hypothesis, so don't be seriously!

    假设,我们现在不知道这句话到底是什么,就像我们有一个box,我们抽到一张纸,但没打开,我们把这张纸撕成pieces,当然可能还发生了变化,所有的空格和标点都消失了(魔术!)我们得到:

    itis ypo stah the sodo eriou siss ju ntbes sly……

    因为我们测了几次,为了增加覆盖度,这样我们能通过高覆盖度而提高置信度:

    itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju……

    另外,我们又发明了一种称作为paired-ends的序列测序方法,即两头定长,中间插入片段一定的序列,像这样:

    iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly ……

    这样我们根据如下图的方法,我们可以把这句话拼回来:

     itisjustahypothesissodontbeseriously

但它不是最终结果,我们根据我们的现有的语法习惯,我们给它们加上空格(gap)和标点(遗漏的关键东西),我们能够还原原话!

第一:介绍一下组装的方法:

方法一:对序列进行组装,如果是重测序,可以用MAQ进行组装:Map to reference genome

方法二:如果是对新物种进行(de novo)测序,用velvet进行组装:De novo assembly

第二:组装的原理和流程图:

短序列组装Sequence Assembly - fhqdddddd - 流浪云南

 

    

方法一和方法二的区别是有无参考基因组(reference genome):下面是有参考基因组的一个结果显示

                        短序列组装Sequence Assembly - fhqdddddd - 流浪云南

Mapping short reads to a reference

Eland

aligner for Illumina data

alignment policies:

??allows up to 2 mismatches/alignment

??non-unique alignments are discarded

Maq

??quality aware - takes seq quality into

  account

??allows non-unique alignments

Index methods

??reference genome is loaded into active

 memory as k-mers

??very fast alignments

??SOAP

??Bowtie

SNP detection, paired-end mapping, RNA-seq, ChIP-seq, etc.

                           

Analysis depends on application

Mapping to reference genome

??useful for interrogating the “known” genome

??RNA sequencing

??ChIP sequencing

??SNP detection (targeted and whole-genome)

??methyl-seq

??CNV detection (sometimes)

De novo assembly

??no genome sequence

??unbiased ascertainment of variation in

  known genome by whole-genome reseq

第三:short reads alignment by MAQ

短序列组装Sequence Assembly - fhqdddddd - 流浪云南

   

第四:velvet示意图:

短序列组装Sequence Assembly - fhqdddddd - 流浪云南

   

    通过上述两种方法可以完成高通量短序列数据的组装,但事实它并不简单,因为基因组中含有大量的重复序列(Repeats),多态性变异(Polymorphism),测序错误(Sequencing error),这三个方面就是组装过程中出现组装错误的主要来源.

参考资料:http://blog.sina.com.cn/s/blog_4860086b0100dnos.html

http://seqanswers.com/forums/showthread.php?t=1024

 

lei 说:
 你安装上了没有?
 我感觉是很是复杂
 我看了一下说明,好像de novo assembly 只是第一步,后面全是注释的
 你用QQ吗
霈 说:
 我记得Trans-ABySS不是组装工具
Trans-ABySS是用来分析ABySS组装结果的工具,组装仍应该是用ABySS
我不用QQ
lei 说:
 对的,我也是这样感觉的
 因为,我看那个文章中说了,组装还是用的ABySS

 他的用法说明 也是这样,说的
霈 说:
 由于在转录组组装中,选择kmmer的不同,对与具有不同表达量的基因组装的效果也不同,Trans-ABySS可以将不同kemmer的组装结果merge起来,以对于某个基因得到最好的结果。
lei 说:
 哦
 那它是de novo assembly 吗
霈 说:
 是的
lei 说:
 谢谢
 我试一下
 那你们现在是怎么做的
霈 说:
 用ABySS组装,然后用Trans-ABySS处理组装后的结果
lei 说:
 就是用ABySS,设置不同的Kmer,把这些不同Kmer结果,做为一个输入,用Trans-ABySS处理?这样,我感觉没有从本质上解决问题呀
 如果ABySS组装的不好,后面怎么优化感觉也不行吧
霈 说:
 下载Trans-ABySS压缩包后,解压,然后用utilities文件夹中的MergeContigs程序处理
 所以使用ABySS时,要选择不同的kmmer进行组装,一个kemmer无法将所有的基因都装好
 至于用Trans-ABySS注释方面,我没用过,不太了解
lei 说:
 哦
 那SOAPdenovo呢
霈 说:
 同样的原理,可以用SOAPdenovo组装,然后用cap3连,但SOAPdenovo的效果不如ABySS
当然也可以用ABySS组装,然后用cap3连
用cap3连的话,那等于连长更长的contig,就是SCAFFOLD了
霈 说:
 可以那么说
lei 说:
 那你们的SOAPdenovo是一样的呀
 然后再用TGICL聚类
霈 说:
 主要是将不同kmmer下组装的相同基因聚成一个scaffold

  评论这张
 
阅读(1461)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018