登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

基因组组装结果质量评估  

2016-10-13 15:01:47|  分类: 生信分析软件 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

动植物基因组de novo工作,其组装指标的好坏直接影响着整个基因组的质量。而评估基因组组装结果,contigN50和scaffoldN50是第一指标,即contig/ scaffoldN50:将contig/scaffold长度从长到短进行排序并累加,当累加和达到contig/scaffold总长度的50%的时候,最后参与加和的那一条contig/scaffold长度即为contig/ scaffoldN50的长度。一般来说,contig/scaffoldN50越长,表示组装结果越好。

但是,N50指标高就意味着组装结果就一定可靠吗?

不一定!将一些不相关的reads或者contig错误的连接为scaffold,一样可以达到很高的scaffoldN50。

目前高水平文章发表,组装指标固然是一方面,但真正决定文章发表档次的,是生物学故事是否足够完美,有亮点。我们知道,后续分析依赖的基础便是组装得到的基因组,因此,不可靠的组装结果,对基因组后续分析会造成很大的困扰,甚至会得出错误的生物学结论。

那么,如何才能检验一个基因组组装结果的可靠性呢?

1、 序列一致性评估:

基因组是通过reads组装得到,这一步,是将reads比到基因组上,验证reads对基因组的覆盖情况,用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。

2、 序列完整性评估:

所谓完整性评估,即评估组装得到的基因组对基因区的覆盖程度,一般需要借助RNA方面的证据进行评估,如EST数据或RNA reads。由于用来评估的RNA方面证据不同,得到的比例也会有差别。一般来说,50%的scaffold覆盖基因的95%以上,85%的scaffold覆盖基因的90%以上,认为组装较完整。

3、 准确性评估:

通过全长BAC序列,可以通过与组装结果的比对,对组装结果的正确性进行验证,从BAC序列和scaffold是否具有较好的一致性来判断组装质量。

4、 保守性基因评估:

即根据广泛存在于大量真核生物中的保守蛋白家族集合(248个core gene库),对组装得到基因组进行评估,评估组装基因组中的core gene的准确性和完整性。可以通过该物种和同源物种cegma的比例,判断保守基因组装情况。


通过以上四个方面基本上可以对基因组组装结果有个大致的评估,以2015年4月诺禾发表的基因组文章陆地棉为例,来分析一下组装出来的基因组可靠性评估:

1. 组装结果基本信息统计

image

可以看到组装出来基因组为2.4G,cover陆地棉基因组96%,(Survey预估基因组为2.5G),contigN50为34K, scaffoldN50为1.6M,定位到遗传图谱上的scaffold有1.9G(9%),其中A亚种contigN50为30.7K,scaffoldN50为1.4M,D亚种contigN50为47.2K,scaffoldN50为2.5M。

2. 一致性评估:

image

从reads的mapping率以及对基因组的coverage比率来看,有较好的一致性。

3. 完整性评估:

image

采用1 ,054 条G. hirsutum.全长mRNA序列进行完整性评估,可以看到有90%的mRNA被一条scaffold覆盖的比例为94%以上,即有94%的基因是组装完整的;有50%的mRNA被一条scaffold覆盖的比例为99%以上,即有99%的基因是组装出来的。说明组装版本有很好的完整性。

4. 准确性评估:

image

采用该物种的四条全长BAC序列对组装结果进行评估,红线代表BAC序列,蓝线代表scaffold序列,空白区代表scaffold上的gap区,橘黄色线代表BAC和scaffold比对上的区间块。从上图也可以看到组装结果和BAC序列有很好的比对结果,即说明组装有较高的正确性。

另外,从染色体角度,也可以验证组装结果,如下图所示,采用诺禾组装的四倍体棉花D亚组同已发表的JGI组织以及BGI组织发表的雷蒙德氏棉花进行全基因组比对,可以看到,a图,诺禾的组装版本与JGI组织组装得到的基因组有很好的共线性,众所周知,JGI组织发表的棉花基因组是采用Sanger测序,并进行多种验证的组装版本,具有很高的正确性和指导性,进一步说明诺禾的组装版本有很好的准确性。

image

5. 保守基因评估:

image

可以看到,组装得到240个core gene,其中有231个core gene是完整的。


参考文献

Zhang T Z, Hu Y, Jiang W K,et.al. Sequencing of all otetraploid cotton (Gossypium hirsutum L.acc.TM-1)provides a resource for fibre improvement.

  评论这张
 
阅读(1971)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018