注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话  

2015-12-25 12:31:32|  分类: 遗传与基因组学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |


本文引用地址:http://blog.sciencenet.cn/blog-1333578-941064.html  此文来自科学网吴婷婷博客,转载请注明出处


高质量的全基因组组装结果和转录组注释信息(可以获得更全面的功能基因信息),对任何模式生物的充分研究和利用是非常重要的。今天要详细解析的是Macrostomum lignano这种扁形虫的基因组和转录组研究工作,这种扁形虫很奇妙,可以在切断之后,能够几乎完整地再生,即将一条扁形虫切成10段,可以获得10个几近完全一样的虫子来。希望可以通过解析扁形虫的基因组和转录组序列信息,能够揭秘其独特的再生机制,从而为干细胞的自我更新、再生和分化等研究奠定扎实的基础。


本研究由冷泉港实验室的Gregory J. Hannon(ku.ca.mac.kurc@nonnah.gerg)和Michael Schatz(ude.lhsc@ztahcsm)研究大牛领衔开展,于2015年10约6日发表在PNAS上。


一、Macrostomum lignano扁形虫及基因组特点

冠轮动物,雌雄同体。

独特的生物学特点:受伤时可再生;饥饿时可减缓生长。

2n=8

基因大小:~700Mb

基因组特点:75%的序列为简单重复序列和转座子序列。

 

二、实验与材料:

测序品系Macrostomum lignano DV1 line,经35代同胞杂交;一直培养在富含营养的f/2培养基中,气温20、湿度60%、光周期14/10h day/night循环;菱形藻(Nitzschia curvilineata)喂食。 

再生实验:切断位置为后咽后,为确保完全去除性腺组织。后咽前一部分放在上述条件下喂养;分别在切割后的0h,3h, 6h, 12h, 24h, 48h72h搜集扁形虫,共搜集获得100条扁形虫。

 

三、基因组测序

HiSeq平台测序:构建180bp shotgun文库经HiSeq 2000 100PE测序170X

PacBio测序:文库大小10KbPacBio RS II平台P4C2P5C3试剂盒测序~130X,经过错误校正后其中大于10Kbreads覆盖21X

 

四、RNA测序

a. 整条虫子转录组测序,200-400条扁形虫,TRIzol(Ambion)提取总RNA;分别构建了三个不同类型的文库:

第一个文库是用总RNA构建的;

第二个文库是基于 rRNA-depleted RNA (Ribo-Gold Epibio)构建的;

第三个文库是基于polyA-selected RNA (Poly(A)Purist MAG kit, Life Technologies)构建的

b. 关于再生这块的RNA文库构建,是采用Encore Complete RNA-Seq DR Multiplex SystemPCR-free)构建的,共构建了两个文库。

上述文库通过HiSeq 2000 101PE测序完成。

 

五、小RNA测序文章没有详细介绍这部分实验,但在分析环节提到了。

 

六、甲基化测序:使用Zymo EZmethylation gold kit进行亚硫酸氢钠转化,illumina平台测序。 

 

七、信息分析内容

 

1. 转录组de novo组装及注释

1Trinity package denovo组装;

The libraries included in the assembly were: total RNA prepared from 100 worms, polyA- selected RNA, ribo-depleted RNA (see above).

2)转录本denovo注释:

先和数据库SwissProtUniref90(是全球蛋白数据库UniProt的组成部分)数据库进行blast

然后用HMMER v3.1b2 (http://hmmer.janelia.org/)中的Pfam-A hmm进行分析;

将上述分析结果下载到一个sqlite database中,最后通过Trinotate pipeline分析。

3)转录组差异表达分析:将不同再生时间节点的转录本序列信息分别比对至上述转录组组装结果上进行差异表达分析,比对软件为RSEM (Li and Dewey 2011);差异表达分析软件为 DESEq

false-discovery rate ≤ 0.001, with aminimum fourfold change

PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话 - 云之南 - 云之南

 

2. 基因组de novo组装和注释

 

1)二代数据拼接:针对HiSeq数据(115X)进行denovo组装,组装软件为:SGA  (github https://github.com/jts/sga);仅保留长度≥200bp以上的contigs(基于左右端reads长度加起来已有200bp为考虑),此为ML1组装结果。如下图:

PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话 - 云之南 - 云之南

Thefirst assembly draft, the ML1 assembly, had a very unusual four-modal K-mer distribution (Fig. 2A), suggesting a high frequency ofgenomic duplications (peaks 3 and 4).

图中表明基因组重复序列比例很高(见peak3peak4),基于上述数据尝试组装获得ML1版本,非常片段化,contig平均长度仅532bpcontig N50222bp,最大的contig长度仅144 Kbp


2)三代数据拼接:针对PacBio数据,采用HGAPhttps://github.com/PacificBiosciences/HBAR-DTK进行校正,仅长度大于10Kbreads用于校正中;数据校正之后,采用Celera Assembler v8.2beta进行组装获得ML2组装结果。采用PacBio RS II reads组装结果ML2长度大大提升(详见下图),包括从contig N50222bp提升至64Kb,最长的contig长度从144Kb提升至627Kb。下图是ML1ML2结果比较:

PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话 - 云之南 - 云之南

Contig length distribution (log 2 scale) over the M. lignano genome in the ML1 (green)

and ML2 (red) assemblies. Note that the ML1 assembly covers only about 55% of the genome.


PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话 - 云之南 - 云之南 

PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话 - 云之南 - 云之南


3)随机抽取ML1组装结果中的 81665 contigs(约占ML110%)通过Mummer v. 3.23比对至ML2组装结果上,获得per-base identity的结果报告。

 

4NR 数据库比对以去除其他物种(如硅藻等)的序列,仅 e-value值为1e-10及以下的contigs予以保留。结果再通过LIS algorithm进行过滤。数据库比对结果发现扁形虫中的序列比对至Caenorhabditis remanei线虫的是最多的,表明扁形虫有和其他虫类等同源的基因。

 

5)基因组注释:

a. CEGMA评估gene space248个保守的真核基因中,232 (93.55%) 全部比对、246 (99.19%)部分比对至扁形虫的基因组组装结果中,表明组装结果中gene space是很好的,但是组装子中的非编码区段很片段化,这可能是因基因组中高频率的low-complexity and tandem repeats所导致的。

b. 采用Maker v2.31.8 (Dec 2014)进行功能基因注释。

 

6)基因组组装结果验证:BAC文库构建及测序

构建BAC文库获得 60,000 BACsinsert size ~20Kb)和60,000 BACsinsert  size  of  ~50Kb,HiSeq 2000 100PE测序,去除比对至BAC backbone和大肠杆菌的序列,余下的序列通过Bowtie 2 (v2.2.3)比对至ML2组装结果上。

 

4. 转座子序列分析

 

采用RepeatScout version 1.0.5 分别对ML1ML2组装结果进行分析。仅将在基因组中出现10次以上的重复序列用于后续分析。然后重复序列注释a custom non-redundant library fromNCBI entries (keywords: retrotransposon, transposase, "reverse transcriptase",gypsy, copia) obtained from O. Simakov and colleagues.

 

5. 序列复杂度分析Sequence Complexity Analysis

 

6. 评估CpG content

 

7. 甲基化测序reads分析:将甲基化测序reads mappingML2组装结果上。 

 

更多信息请查看文献:Genome and transcriptome of the regeneration-competent flatworm, Macrostomum lignano.pdf 

下载SI信息:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4603488/

  评论这张
 
阅读(286)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016