注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐
GACHA精选

RNA-seq测序数据(reads)提交NCBI  

2013-03-14 15:32:53|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

RNA-seq的测序数据要向NCBI提交,这里简单总结一下。原始的测序数据 (reads) 数据要提交到SRA. RNA-seq的拼接结果应该提交到TSA库,TSA全称Transcriptome Shotgun Assembly Sequence Database,TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies.

对于注释信息的要求

TSA数据提交前,首先需要将原始的序列(reads)提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。

对于序列的要求

  • 必须是原始的测序结果的拼接数据
  • 需要去除载体或者测序引物
  • 序列长度不能少于200bp
  • 序列不能包括太多的N,少于10%或者小于14个N

提交流程

  • NCBI注册,获取注册账号,登录
  • 注册BioProject,获得一个编号 ( 这个编号,当产生一个new submission网页时,网页上有一个链接,即要求先产生一个 BioProject的编号,点那个链接后,按要求填写即可  )
  • 将Raw reads提交到SRA,在SRA提交页面创建一个SRA提交,创建Sample,创建Experiment、在Experiment中创建RUN,需要 提供测序平台、文件名、文件格式(Illumina_native、bam、fastq、srf)以及MD5验证码(用LINUX下面的命令:md5sum Munro1_1.fq
    就会生成 a13bfb4cab5ea40fd969c82a85564a4echecksums)  Munro1_1.fq)创建好后,在你创建的页面下方会有相应的FTP和密码产生,这时,你可以用一些FTP工具(FileZilla_3.5.3_win32-setup.exe,这个是开源的,GOOGLE一下,自己去下载)向NCBI上传数据了。当然你也可以给NCBI发邮件告知一下,也可以不发。
  • 需要注意的是,在全部操作完成后,会有一个accession number的登录号(SRR....,或者SRA...., )这个登录号一定要记住,这是要写在文章中的
  • 使用Sequin或者tbl2asn准备提交的文件,需要用到的测序组装后的数据(fasta格式)、BioProject编号、SRR接收号、单位信息、样本信息等
  • 将注释好的文件压缩通过GenomesMacroSend提交,提交后会获得一个GDSub编号,将这些信息以及数据发布日期email给ncbi
  • OK,等待回复,有问题解决问题,没有问题收纳接收号。

注意事项

  • window下TSA的注释
    开始在window下(win 7 64bit)使用sequin,总是序列加载后,开始填写注释信息时就没有响应,估计是卡在内存上,因为其需要将所有数据都加载到内存中,结果内存只增加 到100多M就不动了,试了几次,每次都挺花时间的,最后还是失败了,sequin的主页上说适合于1万条以内的序列注释,NRS拼接的结果基本都是10 万的级别。最后还不得不改用 tbl2asn,虽然是命令行的,NCBI都提供了在线的模板、拼接信息生成CGI,但是序列多在dos下还是很慢,最后改在64位linux,几乎就是 瞬间的事情。
  • tbl2asn的使用注意-y与-Y参数的差别,-y后面可以直接跟注释信息,-Y是指存放注释信息的文件,另外就是在fasta文件中,在序列 的defline 部分可以使用[key=value][key=value]的形式给序列添加注释信息,比如[tech=TSA] [SRA=SRRXXXXXX1,SRRXXXXXX2][bioproject=PRJNAXXXX1][moltype=mRNA]下面是命令示例:
tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t
  • 关于序列中的N,序列中的N必须少于14个,或许是NCBI处于质控的角度考虑制定的规则,但是如果使用两端测序,难免序列中有很多N来填补缺位,N的价值是及其有意义的,如果要提交必须将这些序列去掉或者拆开,从文章的角度却又是不妥的,挺为难的。
没了,算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。

对于叶绿体的数据提交用下面的链接:

SequinMacroSend
http://www.ncbi.nlm.nih.gov/LargeDirSubs/dir_submit.cgi
最下方
填完信息直接上传数据就行
一般2到5天拿到接收号
再上传到genebank

参考

http://www.ncbi.nlm.nih.gov/books/NBK47532/
  评论这张
 
阅读(5725)| 评论(8)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016