注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

关于RefSeq:NCBI参考序列  

2010-01-05 19:42:25|  分类: 生信数据库 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

关于RefSeq:NCBI参考序列

科学的快感@ 2006-06-28 10:17

NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。

范围:目前,RefSeq记录为下列分子类型和基因组提供:

分子

登录格式      

基因组

Complete Genome

NC_######

Archaea, Bacterial, Organelle, Virus, Viroid

完整基因组

NC_######

原核生物,细菌,细胞器,病毒,疫苗

Complete Chromosome  

NC_######  

Eukaryote

完整染色体

NC_######   

真核生物

Complete Sequence

NC_######

Plasmid

完整序列

NC_######  

质粒

Genomic Contig     

NT_######

Homo sapiens

基因组Contig   

NT_######

人类

mRNA

NM_######

Limited Vertebrate,Homo sapiens,Musmusculus,Rattus norvegicus

mRNA  

NM_######   

有限的脊椎动物,人类,小鼠,大鼠。

Protein

NP_######  

All of the above

蛋白

NP_######

所有以上的

关于RefSeq:NCBI参考序列2

科学的快感@ 2006-06-28 10:19

脊椎动物mRNA/蛋白构建步骤:

RefSeq记录通过以下步骤创建:

确定代表不同基因的序列

建立正确的基因名字到登录号的联系

确定完整范围的可以获得的序列数据

创建一个新的有以下状态的参考序列(RefSeq)记录

预测的

临时的

临时的RefSeq记录被一个生物学家再检查,他确定一开始的名字到序列的关联,加上一些包括基因功能概要的信息,更重要的是用其他可获得的GenBank记录来更正,重新注解,或扩充序列数据。预测的,临时的和检查过的RefSeq记录通过NCBI Entrez检索系统,BLAST数据库,FTP,和LocusLink网站让公众获得。

最近发表的文章

1. Introducing RefSeq and LocusLink: curated human genome resources at the NCBI. Pruitt KD, Katz KS, Sicotte H, Maglott DR Trends Genet. 2000 Jan;16(1):44-47.

2. NCBI's LocusLink and RefSeq Maglott DR, Katz KS, Sicotte H, Pruitt KD Nucleic Acids Res 2000 Jan 1;28(1):126-128

FAQ什么是参考序列?

NCBI参考序列计划提供了校正的序列数据和相关的信息,给同行提供使用的标准。GenBank是一个序列的存储池,RefSeq数据库将是一个参考序列的非冗余集合,包括构建的基因组contig,mRNA,蛋白,和,在未来,整个染色体。RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的。检查过的记录代表了我们目前关于一个基因和它的转录子的知识的汇编。在检查的过程中,我们整合了更多的信息,只要是可以获得,如序列数据,发表物,命名,和特征注解,都来自于很多GenBank记录,人类基因组命名委员会,和OMIM。

The initial release of RefSeq records includes human mRNA and protein reference sequences. The current scope is limited to human sequences but other organisms will be added in the future.

最开始的RefSeq记录版本包括人类mRNA和蛋白参考序列。目前的范围只局限于人类序列,但是其他物种的将在未来加入。

我如何引用RefSeq记录?

引用RefSeq登录号和LocusID以及RefSeq网页(http://www.ncbi.nlm.nih.gov/LocusLink

/refseq.html)是恰当地。特定的使用RefSeq网页的引用格式依据你文章将发表的刊物的编辑方法而定。可以参考这个网站,列出了许多电子文件引用指南:http://www.ifla.org/I/training

/citation/citing.htm。我如何访问RefSeq记录?

RefSeq记录可以通过各种NCBI资源来访问,包括:

BLAST   NM_######记录是在核苷酸非冗余数据库中

        NP_######记录是在蛋白非冗余数据库中

Entrez   NM_######和NT_######记录是在Entrez核酸中

        NP_######记录是在Entrez蛋白中。

Entrez基因组部分 NC_######记录代表完整的基因组,和染色体,完成的和正在进行的,出现在基因组页面上。

FTP     NM_*和NP_*记录是在/refseq目录下;对人类的NT_*记录可以按染色体数字从/genbank/genomes/H_sapiens/*目录下下载,当第一次的完整版本建立后还将加到refseq目录下。将来NC_*记录将被加入。参考FTP README文件获得更多的信息。

人类基因组测序为人类contigs的NT_######记录只有在人类基因组测序页面上通过BLAST查询可以被图形的看到,下载,或访问

LocusLink      LocusLink记录提供链接到NM_######和NP_######记录。LocusLink可以通过文本条件的RefSeq登录号被查询,参见LocusLink FAQ取得查询技巧。

通过Entrez查询检索NM_和NP_ RefSeq记录:

RefSeq记录可以被通过不同的Entrez查询来检索:

查询结果样本

NM_003988                                      一个关于PAX2,isoform c 的RefSeq记录被返回。

PAX2[Gene Name]                                这返回17记录包括5个PAX2 RefSeq记录。

PAX2[Gene Name] AND srcdb_refseq[properties]   这个查询仅检索含有5个不同剪切本的PAX2 RefSeq记录的集合。

srcdb_refseq[prop] AND provisional[all]        这个查询返回所有临时的RefSeq记录集合。

srcdb_refseq[prop] AND biomol_mRNA[prop] NOT provisional[all]  这个查询返回所有检查过的RefSeq记录集合。

确定在BLAST结果中的NM_和NP_ RefSeq记录:

这个不同的RefSeq登录号的格式(它们包括一个下划线)提供一个快捷的指示:这个BLAST结果包括了一个RefSeq记录

                                                        Score     E

Sequences producing significant alignments:             (bits)    Value

ref|NM_000014.1|A2M|  Homo sapiens alpha-2-ma...         9073         0.0

^    ^

|     |

|     RefSeq登录号有一个不同的格式

“ref”表明了RefSeq数据库

 

什么是一个RefSeq记录与其他区别的特点?

RefSeq记录区别与其他GenBank记录在:

使用一个特殊的登录号

显示来源信息,由RefSeq打头,在Comment字段的第一行

一致的使用可获得的官方命名

包括OMIM和LocusLink dbxrefs在基因特性中

蛋白记录指明RefSeq作为DBSOURCE

登录号格式                  序列类型

NT_123456                构建的基因组contigs

NM_123456                 mRNAs

NP_123456                  proteins

NC_123456                 chromosomes

我如何在BLAST和Entrez搜索结果中快速的确定RefSeq?

Entrez和BLAST结果同时提供下面格式文本作为返回结果的一部分:

gi|4557284|ref|NM_000646.1||[4557284]

数据元素注解

Gi “GenBank Identifier”,或序列ID号。“gi|”表示这个序列ID是一个唯一的号码。任何对这个序列的改变将导致一个新的gi号码。

4557284是gi号码。

Ref指明RefSeq是来源数据库。

NM_000646是RefSeq登录号。

预测的,临时的,和检查过的RefSeq记录有什么区别?

RefSeq记录只有在我们有来源序列记录注解忧完整的编码区时才做的。如果来自于同一转录本的多种序列在本地对齐市被发现,那么最长的被自动选来作为开始的记录。

预测的记录:

预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区。预测的RefSeq记录是由自动的程序产生,并不被检查。

一个预测的记录描述,对于大多数部分,用来产生它们的GenBank记录中的注解。GenBank来源的记录与预测的RefSeq记录最大的不同在于RefSeq条目包括了:一个稳定的LocuID号码和一个在Comment字段中这个条目是预测的申明。

这个申明出现在预测的RefSeq记录:

预测的RefSeq:这个参考序列记录是来源于一个未知功能的cDNA。CDNA的存在提供了这个基因的实验证据,但是,开放阅读框的定位和相应的蛋白序列都是预测的并且随着可获得的新增序列和实验数据会改变。

临时的记录:

临时的RefSeq记录还没有被检查过。它们是有自动的程序产生的,有一些初步的质量检测来复查我们提供的“name-to-sequence data”关联的正确性。

一个临时的记录提供了,对大部分来说,用来产生它们的GenBank记录中的注解。GenBank来源的记录与临时的RefSeq记录最大的不同在于RefSeq条目包括了:命名(基因名字和别名),一个稳定的LocuID号码,这个基因地OMIM号码和一个在Comment字段中这个条目是临时的申明。

这个申明出现在预测的RefSeq记录:

临时的RefSeq:这是一个临时的参考序列记录,还没有被工作人员检查过。最后校正的参考序列记录将会与这个记录有所不同。

检查过的记录:

检查过的记录被NCBI的工作人员或合作小组手工检查过,来创建一个类似于“review article”的序列记录。

一些在检查过的记录中的改变/增强可能包括:

增加DNA序列数据(扩充的UTRs)

去除DNA序列数据(如载体或接头序列)

增加与这个基因一般相关的文章

增加核酸和蛋白特性

增加概要文本描述基因功能

当一个记录被检查,来自于一个以上的记录的序列数据可能被合并,用来构建一个更完整的mRNA记录,这辈认为是合理的。所有在基因组合mRNA的可获得的序列数据记录都用了,我们没有使用EST序列数据。检查的过程常常包括阅读原始文献来交叉证明正确和决定是否有更多的可以扩充UTR的可获得的数据。转录本变化记录只有在检查过文献后和在专家的帮助下才建立。

所有用来产生序列组合的序列都被在RefSeq记录和LocusLink中报道。我们同时试图去校正一系列其他代表这个基因GenBank记录。然而,这个列表不是为了完全广泛的,别的相关序列信息将总是在Entrez相关序列(或临近)记录中,BLAST搜索结果中可获得。

查看下面记录来获得检查过的RefSeq记录的样本:

Gene Symbol   

LocusID     

Comments

AGL  

178

关于剪切变体处理的样本。只有那些有实验和文献充分证明的有全长的转录本的剪切变体我们才做RefSeq。在提供对那些由于有改变得编码区而造成的转录本变体的RefSeq记录时有着重的强调

PAX2  

5076

剪切变体处理的样本。

MICA

4276

注意一些参考文献包括了,这个记录类似于一个“review aritcle”。一个单独的文章被注解在来源GenBank记录的参考文献字段。

GCKR

2646

注意在RefSeq 记录Comment字段的最后一行提供了一个“完整”的指示。如果我们在检查的过程中决定5’和3’端的mRNA是完整的,那么这个信息就在RefSeq记录中提供。

                 

一开始的GenBank来源序列是如何选取的?

很多因素用来选择最开始用于产生临时mRNA RefSeq记录的来源序列,但是经常性的那些包括更完整的UTR序列数据的GenBank记录被原始选中。我们努力使参考序列与已经在被突变科学家使用的标准保持一致。

参考序列记录不是有意来代表历史的第一个测序的记录(尽管对那些只有非常有限可获得数据的基因,它们可能目前是这样的)。当临时RefSeq记录暂时代表一个单独的GenBank来源序列,检查过的RefSeq记录意图代表目前知识水平上所有研究团体的贡献而非一个实验室。

RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的,哪一个会被去掉?

不,两个记录都将继续被可获得。RefSeq和GenBank是分开的数据库,而且两者都是可以通过Entrez核酸数据集合获得。

在它们做好时,临时的RefSeq记录是通常非常相似于GenBank记录。但是,当RefSeq记录被专家检查过后,新增的序列数据,生物学注解,和参考文献经常被加入。在那时候,原始的来源GenBank记录和相应的RefSeq条目可以非常不同——RefSeq条目可以代表一个来自不同实验室的综合信息,可以在记录的Comments或参考文献字段找到。

RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,而GenBank是一个序列的数据池,可能对任何给定的基因含有许多记录。在RefSeq数据库中唯一的重复可能是不同的剪切变体。Entrez搜索结果可以在性质字段用搜索“srcdb_refseq”被限制到RefSeq条目。

为什么没有RefSeq记录对应所有在LocusLink中可获得位点?

RefSeq记录是安以下条件来作的:

被审查的位点代表一个功能基因。有些LocusLink记录代表的是假基因或染色体区域,而非功能基因。

我们已经确定至少一个代表登陆好对应一个位点。起点可以是mRNA或者基因组序列记录。

确定的序列有注解的全长编码区。

我们没有给假基因和染色体区域作RefSeq mRNA记录。我们也没有为那些只有部分的可获得的编码区序列数据的位点做RefSeq记录。另外,对于某些位点我们还没有确定合适的代表GenBank登录号。

我们欢迎来自研究团体的评论,提供给我们那些没有RefSeq数据的位点的还没有确定的代表登录号。我们同样欢迎对预测的,临时的,或检查的记录的更正,或在没有列在检查的记录中的增加的生物学信息。请给NCBI服务工作部写信,尽可能详细,引用LocusID和任何相关的发表文献。

为什么RefSeq记录中的基因符号有时和相关的GenBank记录中的符号不一样?

RefSeq和LocusLink是基于NCBI和其他组织合作的校正的数据库。两者都使用由人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。

GenBank是一个公共可获得的序列记录备份,由数据发现者提供,它不是一个校正的数据库。GenBank记录提交者保有对他们记录的编辑权并可以决定使用那个基因符号。有些作者同相关物种命名委员会讨论,从那里得到他们测序基因的那个物种的官方基因符号。其他作者可能没有那么做。因此,那有可能一个基因的GenBank记录会使用不同的基于符号。

  评论这张
 
阅读(1028)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016