注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

美国国家生物科技信息中心(NCBI)数据库资源  

2010-08-20 16:12:20|  分类: 生信数据库 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 

 

美国国家生物科技信息中心数据库资源

[文摘]:

美国国家生物科技信息学中心(NCBI)除维护核酸序列数据库(GenBank)外,还能提供链接于NCBI网站的其他多种生物数据库的检索和分析服务。NCBI 数据检索资源包括 Entrez , PubMed , LocusLink 和Taxonomy Brower。数据分析资源包括BLAST, Electronic PCR, OrfFinder, RefSeq, UniGene, HomoloGene, Database of Single Nucleotide Polymorphisms (dbSNP), Human Genome Sequencing, Human MapViewer, GeneMap’99, Human–Mouse Homology Map, Cancer Chromosome Aberration Project (CCAP), Entrez Genomes, Clusters of Orthologous Groups (COGs) database, Retroviral Genotyping Tools, Cancer Genome Anatomy Project (CGAP), SAGEmap, Gene Expression Omnibus (GEO), Online Mendelian Inheri­tance in Man (OMIM), the Molecular Modeling Database (MMDB) and the Conserved Domain Database (CDD).为了使专业数据的检索更加便捷,BLAST兼容多种数据格式。NCBI 首页为: http:// www.ncbi.nlm.nih.gov/.

[前言]:

1988 年,美国国家卫生局鉴于分子生物学信息系统的发展,成立了国家生物科技信息中心(NCBI)。核酸序列数据库中数据直接来自各科学研究机构。除了维护核酸序列库GenBank(1)外, NCBI还提供了其他数据检索系统,通过它可以共享GenBank 以外的多种生物网络资源。从NCBI's 的首页 (http:// www.ncbi.nlm.nih.gov/) 检索到的数据包括短的特征性序列乃至已完成的基因组、蛋白质结构以及遗传疾病的临床描述等。NCBI 还提供了一系列网络资源来帮助每一类型的数据分析。本文中将NCBI的数据库资源细分成七个方面:数据库检索系统,数据相似性检索系统, 基因水平序列分析资源,染色体分析资源, 基因组规模的分析资源, 基因表达及表型分析资源, 蛋白质结构和模建资源。这些资源的概略摘要请见表一。

 

一、数据库检索工具(Datebase Retrieval Tools)

 

Entrez(http://www.ncbi.nlm.nih.gov/entrez/)

Entrez(2) 是一个集成的检索工具。通过NCBI分类目录,可以检索到DNA和蛋白质序列、基因组图谱、数量性状、MMDB中的蛋白质结构、 PubMed 和 (OMIM)(3) 中的生物医学信息。Entrez可查询的蛋白数据较GenBank蛋白数据库多, [ 包括 GenBank 蛋白质翻译信息, Protein Identification Resource (4), SWISS-PROT蛋白数据库 (5), Protein Research Foundation, Protein Data Bank (6) and RefSeq (7)GenBank ]。 PubMed 可查询1070万条文献和文摘,以及通过网络链接得到的1100多种生物学期刊。

Entrez 具备强大的检索功能,可以识别核酸序列文本、生物化学符号以及简单的布尔算符,同时可进行简单的“一对一”超链接。如:一个序列可以与发表这个序列的文献、编码此序列的蛋白、相应的 DNA 序列,以及一些相关的序列等链接。另外,计算机按预先编写好的程序自主对比检索内容、序列或者MEDLINE文摘,可以得到其他的相似检索结果,这些结果可以按组群的形式被快速存取。一位网站维护人员认为 LinkOut 扩大了外围检索范围,从个别数据库拓展到与生物特征相关的其他基因组数据库。

The Taxonomy Browse(http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)

NCBI 分类学数据库包含了79000多种生物,每种生物的数据库至少包含一个核酸或蛋白质序列。 The Taxonomy Browser用于浏览一个特定生物、种群在生物分类学进化树上的位置或获取序列、结构的相应数据。对于物种全名、物种部分名称、或按照发音拼出的生物名, NCBI的分类学检索系统都将自动链接到生物学研究中普遍使用的专业名称上,用户可以方便地进行检索。Entrez 分类学数据库系统新增加了用户在NCBI分类学进化树下自定义子树的功能,子树将按原分类学进化树的形式显示。

LocusLink(http://www.ncbi.nlm.nih.gov/LocusLink/)

NCBI同几个国际合作伙伴一起完善了LocusLink 数据库中基因的官方名称、其他标识符以及期刊中基因的描述(7), 并且能够提供一个简单的检索界面来查询序列以及基因的准确信息。

 

二、序列相似性比较工具----BLAST家族

(The BLAST family of Sequence-similarity search programs )

 

BLAST(http://www.ncbi.nlm.nih.gov/BLAST/)

BLAST家族(8,9)序列相似性比较工具,是GenBank中最常用的分析工具。标准的BLAST 2.1可以用序列或序列号进行比较,含缺口序列可以链接到全部相关文档记录。用BLAST比较时可以使用不同基准:用于检索核苷酸的矩阵、PAM矩阵、用于蛋白质检索的BLOSUM打分矩阵等。经过序列比对和重要性评估,BLAST可提供一个被称为“期望值”的数值,用于考察序列的相似程度。网络版BLAST提供图解式序列, 被标记为彩色的期望值能够清晰地显示出序列的相似性以及缺口位置,它还能自动生成一个类似分类学进化树的结构来强调序列在进化上的相似性。

BLAST无法从Entrez 数据库中非冗余 (nr) 核苷酸和蛋白质数据库进行检索。 但BLAST可以检索一些被限制在某些特定生物序列的专业数据库。BLAST还可以过滤不完整或人为重复的检索序列,传统BLAST允许比对已完成的人类基因组,微生物基因组或与疟疾相关的病原菌基因组数据库中数据。

BLAST为蛋白质相似性比较提供了专门的版本,位点专一性重复BLAST (PSI-BLAST)(9) 首先运行传统的BLAST检索,从它构造的位点专一性矩阵(PPSM)生成一个比对序列。随后,BLAST迭代使用 PSSM 在数据库中寻找相似性。 Pattern Hit Initiated BLAST (PHI-BLAST)(10)检索需要检索序列以及检索序列的现存模式。模式(Pattern)在检索序列和数据库序列之间强制性比对后生成,同时最佳的比对序列被构造出来。另一个非典型BLAST,‘ BLAST2Sequences'(11),用于两个 DNA 或蛋白质序列相似性比较,并生成专一位点被标记出的序列。

BLAST 2.0 电子邮件地址: blast@ncbi.nlm.nih.gov。 发送“help”到上述地址,文件即被处理。

 

三、基因水平的序列资源(Resources for gene-level sequences)

 

UniGene(http://www.ncbi.nih.gov/UniGene/)

为了将代表同一基因或基因组的EST(expressed sequence tag,已表达序列标记)归类, NCBI开发出 UniGene(12)系统, 它可以自动将GenBank 序列归类,使之成为非冗余的原始基因簇。现在有五个 UniGene 数据库:人类UniGene 数据库、小鼠UniGene 数据库、大鼠UniGene 数据库、斑马鱼UniGene 数据库和母牛UniGene 数据库。 UniGene 检索起始于 GenBank 中相应的各部分入口,并结合EST生成含共同确定3’非翻译区(3’UTRs)的序列。每个 UniGene 簇包含一个特定的基因序列及其相关信息。例如:组织中基因表达的类型、模式生物蛋白质相似性、有关基因及其图谱定位的LocusLink报告等。GenBank 中超过180万人类的ESTs被压缩了21倍,减少到大约 84000个序列,录入人类UniGene 数据库中。与此类似, 小鼠、大鼠、斑马鱼和母牛的ESTs已被分别归为73000、37000、10000和5500个簇。人类UniGene数据库已经成为构建人类基因组图谱(13)不可或缺的资源。基因的3'UTRs和ESTs已被转化为序列标签位点(STSs),已被放置到物理图上并且整合进现有基因组遗传图谱。UniGene数据库还为研究大规模基因表达(14)的“基因芯片”提供专一性序列。UniGene 数据库每星期更新一次,将新ESTs序列收录进数据库, 同时每两月更新一次特征性序列。UniGene 簇可以通过提供以下几种内容进行检索:基因名称,染色体位点, cDNA 库,序列号, 和普通文本文字。UniGene 簇还可以通过文件传送协议(FTP)下载。

HomoloGene

HomoloGene 用于表达和评估UniGene 、LocusLink 中人类、小鼠、大鼠、斑马鱼和母牛的直系(ortholog)以及旁系(paralog)同源性。直系同源性分析包括来自杰克森实验室的老鼠基因组数据库 (MGD) 的配对基因、奥勒冈州大学斑马鱼信息(ZFIN) 数据库和其他出版刊物的信息。用计算机进行直系和旁系同源性分析,建立在以下假设的基础上,那就是对于用于比对的两个生物来说,来自BLAST的核酸序列与所有UniGene簇是唯一确定的。HomoloGene 也可以进行三种生物的同源性分析,这意味着有两个生物的同源簇与第三个生物的相应基因簇也都是同源的。对于人类,大鼠和小鼠这三类生物来说,现存7000多个这样的同源保守区。HomoloGene 数据库中UniGene ClusterIDs,LocusLink LocusIDs,基因符号、名称、序列号,以及 UniGene 簇标题中的条目都是可以进行检索的。当前数据库中直系和旁系同源性分析以及突变近源性配对都可以通过文件传送协议(FTP)实现。

RefSeq(http://www.ncbi.nlm.nih.gov/LocusLink/refseq.html)

参考文献序列(RefSeq) 数据库, 本期刊其他部分将进一步说明(7),为人类和其他生物的 mRNAs 以及蛋白质提供代表性参考序列。

单核苷酸多态性数据库(dbSNP)(http://ncbi.nlm.nih.gov/SNP

单核苷酸多态性数据库(dbSNP) ,本期刊其他部分将进一步说明(15)。为研究机构提供可替代单碱基核苷酸库以及短小片段插入或删除多态性数据库。

ORF Finder(http://ncbi.nlm.nih.gov/gorf/gorf.html

ORF Finder每次可检索六个核酸翻译框,检索结果将以图的形式指示每个开放阅读框(ORF)的位置。 ORFs 限制大小可由用户设定。所得核酸序列对应的蛋白质,还可通过BLAST相似查找或从COGs(见下文) 数据库中得到。

Eletronic PCR(http://ncbi.nlm.nih.gov/STS/)

以 PCR 检测为基础的STSs,可以用来进行基因定位和作图。电子PCR(e-PCR) 是通过对dbSTS数据库中STS序列和配对引物的比对,在一个核苷酸序列上定位 STSs 标签的工具。e-PCR可识别序列号或一个序列,输出的表格可链接到相应的dbSTS 记录和配对引物上,用来扩增每个特定的STS。

 

四、染色体序列资源(Resources for chromosomal sequences)

 

人类的基因组测序(http://www,ncbi.nlm.nih,gov/genome/seq/)

人类的基因组测序(16)定位显示了人类核酸序列计划特定染色体的进展,提供可下载的重叠群,还提供了基因组范围的BLAST比较,并且可以链接到重要的基因组核酸序列中心。

Human Genome MapViewer

人类基因组图谱浏览器能同时展示含人类基因组数据的七张平行染色体图谱。图谱中有19项可供选择的显示方式, 包括细胞遗传学图谱、染色体表意说明、核酸序列图谱、被表达的重叠群、基因、SNPs、放射性杂交图谱、用来构造基因图谱’99的 G3和GB4 图谱等.针对人类基因组以及其他特定染色体的检索,可以采用基因名称或相应符号、命名人名字、 SNP 标识符、序列号或其他标识符。人类的基因组图谱浏览器与LocusLink、dbSNP等其他NCBI数据库紧密相关。此外,与人类的基因组图谱浏览器类似的浏览器也可以被用来显示果蝇的基因组数据。

GeneMap’99

通过ESTs定位来构建人类基因组图谱的联盟成立于1994 年,该联盟主要进行人们研究得很清楚的遗传标志及其相关联的EST位点对人类基因组做图。当前最新图谱为定位了30261个特定基因的放射性杂交图谱,GeneMap’99(13)。 

The Human-Mouse Homology Maps, mouse sequencing resources

人-小鼠同源性图谱列出了二者DNA片段上的同源位点。该图谱是在符合同源性对比分析假设下,对小鼠基因组数据库进行比对得到的。同时,该图谱可以与 GeneMap’99 , OMIM ,LocusLink , dbSTS , BLAST2Sequences 以及杰克森实验室的老鼠基因组数据库相链接。其他相关资源都能通过小鼠基因组序列页面检索到,同上文提到的人类基因组序列页面类似。

The Cancer Chromosome Aberration Project(CCAP)

CCAP由美国国家癌症协会 (NCI) 和 NCBI 共同创建,它收录了由F. Mitelman , F. Mertens 和 B. Johansson负责的瑞典Lund大学癌症染色体异常数据库数据,以及CCAP利用一些BAC克隆通过FISH杂交得出的人类肿瘤染色体作图数据。

 

五、基因组规模的分析资源(Resources for genome-scale analysis)

 

Entrez 基因组(http://ncbi.nlm.nih.gov/Entrez/Genome/)

通过Entrez 基因组数据库(19) 可获得900余种由科学研究机构提供的已经或尚未完成测序的核酸序列、图谱,其中包括30多个已完成测序的微生物基因组数据,同时还包括与真核细胞各器官基因组相关的169条序列。这些数据可按字母表或进化树方式排序并被获取。原则上,每个已完成测序的基因组都按进化阶段分为六个层次,研究者可以自染色体水平到基因水平,了解某一特定生物基因组的概貌。

    Entrez为每一水平的研究提供了一个或多个概述、自动生成的摘要及其他可链接的资料。举例来说,在基因组或染色体水平,可以浏览每一密码子域中的密码子、产物的长度、蛋白质序列和蛋白质产物的GenBank号;RNA水平可获得的信息包括:基因的名称、在染色体上的定位以及转录RNA基因;某一特定基因可以链接到已生成的、与该基因产物相关的序列;任何基因产物蛋白质都能从COGs数据库中检索到;基因组水平还提供了表格式和图解式的COG功能组摘要。

对于已完成的微生物基因组,可用BLAST0程序自主比对数据库中已有基因组,从而得到同源蛋白,通过链接可以得到进化分布与同源分布图。同时,通过Cn3D程序可以近一步显示配对序列以及蛋白的3-D结构。

Clusters of Orthologous Groups(COGs)(http://www.ncbi.nlm.nih.gov/COG/)

直系同源聚类数据库,本期刊其他部分将进一步说明(20) ,主要用于对已经完成测序的基因组编码蛋白进行进化树分类。

反转录病毒基因型分析工具(http://www.ncbi.nlm.nih.gov/retroviruses/

该工具紧随流行病学与疫苗发展,主要用于揭示反转录病毒遗传多样性特点。为适应基因型分析需要,NCBI 已研究开发了该工具的网络版,用户可将典型的参考序列与有待反转录的检索序列进行blastn比对。HIV-1-专一性反转录工具中一系列参考序列来自principle HIV-1 variants.

 

六、基因表达及表型分析资源(Resources for analysis of patterns of gene expression and phlenotypes)

 

The Cancer Genome Anatomy Project(CGAP)

(http://www.ncbi.nlm.nih.gov/ncicgap/)

CGAP提供了正常、癌前病变及恶性肿瘤细胞的遗传学数据。可以通过基因名称、克隆编号、组织类型、样品准备方法、肿瘤发展阶段及UniGene簇来查询cDNA 文库资料。另外,CGAP还提供了Digital Differential Display(DDD)和xProfiler程序来比较一个cDNA 文库中的表达情况。

SAGEmap(http://www.ncbi.nlm.nih.gov/SAGE/

基因表达的串接分析(SAGE)是一种对某一组mRNA中基因表达定量检测的方法。NCBI's SAGEmap 服务为UniGene、SAGE标签双向mapping等SAGE 数据分析提供了多种有用功能。通过SEGA库间比较,用户可自定义SAGEmap结构数据表格,并在已设定好的表达原则的基础上,选择表格中的某一类数据作为结论。SAGEmap 每周被更新,与 UniGene 的更新同步。

GEO

基因表达和实验杂交数据库 (GEO) 是为各种生物或人工基因表达数据建立的数据保存、检索系统。基因表达数据来自微阵列(microarray)、 high-density oligonucleotide array(HDA)、杂交选择器 (filter)以及SAGE数据库。该数据库的在线检索和分析工具正在开发中。

OMIM(htt://www.ncbi.nlm.nih.gov/omim/)

    由约翰霍浦金斯大学 Victor A. McKusick 教授创建和管理的OMIM数据库可提供人类基因、遗传疾病相关数据的在线查询。更广泛地说是疾病表型和基因信息,包括基因命名、遗传谱系、作图位点和基因多样性等。OMIM目前共收录了11925条记录,包括8594条已完成的基因定位的记录和799条基因多样性描述的记录, 与Entrez有关的记录有链接。

七、蛋白质结构和模建资源(The molecular modeling database)

参见表 1 和(1)

 

八、保守域数据库搜索

保守域是在进化中被频繁重复使用的结构单元。保守域数据库 (CDD) 数据主要来自Simple Modular Architecture Research (smart)(23) 和 Pfam蛋白质保守域数据库,其中每一特定保守域均构成PSI-BLAST PSSMs文库。通过NCBI的保守区域数据库(CDD)服务,可搜索CDD收录的蛋白质序列。

  评论这张
 
阅读(1391)| 评论(1)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016