登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

生物信息学数据库简介  

2009-12-09 09:32:31|  分类: 生信数据库 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

生物信息学数据库简介

http://wangjc999.bokee.com/5118516.html

   
目前网络上存在许多的生物学数据库,往往可以通过多个站点对同一数据库及其镜象站点进行访问,根据不同的需要使用不同的数据库。下面介绍的就是一些常用数据库:
1
DNA数据库:
(1) GenBank: GenBank
是比较完整的DNA序列数据库,由NCBIhttp://www.ncbi.nlm.nih.gov/ )维护。它和EMBLDDBJ数据库每日更新,彼此补充,内容是完全一致的。GenBank包含了不同物种,不同来源和不同类型的核酸序列,包括mRNAcDNA、基因组DNAESTGSSGenome Survey Sequence,由基因组计划直接提交)等。
搜索Genbank可以有两种方式,ENTREZ BLAST进行搜索。这两种方法将会在后面予以介绍。不同的数据库采用的注释信息内容基本一致,但是格式不尽相同,GenBankDDBJ的格式相同,EMBL不同。下表表示GenBank中主要字段的含义。

1 GenBank数据库中主要字段的含义
GenBank
字段 含义
LOCUS
序列名称、性质描述
ACCESSION
序列接受号
DEFINITION
简要描述
KEY WORDS
关键词
SOURCE
来源
ORGANISM
来源分类
REFERENCE
参考文献
AUTHORS
参考文献作者
TITLE
参考文献题目
JOURNAL
参考文献出处
MEDLINE
参考文献的Medline
FEATURES
序列的性质
COMMENT
序列评述
BASE COUNT
碱基数目
ORIGIN
序列开始标志
//
记录终止

(2)
序列提交及更新:如果有新的DNARNA序列要向GenBank提交,可以用SequinBankIt工具。其中Sequin 需要下载到本地,而BankIt则可以直接从网上进行提交,前者适用于提交大量序列,后者适用于提交个别序列。对已经提交的序列,也可以直接通过GenBank的网页提交修改,非常方便。
(3)
基因及蛋白命名:如提交基因序列,一般需要给基因进行命名,可以访问人类基因命名委员会网页(http://www.gene.ucl.ac.uk/nomenclature/ ),参考他们的命名建议,或可用电子邮件咨询他们的意见。蛋白的命名一般与基因相同。

2
、蛋白数据库
   
目前常用的蛋白质序列数据库主要有Swiss-Prot (http://www.ebi.ac.uk/swissprot/ )PIR(http://pir.georgetown.edu/ )数据库。Swiss-Prot最大的特点就是注释比较详尽,它包含了EMBL核酸序列数据库中经过仔细检查和准确注释了的蛋白质序列。

3
、蛋白质结构数据库
    PDB
Protein Data Bank)数据库(http://www.rcsb.org/pdb/)是分子结构数据库,它是第一个公共的分子生物学数据库,可以直接查询。如果查询是否有已知结构的同源物,可以通过BLASTPPDB数据库进行搜索。
   
为了显示和观察蛋白结构,还需要一些软件,如下载PDB上提供的ChimeRasMol等软件插件。推荐使用RasWin,可以将其下载到本地使用。

4
SNP数据库
    SNP
位点与遗传表型及疾病具有相互关联。通过查询dbSNP数据库(http://www.ncbi.nlm.nih.gov/SNP/ )和TSCThe SNP Consortium)数据库(http://snp.cshl.org/ ),可以获知基因及上下游邻近序列的SNP位点。其中TSC数据库还包括了SNP的人群出现频率(Population frequency data)。

5
OMIM数据库
     Online Mendelian Inheritance in Man (OMIM)
数据库(http://www.ncbi.nlm.nih. gov/entrez/query.fcgi?db=OMIM)是一个人类基因和遗传性疾病的电子目录,它建立了疾病与相关基因、文献、序列记录、染色体定位和相关数据库的链接。它的基础是Mendelian Inheritance in Man一书,每日更新。可以用ENTREZ进行搜索,利用“limit”选项,可以进行高级搜索,限制所搜索的染色体等。

6
UniGene数据库
    UniGene
数据库(www.ncbi.nlm.nih.gov/UniGene )将GenBank序列自动分为很多簇(cluster),它的每个记录表示一个簇,每个簇代表了一个唯一的基因。记录信息主要为该基因的相关序列(cDNA,EST等)、染色体定位和表达谱信息。UniGene有很广泛的用途,可以用于新基因的拼接,基因表达谱分析等,这些都将在后面予以详细介绍。

7
SAGEmapserial analysis of gene expression)数据库
http://www.ncbi.nlm.nih.gov/sage/
    SAGE
是通过扩增和测定cDNA的标签(tag)片段,来定量确定基因表达的一种方法。SAGE基于两个原则:(1)一条短的核酸标签(9-10bp)就可以唯一识别一个转录子,例如一条长为9bp的标签序列就可以区分262 14449)个转录子。(2)对短的标签进行连接,在一个克隆中对多个标签进行测序,效率较高。具体的方法为:(1)制备需扩增的cDNA文库,用锚定酶(anchoring enzyme)切割;(2)将获得的邻近3’末端的标签片段与linker连接,用标签酶(tagging enzyme)切割;(3)将标签进行钝端连接,结果形成尾尾相连的双标签(ditag),双标签之间有4bp间隔的序列;(4PCR扩增测序,用计算机对结果进行分析。SAGEmap数据库将用SAGE方法得到的标签与已知基因和序列进行比较,定位和筛选,因此用已知序列查询SAGE数据库,可以获得已知序列在何种组织和细胞表达以及相对表达量的信息。

8
SAGE Genie数据库(http://cgap.nci.nih.gov/SAGE
SAGE Genie
数据库在SAGEmap的基础上,提供了更为友好的界面,通过查询SAGE Genie数据库,可以获知基因在正常组织和癌变组织中的相对表达量。

数据库查询系统

数据库查询系统将核酸序列、蛋白质序列、结构数据库等整合起来,提供统一的查询界面和数据库之间的交叉链接(cross-link),它是我们利用这些数据库的出发点。最常用的数据库查询系统有两个:ENTREZSRS
1
ENTREZhttp://www.ncbi.nlm.nih.gov/ )是一个多数据库的交叉检索工具,由NCBI开发。通过它可以检索PubMed,GenBank,UniGene,OMIM等多种数据库,它将序列、结构、文献、基因组、系统分类等不同类型的数据库结合在一起。
2
SRSSequence Retrievals Systemhttp://srs.ebi.ac.uk/)由EBI(欧洲生物信息研究所)开发。与ENTREZ不同的是,SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库。北京大学生物信息中心的网站也提供了SRShttp://srs.pku.edu.cn/ )工具及EMBL等多种数据库镜像。
3
、在进行数据库搜索和序列分析时,常常需要注意序列格式,例如有的序列分析软件要求以FastA格式输入待分析序列。FastA格式的特点是:
(1)
每个序列的第一行以“>”符号起始,其后指定序列的名称
(2)
自第二行起即为序列内容
(3)
同一文件中可以存放多个序列
  评论这张
 
阅读(1351)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018