生物信息学数据库简介
目前网络上存在许多的生物学数据库,往往可以通过多个站点对同一数据库及其镜象站点进行访问,根据不同的需要使用不同的数据库。下面介绍的就是一些常用数据库:
1、DNA数据库:
(1) GenBank: GenBank NT是比较完整的DNA序列数据库,由NCBI(http://www.ncbi.nlm.nih.gov/ )维护。它和欧洲分子生物学实验室的EMBLhttp://www.embl-heidelberg.de、日本国立遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/searches-e.html数据库每日更新,彼此补充,内容是完全一致的。GenBank包含了不同物种,不同来源和不同类型的核酸序列,包括mRNA、cDNA、基因组DNA,EST,GSS(Genome Survey Sequence,由基因组计划直接提交)等。
搜索Genbank可以有两种方式,用ENTREZ或 BLAST进行搜索。这两种方法将会在后面予以介绍。不同的数据库采用的注释信息内容基本一致,但是格式不尽相同,GenBank与DDBJ的格式相同,EMBL不同。下表表示GenBank中主要字段的含义。
表1 GenBank数据库中主要字段的含义
GenBank字段 含义
LOCUS 序列名称、性质描述
ACCESSION 序列接受号
DEFINITION 简要描述
KEY WORDS 关键词
SOURCE 来源
ORGANISM 来源分类
REFERENCE 参考文献
AUTHORS 参考文献作者
TITLE 参考文献题目
JOURNAL 参考文献出处
MEDLINE 参考文献的Medline号
FEATURES 序列的性质
COMMENT 序列评述
BASE COUNT 碱基数目
ORIGIN 序列开始标志
// 记录终止
(2)序列提交及更新:如果有新的DNA或RNA序列要向GenBank提交,可以用Sequin或BankIt工具。其中Sequin 需要下载到本地,而BankIt则可以直接从网上进行提交,前者适用于提交大量序列,后者适用于提交个别序列。对已经提交的序列,也可以直接通过GenBank的网页提交修改,非常方便。
(3)基因及蛋白命名:如提交基因序列,一般需要给基因进行命名,可以访问人类基因命名委员会网页(http://www.gene.ucl.ac.uk/nomenclature/ ),参考他们的命名建议,或可用电子邮件咨询他们的意见。蛋白的命名一般与基因相同。
2. 蛋白质序列数据库
SWISS-PROT蛋白质序列数据库
http://www.expasy.ch/sprot/sprot-top.html
PIR蛋白质序列信息资源库
http://pir.georgetown.edu/
PROSITE
http://au.expasy.org/prosite/
NCBI蛋白质数据库(NR)
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
PDB蛋白质数据仓库(Protein Data Bank)
其中, protein sequence database with entries from GenPept, Swissprot, PIR, PDF, PDB,其中,SWISS-PROT(SIB) ,PIR,The translated EMBL (TrEMBL)的蛋白质数据为整合到 UniProt
www.uniprot.org, The Universal Protein Resource (UniProt) is the most comprehensive, centralized protein sequence catalog.
所以,可以说是最全的蛋白质注释数据库了。
3.蛋白质结构数据库
PIR蛋白质序列信息资源库
PROSITE
pSCOP 蛋白质结构分类数据库(Structural classification of proteins )
http://scop.mrc-lmb.cam.ac.uk/scop
ProDom
SMART
PRINTS
这些集成为 InterPro database http://www.ebi.ac.uk/interpro/
4.蛋白质数据库
Expert Protein Analysis System
http://au.expasy.org/
常用生物信息学数据库和分析工具网址
网上生物信息学教程
EBI 自修课程 http://www.ebi.ac.uk/2can
NCBI自修课程 http://www.ncbi.nlm.nih.go/Education
自修课程 http://lectures.molgen.mpg.de/on
生物信息学常问的问题 http://bioinformatics.org/faq/
生物信息学机构
NCBI http://www.ncbi.nlm.nih.go/
International Nucleotide Sequence Database Collaboration. http://www.ncbi.nlm.nih.go/collab/
EBI http://www.ebi.ac.uk/
USDA http://www.nal.usda.go/
Sanger Centre http://genomic.sanger.ac.uk/
北京大学生物信息学中心 http://www.cbi.pku.edu.cn
数据库信息发布及其它
GenBank Release Notes ftp://ncbi.nlm.nih.go/genbank/gbrel.txt
dbEST summary report http://www.ncbi.nlm.nih.go/dbEST/dbESTsummar.html
EMBL release notes http://www.genome.ad.jp/dbget-bin/show man?embl
DDBJ release notes http://www.ddbj.nig.ac.jp/ddbjnew/ddbj relnote.html
Eukaryotic promoter database release notes http://www.genome.ad.jp/dbget/dbget2.html
SwissProt release notes http://www.genome.ad.jp/dbget-bin/show man?swissprot
PIR release notes http://www.genome.ad.jp/dbget-bin/show man?pir
PRF release notes http://www.genome.ad.jp/dbget-bin/show man?prf
PDBSTR release notes http://www.genome.ad.jp/dbget-bin/show man?pdbstr
Prosite release notes http://www.genome.ad.jp/dbget-bin/show man?prosite
PDB release notes http://www.genome.ad.jp/dbget-bin/show man?pdb
KEGG release notes http://www.genome.ad.jp/dbget-bin/show man?pathway
核苷酸数据库
GenBank http://www.ncbi.nlm.nih.go/
dbEST http://www.ncbi.nlm.nih.go/dbEST/index.html
dbSTS http://www.ncbi.nlm.nih.go/dbSTS/index.html
dbGSS http://www.ncbi.nlm.nih.go/dbGSS/index.html
Genome (NCBI) http://www.ncbi.nlm.nih.go/entrez/query.fcgi?db=Genome
dbSNP http://www.ncbi.nlm.nih.go/SNP/
HTGS http://www.ncbi.nlm.nih.go/HTGS/
UniGene http://www.ncbi.nlm.nih.go/UniGene/
EMBL核苷酸数据库 http://www.ebi.ac.uk/embl
Genome (EBI) http://www.ebi.ac.uk/genomes/
向EMBL数据库提交序列 http://www.ebi.ac.uk/embl/Submission/webin.html
DDBJ http://www.ddbj.nig.ac.jp/
Plant R gene database http://www.ncgr.org/rgenes
启动子数据库
Eukaryotic promoter database http://www.epd.isb-sib.ch
http://www.genome.ad.jp/dbget/dbget2.html
转录因子数据库
FRANSFAC http://transfac.gbf.de
ooTFD http://www.ifti.org
基因注释数据库
RAP-DB http://rapdb.lab.nig.ac.jp
基因分类数据库
Gene On
蛋白质数据库
SWISS-PROT或TrEMBL http://www.ebi.ac.uk/swissprot/
http://www.expasy.ch/sprot/
PIR http://pir.georgetown.edu
PRF http://www.kinasenet.org/pkr/Welcome.do
http://www.prf.or.jp/
PDBSTR http://www.genome.ad.jp
Prosite http://www.expasy.org/prosite
结构数据库
PDB http://www.rcsb.org/pdb
http://www.pdb.org
NDB http://ndbserer.rutgers.edu/NDB/ndb.html
http://ndbserer.rutgers.edu/
DNA-Binding Protein Database http://ndbserer.rutgers.edu/NDB/structure-finder/dnabind/index.html
NMR Nucleic Acids Database http://ndbserer.rutgers.edu/NDB/structure-finder/nmr/index.html
Protein Plus Database http://ndbserer.rutgers.edu/NDB/structure-finder/protein/index.html
Swiss 3Dimage http://www.expasy.ch/sw3d/
SCOP http://scop.mrc-lmb.cam.ac.uk/scop/
CATH http://www.biochem.ucl.ac.uk/bsm/cath/
酶、代谢和调控路径数据库
KEGG http://www.genome.ad.jp/kegg/
Enzyme Nomenclature Database http://expasy.hcuge.ch/sprot/enzyme.html
Protein Kinase Resource (PKR) http://www.sdsc.edu/kinases/
LIGAND http://www.genome.ad.jp/dbget/ligand.html
WIT http://www.cme.msu.edu/WIT/
EcoCyc http://ecocyc.PangeaSystems.com/ecocyc/
UM-BBD http://www.labmed.umn.edu/umbbd/
多种代谢路径数据库 http://www.unl.edu/stc-95/ResTools/biotools/biotools8.html
基因调控路径数据库(TRANSPATH) http://transfac.gbf.de
基因组数据库
禾本科比较基因组 http://www.gramene.org
GrainGene http://www.graingenes.org
Botanical Da
日本水稻基因组 (RGP) http://rgp.dna.affrc.go.jp
水稻物理图谱 http://www.genome.clemson.edu/projects/rice/fpc
http://www.genome.arizona.edu
华大水稻基因组框架图 http://www.genomics.org.cn
欧洲水稻测序(第12染色体) http://www.genoscope.cns.fr
OryGenesDB(水稻插入突变体) http://orygenesdb.cirad.fr
Maize genome http://www.agron.missouri.edu
Barley genome http://www.css.orst.edu/Research/barley/nabgmp.htm
Forage grasses genomes http://forages.orst.edu/
http://www.forages.css.orst.edu/Topics/Species/Grasses/
Triticum genomes http://wheat.pw.usda.go/index.shtml
Arabidopsis genome http://www.arabidopsis.org
SoyBase http://soybase.agron.iastate.edu
Alfalfa genome http://www.alfalfa.ksu.edu
Cotton genome http://cottongenomecenter.ucdais.edu
Glycine max genome http://www.zmdb.iastate.edu/PlantGDB/glycine_max.html
http://www.zmdb.iastate.edu/PlantGDB
C. elegans genome http://www.acedb.org
藻类(Chlamydomonas)基因组 http://www.biology.duke.edu/chlamy_genome
粘菌(Dictyostelium)基因组 http://dictygenome.bcm.tmc.edu
Animal genomes (ArkD http://www.thearkdb.org
FlyBase http://flybase.bio.indiana.edu/.bin/fbidq.html?FBgn0003075
Mouse Genome Informatics http://www.informatics.jax.org/bin/query_accession?id=MGI:97555
Saccharomyces Genome Database http://genome-www.stanford.edu/cgi-bin/dbrun/SacchDB?find+Locus+%22PGK1%22
多种基因组数据库 http://www.hgmp.mrc.ac.uk/GenomeWeb
Rice Mutant Database http://rmd.ncpgr.cn
文献数据库
PubMed http://www.ncbi.nlm.nih.go/PubMed/
OMIM http://www.ncbi.nlm.nih.go/Omim/
Agricola http://www.nal.usda.go/ag98/
Rice Genetics Newsletter http://www.gramene.org/newsletters/rice_genetics
Proceedings of the National Academy of Sciences USA (PNAS) http://intl.pnas.org
关键词为基础的数据库检索
Entrez http://www.ncbi.nlm.nih.go/Entrez/
Entrez Nucleotide Sequence Search http://www.ncbi.nlm.nih.go/Entrez/nucleotide.html
Entrez Protein Sequence Search http://www.ncbi.nlm.nih.go/Entrez/protein.html
Batch Entrez http://www.ncbi.nlm.nih.go/Entrez/batch.html
Sequence Retrieal System, India http://bioinfo.ernet.in:80/srs5/
Sequence Retrieal System, Singapore http://www.bic.nus.edu.sg:80/srs5/
Sequence Retrieal System, US http://iubio.bio.indiana.edu:80/srs/srsc
Sequence Retrieal System, UK http://srs.ebi.ac.uk/
GetEntry Nucleotide & Protein Sequence Search http://ftp2.ddbj.nig.ac.jp:8000/getstart-e.html
Database Search with Key Words http://ftp2.ddbj.nig.ac.jp:8080/dbsearch-e-new.html
DBGET/LinkDB http://www.genome.ad.jp/dbget/
序列为基础的数据库检索
BLAST http://www.ncbi.nlm.nih.go/BLAST/
FASTA http://www.ebi.ac.uk/fasta33/index.html
BLITZ http://www2.ebi.ac.uk/bic_sw/
SSearch http://www2.igh.cnrs.fr/bin/ssearch-guess.cgi
Electronic PCR http://www.ncbi.nlm.nih.go/STS/
Proteome analysis http://www.ebi.ac.uk/proteome/
Global alignment http://genome.cs.mtu.edu
多序列分析
Clustal multiple sequence alignment http://dot.imgen.bcm.tmc.edu
BCM http://dot.imgen.bcm.tmc.edu:9331/multi-align/multi-align.html
EBI ClustalW http://www.ebi.ac.uk/clustaw/index.html
Clustal multiple sequence alignment http://genome.cs.mtu.edu
修饰对序列对位排列结果的格式(Boxshade) http://www.ch.embnet.org/software/BOX_form.html
系谱分析
PAUP http://on
EBI ClustalW analysis http://www.ebi.ac.uk
GCG package http://www.gcg.com/
PHYLIP http://eolution.genetics.washington.edu/phylip.html
MEGA/METREE http://www.bio.psu.edu/imeg
Hennig86 http://www.ims.edu/~mes/hennig/software.html
GAMBIT http://www.lifesci.ucla.edu/mcdbio/Faculty/Lake/Research/Programs/
MacClade http://phylogeny.arizona.edu/macclade/macclade.html
Phylogenetic analysis http://www.unl.edu/stc-95/ResTools/biotools/biotools2.html
ClustalX ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX
MEGA http://www.megasoftware.net
Treeiew http://taxonomy.zoology.gla.ac.uk/rod/treeiew.html
基因结构预测分析
GENSCAN http://genes.mit.edu/GENSCAN.html
http://bioweb.pasteur.fr/seqanal/interfaces/genscan-simple.html
http://bioweb.pasteur.fr
GeneFinder http://www.bioscience.org/urllists/genefind.htm
Gene Finding http://www.softberry.com
Gene Feature Searches http://dot.imgen.bcm.tmc.edu
Grail http://compbio.ornl.go/Grail-1.3
GrailEXP http://compbio.ornl.go/grailexp
GeneMark http://opal.biology.gatech.edu/GeneMark/eukhmm.cgi
http://genemark.biology.gatech.edu/GeneMark/hmmchoice.html
eil http://www.cs.jhu.edu/labs/compbio/eil.html
AAT http://genome.cs.mtu.edu/aat.html
GENEID http://www.imim.es/GeneIdentification/Geneid/geneid_input.html
Genlang http://cbil.humgen.upenn.edu/~sdong/genlang_home.html
GeneParser http://beagle.colorado.edu/~eesnyder/GeneParser.html
Glimmer http://www.cs.jhu.edu/labs/compbio/glimmer.html
MZEF http://www.cshl.org/genefinder
Procrustes http://www-hto.usc.edu/software/procrustes/
Tandem Repeats Finder http://C3.biomath.mssm.edu/trf.html
Repeats http://bioweb.pasteur.fr/seqanal/interfaces/repeats.html
基因分类
GO Annotator http://udgenome.ags.udel.edu/gofigure
蛋白质结构预测分析
Expasy http://www.expasy.ch/
CBS http://www.cbs.dtu.dk
Predicting protein secondary structure http://dot.imgen.bcm.tmc.edu:9331/pssprediction/pssp.html
Predicting protein 3D Structures http://doe.embl-heidelberg.de/3D/
Predicting protein structures http://dot.imgen.bcm.tmc.edu:9331/seq-search/struc-predict.html
其它分析工具和软件
BioEdit http://www.mbio.ncsu.edu/BioEdit/bioedit.html
Primer3(PCR引物设计) http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi
Putatie DNA Sequencing Errors Check http://www.bork.embl-heidelberg.de/Frame/
MatInspector http://www.gsf.de/cgi-bin/matsearch.pl
FastM http://www.gsf.de/cgi-bin/fastm.pl
Web Signal Scan http://www.dna.affrc.go.jp/htdocs/sigscan/signal.html
BCM Search Launcher http://dot.imgen.bcm.tmc.edu:9331/seq-util/seq-util.html
Webcutter http://www.firstmarket.com/cutter/cut2.html
Translate DNA to protein http://www.expasy.ch/tools/dna.html
ABIM http://www-biol.uni-mrs.fr/english/logligne.html
sequence motifs:
Pfam http://www.sanger.ac.uk/Pfam/
http://pfam.wustl.edu/
ProDom http://protein.toulouse.inra.fr/prodom.html
PRINTS http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/
多种数据库、分析工具和生物信息学机构 http://www.unl.edu/stc-95/Restools/biotools
多种数据库和分析工具 http://www.ebi.ac.uk/Tools/
Comparatie sequence analysis http://www.bork.embl-heidelberg.de/
功能基因组分析
Transcription profiling technologies http://www.ncbi.nlm.nih.go/ncicgap/expr
Protocols for cDNA array technology http://cmgm.stanford.edu/pbrown/array.html
Da
Examples of commercially aailable filter arrays:
GeneFiltersTM (Research Genetics) http://www.resgen.com
Gene Discoery Arrays (Genome Systems) http://www.genomesystems.com
评论