登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

2-2序列数据库的查询检索和序列的提交  

2010-12-21 11:15:05|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
2-2序列数据库的查询检索和序列的提交 l

一、 Entrez 检索系统

1、 Entrez 检索系统简介

v所谓检索,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对蛋白质序列数据库SWISS-PROT输入关键词insulin,即可找出该数据库所有胰岛素或与胰岛素有关的序列条目。

v美国国家生物技术信息中心NCBI开发的Entrez是目前国际上最为著名的生物信息数据库查询系统之一,网址为http://www.ncbi.nlm.nih.gov/entrez。该系统目前包括的数据库见下表。

数据库名称             数据库内容

PubMed           生物医学文献MEDLINE摘要

GenBank           核酸序列

Proteins       SWISS-PROT、PIR以及GenBank翻译得到的蛋白质序列

Structures        PDB三维结构数据库

Genomes       已经完成和正在进行的模式生物基因组信息

OMIM          人类遗传疾病和遗传缺失在线数据库

Taxonomy         系统分析信息

LocusLink         基因关联信息

PopSet          具有亲缘关系和种群之间核酸序列同源性比对结果

。。。 。。。。。。

lEntrez检索系统的特点

vEntrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一个数据库。

vEntrez的另一个特点是把数据库和应用程序接合在一起。例如,通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其他蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。

vEntrez系统的开发基于特殊的数据模型NCBI ASN.1,在对于文献摘要中的关键词查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。

2、PubMed数据库检索

http://www.ncbi.nlm.nih.gov/PubMed

PubMed数据库概述

1).由美国国立医学图书馆所属国家生物技术信息中心(NCBI) 建立。

2). 登录PubMed的网址:http://www.ncbi.nlm.nih.gov/PubMed

l3).收录范围

vMEDLINE

v OLD MEDLINE

vIn-process citations

v Publisher supplied citations

lMEDLINE

收录了全世界70多个国家和地区的4800余种生物医学期刊,起始时间1966年,目前文摘条目1200+万篇,年报道量近40万条,英文刊物占90%、3/4有英文摘要,每周更新。

内容涉及:医学、药学、牙医学、护理学、卫生保健、兽医学等专业。

记录标注[PubMed - idexed for MEDLINE]

lOLDMEDLINE
for pre-1966 citations

qIn-process citations

是临时性医学文献数据库,每天接收新数据,经MeSH词表标引后,每周向medline移加一次。

记录标注[PubMed - in process]

 

lPublisher Supplied Citation

出版商直接向PubMed递送的电子记录中不被Medline收录的部分。

记录标注[PubMed - as supplied by publisher]


4)PubMed的特点

免费提供题录和文摘

可与提供原文的网址链(部分免费获取)

提供检索词自动转换匹配

操作简便、快捷

l5) PubMed的基本检索功能

v词语检索及自动词语匹配

v作者姓名检索

v杂志名称检索

v截词检索

v短语检索

v逻辑运算符检索

l词语检索及自动词语匹配

词语检索:

在检索框中键入一到多个检索词,按“GO”键,即显示检索结果。 “clear”按钮可以帮你清除查询框中的内容,然后开始一个新的查询。

l


image
image
image

q自动词语匹配:

PubMed能自动利用它的“自动词语匹配”功能将重要的词语结合在一起,并将不规范的词语转换成规范的用词。

如:输入vitamin c common cold,系统会将自动转换成(“ascorbic acid”[MeSH Terms] OR vitamin c[Text Word]) AND (“common cold”[MeSH Terms] OR common cold [Text Word])进行检索。这种处理能使检索结果更精确和全面。

MeSH—— Medical Subject Heading

image

l作者姓名检索

在检索框内按照姓+名缩写(不用标点)的格式键入作者姓名,如Smith JA,Huang JF,系统会自动在作者字段内进行检索。

可以在姓名后加[AU]或[au]

au—author

l杂志名检索

?在检索框中键入杂志全名molecular biology of the cell

?也可以直接键入Medline的期刊标准缩写形式,如:mol boil cell,

?键入刊物的ISSN(国际标准出版物代码)进行检索,如1059-1524

可以在杂志名称后加[ta]

ta—title abbreviation

l截词检索

截词符“*”代表多个字符,将*加在检索词后表示对所有以该词开头的词进行检索;如:bacter*,可以检出bacter, bacteria, bacterium, bacteriophage等词。

l短语检索

用“ ”把检索词括起来,强制PubMed进行词组检索。如“single cell”。

当用双引号括起词语时,PubMed将不执行自动词语匹配功能。

l逻辑运算符检索

在检索框中输入逻辑运算符,注意要大写!!执行顺序从左向右,可用括号来改变此顺序。

如:lung cancer AND smoke

#1 OR #2

(#1 OR #2) AND #3

l6) PubMed辅助检索工具

限定(Limits)

预览/索引(preview/index)

检索历史(history)

粘贴板(Clipboard)

细节(Details)

lLimits(限定检索)

?字段限制:著者、刊名、篇名等23个字段

?数据输入时间:默认检索可回溯到1966年,限制选择30天-10年

?7种文献类型限制

?7种语种

?12种子集

l


image

lPreviw/index(检索策略预览)

?浏览检索式

?改变检索式(可用检索式编号如: #1 OR #2)

?浏览索引(index)

lHistory

检索式回顾

编辑检索式。如: #3 AND child

Clipboard

作用:存放检索结果,以便集中打印存盘或定购

Details

显示检索词转换匹配运算详细过程

用途:转换、确定规范词

如:liver cancer

liver neoplasms

修改检索策略

3、其它检索功能

v1) Journal Database:期刊检索

v2)MeSH Database: 主题词检索

v 3)Citation Matcher:单篇/多篇

引文匹配器

v 4)Clinical Queries: 临床咨询

l1)期刊数据库
(Journal database)

通过输入刊名、缩写名、ISSN等浏览期刊文献。

l2) Mesh Database

v功能:确定规范检索词、副主题词、查看词义注释、树状结构。

v例如:检索有关SARS的药物治疗情况

l3). 引文匹配器(Citation Matcher)

作用:输入题录信息,查找特定文献

检索步骤:点击页面左边的“Single Citation Matcher”,按界面提示分别填入所知信息,点击[Search]按钮,可得到相应的特定文献信息。

l4).临 床 查 询 (Clinical Queries )

是专为临床医生设置的。可以检索某一临床主题领域的治疗、诊断、疾病和预后4个方面内容的文献,同时还可选择强调敏感度(查全)或是专指度(查准),也可以检索该主题词领域的系统性综述、Mata分析等类型文献。

l4、检索结果的处理

显示

保存

打印

l1)显示检索结果(Display)

PubMed可用10多种不同的格式显示检索结果,默认Summary格式。

l2)检索结果输出(send to )

Text

File

Clipboad

E-mail

3获取原文及相关资源

v联机获取原文(linkout )

v相关文献查找(related article)

vNCBI其他数据库资源(生物信息学等)


image

l5、PubMed自动更新功能

image

二 、SRS检索系统

1、 SRS检索系统简介

SRS是Sequence Retrieval System的缩写,由欧洲分子生物学实验室(EMBL)开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。

随着分子生物信息数据库应用和开发的需求不断增长,SRS已经成为欧洲各国主要生物信息中心必备的数据库查询系统。

目前,SRS已经发展成商业软件,由英国剑桥的LION Bioscience公司继续开发,学术单位在签定协议后可以免费获得该软件的使用权,而非学术单位则需要购买使用权。

SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库,目前共有300多个数据库安装在世界各地的SRS服务器上。

可以直接从LION公司的网页上查到这些数据库的名称,并知道它们分别安装在何处。( http://www.lionbio.co.uk/publicsrs.html)

欧洲生物信息学研究所、英国的基因组测序中心Sanger Centre和英国基因组资源中心HGMP等大型生物信息中心安装了100多个数据库。

北京大学生物信息中心1997年开始安装SRS系统,目前共有70多个数据库,其中核酸序列数据库EMBL和蛋白质结构数据库PDB每日更新。此外,中国科学院微生物研究所、中国科学院上海生命科学院等单位也于2000年开始安装SRS系统。下表列出国际上主要SRS数据库查询系统服务器系统的网址。

image

2、SRS检索系统使用方法

以北京生物信息中心SRS数据库查寻系统为例讲述SRS系统的使用方法,你可以打开网页:http://srs2.cbi.pku.edu.cn访问北京大学生物信息中心SRS数据库查寻系统。进入SRS主页,点击“Start”按钮即可进入SRS数据库查询系统。

 

image
image

点击页面右上方“Show all”右侧的”+”号按钮,即可显示所安装的所有数据库。用鼠标点击数据库名左侧的选择框以选中需要检索的数据库后,可以用三种方式进行查询。

检索可建立逻辑关系(and,or,not)进行,方法类似如Entren系统,具体操作留给同学们课后自己练习。

1) 快速查询:

在页面右上方的快速检索栏中填入关键词,按回车健或点击“Quick Search”按钮,即可得到查询结果。如选择蛋白质序列数据库SWISSPROT,输入钙离子通道“calcium channel”,按回车键或点击Quick Search按钮后即得到该数据库中与钙离子通道有关的蛋白质序列的条目及其它信息。

2)标准查询:

快速查询方式简单方便,但不便于由用户限定查询条件。

例如,上述查询结果中包含了部分钾离子通道序列条目,也包括了钙离子通道序列片段条目,因为在这些条目中,也出现了“calcium channel”关键词。选择标准查询方式,则可以由用户给出适当的查询条件,以缩小查询范围。

以蛋白质序列数据库SWISSPROT为例,选择该数据库后,点击 “Standard”按钮,则进入该数据库的标准查询页面。将页面左侧查询结合方式选择栏“combine search with”下的AND改为BUTNOT,再在查询表单中分别填入“calcium channel”、“potassium channel”和“fragment”,则可将钾离子通道和钙离子通道蛋白的序列片段滤除。同时,在序列条目显示方式栏“Use predefined view”中选择“proteinChart” 。

点击页面左上方的“Submit Query”按钮,则得到以Java图形表示的蛋白质序列疏水特性图。改变用于计算平均疏水值的残基数,可以得到不同的波形图。

 

image
image

3) 扩展查询:

标准查询方式的功能比快速查询有所增加,但并没有体现SRS的全部查询功能。而利用扩展查询方式,则可充分利用SRS系统强大的查询功能。

例如,可以将输入关键词的查询范围限定在物种、说明、作者、文献等范围内,也可以限定日期和序列长度等。对EMBL数据库,还可以选择人、植物、EST等不同的子库进行检索。

例如,选择植物“Pln”,在物种“Organism”栏填入水稻的物种名“Oryza sativa”,在序列长度“>=”栏中填入400,并把“Display per page”的缺省值由30改为10000,点击“Submit Query”,则可得到EMBL数据库中长度大于400bp的所有水稻序列条目,并在屏幕上全部列出

此外,还可以选择EMBL和SwissProt等数据库的序列特征表(feature table)中某些特殊内容,实现快速高效的检索。

image 例如,选择蛋白质序列数据库SwissProt,进入开展查询页面,在“FtKey”栏中选择“disulfide”,不填入任何关键词而直接点击“Submit Query”,则可得到SWISSPROT中所有含二硫键的蛋白质序列条目。

上述SRS的使用方法,仅仅是其中一部分。SRS系统另有许多其它功能。

SRS设有六个常用选择按钮:

?TOP PAGE、

?QUERY、

?RESULTS、

?SESSIONS、

?VIEWS、

?DATABANKS

点击这些按钮,则可随时进入其特定的页面

 

? TOP PAGE:数据库选择页面,用来选择所需查询的数据库名称,用户可选择一个数据库进行查询,也可同时选择多个数据库查询

?QUERY:标准查询方式页面,用来输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等查询项目,有的数据库可以选择全文搜索(All Text)选项,适用于对数据库内容不很熟悉、对所查信息不很确切的情况。

?RESULTS:查询结果管理页面,用来对查询结果作组合、链接等处理,以得到进一步的筛选结果。

?SESSIONS:查询过程存储页面,可以将某次查询过程以文件形式下载到用户本地计算机上保存起来,以供下次使用;也可把本地计算机上的存放的查询过程文件上载到服务器上。

?VIEWS:显示管理页面,用户可以选择和定义查询结果的显示方式,包括文本方式、表格方式、图形方式、FASTA搜索结果方式等。

?DATABANKS:系统安装的数据库清单,包括数据库名称、版本、类型、数据量、建立索引的日期等。

?此外,SRS系统提供了详细的联机帮助信息,任何页面下点击右上方的Help按钮,即可启动联机帮助手册。仔细阅读该手册,可熟悉SRS系统的使用方法。

3、SRS系统的特点

SRS系统是一个功能强大的数据库查询功能,其主要特点作有以下几个方面 :

l1)统一的用户界面

SRS具有为统一的Web用户界面,用户只需安装Netscape等网络浏览器即可通过Internet查询世界各地SRS服务器上的300多个数据库。SRS支持以文本文件形式存放的各种数据库,包括序列数据库EMBL、SwissProt,结构数据库PDB,资料数据库AAIndex、Biocat、dbcat,文献数据库MedLine等

2)、高效的查询功能

生物信息数据库种类繁多,结构各异。如何快速、高效地对各种数据库进行查询,是数据库查询系统必须解决的问题。SRS系统采用了建立数据库索引文件的手段,较好地解决了这一问题。即使是含几百万个序列的EMBL数据库,只需几分钟即可实现整库查询,得到所需结果。此外,SRS系统具有查询结果相关处理功能,每次查询结果可作为进一步查询的子数据库,并可对其进行并、交等操作,对查询结果进行组合或筛选。

3)、灵活的指针链接

通过超文本指针链接实现信息资源的有机联系,是目前Internet信息服务的主要趋势。许多生物信息数据库均包含与其它相关数据库的代码,如SwissProt数据库中的蛋白质序列包含了该序列在EMBL、PDB、Prosite、Medline等其它数据库的代码。利用超文本链接,可将这些相关数据库联系在一起。SRS采用实时方式,根据查询结果产生链接指针,而不是在原始数据库中增加超文本标记,既节省了存储空间,也便于数据库管理。

4)、方便的程序接口

将序列分析等常用程序整合到基本查询系统中,是SRS的另一个重要特点。用户可以对查询结果直接进行进一步分析处理。例如,查询所得的蛋白质序列,可立即用BLAST和FASTA查询程序进行数据库搜索,找出其同源序列;也可以用PrositeSearch程序,寻找功能位点;用ClustalW程序进行多序列比较

5)、开放的管理模式

在管理模式上,SRS采用了开放的方式。无论是数据库还是应用程序,均可进行扩充和更新。用户可在本地机上安装自己的SRS系统,并将自己的数据库添加到SRS系统中,并可与其它数据库实现超文本链接。也可自行编写应用程序,整合到SRS系统中。

l6)、统一的开发平台

SRS系统中所有数据库均以文件系统方式存放,通过预先建立索引文件实现数据库查询。因此它不依赖于Oracle、Sybase等商业数据库管理软件,便于推广使用。为建立索引文件,特别是对EMBL这样大型数据库建立索引,系统的内存和CPU资源需要满足一定的要求 。


 

l三、如何向核酸数据库提交序列?

l1、序列数据提交途径方式


v提交单位:1. The National Center for Biotechnology Information(NCBI)(www.ncbi.nlm.nih.gov);2. The DNA Databank of Japan(DDBJ)(www.ddbj.nig.ac.jp);3. The Europe Molecular Biology Laboratory(EMBL)/ EBI Nucleotide Sequence Database (http://www.embl-heidelberg.de)。

v网页提交:http://www.ncbi.nlm.nih.gov/BankIt 。

v通过Sequin软件提交(Ftp://ncbi.nlm.nih.gov/sequin)。

vEmail:gbsub@ncbi.nlm.nih.gov

v磁盘邮寄:GenBank Submissions, National Center for Biotechnology Information, National Library of Medicine, Bldg. 38A, Room 8N-803, Bethesda, Maryland 20894。

l2、序列精度要求

vDNA测序过程中的精度要求是相当高的,需要大量的时间和开支。在提交到GenBank等数据库之前都没有经过序列精确度的检测程序。常常序列在被某刊物上发表的同时被提交到数据库,得到了该刊物某种程度的检测。然而许多序列是在没有发表或还没有发表的情况下提交了。

v对于完成诸如Human Genome Project大型测序工程的实验室,必须确保精度在1 error/10kb以内。这种精度对于绝大多数序列分析来说是足够的。而对于其他一般的实验室,其测序精度可能非常低(如EST测序),约1/100,包括错误碱基以及碱基的错误插入或删除。

v在翻译GenBank等数据库中EST序列的过程中,错误的碱基可能被翻译成错误的氨基酸。然而,最严重的问题是碱基的插入或删除引起的序列结构上的移位,这将在组装蛋白质的过程中出现很大的困难。

v另外一种类型容易出错的数据库序列,即从致病生物体中出现免疫变化的序列片断,例如HIV病毒的蛋白质外壳的区域。

v虽然低水平的精确度对定性鉴别等研究工作是适合的,但要进行更精细的分析(比如进化分析),序列片断的精度必须得到保证。

l3、序列的计算机存储

v在序列分析程序中,必须确保序列文件仅包含一般的序列符号,而不包括文本编辑器所使用的特殊字符,这一点很重要。绝大多数文本编辑器在输入标准的ASCII字符的同时还会输入一些控制字符。这些控制字符只能被文本编辑程序正确识别。如果序列文件中包括这些控制字符,分析就会出错,当然这还取决于序列分析程序能否将它们过滤掉。编辑器通常仅用标准的ASCII字符来保存文件,这些文件将适用于绝大多数序列分析程序。

v序列文件和其他包含非ASCII字符的数据文件也会在不同的机器之间传递过程中出现错误。一些通信软件可以设法忽略这些控制字符。例如,文件传输程序(FTP) 拥有可以由用户设置的ASCII和二进制码两种方式。其中ASCII方式常用于传输文本文件,而二进制码方式用来传输包含非ASCII码的压缩文件。

v大多数序列分析程序不仅仅需要一个DNA或蛋白序列文件是标准的ASCII文件,而且还要规定特定的格式。计算机的窗口界面大大简化了这些问题,比如操作者仅仅需要在一个窗口(例如在浏览ENTREZ网页的窗口)中进行拷贝,而在另一个窗口(例如正在运行翻译程序的窗口)中进行粘贴。

l四、我国学者向GenBank递交序列数据状况分析

递交记录情况(不包括台湾、香港)

最早提交记录前三位的大学:

?1989.09.25(复旦大学)

?1992.01.02(北京大学)

?1993.10.13(中山大学)

提交序列最长的前三大学(超过100000 bp):

?209216 bp(上海第二医科大学)

?139342 bp(中山大学)

?130760 bp(浙江大学)

image
image image

统计方法说明

v本文统计了截止1996年12月31日和2001年12月31日由我国大学和其他研究机构直接递交GenBank国际公共数据库的DNA和基因组序列数量,有关统计方法说明如下:

v利用NCBI提供的ENTREZ搜索系统进行初步的检索和统计:

v(1) 先将只要含有中国、台湾、香港和澳门字样的非EST记录均下载:

v(CHINA OR TAIWAN OR “HONG KONG”) NOT "gbdiv est"[Properties] Limits: Modification Date to 2001/12/31,共获得24701个记录

v(CHINA OR TAIWAN OR “HONG KONG”) NOT "gbdiv est"[Properties] Limits: Modification Date to 1996/12/31,共获得915个记录

v自编程序并对上述记录分别在记录的“JOURNAL”字段后(“SUBMMIED:….”)进行中国大陆、台湾和香港数据库记录的统计和国内一些主要城市及高校数据库记录的统计等。

v(2)EST记录数据是通过ENTREZ 检索GenBank数据库gbdiv est子库获得的。

?(3)用于检索的各高校英文名称均通过各高校的主页上查找得来,通过我国教育部网站获得了我国所有院校合并的信息。检索中对我国主要的高校均进行了统计,然后进行排名。

?(4)除了特别说明外,文中的记录均指核苷酸序列记录。

? 其他几点说明:(1)如果递交给GenBank数据库的记录中没有“China”、“Taiwan”、“Hong Kong”和“Macao”等字样,而仅注明“PROC”、“PRC”等则不包括在本研究统计范围;(2)在进行高校检索时,仅包括记录中直接出现“University”一词的记录。本研究的原则是不对记录进行任何修订,如果记录中“University”一词输入错误或没有写明具体大学(而实际是由某一大学完成的),将均被排除在外。以上两种情况在本研究的记录中均存在,但仅涉及极少数记录;(3)对中国大陆的检索策略是在有“China”字样的记录中剔除含有“Taiwan”、“Hong Kong”字样的记录来实现的。统计中注意了台湾和香港递交的记录中对“China”一词使用不规范的一些情况。

 

  评论这张
 
阅读(2152)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018