注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

未来的生物信息服务(CMBI)  

2010-01-19 10:07:17|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

未来的生物信息服务

出自CMBI

http://cmbi.bjmu.edu.cn/

http://202.38.126.151/index.php/%E6%9C%AA%E6%9D%A5%E7%9A%84%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E6%9C%8D%E5%8A%A1

 

需求生物信息学提供信息服务

生命科学的研究正呈现“系统化”的趋势,为了实现此目标,需要解决的问题是可“融合集成”基因组(genome-enabled)科学。将未加工的数据转化为知识会引导生物信息领域逐渐将研究的焦点转向对信息的操纵。

目录

 

生物信息学领域逐渐将研究的焦点转向对信息的操纵

通过对比密码学和人工智能,我们可以摸清生物信息领域中发生的对信息操纵的变化并了解这些变化将对生物信息界人力市场的可能影响。

要求保存日渐增多各种类型的海量数据

在生物学家最初对基因进行克隆和测序是,整个过程几乎是繁重的体力劳动而且完全是手工完成的;八十年代早期第一台蛋白测序机的出现,揭开了已测蛋白序列数据以及其后的九十年代更为先进的DNA序列数据大规模增长的序幕。这一增长使得人们不仅可以开发更为复杂的机器以及对基因进行测序和克隆,还可以使得人们设计出计算机程序,预测基因组的遗传编码、进行短序列的匹配和链接以及使用数据库维护和管理大量不断积累的数据。这些数据库促使古老的生物学的革命性的发展。

需要将各种高通量的芯片测试和其他先进的测试技术产生的多种形式的结果以合适的类型保存, 这些”源”的数据是科学的原始基础数据。

要求更恰当的比较、分析软件工具

除非我们能利恰当的软件工具对这些基础数据进行挖掘、比较、分析并描述出他们的功能,否则仅拥有这些数据是毫无用处的。例如在计算生物学中,利用序列的可匹配部分作为测量两个基因相似性的假定的局限性。目前大部分的程序的设计思想是基于序列的比对,因为将一对序列进行排列并发现他们之间的可匹配的部分是测量两个基因相似性的一个很好的方法。这一方法的背后的假定是:两个在功能上相近的基因在同源性上是相关的,即它们来自于同一个祖先。它们的差异是随机突变的结果,并且随着时间的推移,序列之间的差别越来越大。显然,同源性与功能的相似性之间的逻辑关系是非常复杂的。为了能够较为准确的了解序列的功能,我们需要知道更多的生物学上下文环境信息,这一信息通常是以数据库中的注释形式出现。但是计算机无法自动处理有不可靠或不正确的注释的实际系列。例如 SWISS-PROT的情况能够更好的说明注释的关键作用,SWISS-PROT只有 15%的蛋白序列是实际的序列,其他的数据都是数据库和文字上的相互引用、生物学描述以及其他的解释性注释。因此出现了一个两难的情况,由于我们能够对全基因组进行序列分析,从而产生了大量的无任何特征的序列数据,我们就需要计算机程序能够自动处理相关的注释。然而由于生物学上下文环境、网上的文献以及生物学家思维方式的影响,这些注释往往是不可靠的,甚至是不准确的。这些问题正在得以解决。

要求为生物医学研究提供综合信息

在数据丰富、技术驱动的情况下,当前网络生物学,系统生物学,活体细胞研究等新学科出现,它们都需要有大量综合信息并对其进行分析,因此生物信息学已被各种新出现的技术,学科推向了最前台。为生物医学研究提供综合信息成了使生物医学进一步发展的基本。

需要生物信息学专家和IT的领袖人物

生物信息学专家

在缺乏安全可靠的机器人进行注释的情况下,生物信息学高度的依赖于那些即掌握了数据库技术和标准工具又能够把足够的专业生物知识用于分析结果的人们,尽管我们期望于生物信息学的研究提高我们设计可靠注释通道(pipeline)的能力,但是在未来的几年里生物信息学专家仍是不可或缺的。

他们需要掌握生物学和IT通用技术

随着研究的深入,出现了很多新的问题,但是并没有解决这些问题的现成的程序,与这一个问题相对应,在数据库中也有这样的情况,在许多研究团体使用的数据库的时候,需要能够在问题提出之前就有诸如预定查询、小规模的模式匹配、查找程序。因此,真正的生物信息学专家应该是那些对生物学知识有深刻的领会,同时又能够使用perl、sql、java等语言编写分析程序的人。生物信息学专家的专业技能还需辅以维护和管理计算机、数据库、web服务器以及工作站等IT通用技能。因为大部分程序来自与实验室的研究计划,而这些程序的运行通常非常复杂。那些转向生物信息的系统管理员和软件工程师通常会面临较大的学习曲线,因为他们必须熟悉那些他们所管理的软件工具的特征。

随着生物信息领域开发出越来越多的复杂的软件,如何尽量使用已有的技术而不是另外再开发一些解决类似于数据管理、web内容提供等通用问题的程序已经成为这个领域最为基本的挑战。按照这种思路,使用IT主流的专业软件而不是依赖那些关于特定为生物领域知识的输入输出软件将逐渐成为可能。例如在微阵列研究过程已经表现出这一趋势。

需要注释

我们已经遇到了需要将大量的生物学知识运用到数据分析的需求。高通量的技术的到来导致了‘-omic explosion’(-组学爆炸)。为了研究人员之间相互提供研究的上下文环境(即数据之间相互参考),当前大量的工作是用于整合新技术产生的不同类型的数据(例如:基因表达,蛋白质与蛋白质的相互作用,绑定点与转录因子)。

从某个层面上说,这一点简单直接,因为对计算机而言一个序列只是一组字母或者数组上的某个点,或者是一个数而已。然而,当要完全整合不同的数据库时就需要统一使用注释的术语。例如,当“G蛋白绑定受体”和‘GPCRs’以及‘7TM proteins’与同一基因家族相关的时候,这些概念的含义必须和谐一致。整合所采用的方法也应不仅限于语法层面,还用涉及语义层面。在语义层面的整合这一点,重新引起人们对本体ontology的研究兴趣。本体是研究人工智能的科学家们在70年代至80年代建立起来的一个框架,这一框架用于描述研究领域的概念及其之间的联系。人们希望通过构建这些语义关联的格子以及将数据库的记录绑定到恰当的点上,来解决上述问题。然而这一想法是否切实可行,仍是一个问题。尽管如此,目前仍存在大量的需求,要求人们掌握构建这些格子的技巧。例如2002年英国剑桥功能基因组的标准和本体,主题包括词典,例如化学与生物化学命名术,和由基因本体委员会开发的分子生物学词典。并且词典也包括表型,解剖和发展状态;以及其他例如疾病,病理和毒理学。

提供算法

我们已经介绍过生物信息数据存储、管理,维护的需求,以及使用这些工具进行分析的那些人所必备的知识。下面需要介绍这些工具是如何做出来的。

这些工具的制作是算法开发者的任务,这些科学家设计查找、比对预测的策略,而正是这些策略构成了软件工具最为核心的部分。绝大部分的生物信息算法依赖于计算机科学和统计科学的综合知识,因此当产生一个新技术时候就需要有掌握上述两种技术的人来提供新的算法。

直到最近,大部分的算法都是计算数值,例如:查找高分比对以及可能的跨膜区域,或者预测蛋白质的二级结构。为了提高预测的准确率,我们需要提供更多的关于某个计算模型的上下文信息。同时我们还希望整合数据(最为典型的就是蕴涵于注释之中的信息)。为了满足上述两种需求,一类新的算法应运而生——在本体中操纵符号。例如当考虑两个组织样本(一个是一天的组织样本,一个49小时的)的时候,在多大的程度上可以认为这两个样本是的时间是相同的是很重要的。但是如果不能在本体中高效地处理符号,在构建本体时我们首先应该关注什么?从数值到符号(数据信息)计算的转变是更大范围的转变的一个部分,这个转变是由与我们认识到了上下文信息的重要性。

信息学的历史经验与教训

来自Bletchley Park的教训 --靠人做信息提供

密码分析机的底层支撑构架的作用只是为许多人提供值得进一步研究的信息。

在二战中Bletchley Park的解码工作中最为著名的是图灵Bombe算法和密码分析机。然而有一个事实却很少被考虑到,那就是密码分析机需要提供大量的数据和处理输出的大量底层支撑构架。图灵系统依赖于预知的文本片断,这些片断被称为crib(食槽),Bombe用这些crib快速的标识用于对信息进行编码的Enigma机。为了提供这些crib,是由大量工作人员进行通信分析(跟踪和识别被转录的无线电信号源),并且由另外一些人使用这些信息预测消息的类型以及它可能包含的公式化语言的片断。

开发高通量密码分析系统的对那些从事解码信息分析的工作人员产生了巨大的压力,而很多智能领域专家也致力做相似的努力(信息解码的分析工作)构建底层支撑构架来减小数据间的缝隙和标识值得进一步研究的信息。于是“填充(索引)”系统诞生了,该系统使用互相引用的索引卡片来表示不同的消息特征和它们之间的关系。到战争快结束的时候,有大约10000人在Bletchley工作,其中只有一少部分人开发新的解码技术或者与之相关的机器,而大部分的人都忙于管理由Bombe产生的大量信息。

从上面的情况可以看出,密码学和生物信息学的发展有很多相似之处。首先,两个领域都使用简单而优秀的算法,由于算法简单,它们能以极高的效率处理数据(例如,序列比对工具中的blast)。其次,两个领域都是依赖信息管理为其算法提供数据。最后两个领域都需要人类专家的分析结果。其中索引就相当于本体ontology。与人工智能中的本体(ontology)不同的是,索引依赖于人在卡片索引中按照相关的引用和标识出来的相关实体进行手工寻找。然而这一工作对人的依赖太大,因此,随后50年的信息管理系统的主要研究方向就是自动操纵本体ontology。

来自人工智能的教训 -- 机器仍没有解决对常识知识理解

高通量的技术产生了大量用于计算分析的数据,然而只有当把这些数据变成知识并理解这些知识的时候,这些数据才是有用的。

最早意识到对知识进行表示和描述的必要性的领域之一是机器翻译。成功的翻译需要的不仅仅是使用语法规则,成功的自然语言处理是依赖于对文本含义的理解,而不仅仅是单词之间的语法关系。然而“自然语言处理NLP是依赖用常识性知识来理解文本含义”,基于这一认识,人们更多的致力于开发本体,用这些本体表示那些对人类来说是想当然的常识性的知识。例如:”如果完成任务A需要30分钟而完成任务B需要60分钟,那么完成任务A的速度是B的两倍”;或者”尽管意大利沙拉是来自于意大利面,而狗食却不是狗做的”常识性知识。

目前在该类系统中最大的是称为CYC的项目,该项目投资达数百万美元,其目的是读取和吸收所有百科全书的文章。CYC花了大于100人年的时间建造(一个人干一百年,或者一百个人干一年),包含了多达1000000条基本概念,同时还有更多的自动导出概念。每个概念包含了一些断言,从而形成了有数百万条关系的本体。然而即使规模大如CYC的系统,也不能实现完全的自动化的机器翻译,如果没有人的干预,对于任何文本进行高质量地翻译几乎是不可能的。目前,CYC采用人机结合的方式工作,其中机器完成那些基本无需智能的重复性劳动,例如字典查找,而人为系统提供智慧,没有这些智慧,系统无法运行。

生物信息领域的知识处理 - 更需要人参与

通过对1940年代的密码学和1980年代的人工智能的比较,得出的结论是生物信息领域将是更难处理知识的领域。例如当我们试图理解并分析复杂的自然界的时候,在生物信息学领域中的数据复杂性远远超过了CYC系统中常识的复杂性。

Bletchley是一个只有依赖于人的参与才能工作的管理信息系统的例子,而人工智能领域的机器翻译也提供了相似的教训。同样的CYC的研究更加明确了人在这一过程中的关键角色。

在34年人工智能研究中,一个最困难的实质性的无法绕开的必须要面对的问题是:可能根本不存在能以简单不费力的方式来创建一个巨大的知识库;相反起码在最初,大量需要的工作是手工录入一条条的断言。同样生物信息也需要大量的人员从事注释数据库条目、构建自动分析的本体、解释那些比较查询工具产生的结果。

以TrEMBL16和SWISS-PROT数据库之间的关系清楚阐述人的作用

TrEMBL是一个蛋白质序列数据库,其数据来自EMBL的核甘数据库,数据库中的注释是通过使用计算机程序对其他数据库数据的分析得到的。

SWISS-PROT刚好与之相反,SWISS-PROT通过一个由人组成的工作网络生成其注释,工作人员系统的运行分析软件,阅读文章,并与领域专家保持联系。SWISS-PROT的注释人员可能是生物信息领域最大的致力于维护一个单独的开放的资源的群体。这就解释了为什么SWISS-PROT如此的被公众所接受,以及由于这种工作方式的成本过高,最终SWISS-PROT将部分退出免费领域。

很明显,数据的消费者,对于能够帮助他们理解数据的信息的需求是强烈的(很少有人认为,TrEMBL的条目会比SWISS-PROT条目更有用)——问题的难点在于如何使SWISS-PROT的工作方式以可持续地运行下去。由此看起来很矛盾,计算机在生物领域的应用导致了对人的更大需求。这是因为处理数据可以靠计算机,处理信息要靠人- 信息处理是探索性的智能研究,因此需要生物信息学者来提高信息服务。

生物信息学提供信息服务

生物信息学存在于更宽泛的上下文环境中,它要为“实验”提供支持和服务。例如生物信息专家提出最初的治疗类选法,用这些方法识别有意义的结果,并把这些结果传给那些可以利用它们的人。为了达到这一目的,注释不必很详尽,只需能够判断通过搜索引擎查找的该信息是该组织感兴趣的就可以了,并能从搜索的结果中标识出相关的条目以进行进一步的深入研究。

事物的症结在于,高通量的技术产生了大量的可供计算机分析的数据,但是只有当我们把这些数据变为知识并能够理解这些知识的含义的时候,他们才是有用的。只有在生物试验的设计目的或者当某些判定是以生物信息分析结果为中心的时候,这些数据才被赋予了生物学的意义。实现数据从计算机到生物学实验的变迁所需的相关领域知识远比构建一个数据库需要的知识多的多。因此奢望生物信息学专家熟知每个相关蛋白家族的知识是不合理的,同时我们也只能希望他们最大限度剔除错误数据以减小计算机分析数据的数据量。目前,这一工作需要大量的生物信息学工作者,除非生物信息学的发展出现重大变化,否则这一趋势会持续下去,并会成为主要的就业机会增长点。

一个可能的解决办法是如上所述,对这一逻辑结论采用全局观点,同时去掉数据库的所有注释。毕竟,我们所掌握的信息中只有未加工过的数据(三维结构数据、互补的DNA序列)和解释在试验中发现的生物性质的同行的评议文章是实实在在的。可以基于上述信息进行很多计算。这样的好处是,在没有注释的情况下就可以进行分析,同时随着数据不断的加入数据库,分析的效果会越来越好。还可以使“注释的传递性”所引起的问题变得不再复杂。通常情况下,注释的传递性可能会导致在传递链上含义被扭曲,最终可能导致误解或者完全错误的解释。毕竟,去掉注释就相当于去掉了瓶颈,我们与其使用注释不如直接看原文。关于注释问题的争论同样在internet界爆发。其实这一点都不奇怪,因为那些被用于从数以亿记的匹配条目中选择相关文档的算法同样可以用于查找、搜集和过虑同行的评议文章。随着不断增强的某些在线杂志的服务,生物信息界的某些领域已经开始使用这种技术完成甚至替代目前尚由人完成的工作。这导致了需要有有很好的计算机技巧的科学家,这些科学家应当拥有如下的背景知识:信息检索、文本分类、以及其他和web相关的技术。

尽管,本文的焦点集中在生物信息学的服务特性上,服务并不是生物信息学的唯一作用。通过提供信息,算法可以增进我们对基本的细胞处理过程及其机制的理解。例如关于个体和物种之间的演化关系,或者分子的特征和调节网络的关系(SB的研究内容)。因此生物信息学本身也包含有科学发现。


解释

1:标准,标准,更多的标准

在各自为政的数据积累情况下,巴比伦塔的情况可能会重现,因此需要有标准,更多的标准。例如微阵列领域的人们,在Microarray Gene Expression Data (MGED) 组的领导下,实现了统一。MGED的目标是开发一套基因表达数据分析、存储、注释、发布的标准。基于主流的IT技术以及那些被实践证明是可靠的数据库管理系统,这些标准提供了两大好处。首先,在这种情况下,可以使用IT发展多年开发的工程化的软件工具,其次使得大量具被有使用和管理这些数据技能的专家获得了就业机会。

表达微阵列数据的标准有:MIAME (minimal information about a microarray experiment)关于微阵列实验的最小信息,MAGE-ML (microarray gene expression mark-up language) 微阵列基因表达的标签语言,和MAGE-OM (microarray gene expression object model) 微阵列基因表达的对象模型。

2:检索需要利用本体来表示研究领域的关键概念和它们之间的关系

GO的发展

很多生物信息学专家都相信,不仅应该使分析工具能够分析注释信息,还应该使信息便于检索。例如,如果软件“知道”在不同的情况下,G蛋白绑定受体的注释可能是跨膜蛋白、7TM蛋白、GPCR或者是opsin,那么对G蛋白绑定受体的检索将变得非常容易。

有三个问题:首先,表达同一实体的同义词;第二,将一组相关概念联系在一起的关系;三,术语之间确实存在细微的差别。

在60年代到70年代之间,人工智能领域开发了一些系统用于解决这一复杂的问题。其中的一个系统就是语义网络。在语义网络中,概念用网络中的节点表示,关系用“边”表示。这一方法被很多生物信息学的本体采用,同样的人工智能科学家遇到的问题,生物信息专家也再一次的碰到了。如下图所示,该图到底是说,一个黑的电话、黑的电话、还是一些电话是黑的或者所有电话是黑的!!!

在设计语义网络的概念的时候,不仅要说明节点和边的类型,同时也要说明他们是如何被组织在一起的,而且还要说明他们的含义。除非上述要求得到满足,否则语义网络是无用的。

3:从数值计算到符号计算的转变

塞缪尔跳棋程序是早期的较为成功的人工智能程序之一。它的跳棋水平可以达到国际大师的水准。它的程序依赖于数值计算以对候选的方案进行评估和打分。当这一程序与高效查找算法结合的时候,就产生了大量可选方案并识别出分值最高的方案。不幸的是,这一方法不能被用于象棋等其他游戏,因为那些游戏过于复杂,导致无法生成高效的评估方法。这些程序不能像人类棋手那样拥有丰富的经验个知识,后来人工智能科学家转而研究如何用本体表达这些经验和知识。这一转变对程序(不仅仅是游戏程序)开发来说是具有标志性的,这些程序包括机器人,机器翻译,和规划程序。这些新的程序不再是以快速的查找和打分见长,而是更多的处理语义网中的节点和边,处理诸如积分谓词的逻辑公式,并对他们发现的标号和同义词进行判断。

4:艾伦,图灵第一位算法设计者

二战期间,德国使用电子加密器Enigma将他们所有的通信信号进行了加密。来自法国、波兰和英国的密码分析人员在Bletchley Park对这些密码进行解密,并成功的破解了大量的加密信息。大量的了解敌方的情况是非常有价值的,这样可以缩短战争的进程,挽救大量的生命。

为了破Enigma机器加密的信息,需要确定机器的初始设定,搜索的空间大约是1.6。数学家艾伦,图灵设计了一个算法将问题的复杂性减小到了一个可管理的水平,更为重要的是这一算法可以用机器实现。如何将算法设计的可以用机器实现,对一个算法设计者来说是需要很高的技巧的。图灵Bomb是第一个用机器实现的蛮力搜索算法,并为收集分析Enigma机器的密码提供了切实可行的途径。

5:注释网络

通过使用原数据标记的方法,web资源的制作者可以提高web搜索的效率。然而原数据标签并没有预期的成功,因为在添加标签的时候很难预测网页浏览者向搜索引擎输入的关键字。这是,由于网页的制作者为了能够使自己的网页有更多的人浏览,而采用了广为流行的术语,从而破坏了知识的原有结构。由于这一原因,大部分的搜索引擎不以原数据标签为搜索依据。而是直接对网页内容进行分析。有趣的是,在我们对自然语言进行了多年的研究之后,目前仍是使用高频词这一方法对文本进行分析。

作者: Crispin J.Miller is at the Paterson Institute for Cancer Research, Christie Hospital,Wilmslow Road,Withington,Manchester M20 4BX, UK.

Teresa K. Attwoodis at the School of Biological Teresa K. Attwoodis at the School of Biological The University of Manchester, Oxford Road, Manchester M14 9PT, UK.

  评论这张
 
阅读(852)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016