注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

植物生物信息学:从基因组到表型组  

2010-01-11 21:50:01|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

植物生物信息学:从基因组到表型组
作者:编译/蔡伦  中科院计算所   

  近年来,生物技术的革新产生了大量的各种各样的生物数据,这些大量数据催生了生物信息学学科的产生和发展。这个相对新兴的学科一方面加速了基因组和后基因组数据的分析,另一方面促进了转录组学、蛋白组学、代谢组学和表型组学等相关领域的信息的整合。这种信息的整合可以用来鉴定基因及其产物,可以用来阐明基因型和观测到的表型之间的功能联系。因此,可以用来进行从基因组到表型组的系统分析。随着植物生物技术发展质和量的不断提高,需要生物信息学来整合利用“组学” 扩展了的技术所产生的各种各样的数据。

  生物信息学是一门生物学技术和信息学技术融合的学科。不同的人对生物信息学有不同的理解;但是按照其最基本的形式,生物信息学可以定义为“有效的组织生物学信息,进行逻辑化的查询”。

最新的基因组学技术的进步导致了生物学数据量的大爆炸和生物信息学长足的发展,这无论是在植物科学技术领域还是在更广阔的生物医学领域。各种被称作“组学”的技术大大扩展了生物信息学的应用,并且这条原则在生物技术领域已经得到广泛的认可。

  现在,生物信息学领域面临的新的挑战:一是要通过“组学”技术平台进行复杂的数据整合,二是通过基因组、转录组、蛋白组和代谢组在传统的遗传学和植物的表型之间建立起直接的联系。如今的研究人员需要的已经不仅仅是给出DNA片断的候选的功能注释或者预测的蛋白结构。生物学需要的是智能的系统来搜索和过滤大规模的复杂的数据类型,对特定的问题进行解释,广泛搜索任何个人都无法完全涉猎的专业研究领域。虽然随着新的 “组学”技术和后基因组技术的兴起,生物信息学扩大了其应用范围,但是它的应用重点仍然是对DNA序列和基因组的分析。

  基因组学

  现代生物信息学是随着基因组技术的发展而产生的,特别是随着成本不断降低的大规模的序列测定的技术的发展而发展起来的。源于1991年,通过表达序列片断(EST)来高通量发现新基因启动了对大的、易于搜索的序列数据库的需求。虽然在多种农作物中,EST序列依然是基因发现的标准方法,但是DNA测序费用的降低已经使得人们把更多的精力转移到全基因组测序上来。

  2000年Arabidopsis Genome发布的拟南芥(Arabidopsis thaliana)全基因组序列是植物基因组学的里程碑。两年以后,水稻公共协会发布了水稻(Oryza sativa L ssp. japonica Nipponbare)的全基因组序列。其他两项相关工作对这项工作做了重要的补充,一项是农业综合性企业Syngenta和Monsanto开展的测序工作,另一项是北京基因组研究所独立开展水稻indica亚种的测序项目。由于水稻和其他重要的农作物有相似的基因组水平,水稻基因组全基因组测序完成已经对植物生物技术学和农作物生物信息学产生了重大的影响。

  对于得到的全基因组序列,也就是规模的序列数据,必须用全新的视角来观察,考虑怎样才能更好的组织和解读好这些数据。基因发现项目中遇到的高度冗余的问题,可以通过参考公共序列或者全基因组序列来减少。对于一个特定的农作物,如果还没有它的全基因组序列,可以用相关的亲缘关系近的同线物种的基因组来替代。随着DNA序列数据库的不断增长,生物信息学在容纳这些数据方面始终面临着很大挑战,因此需要不断的降低数据的冗余度。数据分析工具的开发随数据库的发展而发展,使得研究人员能够更全面的注释序列并挖掘复杂的相互关联的数据,从而获得重要的生物学的信息。

 

  数据库

  为了存储高速增长的DNA序列信息,需要开发专用的DNA序列数据库。通过GenBank和EMBL的合作,1986年形成了相关的最大DNA序列数据库,次年日本DNA数据库也加入进来。这个超级序列数据库被认为是全世界公共DNA序列的标准仓库,包含超过740万碱基的植物DNA序列。而且,不同公共数据库的合作有利于使用相同的“特征表”格式和相同的标准进行序列的注释。特征表的设计提供了一个可扩展的词汇表来描述特征,它是现在可扩展标记语言(XML)格式的前体,提供了整体数据库的数据结构的标准形式。

  超级数据库GenBank现在仍然是一个理想的DNA序列的数据仓库,它包含了大量各种各样的物种特异的数据。然而,除了这些综合的序列数据仓库之外,还需要一些物种特异性的序列数据库,能够提供包括分析、可视化和查询的各种工具。1989年发布的AceDB就是最先出现的此种类型的数据库之一。AceDB 提供了一个定制了的数据库,有着图形化的用户交互界面和组织查询基因组数据的工具。虽然,AceDB最初开发是为了存储秀丽隐杆线虫(Caenorhabditis elegans)基因组项目产生的序列数据,但它很快也吸收了农作物物种。现在,AceDB仍然是植物DNA序列的一个主要的数据库。

  基于不同实验室的众多的农作物,测序项目的数目随着植物数据库的增长而增加。AceDB虽然提供了基因组数据库的早期模型,但是为了满足不同用户特殊的需要,它又开发了各种各样的结构形式。现在,有众多的数据库方案可供选择,这依赖于用户的要求,并且有的结构方案经常根据个性化的需求而单独改进。

  农作物基因组数据库的一个较为重要的变化是开发了图形化的用户界面,提供更加友好的查询环境。虽然AceDB也开发了图形化的用户界面,而新近出现的一些农作物数据库多采用了Ensembl数据库的结构,更加强调图形化的用户交互。Ensembl最初是作为人类基因组计划的一部分而开发的,通过它能够更方便的观察几个不同物种来源的相关数据,这一点使它成为谷类比较基因组数据库Gramene最理想的模型。谷类数据库界面的最近的一个改进,是应用一个标准化的基于客户端的可升级的向量图像浏览器,实现了对数据的可视化操作而不需要频繁的刷新网页。

  数据库的结构和界面的多样性,反映了各个研究组的不同的需求,但是这种多样性造成了生物信息学数据管理的难度,因为这降低了数据整合的余地和数据库间的交互查询能力。随着基因组学的发展成熟,已经有倾向采用标准的数据形式和方案来组织农作物的基因组信息,而且未来的数据库很有可能在设计的时候会优先考虑不同数据库的交互联通能力。另外,网格计算的发展也将大大促进复杂生物学数据的整合。

 

  工具

  基本的序列比较和拼接工具是随着其分析的数据库的膨胀而发展起来的。如果没有基本局部比对查询工具(BLAST)及其相关的序列比较工具,很多高通量的测序实验室得到的大量数据除了是一些字符串之外没有任何意义。现在,BLAST仍然是从庞大的数据库鉴别特定的序列,对新序列进行快速注释的最迅速的途径。虽然BLAST是在大数据库中寻找相似序列的基本工具,但是对拼接起来的序列数据库还有几个其他工具可以选择,这依赖于硬件设备、数据量大小、数据格式、结构和物种的遗传结构。

  序列的相似性搜索和拼接工具是许多应用软件的基础,可以用来分析农作物的基因组信息。对已经标注了的序列的快速鉴定,大大提高了序列注释的过程,从而形成了比较序列数据库;而序列拼接软件包一方面能够降低数据库中高度的冗余度,另一方面可以鉴别序列中出现的不同。

  利用庞大的序列数据库,可以用来挖掘一些生物特征——例如,单核苷酸多态性和简单重复序列的分子标记——这些特征可以应用在植物生物技术中寻找诸如特征图谱之类的东西。全基因组序列可以用来进一步挖掘新的启动子序列和其他调控特征,如micro-RNAs。这种第三级的注释提供了表型和掌管发育的复杂调控机制两者和环境刺激反应之间的联系。

 

  转录组学

  微阵列及基于序列的表达谱数据从一个全新的角度对现有的基因组数据进行了补充,在这个基础上,生物信息学已经建立了几个基于统计学的子学科。

  由于序列有着广泛的线性动力学特性,基于序列的方法十分有潜力应用在更准确的定量测定基因的表达水平。此外,这种方法不需要预先知道序列信息,这对于未测序植物的新基因发现和基因表达水平测定很有优越性。随着EST测序项目的成倍增长,可以从这些数据库中评估表达信息,虽然在这方面,这种EST测序方法和真正的转录组测定方法相比更像一个副产物。

  基于序列的表达分析最突出的方法有基因表达连续分析(SAGE)和大规模平行信号测序(MPSS)。其中,只有SAGE被广泛应用到植物基因组当中。和SAGE相比,MPSS虽然有几个显著的优点,但是因其价格昂贵,所以很少在公共的植物生物技术研究中应用。利用MPSS对基因组进行表达基因的注释拓宽了MPSS在农作物物种上的应用,所以现在可获得的植物MPSS公共数据也越来越多。

  基于分子杂交的微阵列芯片已经成为测定转录组的有力工具,这可能是因为其可以同时分析多个样品的原因。微阵列芯片的快速应用,大大加速了基于芯片数据分析的生物信息学的发展。在这个领域,已经从最初的检测两个样品之间的差异表达,发展到整合进了许多复杂统计模型,其中包括洛斯正则化、隐马模型和贝叶斯统计分析,等等。对基因芯片数据进行分析的软件还有很多,并且不断有新的方法出现,所以短时间内不可能形成一个标准的统一方法对基因芯片数据进行分析。

  虽然基因及其表达之间有直接的关系,但是现在基于微阵列的定量检测方法很难把不同的试验数据进行直接的比较。已经有工作对微阵列试验和数据进行标准化,如Gene Expression Omnibus已经被广泛的应用。随着微阵列数据产量的不断提高,要实现对这些数据的有效的组织和方便的查询,数据的分析和整合方面的能力必须加强。

  微阵列技术正在迅速发展:cDNA芯片被应用于许多植物物种的基因表达分析,覆盖整个Unigene的基于寡核苷酸的芯片已经被应用在大部分的植物物种中。为用户定制的一次性寡核苷酸表达芯片技术的发展,使微阵列技术在表达分析和基因型确定上有着很好的应用。这些不断增加的特别设计的芯片产生的数据将需要更加复杂的数据整合和分析系统。

 

  蛋白组学

  “蛋白组学”这个词出现在上个世纪90年代中期,当时的背景是“基因组学”已经获得了巨大成功,并且从那时开始,蛋白生物化学的许多特征被逐步整合进来。蛋白组学的生物信息学的概念在大规模的预测蛋白序列数据库形成之前就出现了,这主要是基因组和高通量测序技术发展的结果。现在的蛋白组学包括蛋白序列数据库、预测蛋白结构数据库和最近出现的蛋白表达分析数据库,并且这个领域还在随着新技术的出现而不断发展。

  最基本的蛋白序列数据库仍然是SwissProt,它建立于1986年,最早是作为预测的蛋白序列的存储库,现在包括蛋白的多个水平的数据。为了把基因组、蛋白组和表型组联系起来,需要从一级序列预测蛋白的结构。相关的研究主要来自制药工业,虽然结构预测在植物生物技术研究中也有所应 用。

  更精确的预测蛋白结构的算法的开发,把确定的蛋白结构工作从实验室转移到生物信息学家手上。确定结构的蛋白越多,越容易预测结构和功能的相互关系。蛋白结构数据库和结构比较工具使得对共同结构的鉴别和功能预测更为容易。植物生物技术和生物信息研究者面临的另一项难题是把全基因组DNA序列翻译成蛋白结构并预测功能:这项工作将在生物体的遗传学和它的表达表型之间建立十分重要的联系。

  对每个蛋白的结构和功能进行解读,将会对蛋白组学领域产生革命性的影响。现在,蛋白组学面临的另一个挑战是如何用高通量的方法来确定蛋白表达模式。蛋白表达的测定主要是通过双向凝胶电泳的方法,它利用分子量确定蛋白点。双向凝胶电泳技术的发展使得能够检测越来越少量的蛋白质,并且荧光染料的应用使得能够检测两个样品之间差异很小的量。随着高精度的分子量确定的方法出现和预测蛋白片断数据库的建立,使得不仅仅能够快速确定完整的预测蛋白序列和相关的DNA基因序列,而且能够确定一些翻译后修饰,如磷酸化。

  蛋白检测芯片和高通量抗原研究方面的最新的技术进步正在被应用到生物医学领域。这些技术进步可能会对植物生物技术产生影响,特别是在制药和营养开发领域,虽然现在这些技术在植物生物技术学上的应用还是十分有限。

  蛋白组学对提高我们对植物生物技术的理解十分有帮助,因为它把基因和转录数据直接联系起来。蛋白组学也对植物表型的测定有着很强的影响,或者是直接通过蛋白含量或功能,或者是间接通过蛋白和代谢组之间的联系。因此,生物信息学组织和整合“组学”数据的潜力存在于它模拟蛋白组及其相互作用的能力中。

 

  代谢组学

  与蛋白组学一样,代谢组学也源自生物化学,包括对小分子代谢物和聚合体,如淀粉的分析(通常是高通量或者大规模的)。代谢组学的奠基性工作是对生物学通路的描述,并且现在的代谢数据库,如日本的基因和基因组京都百科全书,就是在已知的生物化学通路上进行研究的。

  在更进一步的应用层次上,代谢组学的生物信息学包括了通过参照定量的生物化学分析,鉴定和描述各种各样的代谢产物。虽然这个领域相对较新,最近还是有重大的突破,并且很有希望在植物生物技术领域产生一些直接的应用。

  代谢组学可以被认为是整合系统生物学的一个关键,因为它经常是预期表型的一个直接量度,它测定一些定量和定性的特征,如谷类植物谷粒淀粉的含量,含油种子油的含量。此外,通过蛋白组、转录组和基因组,代谢组学可以和遗传学联系起来,并且可以因此绕过更加传统的定量特征位点方法,而应用在分子水平的农作物育种上。生物信息学将要面临的难题是如何为新兴的系统生物学领域组织和整合这些不同类型的数据。

 

  其他“组学”技术

  基因组学卵生了许多“组学”相关的术语,这些术语经常应用在已经确立的研究领域中。在这些术语当中,高通量分析表型的“表型组学”可能会在植物生物技术上有最广泛的应用范围。植物基因组高度的可塑性使得很小的遗传改变产生多样的表型,这为改进农作物提供了挑战和机遇。详尽系统的分析表型需要一个数据仓库和一个结构化的查询方法。表型组学这个领域是从对突变植物表型描述的基础上发展起来的,许多已经发表的论文对突变植物进行了描述,经常用到了一些结构化的本体术语。把这些数据存储在可查询的数据库,与表型组学在高通量分析、植物发育和自然突变上的应用结合在一起,形成从农作物发育的遗传学到农作物生产这条环路上的最终联系。

  从一开始,对另外一个领域的数据整合也存在数据的结构化和系统查询问题。在“文献组学”(文献参考数据管理)这个领域,现在的文献数据库是通过已发表的参考文献建立的,起始于把它们整合到可互联网查询的网页窗体当中,如ISI Web of Knowledge平台。虽然已经有一些文献资源整合到物种特异的数据库当中,但是这些整合通常需要大量的手工输入。因此,把参考文献自动整合到生物学数据库中,生物信息学有发挥的余地。

 

  数据整合:从基因组到表型组

  生物信息学是在生物学数据规模和形式不断增长的基础上产生的,目前,对这些生物学数据的组织和查询需求日益增加,它们都源于不断发展的“组学”技术。随着这些技术的不断发展,也需要对不同类型的数据和学科进行类似的整合和交互查询。精确的数据整合要用相关术语进行统一的数据注释,这也是生物信息学应用过程中产生的系统生物学发展的潜在的动力。

  由于几乎不会传递和积累已有的错误,手工的DNA序列的注释一直被认为是注释的“黄金标准”,但是由于自动注释的低成本和减少了手工注释固有的人为偏好或偏差,基于序列比较工具的自动注释也有一些应用。序列一级注释通常采用序列比对工具(BLAST 搜索DNA和蛋白数据库)实现,二级注释(例如,遗产和物理图谱位置、基因表达数据和预测的蛋白结构)提供数据整合和对基因可能的功能作更深入的分析。

  现阶段复杂注释和整合的局限存在于不同数据库之间缺少统一的格式。这个在对蛋白和基因序列的术语“基因本体”、对微阵列实验的微阵列实验最少信息(MIAME)标准和广泛的基于植物数据库信息的植物本体中都有所阐述。公认的XML标准的应用也有助于数据的整合。至今,还只有拟南芥和水稻基因有一级的基因本体注释。然而,利用序列比较工具可以把这些一级的注释应用到相关物种中。例如,通过与拟南芥的序列相似性,芸苔(Brassica)EST序列能够用特定的基因本体得到注释。

  对于正在形成的系统生物学领域,相关数据的平行分析对不同数据的统一注释是一个必要的补充。代谢组和转录组的整合和结构化查询已经产生一些结果,为基因组和表型组数据的整合提供了基础。把基因表达、蛋白序列和蛋白结构数据与遗传、物理图谱数据相结合,将会整合遗传学、基因组学、转录组学和蛋白组学等各学科。对代谢组学数据和表型研究数据的进一步整合,将会形成一个完整的环路,并为高级知识库——全系统生物学(whole-systems biology)的发展奠定基础。■

  评论这张
 
阅读(935)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016