注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

【生物信息学教程】7.4:基因组水平蛋白质功能综合预测   

2009-11-14 13:29:15|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

7.4 基因组水平蛋白质功能综合预测

蛋白质之间的功能联系

基因组测序计划在产生完全的组成多个亚单位装配和信号通路的蛋白质列表方面取得里程碑式的业绩。这些装配和通路现在必然被制图,Marcotte等和Enright等在此方面走了显著一步。这两个研究小组发展了不是通过氨基酸序列相似性比较的其他特性联系起蛋白质的计算方法。通过比较系统发育(进化)谱和表达类型,以及通过分析结构域融合(domain fusions)新方法识别在代谢通路、信号通路或结构复合体上功能相关的蛋白质。

酵母未定性蛋白大约一半�总蛋白数约四分之一可用此方法进行功能注释。因为不依赖于直接的序列相似性,这种方法可预测与已知功能蛋白质缺乏同源性的蛋白质功能。将会发现它们在基因组学中的许多应用,与大规模蛋白质功能实验互为补充。

构建通路和专配有用模型的信息来自实验,最重要的通过蛋白质组学和结构基因组学。蛋白质组学的目标是对所有的蛋白质和蛋白相互作用进行鉴定和定性。 它包括采用大规模实验方法如双杂交系统(two-hybrid system)、质谱法(mass spectrometry,MS)、二维凝胶电泳(2D PAGE)和DNA芯片杂交(DNA microarray hybridization)。任务大小和复杂性可由下面的假定理解:每个蛋白质有5-50个功能连锁,结果在一个酵母细胞中就有 30,000-300,000个连锁。虽然实验已确定了约30%的酵母的功能,但是它们有时不是迅速廉价的,且不完全。因此需要用计算的方法来预测功能。

计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的可行性是因为进化产生享有共同祖先的的同源性蛋白家族,因此有相似的序 列、结构,经常还有功能。蛋白质比较允许对酵母另30%的蛋白质功能进行研究。但是,通过同源性进行功能预测受两方面的因素制约。首先,它只能用于与已知 功能蛋白质有同源性的未知蛋白质的功能预测。其次,不是总清楚匹配的蛋白质何种功能特性为其共享,尤其对那些距离较远的匹配。

Marcotte等和Enright等并未受此限制,因为他们不依赖与未知蛋白质与已知功能蛋白质的序列相似性。而代替的是,将同样通路和装配的蛋 白质分组,定义为“功能连锁”(functionally linked).Marcotte等针对出芽酵亩基因组蛋白质采用了三种不同的方法:系统发育谱(phylogenetic profiles),结构域融合(domain-fusion analysis)和相关mRNA表达类型(correlated messenger RNA expression patterns)。Enright等独立发展了结构域融合分析,采用新的聚类算法用于三个原核基因组分析。

系统发育谱依赖于蛋白质相关进化。两个蛋白质是进化相关的当它们共有一个系统发育谱,定义为蛋白质在一组基因组中的发生率类型。仅当几个完整的基因 组比较时系统发育表达谱才能精确计算。两个蛋白质享有相似的系统发育谱被认为是功能连锁(functionally linked)。因此,根据系统发育谱进行的蛋白质聚类,当未知蛋白质与一个或更多的功能已知的蛋白质归为一组时能够提供未知蛋白质的功能信息。

结构域融合的方法鉴定含有两个分别在其它基因组的非同源性成分蛋白(component proteins)组成的融合蛋白(fusion proteins)。这样的成分蛋白被认为彼此物理上有相互作用。在两个相互作用成分蛋白之间的界面(interface)更有可能进化当两个蛋白融合为 一条单一链。著名的例子是,从细菌到真菌的色氨酸合成酶的α和β亚单位。在一些方面,结构域融合分析与从基因邻近效应(gene proximity)推测功能连锁相似。

Marcotte等也通过关联它们的mRNA表达类型来对酵母蛋白质进行分类。这些类型来自97组公共DNA芯片数据,显示了大多数酵母蛋白质在正 常生长、葡萄糖缺乏孢子形成和突变基因表达的条件下的表达变化。分析建立在认为在一系列相同条件下表达水平相互关联的蛋白质是功能连锁的。

新的功能注释经常是广义的,限制蛋白质的功能为,“代谢”或“转录”。即使随机的一对蛋白质也有50%的相似机率在这样广义的水平上。但是因为注释 一般来自许多连锁,比随机连锁信息量大3-8倍,在一些例子中与蛋白-蛋白相互作用的实验决定相比。 例如,Marcotte等建立了新的MSH6的连锁,在某些结肠癌中的DNA错配修复蛋白,属于PMS1错配修复家族,其中的突变也与人结肠癌、嘌呤生物 合成途径、RNA修饰酶和一个未知的蛋白质家族相关,这样它们可以通过核酸修复或修饰来研究。

这样的注释精确度如何?能覆盖多少比例的蛋白质?这些问题只能部分提出,因为参考的功能连锁蛋白质不是很容易得到。Marcotte和同事给酵母 2,557个未知蛋白的一半预测了一般功能。他们估计成对预测来确定功能的近30%是错误的,虽然两到三种方法联合应用使错误率降到15%。

Enright等通过结构域融合在三个原核基因组中仅功能连锁215个蛋白,但是非常少的估计假阳性。较少的功能连锁率可能由于没有系统发育谱和 mRNA表达方法丢失了连锁(作者没有做这两种方法),融合事件更严格的定义以及用较少的蛋白检测融合。尽管假阳性和显得粗糙的功能注释,计算方法使得实 验者将注意力集中在有希望的相互作用上。当得到更多的基因组数据,结构域融合和系统发育谱的方法的预测数和精度将增加。

下一步将是提高方法预测蛋白质功能的范围、准确度和精确性。这可能在理论上,通过考虑三维结构来做,因为蛋白质的功能更多直接由它的结构和动力学而 不是它的序列来决定。那么为什么在基因组学上结构没有序列用的广泛呢?至少有两个原因。首先,只有一部分蛋白质有三维结构数据。这种限制在几年内随着结构 基因组学(structural genomics)的进展而减少。结构基因组学的目标是确定大约10,000经仔细挑选的蛋白质结构域的结构,以便所有其它的蛋白质序列能够有很好的精确 性建模。其次,能够从结构而不是从序列提取的功能细节依赖于细胞环境下的那种结构的细节,同样也依赖于它的动力学和能量,所有这些在现有的实验和理论技术 下难以获得。

  评论这张
 
阅读(1163)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016