注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

生物信息学--基因组研究的有力工具   

2009-11-28 19:41:07|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

                               生物信息学

                                    ——基因组研究的有力工具

                                                        中国科学院生物物理研究所 陈润生

 什么是生物信息学?

 

生物信息学( Bioinformatics)是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及物理,一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。

 

广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。

 

具体地说,生物信息学是把基因组 D NA序列信息分析作为源头,找到基因组序列中代表蛋白质和 R NA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在 D NA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。

 

生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

 

基因组信息学、蛋白质的结构计算与模拟以及药物设计,这三者紧密地围绕着遗传信息传递的中心法则,因而必然有机地连接在一起。

 

为什么基因组研究需要依赖生物信息学呢?首先伴随着基因组研究,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。自1995年科学家破译了全长为180万核苷酸的嗜血流感杆菌基因组以来,到目前已有大约60个微生物和若干真核生物,如:酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天,科学家又公布了人类基因组的绝大部分序列,即:人类基因组的工作草图。这些成就意味着基因组的研究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库的统计,1999年12月DNA碱基数目为30亿,2000年4月DNA碱基数目是60亿,现在这一数目已达140亿,大约每14个月翻一番。同时,电子计算机芯片对于数字处理能力的增长也相当于每18个月翻一番。因此,计算机能够有效地管理和运行海量数据。

 

但是,更为本质的原因是基因组数据的复杂性。所谓某种生物的基因组就是指该生物所有遗传物质的总和。生物的遗传物质是一类称为脱氧核糖核酸(DNA)的生物大分子,它是由4种核苷酸串接起来组成的,通常用字符 A、 T、 G、 C代表。通俗地说,生物的遗传密码就是这4个字符连接起来的线状长链。这种链往往很长,比如:人的遗传密码就含有32亿个字符,将它们堆起来就构成了一部100多万页、每页有3000字符的“天书”。这本“天书”包含了人体的结构和功能以及生命活动过程的大量信息,却仅仅由4个字符组成,既无词法,又无句法,还没有标点符号,看起来每一页都是相似的。如何读懂它是个极大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术、工具,就必须依赖计算机的信息处理。

 

从事生物信息学研究应具备多方面的科学基础。首先,它需要一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;同时,生物信息学需要强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展。最后,它要与实验科学,特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证生物信息学研究结果的关键手段。因此,从事生物信息学研究的人员也必须具备多学科交叉的知识。

 

我国生物信息学的研究和应用有一定的基础,因而有望取得突破性成果,这对于增强我国在基础研究领域的实力,在某些方面占据国际领先地位是十分重要的。生物信息学成果的应用也会产生巨大的社会效益和经济效益。

 

当前主要研究内容:

 

一.获取人和各种生物的完整基因组

 

基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的 D NA测序仪每个反应只能读取几百到上千个碱基。也就是说,要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。

 

但是,我们很容易想象:如果把一本书撕成大小一样的碎片,就再也无法把它们重新正确地拼接起来,这是因为撕的同时丢失了书的上下文联系。这该如何办呢?我们可以取两本一样的书,按照不同的撕法把它们分头打碎。通过不同碎片互相参照,找到相同的单词,就可以部分恢复书的上下文联系。撕的书越多,恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍,往往要测很多遍。比如,今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万碱基;有约25%的连续序列群已等于或大于千万碱基。在这些序列中发现了3-4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。

 

在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。

 

有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占1.1%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。

 

二.发现新基因和新的单核苷酸多态性

 

发现新基因是当前国际上基因组研究的