注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

生物信息学的研究方向和方法及主要内容  

2010-01-11 21:31:25|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

生物信息学的研究方法及主要内容?

生物信息学研究的基本方法?

?

1. 建立生物数据库:核苷酸顺序数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组数据库(YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)等;?

?

2. 数据库检索:如Blast等;?

?

3. 序列分析:序列对位排列、同源比较、进化分析等;?

?

4. 统计模型:如隐马尔可夫模型(hidden Markov model, HMM)――基因识别、药物设计;最大似然模型(maximun likelihood model, ML)、 最大简约法(Maximun Parsimony, MP)――分子进化分析等;?

?

5. 算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network)等。?

?

生物信息学研究的主要内容:?

?

    生物信息学的研究内容是伴随着基因组研究而发展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是利用好这些数据。具体地说,生物信息学是把基因组DNA(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA(核糖核酸)基因的编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。?

?

    其研究范围十分广泛,大体包括以下方面:基因组序列分析和解释、药物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预报、基因进化、基于遗传的流行病学等:?

?

序列分析?

?

    在基因组测序的原始数据发表后,仍有许多信息研究需要开展,比如注释、同源性分析、基因分类、基因结构分析等,这方面的研究需要建立较优化的数理统计模型,大规模的数据库检索,模式识别和可视化等。?

?

基因进化?

?

    根据多种生物的基因组数据及对垂直进化和平行演化的研究,可以对生命至关重要的基因结构及它的调控进行研究,对此需要建立较完整的生物进化模型,用基因组的数据来鉴别出环境因素对其进化的影响。这些研究成果将对生态环境、环境卫生提出指导性的建议,对研究生命的起源也有重要的科学意义。?

?

药物设计?

?

    生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速高效的特点,它的研究包括大分子结构功能的模拟和预报,药物分子与大分子结合的模拟,关键性基因的致病机制,及生物分子同源性的分析,生物分子在指定细胞的分布和位点等。?

?

基因多态性分析?

?

    即使一个基因的序列已经确定,它只是有代表性的序列之一。在群体的分布中,仍存在有基因的多态性。由于多态性的存在,生物表型及对环境、外源物和药物的反应即不同。研究基因多态性可以对群体的基因共性及其中的基因个性( SNPs)都有明确的认识。?

?

基于遗传的流行病学研究?

?

    流行病学研究是医学信息学的重要课题之一。将流行病学的遗传和非遗传性的研究与分子基因信息结合起来,会导致对疾病的机理、个体对某种疾病的易感性和疾病在群体中的分布有更明确的认识,对疾病的预防和治疗有极大的指导意义。?

?

关键性基因签定?

?

    通过基因与生物表型、致病机制和其它生命现象之间的关联,可以发现一些至关重要的基因,结合定向的生物实验,可以确认新的关键性基因。?

?

基因产物功能预报?

?

    在确认了基因的基础上,通过与已知的基因产物的结构和功能、代谢途径和其它生物功能对照,可以实现新基因产物功能的预报,结合定向的生物实验,可以证实预报的功能。?

?

完整基因组的比较基因组学?

?

   在后基因组时代,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析。有的科学家估计不同人种间基因组的差别仅为 0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA 序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。

 

?

?生物信息学http://zh.wikipedia.org/zh-cn/%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E5%AD%A6

生物信息学利用应用数学信息学统计学计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对基因识别,基因重组,蛋白质结构预测,基因表达,蛋白质反应的预测,以及建立进化论的模型。

生物学技术往往生成大量的ion=edit&redlink=1"<嘈杂数据。与数据挖掘类似,生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括:重新组装在ion=edit&redlink=1"<霰弹法DNA测序过程中被打散的DNA序列,从蛋白质氨基酸序列预测蛋白质结构,利用mRNAion=edit&redlink=1"<微阵列质谱仪的数据检验ion=edit&redlink=1"<基因调控假说

某些人将计算生物学作为生物信息学的同义词处理,在英语维基百科中就是如此;但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理,因为生物信息学更侧重于生物学领域中计算方法的使用和发展,而计算生物学强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。

主要研究方向

序列分析

1977年噬菌体ion=edit&redlink=1"<Φ-X174成为第一个被完整测定基因组顺序的生物体。自此以后,越来越多生物体的DNA序列被人类测定。通过对这些序列的分析,人们希望获知其中对应ion=edit&redlink=1"<蛋白质编码基因ion=edit&redlink=1"<基因调控序列。不同物种间的基因比对既能够解释和预测他们蛋白质的功能的相似性,又能够揭示不同物种间的联系。由于数据量巨大,依靠人工分析DNA序列早已变得不切实际,这使得人们不得不采用计算机分析数千种生物体的数十亿个核苷酸组成的DNA序列。由于DNA序列中普遍存在变异现象,这些计算机程序需要识别大量相关但是不完全相同的序列。即便是在DNA测序的过程中,也存在着不确定的因素。在DNA测序的ion=edit&redlink=1"<霰弹法ion=edit&redlink=1"<The Institute for Genomic Research依此技术测定了第一个细菌的基因组)中,完整的DNA链被打散为成千上万条长约600到800个核苷酸的DNA片段。这些DNA片段的两端相互重叠,只有依照正确的顺序组合,才能还原为完整的DNA序列。对于较大的基因组,ion=edit&redlink=1"<霰弹法能够迅速的测定DNA片段的序列,但将它们组装起来的工作则相当复杂。在人类基因组计划中,该基因重组过程花费了几个月的CPU时间(on a circa-2000 vintage DEC Alpha computer)。由于现今几乎所有基因序列均由ion=edit&redlink=1"<霰弹法测定,基因重组算法是信息生物学研究的重点课题。

基因组中并不是所有的核苷酸都构成基因,所以序列分析的另一个研究课题是对基因组中的基因ion=edit&redlink=1"<基因调控序列进行自动识别。在较高等的生物体中,DNA序列的大部分并没有明显的作用。但是,这些所谓的“ion=edit&redlink=1"<垃圾DNA”却可能具有未被识别的功能。

基因组注释

基因组学中,对基因和其他生物特征的标注称为基因组注释。1995年,Owen White(在1995年完成的人类首次为独立的生物体——流感嗜血杆菌——测序的工作中,他是组员之一)设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步的分析它们的功能。大多数现今的注释系统的与之类似,但用以分析DNA序列的软件在不断进化之中。

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。

显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于ion=edit&redlink=1"<渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。

 计算进化生物学

进化生物学研究物种的起源和演化。引入信息学到进化生物学中,使得研究者能够:

未来的研究工作包括重建业已相当复杂的进化树

ion=edit&redlink=1"<计算进化生物学常常与采用遗传算法的计算机科学相混淆。后者受到生物进化原理的启发,发展出一套软件用于改进配方、算法、集成电路设计等等。

生物多样性的度量

对一个特定的生态系统,小到一层生物膜、一滴海水、一铲泥土,大到整个地球,其中全体物种的基因组成分可被定义为这个生态系统的生物多样性。搜集各物种的名称、描述、分布、遗传信息、地位、种群大小、栖息地,和各生物体间的相互作用等信息,可以建立一个数据库。有专门的软件用于搜寻、分析和可视化这些信息,更重要的是,它们还能够帮助人们相互交流这些信息。计算机能够模拟相应的模型,以计算种群动态演变,遗传健康状态等等。

该领域的一个重要前景是为濒危物种建立基因银行,即将各物种的基因组信息保存下来。这样即便在将来这些物种灭绝了,人类也可能利用它们的基因组信息重新创造出它们。

蛋白质结构预测

蛋白质结构预测是生物信息学的重要应用。蛋白质氨基酸序列(也称为一级结构)可以容易的由它的基因编码序列获得。在绝大多数情况下,在蛋白质的原生环境中,其结构由它的氨基酸序列唯一的决定。蛋白质的结构对于理解蛋白质的功能十分重要。这些结构信息通常被称为二级、三级、四级结构。目前尚没有普遍可行方案实现这些结构的准确预测;大多数方案为启发式的。

同源性是生物信息学中的一个重要概念。在基因组的研究中,同源性被用以分析基因的功能:若两基因同源,则它们的功能可能相近;在蛋白质结构的研究中,同源性被用于寻找在形成蛋白质结构和蛋白质反应中起关键作用的蛋白质片断。在一种被称为ion=edit&redlink=1"<同源建模的技术中,这些信息可与已知结构的蛋白质相比较,从而预测未知结构的蛋白质。目前为止,这是唯一可靠的预测蛋白质结构的方法。

人类ion=edit&redlink=1"<血色素和豆类血色素间的相似性是以上方法的一个实例。两种血色素有相同的功能,均能够在各自的生物体内运输氧气。尽管它们的氨基酸序列大不相同,它们的蛋白质结构几乎一样。

 蛋白质表达分析

通过ion=edit&redlink=1"<蛋白质微阵列技术或ion=edit&redlink=1"<高通量质谱分析对生物标本进行测量所获得的数据中,包含有大量生物标本内蛋白质的信息。生物信息学被广泛的应用于这些数据的分析。对于前者,生物信息学所面临的问题与ion=edit&redlink=1"<RNA微阵列数据分析中遇到的问题相似;对于后者,生物信息学将所获得的大量质谱数据与通过已知蛋白质数据库预测的数据进行比较,并使用复杂的统计学方法进一步分析。

 比较基因组学

比较基因组学的核心课题是识别和建立不同生物体的基因或其他基因组特征的联系。这些跨基因组的联系使得我们能够跟踪基因组的进化过程。基因组进化由多个不同层次的事件完成。在最低的层次,单个核苷酸上发生了点变异。在较高的层次,大的染色体片段经历了复制、横向迁移、逆转、调换、删除和插入等过程。在最高的层次上,整个基因组会经历杂交ion=edit&redlink=1"<倍交内共生等变异,并迅速产生新的物种。

基因表达分析

多种生物学技术可以用于测量基因的表达,如ion=edit&redlink=1"<微阵列ion=edit&redlink=1"<表达序列标签(expressed sequence tag),ion=edit&redlink=1"<基因表达连续分析(serial analysis of gene expression),ion=edit&redlink=1"<大规模平行信号测序(massively parallel signature sequencing),多元原位杂交法(multiplexed in-situ hybridization)等。所有这些方法均严重依赖于环境并能产生大量高噪音的数据。生物信息学致力于发展一套统计学工具以从中提取有用的信息。

 调控分析

调控是指当细胞受到外信号刺激之后其内发生的一些列反应过程的总和。生物信息学技术被用于分析调控的各个步骤。例如,基因表达的数据可用于分析基因调控。对于一个单细胞生物体,我们可以用生物芯片技术观察受到不同外界刺激、处于细胞周期不同状态的细胞,并将采集到的数据利用ion=edit&redlink=1"<聚类算法分析,以寻找表达相似的基因或样本。该结果可用于多种深入的分析。

生物系统模拟

系统生物学通过对细胞子系统的计算机模拟,分析这些细胞过程间的复杂联系,并将分析结果可视化。例如,人工生命就通过计算机模拟简单的生物形式,以帮助人类了解进化过程。

 在药物研发方面的应用

生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得在不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。

 软件工具

BLAST(基本局域联配搜寻工具)和ion=edit&redlink=1"<FASTA是目前使用得最为频繁的两套数据库搜索程序。它们的功能相近,都是把用户提交的一个核酸序列或蛋白质序列拿去与指定的数据库中的全部序列作比较。一般认为,BLAST运行速度快,对蛋白质序列的搜寻更为有效。FASTA运行较慢,对核酸序列更为敏感。也有基于网页交互的软件如ion=edit&redlink=1"<STING,用于结构生物信息学的分析

 

主要参考书籍:(希望大家补充)?

?

1、David W.Mount 《Bioinformatics :sequence and genome analysis》影印本,科学出版社,2002?

?

2、Durbin R,Eddy S,Krogh A,et al.生物序列分析,蛋白质和核酸的概率论模型

?.北京:清华大学出版社,2002& h3 ?

?

3、帕夫纳,计算分子生物学: 算法逼近,化学工业出版社,2004?

?

4、(巴西) J.塞图宝,J.梅丹尼斯著,朱浩 等译,计算分子生物学导论 ,科学出版社,2003; ?

?

5、Masatoshi Nei(根井正利) Sudhir Kumar. 译者:吕宝忠,钟扬,高莉萍,高等教育出版社,2002?

?

6、[美][巴森文尼斯]Andreas D.Baxevanis,[美]B.F.Francis Ouellette著;李衍达,孙之荣等译,生物信息学:基因和蛋白质分析的实用指南,,清华大学出版社, 2000?

?

7、鲍尔迪,DNA芯片和基因表达:从实验到数据分析与模建,科学出版社,20036 ?

?

8、(美)利布莱尔,蛋白质组学导论:生物学的新工具,科学出版社,2005?

?

9、张亮,M.谢纳[美] ,生物芯片分析,科学出版社,2004?

?

10、卢因,基因VⅢ,科学出版社,2005?

?

11、(英)D.R.韦斯特海德(D.R. Westhead)等著;王明怡等译, 生物信息学,科学出版社 2004?

?

12、(法)皮埃尔·巴尔迪(Pierre Baldi),(丹)索恩·布鲁纳克(Soren Brunak)著;张东晖等译,生物信息学:机器学习方法,中信出版社,2003?

?

13、(美)Cyntbia Gibas,Per Jambecks著;孙超等译 《生物信息学中的计算机技术》中国电力出版社,2002 ?

?

14、(美) Dan E. Krane, Michael L. Raymer著, 孙啸,陆祖宏,谢建明 等译,生物信息学概论, 清华大学出版社2004?

?

15、(加)S.米塞诺, (美)S.A.克拉维茨著;欧阳红生, 阮承迈, 李慎涛等译,生物信息学方法指南,科学出版社, 2005?

?

16、孙之荣 主译 探索基因组学、蛋白质组学和生物信息学(中译版) , 科学出版社, 2004年8月出版?

?

17、哈特尔,遗传学:基因与基因组分析,科学出版社,20022 ?

?

18、生物信息学若干前沿问题的探讨:中国科协第81次青年科学家论坛论文集/黄德双等主编, 中国科学技术大学出版社 2004?

?

19、胡松年 , 薛庆中 主编,《基因组数据分析手册》浙江大学出版社, 2003?

?

20、胡松年 ,基因表达序列标签(EST)数据分析手册,浙江大学出版社, 2005;?

?

?

21、李敏强,寇纪淞,林丹,李书全,遗传算法的基本理论与应用. 科学出版社. 2002年4月/?

?

22、孙啸, 陆祖宏, 谢建明编著,生物信息学基础, 清华大学出版社2005?

?

23、李霞 主编,《现代生物信息学理论与实践》,科学出版社,2005年11月出版" ?

?

24、袁建刚等主译 《基因组》 科学出版社,20027?

?

25、黄韧等 《生物信息学网络资源与应用》中山大学出版社,2003?

?

26、郝柏林等编 《生物信息学手册》第2版,上海科学技术出版社,2002?

?

27、蒋彦等编 《基础生物信息学及应用》清华大学出版社,科学出版社,2003?

?

28、张继仁 (译)蛋白质组学导论:生物学的新工具,科学出版社,2004年12月出版,?

?

29、夏其昌,白质化学与蛋白质组学,科学出版社,2004年6月?

?

30、蒋华良、钟扬、陈国强、罗小民 等译 药物基因组学——寻找个性化治疗,科学出版社,2005年7月出版?

?

31、David W.Mount 著 钟扬,王莉,张亮 主译,生物信息学,高等教育出版社,2003?

?

32、张阳德编,《生物信息学》科学出版社,2004?

?

33、沈世镒著,生物序列突变与比对的结构分析,科学出版社 2004?

?

34、赵国屏等编《生物信息学》科学出版社,2002?

?

35、郑珩 王非,药物生物信息学, 化学工业出版社,2004?

?

36、Minoru Kanehisa著;孙之荣等译,后基因组信息学, 清华大学出版社, 2002?

?

37、赵雨杰 主编,医学生物信息学,人民军医出版社,2002?

?

38、李桂源,钱骏主编,基于WWW的生物信息学应用指南,中南大学出版社 2004?

?

39、李巍主编,生物信息学导论,郑州大学出版社,2004?

?

40、钱小红、贺福初等译蛋白质组学:从序列到功能. 科学出版社,2002年9月6 ?

?

41、钱小红,贺福初主编.蛋白质组学:理论与方法,科学出版社,2003?

?

42、张阳德,纳米生物技术学,科学出版社,2005?

?

43、李越中 闫章才 高培基 ,基因组研究与生物信息学,山东大学出版社,2003

  评论这张
 
阅读(3838)| 评论(1)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016