登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

生物信息学网路课程 第一章、绪 论  

2010-12-21 11:12:29|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://hznusw.spaces.live.com/default.aspx

第一章、绪 论

v二十一世纪是生命科学的时代,也是信息时代 。

v近年来,随着现代分子生物学的发展,特别是人类基组计划的实施,不断产生出巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。

一、What is Bioinformatics ? – a Definition—Oxford English Dictionary


n1、(Molecular) bio – informatics:

n bioinformatics is conceptualising biology in terms of molecules (in the sense of Physical chemistry) and applying “informatics techniques” (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale.

n In short, bioinformatics is a management information system for molecular biology and has many practical applications.

n生物信息学(Bioinformatics):

v采用信息科学、计算机科学、生物数学、比较生物学等学科的观点和方法对生命的现象及其组成分子(核酸、蛋白等)进行研究。

v主要研究生命中物质的组成、进化、结构与功能的规律、以及这些物质在生命体中能量和信息的交换或传递。

v该学科以计算机和生物电子设备为工具,对生物信息进行提取、储存、加工和分析,用信息理论技术及生物数学的方法去理解和阐述生物大分子的存在和生命价值,最终对它们进行各种处理与应用。

v通过这些处理和应用,科学家不仅能理解已有的核酸和蛋白质序列及其功能,而且能更好地着手研究新的基因和蛋白序列及其功能。

生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今二十一世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

Bioinformatics as an intersecting discipline


image

2、生物信息学的研究对象

a 数据库(DNA、蛋白质序列)

b 各种算法(Blast, Genscan……)

——用户(生物学研究人员)如何能更好的使用a和b

二、生物信息学的发展

1、发展历程


q从美国的3个国家计划说起:

v 曼哈顿计划;

v 阿波罗计划;

v 人类基因组计划。

? 破译人类遗传密码就要读懂由30亿符号组成的100万页的“天书”

 

生物信息学自诞生以来,经历了三个阶段:

n基因组前期的生物信息学:主要是序列分析、数据库的查询、计算机操作和PC的应用;

n基因组年代的生物信息学:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interface);

n后基因组年代的生物信息学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。

image

?美国的核酸数据库GenBank从1979年开始建设,1982年正式运行;

?欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;

?日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。

?从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。

近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿,它们来自47000种生物。2000年4月DNA碱基数目是60亿。现在,2001年初这一数目已达110亿。各种生物的EST序列已达600多万条,其中人类的EST序列已超过300 万条,估计覆盖人类基因90%以上;UniGene的数目约达7万个;自1999年初单核苷酸多态性( SNPs,Single Nucleotide Polymorphisms )数据库出现以来,到2000年3月20日SNP的总数是26569,现在已超过350万;自全长1.8Mb的嗜血流感杆菌(Haemophilus influenzae Rd)基因组序列于1995年发表(Fleischmann et al.,1995)以来,已有54个模式生物的完整基因组被测序完成,它们中有9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生物基因组正在测试当中;

Dbcat(生物信息数据库的目录数据库)
统计的生物信息数据库的数目
分类 数据库数目 分类 数据库数目
DNA 87 RNA 30
蛋白质 94 基因组 58
基因图谱 30 蛋白质结构 18
文献 43 其他 153

v果蝇基因组包括1.2亿碱基对的编码区已于2000年2月测序并组装完成;

v人类基因组研究的标志性工作,包含3300万碱基对的人第22号染色体已于1999年11月完成测序,结果发表在1999年12月2日的Nature 上。从第22号染色体已鉴定出679个基因,其中55%的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。作为人类基因组研究的里程碑性的工作,覆盖率为90%的人完整基因组的“工作草图”已经在2000年4月底完成,到2003年将获得覆盖率为99%的人类基因组全部序列。对人的大约3万个基因。到目前为止已定位在染色体上的基因数目有14015个(见http://www.ncbi.nlm.nih.gov)

image

生物信息学有关的论文文献

v(1)分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。

v(2)此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。

v(3)至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。

v(4)到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据http://www.ncbi.nlm.nih.gov有关PubMed数据整理)。

2、发展现状

生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。

 

生物医药工业推动生物信息学的发展


生物医药工业也是推动生物信息学发展的重要动力。HGP所推动的大规模DNA测序也为生物医药工业提供了大量可用于新药开发的原材料。有些基因产物可以直接作为药物,而有些基因则可以成为药物作用的对象。生物信息学为分子生物学家提供了大量对基因序列进行分析的工具,不但可以从资料的获取、基因功能的预测、药物筛选过程中的信息处理等方面大大加快新药开发的进程,而且可以大大加快传统的基因发现和研究,因而成为各赢利性研究机构和医药公司争夺基因专利的重要工具,这一竞争又反过来极大的刺激了生物信息学的发展。

国外发展现状

因此,各国政府和工业界对此极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(National Center for Biotechnology Informatics,NCBI)、欧洲生物信息学研究所 (European Bioinformatic Institute,EBI)、日本信息生物学中心(Center for Information Biology,CIB)等。NCBI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。


美国电脑执照----高薪阶层


“ Bioinformatics Certification”,这是目前最新的一门生物科学与电脑技术相结合的课程。可以获得“CBS”证书和“CBM”证书。

Visual Basic ----- $ 1195

Visual C + + -----$ 1295

Bioinformatics -- CBS, CBM -----$ 2500

MIT (Massachusettes Institute of Technology) (美国麻省理工学院): Course Date: June 24 - 28, 2002 Tuition: $2,500

我国生物信息学现状及问题


n在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。在政府的支持和科学家的呼吁下,国家级生物医学信息学中心正在筹建之中。

n各地政府也给予了足够重视,北京市已经成立了北京生物工程学会生物信息学专业委员会(即北方生物信息学研究会),目的在于联合北方地区从事生物信息学的专家,加强合作,促进学科的发展,并为政府决策提供参考意见。

国内的一些科研单位


国内一些科研单位已经开始摸索着从事这方面的工作。

n清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面

n天津大学物理系

n中科院理论物理所在相关算法方面

n中科院生物物理所在基因组大规模测序数据的组装和标识方面

n复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模

n中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础

n华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究

n北京大学化学学院物理化学研究所在蛋白质分子设计方面。北京大学建立了EMBL中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务。http://www.ipc.pku.edu.cn/mirror/mirror.html;http://www.ebi.pku.edu.cn);

v 存在是一些问题:

虽然我国已有强大的DNA测序中心,如:华大,北方,南方,……

但仍需要运算速度远比现在计算速度快的机器或方法。

生物信息学处理系统处于初级规模,仅有一些GenBank、 EMBL、GCG的镜象,没有自己的完善的系统,没有大量新算法的开发。

后基因组: 科研单位及制药工业并未完全吸收利用生物信息学的工具。

三、生物信息学的主要研究内容
(一)、大规模基因组测序中的信息分析
大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。

(二)、新基因和新SNPs的发现与鉴定


大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因,大约 60% 是通过信息分析得到的。

a)、利用 EST 数据库 (dbEST) 发现新基因和新SNPs

国际上现已出现了几个基于EST的基因索引如UniGene

(ftp://ncbi.nlm.nih.gov/pub/schuler/unigene) , Merck-Gene

index(http://genome.wustl.edu/est/esthmpg.html ) , GenExpress-index

( http://www..cshl.org ) ,这些基因索引数据库(即二次数据库)构建

了基因框架,极大地方便了相关研究者。

超大规模计算

b)、从基因组 DNA序列中预测新ORF

(三)、比较基因组学研究
研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为 0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。 这又为什么?
完整基因组序列的比较研究是解决这些问题的重要途径。

The distribution of mouse homology genes in the human chromosome
(Data from GenBank,Coordinate by R.S.Chen)

ngenes in this No. chromosome of distribution of mouse homology genes

n mouse in human chromosome

n 1 1、2、5、6、8、13、18

n 2 2、7、9、10、11、15、20

n 3 1、3、4、8

n 4 1、6、8、9

n 5 1、4、7、12、13、18、22

n 6 2、3、7、10、12

n 7 6、10、11、15、16、19

n 8 1、4、8、13、16、19

n 9 3、6、11、15、19

n 10 6、10、12、19、21、22

n 11 2、5、7、16、17、22

n 12 2、7、14

n 13 1、5、6、7、9、15、17

n 14 3、8、10、13、14、X

n 15 5、8、12、22

n 16 3、8、16、21、22

n 17 6、16、19、21

n 18 5、10、18

n 19 9、10、11、X

n X X

Study on conservation of gene order in complete genomes


We analyzed the gene order of 70 ribosomal proteins in 16 complete genomes. These genes would form 9-14 operons in each genome. The results show that:

(1) 、there are more that 20 ribosomal proteins contained in rpL3 and rpL4 operons, the gene order of these genes are very conserved in both Eu-bacteria and Archae-bacteria;

(2)、some operons’ structure are special to Eu-bacteria and Archae-bacteria respectively;

(3)、in each kingdom, some difference of gene order in difference species could be used to infer the evolutionary relationship of these species.

This method provides a new way to study the evolutionary relationship of those old species. chromosome 13 are relatively stable, for instance, whereas chromosome 12 in men and chromosome 16 in women are enormously fickle.
why vertebrates have four times as many HOX genes, a group of key developmental genes, as do fruit flies.

图片1

image

(四)、基于完整基因组数据的生物进化研究

自1859年 Darwin 的物种起源 (Origin of Species) 发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。 进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。完整的理论分析过程必须包含以下步骤:

v序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;

v 序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;

v构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;

v稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。

image
image

nMore and more LGT(Lateral Gene Transfer ) were discovered and reported. Some people guess 1.5%~14.5% of genes in a genome are related with LGT, even rRNA molecules are involved in LGT;

Garcia-Vallvé S, Romeu A, Palau J. ,Genome Res, 2000, 11, 1719~1725

Yap W H, Zhang Z, Wang Y. , J. Bacteriol. 1999, 181: 5201~5209

nSome people argue it is impossible to reconstruct a universal life tree;

Pennisi E. ,Science, 1999, 284: 1305~1307

Doolittle R F.,Nature, 1998, 392: 339~342

nAs more and more whole genome sequence and the related data become available, it is possible to re-consider the phylogeny and clustering properties of species in more broad measurements, even in level of whole genome.

Phylogeny Based on Whole Genome as inferred from Complete Information Set Analysis (CISA)


we present a new method based on information theory to calculate the phylogenic distance between biological sequences, including 16s Ribosomal RNA, which is used for method proof-test, 24 completely sequenced genomes, as well as all predicted ORF products of them, creating Phylogeny of genome and proteome using neighboring-joining algorithm.

Scientists have already been conscious of that no other biological sequence can bring more phylogenetic information than the genome. However, previous algorithms don’t have the ability to handle such megabase level nucleic acid or amino acid sequences, whose length sizes are in most cases unequal.

image
image

(五)、大规模基因功能表达谱的分析

随着人类基因组测序逐渐接近完成,人们自然会提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?人们进一步提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的定量程度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲除(knock-out)或基因过度表达的影响是什么;多基因差异表达与表现型关系如何等等。概括这些问题,其实质应该是:知道了核酸序列和基因,我们依然不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。

很多实验表明,在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,约有3-4万个转录子。有的组织中只有几十或几百个基因表达。不确切知道每种组织中表达基因的数目,以及每个基因的表达量,就无法从分子水平上了解这一组织在生命活动中的功能。研究工作也表明,同一组织在不同的个体生长发育阶段表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达;不考虑伴随着生物的生长发育,基因表达状况的变更,也无法确切地说明生命的过程。因此不少科学家认为基因组研究应当进入一个内函更丰富、更深刻的阶段。这一阶段的核心是获得基因的功能表达谱。

按物理学家的观点是应将存在于人类基因组上的静的基因图谱,向时间、空间维上展开。为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的 DNA 芯片技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质谱技术和蛋白质组研究。

image image
image image
image

重复序列在基因组中的比例
Human 45 %
Arabidopsis 11 %
C. elegans 7 %
D. melanogaster 3 %

Is the 'triplet' unique in DNA sequences ?

As we regard the code length of protein encoding regions as '3', which always is called triplet code, then could we regard that of structural RNA encoding regions as '1' ? Furthermore, is there any kind of codon with code length other than '3' and '1' in “junk” DNA ? This is a very interest question.


 

image

Study on possible periodicity in Alu element


Alu elements are very common in primate genomes. Totally there are about 500,000 to 1,000,000 copy numbers of Alu in a human genome. We studied its possible periodicities with Voss’s mapping method and power and cross-power spectra density method. It shows that there exists a periodicity 8 with significant statistics in Alus. Besides, in its right monomer, there also exist periodicity 6. This result strongly supports that Alu element might be related with gene regulation.

 

image image

nMany scientists believe that genome research and bioinformatics could deliver new biological revolution.

nFrancis Collins, head of the US National Human Genome Research Institute (NHGRI) “When I give talks to young scientists seeking advice about areas of future intense scientific excitement, computational biology is my number one recommendation.’

(七)、新药的设计

Bioinformatics是科技界一颗耀眼的新星

在Bioinformatics 没有诞生之前, 一个新药的问世需要十年时间,数亿美元的科学研究与试验发展 (R&D)经费,而Bioinformatics已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH 公司也看到了Bioinformatics 的巨大作用和潜在的商机,纷纷投资Bioinformatics研究项目。


image image

四、由生物信息学再衍生的

几种新型学科

v基因组学

v蛋白质组学

。。。。。。

基因组学(Genomics):
Genomics(Genome informatics) is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation。
它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

后基因组时代

后基因组时代的挑战:
1. 蛋白组学: 序列->结构->功能

2.研究生物的生长代谢的过程和疾病的机制

3.基因组药物

………

生物信息学离不开高性能计算机。

并需要信息学家的参与。

急需有自主知识产权的生物信息处理软件平台和大量高效的快速的新算法的开发及改进。

蛋白质组学( Proteomics )

1. 20世纪中后期,生命科学研究进入了分子生物学时代。

2. 随着人类基因组全序列测定,生命科学跨入了后基因组时代。

3. 因mRNA的表达情况不能直接反应蛋白质的表达水平。

4. 蛋白质有自身特有的活动规律,如动态修饰、加工、转运定位、结构形成、代谢等,均无法从基因组水平上的研究获知。蛋白质构象病更难于只靠DNA序列来解释。

5. 蛋白质才能动态反映生物系统所处的状态。

20世纪90年代中期,国际上萌发了蛋白质组学。

6. 蛋白质组与蛋白质组学

(1)蛋白质组:1994年提出,最早见于文献是1995年7月的“Electrophoresis”杂志上。指基因组表达的所有相应的蛋白质,也可说是指细胞或机体全部蛋白质的存在及其活动方式。

(2)蛋白质组学:研究细胞内全部蛋白质的组成及其活动规律的科学。

7. 蛋白质组具有多样性和可变性的特点

(1)蛋白质的种类和数量在同一机体的不同细胞中是各不相同的。

(2)同一细胞,在不同时期、不同条件下,蛋白质组也是在不断改变的。

(3)在病理或治疗过程中,细胞蛋白质的组成及其变化与正常生理过程的也不同。

蛋白质组学的研究内容:

1. 细胞或组织内蛋白质的表达模式及修饰(表达蛋白质组学) :关键技术:2-D电泳

2. 蛋白质的序列和高级结构(结构蛋白质组学):X-射线单晶衍射分析(晶体结构分析)、多维核磁共振波谱分析、电镜二维晶体三维重构术(电子晶体学)。

3. 蛋白质的胞内分布及移位(细胞图谱蛋白质组学):确定蛋白质在亚细胞结构中的位置,通过纯化细胞器或用质谱仪鉴定蛋白复合物组成等。

4. 蛋白质的功能模式(功能蛋白质组学):蛋白质与蛋白质及其与其他分子的相互作用

 
  评论这张
 
阅读(2028)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018