http://blog.sina.com.cn/s/blog_4860086b0100dnos.html
itisjustahypothesissodontbeseriously
当然,并不是所有的基因组都有参考序列,所以我们还有图论的策略,如velvet,当然现有很多算法和程序已经得到比较满意的结果,如:
* MIRA2 - MIRA (Mimicking Intelligent Read Assembly) is able to perform true hybrid de-novo assemblies using reads gathered through 454 sequencing technology (GS20 or GS FLX). Compatible with 454, Solexa and Sanger da
* SHARCGS - De novo assembly of short reads. Authors are Dohm JC, Lottaz C, Borodina T and Himmelbauer H. from the Max-Planck-Institute for Molecular Genetics.
* SSAKE - Version 2.0 of SSAKE (23 Oct 2007) can now handle error-rich sequences. Authors are René Warren, Granger Sutton, Steven Jones and Robert Holt from the Canada's Michael Smith Genome Sciences Centre. Perl/Linux.
* VCAKE - De novo assembly of short reads with robust error correction. An improvement on early versions of SSAKE.
* Velvet - Velvet is a de novo genomic assembler specially designed for short read sequencing technologies, such as Solexa or 454. Need about 20-25X coverage and paired reads. Developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute (EMBL-EBI).
但,我们的数学家生物信息学家完全沉溺在算法改进,可改来改过,从未见过一个版本的short reads assembly能站出来说,“这个版本是最准确的!”
其实,我认为算法不是瓶劲,而是计算资源,计算成本,并行计算的实现!当然人们说,我们有Grid,有super computer,有集群,有cloud,可这些战斗机,并没有而且没必要用在只用跑车就能运行的基因组组装上。
从物理的角度上思考,我们并不需要建立复杂的模型,就比我们去学一门外星语言,of course我们不能与之交流,这就是一个解码过程。我们可以通过统计,了解并发现其中的自然规律(只要是事件都有固有规律,语言更是),我们可以知道其单词(当然可能是声音、光、触觉、肢体语言、脑电波,anyway不管什么表达方式)的出现频率,停顿时间,语调(可能是光强度,色度等),然后,通过外部事物的接触,我们就能知道其“语意”,并创造我们的“单词”、“句子”,好比婴儿学语(人工智能范畴)。它们其实就是个熵、焓计算,因为自然本身是有规律的,只期待着我们去发现!那么,我们可以把这样的统计模型放在assembly上,应该是通用的,我们可以建立一个并行计算中心,我们不用什么for(){}语句,就一个计算交由一个CPU(GPU)让它去运行,算出我们的最大似然值,熵极值,那就是答案!
评论