登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

新一代测序技术(NGS)组装简介 一  

2010-01-01 11:12:59|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://blog.sina.com.cn/benm

实用的贴士:

* 概述

Illumina 和 Sanger 的fastq 有着不同的ASCII质量值表,如下:

FASTQ格式: 

@HWI-EAS59:1:1:0:899#0/1

NAGTAAATCCCTACTTGAATTCGAGCACTGCAACAAACTA

+HWI-EAS59:1:1:0:899#0/1

DNWWZYPYZMKNYS[SBBBBBBBBBBBBBBBBBBBBBBBB

@HWI-EAS59:1:1:1:449#0/1

NGGGAATGATTAATTCCACAAAACAAAAGAAAGAAGTCGG

+HWI-EAS59:1:1:1:449#0/1

DIZZZ[YXS[U[XTWYTXXXRQLGY[YWPPZSXY[BBBBB

@HWI-EAS59:1:1:1:1018#0/1

NGTAGATAAAAAAATAAACTCAAATAAATTAAAGAGAATC

+HWI-EAS59:1:1:1:1018#0/1

DMPTQS[XYYZ[QQQOMJQLRTSWBBBBBBBBBBBBBBBB

@HWI-EAS59:1:1:1:805#0/1

NAGTATGCTATATTATGATATGTTATGAGATGTTATGTTT

+HWI-EAS59:1:1:1:805#0/1

DNUOMJTTXRRLYOBBBBBBBBBBBBBBBBBBBBBBBBBB

@HWI-EAS59:1:1:1:1371#0/1

AGAGATAGTAAAATCTCATAAATTACTATCAATTCATTCA

+HWI-EAS59:1:1:1:1371#0/1

a\aVb`bZYZ_a`aaP[`TGYTYUaZF_Y`a_W]X[HK^P

@HWI-EAS59:1:1:1:1278#0/1

ATAATAATAAAATATAACTGGTATGTTTATTTATTTATTA

+HWI-EAS59:1:1:1:1278#0/1

``aaaa\a`]]JZaXV`a^VR_^YFFN`a_aGQV_STBBB

@HWI-EAS59:1:1:1:907#0/1

ATAATATCAATAAAAAGAAACAACGACAACCTATAAGCAC

+HWI-EAS59:1:1:1:907#0/1

aba`a_a``]Raaa]ZR^aaa_aTQ_aa\J_WQZKRHK_\

@HWI-EAS59:1:1:1:154#0/1

TGATTAAATGCAAATTTAATTTAAAGAACAGCTGAATAAT

+HWI-EAS59:1:1:1:154#0/1

_^^bb`[U___[aa]`\`VX]a[SFODYWGZbBBBBBBBB

 

 

The syntax of Solexa/Illumina read format is almost identical to the FASTQ format, but the qualities are scaled differently. Given a character $sq, the following Perl code gives the Phred quality $Q:

 

$Q = 10 * log(1 + 10 ** (ord($sq) - 64) / 10.0)) / log(10);

 

The ASCII charactars in Solexa FASTQ means:

Code:

CHAR        DEC        QUALITY

       65        1

       66        2

       67        3

       68        4

       69        5

       70        6

       71        7

       72        8

       73        9

       74        10

       75        11

       76        12

       77        13

       78        14

       79        15

       80        16

       81        17

       82        18

       83        19

       84        20

       85        21

       86        22

       87        23

       88        24

       89        25

       90        26

       91        27

       92        28

       93        29

       94        30

       95        31

       96        32

       97        33

       98        34

       99        35

       100        36

       101        37

       102        38

       103        39

       104        40

       59        -5

       60        -4

       61        -3

       62        -2

       63        -1

       64        0

 

In contrast to Solexa FASTQ quality, the ASCII characters in standard (sanger) FASTQ, it used to denote:

Code:

CHAR        DEC        QUALITY

           -64

           -63

           -62

           -61

           -60

           -59

           -58

           -57

           -56

           -55

      10      -54

      11      -53

      12      -52

      13      -51

      14      -50

      15      -49

      16      -48

      17      -47

      18      -46

      19      -45

      20      -44

      21      -43

      22      -42

      23      -41

      24      -40

      25      -39

      26      -38

      27      -37

      28      -36

      29      -35

      30      -34

      31      -33

      32      -32

      33      -31

      34      -30

      35      -29

      36      -28

      37      -27

      38      -26

      39      -25

      40      -24

      41      -23

      42      -22

      43      -21

      44      -20

      45      -19

      46      -18

      47      -17

      48      -16

      49      -15

      50      -14

      51      -13

      52      -12

      53      -11

      54      -10

      55      -9

      56      -8

      57      -7

      58      -6

      59      -5

      60      -4

      61      -3

      62      -2

      63      -1

      64      0

      65      1

      66      2

      67      3

      68      4

      69      5

      70      6

      71      7

      72      8

      73      9

      74      10

      75      11

      76      12

      77      13

      78      14

      79      15

      80      16

      81      17

      82      18

      83      19

      84      20

      85      21

      86      22

      87      23

      88      24

      89      25

      90      26

      91      27

      92      28

      93      29

      94      30

      95      31

      96      32

      97      33

      98      34

      99      35

      100     36

      101     37

      102     38

      103     39

      104     40

      105     41

      106     42

      107     43

      108     44

      109     45

      110     46

      111     47

      112     48

      113     49

      114     50

      115     51

      116     52

      117     53

      118     54

      119     55

      120     56

      121     57

      122     58

      123     59

      124     60

      125     61

      126     62

      127     63

      128     64

 

So it is easy to conver Solexa->Sanger quality, you just need to build a conversion table in PERL script, just like this:

# Solexa->Sanger quality conversion table

my @conv_table;

for (-64..64) {

$conv_table[$_+64] = chr(int(33 + 10*log(1+10**($_/10.0))/log(10)+.499));

}

 

所以你首先要确定你测序得到的数据是来自什么测序中心和测序技术得到的,并需探讨用什么质控(quality check)和序列修饰(trimming)手段。

  评论这张
 
阅读(1661)| 评论(1)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018