注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

RPKM与FPKM  

2012-07-17 15:51:08|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

RNA-seq是透过次世代定序的技术来侦测基因表现量的方法,在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现 量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为 表现量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。

RPKM是将map到基因的read数除以map到genome的所有read数(以million为单位)与RNA的长度(以KB为单位)。

其公式为:


其中,total exon reads / mapped reads (millions) 可以视为所有read 数中有百分之多少是map 到这个基因,然后再除以基因长度,就可以某基因得到单位长度有百分之多少的total mapped read 有表现。

以下就用一个简化的例子来说明RPKM的运用方式与概念:

假设一基因体只有两个基因,一个9 KB,一个1 KB,如今有一sample,其map 到9 KB 的read 有18 million 个,map 到1 KB 的有2 million 个,如下图所示。


对于9 KB 的基因而言,

Total exon reads=18 million

Mapped reads=18+2=20 million

Exon length=9 KB

RPKM =18/(20*9)=0.1

对于1 KB 的基因而言,

Total exon reads=2 million

Mapped reads=18+2=20 million

Exon length=1 KB

RPKM =2/(20*1)=0.1

由此我们可以知道这两个基因表现量没有差别。

假设此时我们有另一个sample,其表现如下图所示:


我们可以发现此sample中9 KB基因的read数明显比上一个sample少,如果我们计算RPKM可以得到RPKM = 9/((9+1)*9)=0.1,却与上一个sample相同,这可能是因为cDNA浓度较低或是其他sample备制过程的问题,造成整体read变 少,但是对9 KB基因而言,其read数占所有read数的比例并没有发生改变,所以其表现量会和上一个sample相同。

  评论这张
 
阅读(9450)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017