登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

ORF序列,CDNA序列,CDS序列,EST序列,UniGene,转录起始位点  

2010-03-13 21:43:52|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

ORF序列:即为Open reading frame ,表明这个DNA序列可能是一个基因,但具体的基因编码序列需要其他的内容来补充,因为这一段DNA序列按三联体密码子读可以有六种读法。如果明确这段DNA序列的启动子和终止子序列就可以明确这段序列的氨基酸信息。
cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA的过程。这个DNA即为cDNA序列,它没有内含子和外显子的区别,在原核生物中可以作为一个多肽的编码基因序列,但在真核生物内由于没有内含子,所以它不能完全作为一个多肽的编码基因序列。
CDS序列:编码序列,从起始密码子到终止密码子的所有序列。
EST序列:表达序列标签。一个多肽链编码基因的短的cDNA序列,平均长度为360 ±120bp ,一般可以作为分子标记使用;当出现EST序列的时候,很可能也就是一个编码基因所在的部位。

 

EST(Expressed Sequence Tag)表达序列标签:是指从不同组织来源的cDNA序列

EST技术直接起源于人类基因组计划。由于人类基因数量巨大,以及真核基因特有的复杂性(如内含子、外显子的区别、重复序列等),使得一次性不加选择地对基因组全长进行测序成为几乎不可能完成的工作。Venter等人在1991年提出了表达序列标签(EST)技术。

EST的原理:

EST是从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp 。EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。

ESTS受制于表达倾向(expression bias),因为产生ESTs的cDNA是组织中丰富的mRNA以一定比例反转录而成,因此,表达水平很低的EST数据库中找不到,而表达量高的基因在EST数据库中却过量存在。虽然可在起始mRNA或由它合成双链cDNA时进行富集,减小cDNA文库,但cDNA文库中仍存在大量高丰度的cDNA克隆。因此,一个理想的cDNA文库必须去除或尽量消除多科信息克隆的影响,这就涉及到cDNA文库的前加工技术;均等化(normalization),减少与丰富编码基因相关的cDNA数目;消减杂交(subtractive hybridization),应用序列标记cDNA识别并去除文库中多余的克降,这些技术的发展,使基因识别更依赖于EST技术,甚至可通过该技术获得精确的基因组DNA序列,在华盛顿大学基因组测序中心和Sanger中心的联合攻关下,C.elegans基因组10亿个碱基对的测序工作基本完成。因此ESTs是一系列基因寻找工具中不可缺少后部分,而这些工具都是基因组序列为基础的。EST技术关于基因组DNA序列的其他应用还包括对基因内含子、外是子排列的精确预测,选择性接合事件的识别,反常基因组排列结构的识别等。

UniGene数据库

UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。

  人类基因组计划的首要任务是对人类基因组进行全序列测定,整个基因组估计有30亿个碱基对,其中大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。转录图谱可以把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章将要介绍的HGI数据库只包括人的基因。该数据库的标题行(TITLE)给出基因的名称和简单说明,表达部位行(EXPRESS)指出该基因在什么组织中表达以及在基因图谱中的位置等。此外,列出该基因在核酸序列数据库GenBank或EMBL和蛋白质序列数据库SWISS-PROT中的编号的超文本链接。UniGene中部分条目包括已知基因序列,而有些条目则仅有新测得的EST序列片段。这就意味着,这些EST序列所对应的基因尚未搞清,可以用来发现新基因。在描绘基因图谱及大规模基因表达分析等研究中,UniGene也可以帮助实验设计者选择试剂。UniGene可以通过NCBI或SRS系统访问。


转录起始位点:基因开始转录的部位,一般具有一些特殊的序列,如Pribnow框盒,其序列为TATAAT;-10序列:-35序列,其保守序列为TTGACA;这些特殊序列的主要作用为:
Pribnow框盒:
①与 RNA聚合酶紧密结合;②形成开放启动复合体;③使RNA聚合酶定向转录。
-10序列:影响转录的效率;
-35序列:

 

GenBank上的CDS(即code sequence)编码区,就一定能编码功能蛋白(或者蛋白质)吗
时刻做准备着中山 21:32:11
是的
云之南 21:33:03
王圣钦东南大学  21:31:51
有些是预测的结果,没经过实验验证的
云之南  21:31:58

王圣钦东南大学  21:32:02
鬼知道能不能真实表达
云之南  21:32:32
理论上是能编码的,但还要实验验证才行,是吧
云之南 21:33:11
他说是这样的
 
云之南 21:33:17
对吗
时刻做准备着中山 21:34:09
可以这么说 
时刻做准备着中山 21:34:28
如果要知道在体内有没有表达 就要做个蛋白抗体才知道
云之南 21:35:49
哦,
所以生物信息只是预测,还要实验验证
时刻做准备着中山 21:36:07
但是如果是cDNA文库出来的肯定就是表达的
云之南 21:36:29
对了,你把那天,我让你找的书的,最后25页的网址发过来,我想打印一下
时刻做准备着中山 21:36:36
如果是从基因组预测CDS就可能不表达

 

  评论这张
 
阅读(9709)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018