注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列  

2010-01-20 15:50:20|  分类: 生物信息学 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://www.easylabs.com.cn/show.asp?id=415

站长原创:启动子的甲基化,转录因子与启动子的结合调控基因的表达等研究领域一直较为热门。本文图文形式讲解了启动子的概念,利用UCSC如何查找一个基因的启动子序列,以及外显子和内含子序列的显示。有很多关于此方面的文章由于写作在早期,近年来查询数据库网站的改版使得这些文章有些落伍,使用起来也不方便。本文是最新的关于查询启动子方法的文章,创作于2009/10/14,大家可以完全按此操作。

 

在讲述某个基因的启动子查询之间,我们有必要对基础知识进行一下复习和总结。先看一下中心法则:

 应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

启动子是在DNA转录为RNA这一步过程中发挥作用的,在此要与DNA自身复制起始点(称作复制子)和由mRNA翻译为蛋白质时的翻译起始点(以起始密码子ATG为标志)区别开来。

 

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

定义:启动子是参与特定基因转录及其调控的DNA序列。包含核心启动子区域和调控区域。核心启动子区域产生基础水平的转录,调控区域能够对不同的环境条件作出应答,对基因的表达水平做出相应的调节。

启动子是RNA聚合酶特异性识别和结合的部位。启动子方向性,位于转录起始点上游,本身并不被转录。DNA链上与RNA链的第一个核苷酸对应的碱基标记为+1(如下图),由此碱基向上游(5’端)数的碱基顺序数为负(-1,-2,……),向下游(3’端)数的碱基为正(+2,+3,……)

 

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

区域:启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。

总结起来,也就是说启动子约在与mRNA所对应的DNA序列之前约2000个左右的碱基。

明白了启动子的含义之后,我们以大鼠(rattus norvegicus)的结缔组织生长因子(CTGF)为例,应用UCSC基因组浏览器开始查找该基因的启动子序列。网址为http://genome.ucsc.edu/

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

进入UCSC的主页后,在其左侧(如上图)点击第一项Genome Browser,进入基因组浏览器入口,如下图

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

在Organism的下拉菜单中选择Rat,在assembly的下拉菜单中选择最新日期Nov. 2004,在position框中键入CTGF,image width选择默认即可,如下图所示:

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

然后点击Submit,返回的页面如下:

 

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

结果显示该基因的已知序列和相关mRNA序列,点击Known Gene中的第一个序列,出现包含这序列的图解概要。为了获得这个区域更清晰的图像,可以点击紧靠zoom out的1.5X按钮,如下图:

 

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

对于Known Genes(已知基因)和预测的基因路径来说,一般的惯例是以一个高的垂直线或块状表示每个编码外显子,以短的垂直线或块状表示5′端和3′端非翻译区。起连接作用的内含子以非常细的线条表示。翻译的方向由沿着细线的箭头指示。

 

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 

 

本例的搜寻目的来说,默认设置不是理想的设置。按照视图利用页面底部的Track Controls按钮,将一些路径设置为hide模式(即不显示),其他设置为dense模式(所有资料密集在一条直线上);另一些路径设置为full模式(每个特征有一个分开的线条,最多达300)。在考虑这些路径内究竟存在那些资料之前,对这些路径的内容和表现做一个简要的讨论是必要的,许多这些讨论是由外界提供给UCSC的。Ensembl Gene Predictions路径由Ensembl提供。Ensembl基因通过许多方法来预测,包括与已知mRNA和蛋白质进行同源性比较。若查询启动子区域,我们需要将Ensembl Genes选择为dense 或full模式,点击Refresh,即刷新,出现下图:

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

图中多出了Ensembl Genes的预测路径,我们在红框中圈出。点击用于表达该序列的任何方块出现以下页面:

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

点击红框中的条形深色方块(不是Ensembl Genes文字),

 应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

在此,我们选择并点击Link to sequence中的Genomic Sequence,即显示基因组序列,出现以下窗口:

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

在该窗口中,终于出现了promoter的字样了,哈哈,快要大功告成了啊。在此我们当然要选择它了,并将其改为2000bp(具体多少bp合适,可根据文献资料和实验目的获取,有的基因可能在其上游戏几百bp就可以了),其他的几个选项分别为5’端非编码区,编码区外显子,3’端非编码区,内含子(我把内含子用绿框圈了起来,突出说明一下用同样的方法可以显示该基因的内含子与外显子,显示出来的结果一目了然,看以下的结果便知道了)等。

同时另外一个非常重要的就是序列显示方式了,这里我们在Sequence Formatting Options选项里进行选择。我们选择上图红框里的内容,即外显子大写,其余的小写,也就是说mRNA的外显子大写,其余上下游非编码区以及内含子均为小写。

选择完后提交,返回如下序列页面:

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

第一个大写字母以后就是mRNA序列,之前的小写字母序列即为启动子区域了。大家在做后序的甲基化分析、转录因子结合位点分析等便可以复制下来了。

刚才我们提到第一个大写字母以后就是mRNA序列,但该序列包含外显子和内含子,是未经剪切修饰的mRNA, 我们在上面也提到了用此同样方法也可显示出外显子和内含子,我们接着看该页面的序列就可以了,与上幅图紧挨着截个图看一下,图中两段大写字母中间的小写字母便为内含了序列。

 

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南

 

结语:关于启动子区域和外显子、内含子的查找方法有很多,如利用NCBI,其实都使用的是基本相同的工具,大家可以根据具体的情况和个人偏好来决定使用哪种方法。个人觉得,利用上述方法还是比较简便的。

 

上一条:10个免费全文数据库推荐

下一条:NCBI应用之PubMed文献查找

相关文章
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 应用ensembl网站寻找基因外显子、内含子 2009-08-06 23:47:19
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 利用UCSC来寻找外显子\内含子 2009-08-06 23:32:27
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 应用NCBI查找基因的内含子与外显子 2009-08-06 23:18:58
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 NCBI物种拉丁-常规英文对照 2009-08-06 20:45:38
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 10个免费全文数据库推荐 2009-11-08 10:04:12
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 优秀网上学习资源倾情推荐(pubmed,EBSCO,Blast,等) 2009-06-17 21:28:54
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 2009-10-15 00:14:45
  应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列 - fhqdddddd - 流浪云南 NCBI应用之PubMed文献查找 2009-09-26 19:29:14

  评论这张
 
阅读(5320)| 评论(4)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016