ORF序列:即为Open reading frame ,表明这个DNA序列可能是一个基因,但具体的基因编码序列需要其他的内容来补充,因为这一段DNA序列按三联体密码子读可以有六种读法。如果明确这段DNA序列的启动子和终止子序列就可以明确这段序列的氨基酸信息。
cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA的过程。这个DNA即为cDNA序列,它没有内含子和外显子的区别,在原核生物中可以作为一个多肽的编码基因序列,但在真核生物内由于没有内含子,所以它不能完全作为一个多肽的编码基因序列。
CDS序列:编码序列,从起始密码子到终止密码子的所有序列。
EST序列:表达序列标签。一个多肽链编码基因的短的cDNA序列,平均长度为360 ±120bp ,一般可以作为分子标记使用;当出现EST序列的时候,很可能也就是一个编码基因所在的部位。
EST(Expressed Sequence Tag)表达序列标签:是指从不同组织来源的cDNA序列
EST技术直接起源于人类基因组计划。由于人类基因数量巨大,以及真核基因特有的复杂性(如内含子、外显子的区别、重复序列等),使得一次性不加选择地对基因组全长进行测序成为几乎不可能完成的工作。Venter等人在1991年提出了表达序列标签(EST)技术。
EST的原理:
EST是从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp 。EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。
ESTS受制于表达倾向(expr
UniGene数据库
UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。
人类基因组计划的首要任务是对人类基因组进行全序列测定,整个基因组估计有30亿个碱基对,其中大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。转录图谱可以把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章将要介绍的HGI数据库只包括人的基因。该数据库的标题行(TITLE)给出基因的名称和简单说明,表达部位行(EXPRESS)指出该基因在什么组织中表达以及在基因图谱中的位置等。此外,列出该基因在核酸序列数据库GenBank或EMBL和蛋白质序列数据库SWISS-PROT中的编号的超文本链接。UniGene中部分条目包括已知基因序列,而有些条目则仅有新测得的EST序列片段。这就意味着,这些EST序列所对应的基因尚未搞清,可以用来发现新基因。在描绘基因图谱及大规模基因表达分析等研究中,UniGene也可以帮助实验设计者选择试剂。UniGene可以通过NCBI或SRS系统访问。
转录起始位点:基因开始转录的部位,一般具有一些特殊的序列,如Pribnow框盒,其序列为TATAAT;-10序列:-35序列,其保守序列为TTGACA;这些特殊序列的主要作用为:
Pribnow框盒:
①与 RNA聚合酶紧密结合;②形成开放启动复合体;③使RNA聚合酶定向转录。
-10序列:影响转录的效率;
-35序列:
GenBank上的CDS(即co
时刻做准备着中山 21:32:11
是的
云之南 21:33:03
王圣钦东南大学 21:31:51
有些是预测的结果,没经过实验验证的
云之南 21:31:58
哦
王圣钦东南大学 21:32:02
鬼知道能不能真实表达
云之南 21:32:32
理论上是能编码的,但还要实验验证才行,是吧
云之南 21:33:11
他说是这样的
云之南 21:33:17
对吗
时刻做准备着中山 21:34:09
可以这么说
时刻做准备着中山 21:34:28
如果要知道在体内有没有表达 就要做个蛋白抗体才知道
云之南 21:35:49
哦,
所以生物信息只是预测,还要实验验证
时刻做准备着中山 21:36:07
但是如果是cDNA文库出来的肯定就是表达的
云之南 21:36:29
对了,你把那天,我让你找的书的,最后25页的网址发过来,我想打印一下
时刻做准备着中山 21:36:36
如果是从基因组预测CDS就可能不表达
评论