104-基因结构基础知识
刘小泽写于19.4.12 主要研究真核生物
DNA => pre-mRNA
基因结构包括编码区(CDS)和非编码区
编码区:不连续的基因结构,又包含外显子和内含子,它们交替出现
- 外显子:编码区中不连续的具有蛋白编码功能的DNA序列
第一个外显子的头部是蛋白翻译的起始密码子;最后一个外显子的尾部是终止密码子,一般富含
AT-
- 内含子:编码区中外显子之间间隔的非编码序列
- 外显子与内含子的邻接部位是一段高度保守的序列:外显子尾巴与下一个内含子的头部多数是GT,内含子的尾巴与下一个外显子的头部多数是AG,可以简单记做
GT-AG
法则,作为RNA剪切的识别信号 - DNA=》pre-mRNA(mRNA前体)或者hnRNA(核内不均一RNA)=》(成熟)mRNA,其中pre-mRNA中包括了外显子和内含子,成熟的mRNA才只剩外显子
- 开放阅读框ORF:从DNA的起始密码子(ATG)到终止密码子(TAA、TGA、TAG)的碱基序列,且不包含终止密码子
非编码区:又叫"侧翼序列flank
”,是编码区第一个外显子+最后一个外显子以外的区域,也就是指这个区域中包含了启动子、终止子、增强子等调控元件
上游侧翼(第一个外显子以外的序列):包含启动子区域(promoter)
启动子的作用是与RNA聚合酶特异性结合
第一个外显子的5’转录起始位点(TSS)上游大约20-30个碱基的位置,是
TATA box
,包含的碱基位置是TATAATAAT
,保证RNA聚合酶可以准确识别转录起始位点并开始转录过程。总而言之,它影响转录起始第一个外显子的5’转录起始位点上游大约70-80个碱基的位置,是
CAAT box
,包含的碱基位置是GGCTCAATCT
,它是另一个RNA聚合酶的结合位点,它不影响转录起始,但可以控制转录起始频率 。另外CAAT box
两侧是GC box
,包含的碱基是GGCGGG
,起到转录调节、激活转录的功能增强子:一般位于TSS上游大约100个碱基以外,具有增强转录的作用,但是不用于启动基因转录
沉默子:抑制DNA的转录过程,从而抑制翻译,最常见是位于启动子上游。有时也会出现在启动子下游、基因本身内含子或外显子上;另外在下游侧翼的3’非翻译区也发现了沉默子
参考:http://www.bogari.net/Bogari/Principle_files/4-genomes.pdf
下游侧翼(最后一个外显子以外的序列):包含终止子序列
- 首先在最后一个外显子的终止密码子下游有一个
AATAAA
序列,这个序列主要参与mRNA 的 多聚腺苷酸化过程。多聚腺苷酸化就是得到polyA尾巴之前,mRNA的3’端会水解掉10-15个碱基。这个序列的作用就是作为RNA裂解的信号,指导核酸内切酶在此信号下游10~15碱基处裂解 mRNA。之后就是聚合酶作用使得3’端加上polyA变成成熟mRNA AATAAA
序列再往下到转录终止位点(TTS)之前,是一个反向重复序列(7-20个碱基对),转录后形成一个发卡结构,可以阻碍RNA聚合酶移动,终止转录
- 首先在最后一个外显子的终止密码子下游有一个
**注意:**起始密码子和终止密码子都在外显子上,位于编码区;但是,转录起始位点TSS和转录终止位点TTS都在非编码区,TSS在启动子区下游&起始密码子上游,TTS在终止子区下游&终止密码子下游
pre-mRNA=》mature mRNA
pre-mRNA就是从转录起始位点TSS到终止位点TTS,还需要进行内含子剪切,5’加帽子结构,3’加PolyA修饰,才可以形成成熟mRNA
mature mRNA
包括编码区、5’UTR、3’UTR、5’帽子结构、3’polyA尾
- 编码区:起始密码子AUG开始,到终止密码子(UAG、UAA、UGA)的碱基序列
- UTR:mRNA两端的非编码序列
- 5’UTR:上游非编码区,位于5’帽子与起始密码子(AUG)之间
- 3’UTR:下游非编码区,位于编码区末端的终止密码子到3’尾巴之间
单顺反子mRNA:只编码一个蛋白的mRNA; 多顺反子mRNA:编码多个蛋白
- 5’帽子:作用就是帮助mRNA跨过核膜,进入胞质,并且此过程中保护5‘不被降解;翻译时保证IFiii和核糖体识别
- 3’poly-A尾巴:作用也是帮助mRNA跨过核膜,进入胞质,并且增加了mRNA在胞质中存在的稳定性。因为mRNA的降解过程是随着时间延长,A尾逐渐变短;
疑难杂症
- promoter虽然感觉和起始相关,但是它既不属于外显子也不属于内含子,它是非编码区序列
- UTR其实是mRNA中的概念,但是在往上溯源,在DNA序列中算是外显子exon的部分
- CDS序列以ATG开始,起始密码子只有这一个,并且在外显子中
- 一个基因中有外显子和内含子,但是基因和基因也不是连续的,它们之间的区域就不是intron内含子了,而是叫做” 基因间区",同样属于非编码序列