基因是由成千上万个核苷酸对组成
组成基因的核苷酸序列可以分为不同区段
在基因表达的过程中,不同区段所起的作用不同
在遗传学上通常将能编码蛋白质的基因称为结构基因
任何一个基因都包括非编码区和编码区
能够转录为相应信使RNA,进而指导蛋白质合成(也就是能编码蛋白质)的区段叫做编码区
不能转录为信使RNA、不能编码蛋白质的区段叫做非编码区
非编码区位于编码区前后,同属于一个基因,控制基因的表达和强弱
原核生物的基因非编码区虽然不能编码蛋白质,但对遗传信息的表达是不可缺少的,因为在它上面由调控遗传信息表达的核苷酸序列,该序列中最重要的是位于编码区上游的RNA聚合酶结合位点
启动子、终止子属于非编码区
因为回文序列的特殊排列,大多都位于非编码区
原核基因的编码区全部编码蛋白质,真核生物的结构基因是断裂的基因
一个断裂基因能够含有若干段编码序列,可以编码蛋白质的序列称为外显子
在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为内含子
非编码区在每个断裂基因的第一个和最后一个外显子的外侧,有人称其为侧翼序列
在侧翼序列上有一系列调控序列
真核细胞的基因中编码区特点:间隔的、不连续的
包括:外显子和内含子(位于编码区中的非编码序列)
通常把基因转录起点前面即5’端的序列称为上游(upstream),起点后面即3’端的序列称为下游(downstream)
并把起点的位置记为十1,下游的核苷酸依次记为+2,+3,……,上游方向依次记为-1,-2,-3,……
非编码区的调控序列主要有以下几种结构:①在5′端转录起始点上游约20~30个核苷酸的地方,有TATA框(TATAbox)
TATA框是一个短的核苷酸序列,其碱基顺序为TATAATAAT
TATA框是启动子(见下)中的一个顺序,它是RNA聚合酶的重要的接触点,能够使酶准确地识别转录的起始点并开始转录
当TATA框中的碱基顺序有所改