您好,欢迎访问三七文档
mRNA(messengerRNA)信使RNA,是由编码区(CDS)、上游的5’非编码区和下游3’非编码区组成,真核生物mRNA的5’端带有7-甲基鸟苷-三磷酸帽子结构,3’端有多腺苷酸尾巴,但NCBI中mRNA序列实际上是cDNA序列,即经过反转录得到的与RNA序列互补的DNA序列,一般不包括3’多腺苷酸尾巴。一个cDNA序列被称为一个转录子,第一个碱基所在的位置为转录起始位点(TSS),cDNA都是由外显子组成,但编码蛋白质的外显子只有一个,即CDS(codingsequence),这段序列也就是一个ORF区,也就是这个cDNA的ORF序列。参与特定基因转录及其调控的TSS上游序列称为启动子(Promoter),如原核生物在转录起始位点上游-10有一段TATAAT的保守序列,有助于局部解链,在-35有一段TTGACA序列提供RNA聚合酶识别信号,真核生物上游-25到-30TATA决定起始位点,-75位置CAAT与RNA聚合酶,这些都是启动子,启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。克隆可以简单理解为复制品,例如假设通过提取mRNA,反转录后得到cDNA序列,然后将这段序列转入载体,再通过划线不断的繁殖,就会得到许多装有这段cDNA序列的克隆,实验室为了方便,在给得到的这些克隆起名时,一般会取cDNA序列的名,但实际上在这个克隆里面不仅包括了这个cDNA,还包括了载体的DNA。STS(sequence-taggedsite)序列标记位点,是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,一般长度为200-500bp,一个DNA序列要成为STS,首先序列必须已知,能用PCR方法检测,第二STS必须在基因组上具有唯一的定位点。通过STS可以判断在不同条件下测序得到的DNA序列的准确性。EST(expressedsequencetag)表达序列标签,是从一个随机选择的cDNA克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA序列。全基因组测序发现基因即昂贵又费时,因为基因组中只有2%序列编码蛋白质,因此可以对真正编码蛋白质的mRNA构建cDNA文库,对cDNA进行测序,得到EST序列,从而发现新基因。下面以大鼠CTGF基因为例子,小写字母是转录子前后200bp启动子相关序列,大写字母表示的是cDNA序列,也就是转录子,其中蓝色标记的部分为CDS序列,湖蓝色的为转录起始位点,即TSS,加粗带下划线的为起始密码子agtgtgccagctttttcagacggaggaatgtggagtgtcaaggggtcaggatcaatccggtgtgagttgatgaggcaggaaggtggggaggaatgcgaggaatgtccctgtttgtgtaggactccattcagttctttggcgagccggccgcccggagcgtataaaagccagcgccacccgcccagtctcacacagctcttCTCTCCAAGAAGACTCAGCCAGACCCACTCCAGCTCCGACCCTAGGAGACCGACCTCCTCCAGACGGCAGCAGCCCCAGCCCAGTGGACAACCCCAGGAGCCACCACCTGGAGCGTCCGGACACCAACCTCCGCCCCGAGACCGAGTCCAGGCTCCGGCCGCGCCCCTCGTCGCCTCTGCACCCCGCTGTGCGTCCTCCTGCCGCGCCCCGACCATGCTCGCCTCCGTCGCGGGTCCCGTTAGCCTCGCCTTGGTGCTCCTCCTCTGCACCCGGCCTGCCACCGGCCAGGACTGCAGCGCGCAGTGTCAGTGCGCAGCTGAAGCGGCGCCGCGCTGCCCCGCCGGCGTGAGCCTGGTGCTGGACGGCTGCGGCTGCTGCCGCGTCTGCGCCAAGCAGCTGGGAGAACTGTGCACGGAGCGTGATCCCTGCGACCCACACAAGGGTCTCTTCTGCGACTTCGGCTCCCCCGCCAACCGCAAGATTGGCGTGTGCACTGCCAAAGATGGTGCACCCTGTGTCTTCGGTGGGTCCGTGTACCGCAGCGGCGAGTCCTTCCAAAGCAGTTGCAAATACCAGTGCACTTGCCTGGATGGGGCCGTGGGCTGTGTGCCCCTGTGCAGCATGGACGTGCGCCTGCCCAGCCCTGACTGCCCCTTCCCGAGAAGGGTCAAGCTGCCCGGGAAATGCTGTGAGGAGTGGGTGTGTGATGAGCCCAAGGACCGCACAGTGGTTGGCCCTGCCCTAGCTGCCTACCGACTGGAAGACACATTTGGCCCTGACCCAACTATGATGCGAGCCAACTGCCTGGTCCAGACCACAGAGTGGAGCGCCTGTTCTAAGACCTGTGGGATGGGCATCTCCACCCGGGTTACCAATGACAATACCTTCTGCAGGCTGGAGAAGCAGAGTCGTCTCTGCATGGTCAGGCCCTGTGAAGCTGACCTAGAGGAAAACATTAAGGTAAATAAATACTCTGCCCCCAGACACTCATTTTCACAGAATGACAGGAAAGAGAACCAGAGCTGGCTGTCTCGCCGCCCTTCTTATTATAGGCCTGTTGTCTCCAGAAATATCTAACCATGGAGCTGTCTGGCTAGAATGAGAGATGCTGTAACAGCAGCTGCCAGTTTTCCACTACAAAATTCCCCGGGGTGTTAGTTAATACGAGACACTCCAAACGAAGCCATGGCTATTTTTGGAAAACTGGCGAATGAAACTCCCAGTCTCTCTCCCCTCAGAATATAAACACAAGTCAGATGACATAGGGCTAGTCTACAGAGGGTTGAGGAAGGCCACTCCCGTTGTAGTAATTGCGGTGTCTCTTCTCGTCTTCCCTTAGAAGGGCAAAAAGTGCATCCGGACGCCTAAAATTGCCAAGCCTGTCAAGTTTGAGCTTTCTGGCTGCACCAGTGTGAAGACCTACCGGGCTAAGTTCTGTGGGGTGTGCACGGACGGCCGCTGCTGCACACCGCACAGAACCACCACACTGCCGGTGGAGTTCAAGTGCCCCGATGGCGAGATCATGAAAAAGAACATGATGTTCATCAAGACCTGTGCCTGCCATTACAACTGTCCCGGGGACAATGACATCTTTGAGTCCTTGTACTACAGGAAGATGTATGGAGACATGGCGTAAAGCCAGGGAGTAAGGGACACGAACTCATTTAGACTATAACTTGAACTGAGTTACATCTCATTTTCTTCTGTAAAAAAACAAAAAGGATTACAGTAGCACATTAATTTAAATCTGGGTTCCTAACTGCTGTGGGAGAAAACACCCCACCGAAGTGAGAACCGTGTGTCATTGTCATGCAAATAGCCTGTCAATCTCAGACACTGGTTTCGAGACAGTTTAGACTTGACAGTTGTTCACTAGCGCACAGTGACAGAACGCACACTAAGGTGAGCCTCCTGGAAGAGTGGAGATGCCAGGAGAAAGACAGGTACTAGCTGAGGTCATTTTAAAAGCAGCGATATGCCTACTTTTTGGAGTGTGACAGGGGAGGGACATTATAGCTTGCTTGCAGACAGACCTGCTCTAGCAAGAGCTGGGTGTGTGTCCTCCACTCGGTGAGGCTGAAGCCAGCTATTCTTTCAGTAAGAACAGCAGTTTCAGCGCTGACATTCTGATTCCAGTGACACTGGTCGGGAGTCAGAACCTTGTCTATTAGACTGGACAGCTTGTGGCAAGTGAATTTGCCGGTAACAAGCCAGATTTTTATGGATCTTGTAAATATTGTGGATAAATATATATATTTGTACAGTTATCTAAGTTAATTTAAAGACGTTTGTGCCTATTGTTCTTGTTTTAAGTGCTTTTGGAATTTTTAAACTGATAGCCTCAAACTCCAAACACCATCGATAGGACATAAAGCTTGTCTGTGATTCAAAACAAAGGAGATACTGCAGTGGAAACTGTAACCTGAGTGACTGTCTGTCAGAACATATGGTACGTAGACGGTAAAGCAATGGATCAGAAGTCAGATTTCTAGTAGGAAATGTAAAATCACTGTTGGCGAACAAATGGCCTTTATTAAGAAATGGCTTGCTCAGGGTAACTGGTCAGATTTCCACGAGGAAGTGTTTGCTGCTTCTTTGACTATGACTGGTTTGGGAGGCAGTTTATTTGTTGAGAGTGTGACCAAAAGTTACATGTTTGCACCTTTCTAGTTGAAAATAAAGTATATATATTTTTTATATGaaaggcttggctgctcattcttgtaaactttccttgggtttccctgggtgtaagcaggaagtttatatttatcttaaggtaattcactaagatgtttacaaacaactttgatgtgcatgagtcacatgaaatcaatagaattttgcataagcatcccttacaccggaccaagtagacatgagcatcaattatctacatgg首先,的先简单介绍一下,DNA到protein这个过程.对于一个gene,它除了含有翻译成protein的那短序列,也就是CDS(codingsequence),还有一些untranslated的部分,比如promoter等,就是常说的3'UTR和5'UTR.Google了一个图片放在这里:感觉这个图有点问题,从wiki上找了个图,这个是mRNA的结构图这个是RNAsplicing的图再来一张exon的图很重要的一点Inmanygenes,eachexoncontainspartoftheopenreadingframe(ORF)thatcodesforaspecificportionofthecompleteprotein.However,thetermexonisoftenmisusedtoreferonlytocodingsequencesforthefinalprotein.Thisisincorrect,sincemanynoncodingexonsareknowninhumangenes(Zhang1998).注意,这里很重要的一句话,人们往往认为exon就是编码蛋白的那些序列,但是人类中就有很多不编码的exon!TotherightisadiagramofanheterogeneousnuclearRNA(hnRNA),whichisanuneditedmRNAtranscript,orpre-mRNAs.Exonscanincludebothsequencesthatcodeforaminoacids(red)anduntranslatedsequences(grey).Stretchesofunusedsequencecalledintrons(blue)areremoved,andtheexonsarejoinedtogethertoformthefinalfunctiona
本文标题:基因序列简介
链接地址:https://www.777doc.com/doc-6300846 .html