基因序列简介

mRNA（messengerRNA）信使RNA，是由编码区（CDS）、上游的5’非编码区和下游3’非编码区组成，真核生物mRNA的5’端带有7-甲基鸟苷-三磷酸帽子结构，3’端有多腺苷酸尾巴，但NCBI中mRNA序列实际上是cDNA序列，即经过反转录得到的与RNA序列互补的DNA序列，一般不包括3’多腺苷酸尾巴。一个cDNA序列被称为一个转录子，第一个碱基所在的位置为转录起始位点（TSS），cDNA都是由外显子组成，但编码蛋白质的外显子只有一个，即CDS（codingsequence），这段序列也就是一个ORF区，也就是这个cDNA的ORF序列。参与特定基因转录及其调控的TSS上游序列称为启动子（Promoter），如原核生物在转录起始位点上游-10有一段TATAAT的保守序列，有助于局部解链，在-35有一段TTGACA序列提供RNA聚合酶识别信号，真核生物上游-25到-30TATA决定起始位点，-75位置CAAT与RNA聚合酶，这些都是启动子，启动子的范围非常大，可以包含转录起始位点上游2000bp，有些特定基因的转录区内部也存在着转录因子的结合位点，因此也属于启动子范围。克隆可以简单理解为复制品，例如假设通过提取mRNA，反转录后得到cDNA序列，然后将这段序列转入载体，再通过划线不断的繁殖，就会得到许多装有这段cDNA序列的克隆，实验室为了方便，在给得到的这些克隆起名时，一般会取cDNA序列的名，但实际上在这个克隆里面不仅包括了这个cDNA，还包括了载体的DNA。STS（sequence-taggedsite）序列标记位点，是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列，一般长度为200-500bp，一个DNA序列要成为STS，首先序列必须已知，能用PCR方法检测，第二STS必须在基因组上具有唯一的定位点。通过STS可以判断在不同条件下测序得到的DNA序列的准确性。EST（expressedsequencetag）表达序列标签，是从一个随机选择的cDNA克隆，进行5’端和3’端单一次测序挑选出来获得的短的cDNA序列。全基因组测序发现基因即昂贵又费时，因为基因组中只有2%序列编码蛋白质，因此可以对真正编码蛋白质的mRNA构建cDNA文库，对cDNA进行测序，得到EST序列，从而发现新基因。下面以大鼠CTGF基因为例子，小写字母是转录子前后200bp启动子相关序列，大写字母表示的是cDNA序列，也就是转录子，其中蓝色标记的部分为CDS序列，湖蓝色的为转录起始位点，即TSS，加粗带下划线的为起始密码子agtgtgccagctttttcagacggaggaatgtggagtgtcaaggggtcaggatcaatccggtgtgagttgatgaggcaggaaggtggggaggaatgcgaggaatgtccctgtttgtgtaggactccattcagttctttggcgagccggccgcccggagcgtataaaagccagcgccacccgcccagtctcacacagctcttCTCTCCAAGAAGACTCAGCCAGACCCACTCCAGCTCCGACCCTAGGAGACCGACCTCCTCCAGACGGCAGCAGCCCCAGCCCAGTGGACAACCCCAGGAGCCACCACCTGGAGCGTCCGGACACCAACCTCCGCCCCGAGACCGAGTCCAGGCTCCGGCCGCGCCCCTCGTCGCCTCTGCACCCCGCTGTGCGTCCTCCTGCCGCGCCCCGACCATGCTCGCCTCCGTCGCGGGTCCCGTTAGCCTCGCCTTGGTGCTCCTCCTCTGCACCCGGCCTGCCACCGGCCAGGACTGCAGCGCGCAGTGTCAGTGCGCAGCTGAAGCGGCGCCGCGCTGCCCCGCCGGCGTGAGCCTGGTGCTGGACGGCTGCGGCTGCTGCCGCGTCTGCGCCAAGCAGCTGGGAGAACTGTGCACGGAGCGTGATCCCTGCGACCCACACAAGGGTCTCTTCTGCGACTTCGGCTCCCCCGCCAACCGCAAGATTGGCGTGTGCACTGCCAAAGATGGTGCACCCTGTGTCTTCGGTGGGTCCGTGTACCGCAGCGGCGAGTCCTTCCAAAGCAGTTGCAAATACCAGTGCACTTGCCTGGATGGGGCCGTGGGCTGTGTGCCCCTGTGCAGCATGGACGTGCGCCTGCCCAGCCCTGACTGCCCCTTCCCGAGAAGGGTCAAGCTGCCCGGGAAATGCTGTGAGGAGTGGGTGTGTGATGAGCCCAAGGACCGCACAGTGGTTGGCCCTGCCCTAGCTGCCTACCGACTGGAAGACACATTTGGCCCTGACCCAACTATGATGCGAGCCAACTGCCTGGTCCAGACCACAGAGTGGAGCGCCTGTTCTAAGACCTGTGGGATGGGCATCTCCACCCGGGTTACCAATGACAATACCTTCTGCAGGCTGGAGAAGCAGAGTCGTCTCTGCATGGTCAGGCCCTGTGAAGCTGACCTAGAGGAAAACATTAAGGTAAATAAATACTCTGCCCCCAGACACTCATTTTCACAGAATGACAGGAAAGAGAACCAGAGCTGGCTGTCTCGCCGCCCTTCTTATTATAGGCCTGTTGTCTCCAGAAATATCTAACCATGGAGCTGTCTGGCTAGAATGAGAGATGCTGTAACAGCAGCTGCCAGTTTTCCACTACAAAATTCCCCGGGGTGTTAGTTAATACGAGACACTCCAAACGAAGCCATGGCTATTTTTGGAAAACTGGCGAATGAAACTCCCAGTCTCTCTCCCCTCAGAATATAAACACAAGTCAGATGACATAGGGCTAGTCTACAGAGGGTTGAGGAAGGCCACTCCCGTTGTAGTAATTGCGGTGTCTCTTCTCGTCTTCCCTTAGAAGGGCAAAAAGTGCATCCGGACGCCTAAAATTGCCAAGCCTGTCAAGTTTGAGCTTTCTGGCTGCACCAGTGTGAAGACCTACCGGGCTAAGTTCTGTGGGGTGTGCACGGACGGCCGCTGCTGCACACCGCACAGAACCACCACACTGCCGGTGGAGTTCAAGTGCCCCGATGGCGAGATCATGAAAAAGAACATGATGTTCATCAAGACCTGTGCCTGCCATTACAACTGTCCCGGGGACAATGACATCTTTGAGTCCTTGTACTACAGGAAGATGTATGGAGACATGGCGTAAAGCCAGGGAGTAAGGGACACGAACTCATTTAGACTATAACTTGAACTGAGTTACATCTCATTTTCTTCTGTAAAAAAACAAAAAGGATTACAGTAGCACATTAATTTAAATCTGGGTTCCTAACTGCTGTGGGAGAAAACACCCCACCGAAGTGAGAACCGTGTGTCATTGTCATGCAAATAGCCTGTCAATCTCAGACACTGGTTTCGAGACAGTTTAGACTTGACAGTTGTTCACTAGCGCACAGTGACAGAACGCACACTAAGGTGAGCCTCCTGGAAGAGTGGAGATGCCAGGAGAAAGACAGGTACTAGCTGAGGTCATTTTAAAAGCAGCGATATGCCTACTTTTTGGAGTGTGACAGGGGAGGGACATTATAGCTTGCTTGCAGACAGACCTGCTCTAGCAAGAGCTGGGTGTGTGTCCTCCACTCGGTGAGGCTGAAGCCAGCTATTCTTTCAGTAAGAACAGCAGTTTCAGCGCTGACATTCTGATTCCAGTGACACTGGTCGGGAGTCAGAACCTTGTCTATTAGACTGGACAGCTTGTGGCAAGTGAATTTGCCGGTAACAAGCCAGATTTTTATGGATCTTGTAAATATTGTGGATAAATATATATATTTGTACAGTTATCTAAGTTAATTTAAAGACGTTTGTGCCTATTGTTCTTGTTTTAAGTGCTTTTGGAATTTTTAAACTGATAGCCTCAAACTCCAAACACCATCGATAGGACATAAAGCTTGTCTGTGATTCAAAACAAAGGAGATACTGCAGTGGAAACTGTAACCTGAGTGACTGTCTGTCAGAACATATGGTACGTAGACGGTAAAGCAATGGATCAGAAGTCAGATTTCTAGTAGGAAATGTAAAATCACTGTTGGCGAACAAATGGCCTTTATTAAGAAATGGCTTGCTCAGGGTAACTGGTCAGATTTCCACGAGGAAGTGTTTGCTGCTTCTTTGACTATGACTGGTTTGGGAGGCAGTTTATTTGTTGAGAGTGTGACCAAAAGTTACATGTTTGCACCTTTCTAGTTGAAAATAAAGTATATATATTTTTTATATGaaaggcttggctgctcattcttgtaaactttccttgggtttccctgggtgtaagcaggaagtttatatttatcttaaggtaattcactaagatgtttacaaacaactttgatgtgcatgagtcacatgaaatcaatagaattttgcataagcatcccttacaccggaccaagtagacatgagcatcaattatctacatgg首先,的先简单介绍一下,DNA到protein这个过程.对于一个gene,它除了含有翻译成protein的那短序列,也就是CDS(codingsequence),还有一些untranslated的部分,比如promoter等,就是常说的3'UTR和5'UTR.Google了一个图片放在这里:感觉这个图有点问题,从wiki上找了个图,这个是mRNA的结构图这个是RNAsplicing的图再来一张exon的图很重要的一点Inmanygenes,eachexoncontainspartoftheopenreadingframe(ORF)thatcodesforaspecificportionofthecompleteprotein.However,thetermexonisoftenmisusedtoreferonlytocodingsequencesforthefinalprotein.Thisisincorrect,sincemanynoncodingexonsareknowninhumangenes(Zhang1998).注意,这里很重要的一句话,人们往往认为exon就是编码蛋白的那些序列,但是人类中就有很多不编码的exon!TotherightisadiagramofanheterogeneousnuclearRNA(hnRNA),whichisanuneditedmRNAtranscript,orpre-mRNAs.Exonscanincludebothsequencesthatcodeforaminoacids(red)anduntranslatedsequences(grey).Stretchesofunusedsequencecalledintrons(blue)areremoved,andtheexonsarejoinedtogethertoformthefinalfunctiona

基因序列简介

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

旅游公司通过企业并购创造股东价值项目建议书

全聚德股份有限公司督导手册(六)

控制环境调查问卷

第十章环境监测管理

仓库管理员工职责---做一名尽职尽责的仓管员

XXXX面试自我介绍技巧和注意事项和实战经验

单晶炉等径控制方法说明书

外展需要物料文案1124

星火车间docdoc水电

财务管理作业-----5

相关文档

相关搜索