您好,欢迎访问三七文档
第五章基因组序列注释完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清:①基因组序列中所包含的全部遗传信息是什么;②基因组作为一个整体如何行使其功能。这两项任务都必须依赖于对基因组序列的正确注释(annotation)。基因组注释方法:①自动注释:依据某些规则进行数据分析得出是否为基因的结论。②人工注释:人为检测评价自动注释的结果并根据其他数据进行分析与校正。③实验注释:根据实验结果进行检测,如EST或全长cDNA。自动注释的内容:①依据基因结构的特点采用软件预测,不依赖已有的表达序列;②同源性比较,在同一物种或不同物种中查找已有的基因序列;③功能域(domain)或基序(motif)分析。基因序列注释基因功能注释5’非翻译区3’非翻译区5.1搜寻基因5.1.1根据基因结构特征搜寻基因基因(gene)Ⅰ.开放读码框•在DNA链上,由蛋白质合成的起始密码子开始,到终止密码子为止的一个连续编码序列称为一个开放读码框(openreadingframe,ORF)。读码框(readingframe)任意一段DNA序列都有6种可能的读码框。终止密码子:TAA,TAG,TGAGC%=50%,终止密码子每64bp出现一次;GC%50%,终止密码子每100~200bp出现一次;由于多数基因ORF均多于50个密码子,因此最可能的选择应该是ORF不少于100个密码子。ORF的长度:最长ORF法①在细菌基因组中,蛋白质编码基因从起始密码子ATG到终止密码子平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(>300bp)就能相当准确地预测出基因。②在真核生物中,存在大量非编码序列和内含子,ORF阅读比较复杂。全长cDNA的编码区一般也可以用最长ORF法,如水稻的3万多条的全长cDNA的编码区预测,有时例外。全长cDNA的编码蛋白序列应为4-029B,而非最长的4-029A。Ⅱ起始密码子ATG第一个ATG的确定依据Kozak规则。Kozak是一个女科学家,她研究过起始密码子ATG周边碱基定点突变后对转录和翻译所造成的影响,并总结出在真核生物中,起始密码子两端序列为:——G/N-C/N-C/N-ANNATGG——,如GCCACCATGG、GCCATGATGG时,转录和翻译效率最高,特别是-3位的A对翻译效率非常重要。该序列被后人称为Kozak序列,并被应用于表达载体的构建中。若将第一个ATG中的碱基A、T、G分别标为1、2、3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。Kozak规则的内容:Ⅲ密码子偏爱性(codonbias)编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。不同种属间使用同义密码的频率有很大差异:如人类基因中,丙氨酸(Ale)密码子多为GCA、GCC或GCT,而GCG很少使用。几乎所有基因(或操纵子)都有上游调控序列,它们可与DNA结合蛋白作用,控制基因表达,如启动子序列。生物的基因组特有组成也可作为判别依据,如几乎所有的管家基因(House-Keepinggene)及约占40%的组织特异性基因的5’末端含有CpG岛。在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。Ⅳ上游控制顺序Chambon等发现内含子特点:(1)内含子连接点具有很短的保守序列,称为边界顺序。其规律称为GT-AG法则(GT-AGrule)或Chambon法则。。Ⅴ外显子与内含子边界左(5')位点右(3')位点外显子A64G73G100T100A62AG8G84T63…12PyNC65A100G100N外显子内含子内含子和外显子的交界顺序GT-AG法则(仿B.Lewin:《GENES》Ⅵ,1997,Fig30.3)P314OHGAG外显子1外显子2OH外显子1UGOAG外显子1外显子2核RNA的剪接反应(仿B.Lewin:《GENES》Ⅵ,1997,Fig30.5)(2)分枝点顺序:为Py80NPy87Pu75APy95,其中A为百分之百的保守,且具有2’-OH。(3)内含子5’端有一保守序列可以和U1snRNA的5’端的保守顺序互补。3’端的确认主要根据Poly(A)尾序列,若测试序列不含Poly(A),则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。Ⅵ3’端的确认转录起始延伸5’帽子AAUAAA剪切Poly(A)聚合酶5’帽子AAUAAAAnmRNA3’端加Poly(A)尾巴由于内含子的进化没有外显子受到的选择压力大,内含子的序列比外显子的序列更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG的TestCode、美国波士顿大学GeneID和BaylorMedcineCollege的BCMGeneFinder等程序。Ⅶ编码区与非编码区5.1.2同源基因查询物种之间存在着广泛的同源基因,包括编码和非编码序列。生物基因组相似性%资料来源人类99.9HumanGenomeProject100孪生子黑猩猩98.4AmericansforMedicalProgress98.7CeleraGenomics大猩猩98.38AmJHumGenet2001,682:444~456.小鼠98AmericansforMedicalProgress85NHGRI狗95JonEntine,intheSanFranciscoExaminer线虫74JonEntine,intheSanFranciscoExaminer注:以人类基因组DNA序列为基准,与其他生物基因组DNA序列对比。Ⅰ同源查询(homologysearch)利用已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹配的碱基序列或蛋白质序列及其比例,这种识别基因的方法称为~。同源查询相似性的表现:A.存在某些完全相同的序列;B.ORF的排列类似,如等长的外显子;C.ORF的氨基酸序列相同;D.模拟的多肽高级结构相似。以上标准可单独使用,亦可综合考察;一般认为氨基酸的一致性或相似性在25%以上可视为同源基因。Ⅱ区分概念:同源性、一致性和相似性A.同源性(homology):起源于同一祖先但序列已经发生变异的序列之间的关联性。同源性只有“是”和“非”的区别,无所谓百分比。B.一致性(identity):同源DNA序列的同一碱基位置上相同的碱基成员,或者蛋白质中同一氨基酸位置上相同的氨基酸成员的比例。C.相似性(similarity):同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。一致性和相似性可用百分比表示,相似性往往高于一致性。同源基因有关概念:A.直向同源基因(orthologousgene):指分布在不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。B.共生同源基因(paralogousgene):指同一物种因基因倍增产生的同源基因。(旁系同源基因)C.倍增基因(ohnologousgene):因全基因组加倍产生的同源基因称~。D.异向同源基因(xenologousgene):不同物种之间因水平转移产生的同源基因称~。物种种化(speciationevent)而产生了直系同源(orthology)的基因序列,基因重复(duplicationevent)而产生了旁系同源(paralogy)的基因序列。globin基因的直系同源、旁系同源关系图在基因分类时,缺少同源序列的ORF被称为孤独基因(orphangene)。当某一序列从数据库中无法找到同源序列,又无法排除其是不是基因的可能性时,必须依靠实验来进一步确认。两点说明:在DNA水平上区分同源基因的难度要大于氨基酸水平。原因:密码子的摇摆性,相似氨基酸的取代。确定两个基因是否同源,氨基酸序列的比较以及蛋白质高级结构的模拟给出的结果更为可靠。原因:同源基因功能相似,关键位置氨基酸相同。Ⅲ基因注释软件①信号指令(signalterm):如起始密码、终止密码、内含子分支点保守序列等;②内容指令(contentterm):如密码子使用偏好等。Ⅳ基因注释水平的分类①已知基因(knowngene):与已知cDNA和蛋白质序列同源的基因。②新基因(novelgene):与其他物种cDNA或蛋白质序列同源的基因。③新转录物(noveltranscript):与新基因相似,但缺少明确的ORF。④可能的基因(putativegene):有同源EST支持,但缺少cDNA或ORF。⑤预测基因(predictedgene):数据库中至少有一个外显子支持,但缺少cDNA或明确的ORF。⑥假基因(pseudogene):与已知蛋白质有50%的一致性,但cDNA残缺,在其他位点存在正常的同源基因的序列。(DunhamI等,2001)5.1.3实验确认基因依据:任何基因都可转录为RNA拷贝。①分子杂交可确定DNA片段是否含表达序列——Northern印迹(Northernboltting)。②由EST和cDNA指认基因——搜集尽可能多的EST和cDNA成员是基因组注释最简单最可靠的方法。5.2基因功能预测根据基因结构、功能与进化的内在联系,采用生物信息学方法进行基因功能的预测已成为基因功能前期研究的主流内容。5.2.1计算机预测基因功能采用软件分析方法,根据已有的基因功能推测基因组中具有相似结构的基因的功能。依据:同源性比较直向同源基因,共生同源基因蛋白质结构预测5.2.2蛋白质结构域在功能预测中的意义结构域(domain)(功能域):蛋白质高级结构中具有相对独立的亚结构区,通常它们含有数个二级结构基序(motif),具有相对独立的功能。真核生物中大约80%的蛋白质,原核生物中大约66%的蛋白质均含有多个结构域(ApicG等,2001)。蛋白质的域结构(domainarchitecture)又称为蛋白质指纹(proteinfingerprint):用来特指蛋白质中结构域的组合形式及其排列次序。蛋白质的整体功能是通过各个结构域之间的协同作用实现的,结构域的组成提供了蛋白质功能解读的关键信息。举例:细胞跨膜信号传导蛋白的结构域①接受外界信号的受体功能域;②传达信号的胞内激酶域;③蛋白质定位在细胞膜上的跨膜域。蛋白质结构域在基因的功能预测中起着极其重要的作用,是预测基因功能的主要依据之一。①同一物种或不同物种中具有相同结构域的蛋白质可将其划归在同一蛋白质家族(proteinfamily),当其他物种相关蛋白质家族成员的功能已知时,根据同源性可以推知另一物种相同结构域蛋白质的功能。②有时2个无明显亲缘关系的蛋白质含有个别相同的结构域:分析:可能具有相似的生物学功能,相似的结构域是蛋白质功能的核心区域。基因本身无共同的祖先,但其结构域却有共同的起源。举例:涉及mRNA加工的蛋白质共有结构域:RNA结合域承担功能:A.mRNA的转运;B.mRNA前体的剪接加工;C.mRNA的翻译;D.mRNA的编辑等。转录因子的共同特点是可与DNA结合,即具有DNA结合域。TIRG生物技术公司利用Pfam和InterPro蛋白质域软件包搜寻与注释水稻基因组序列,鉴别出2462个转录因子基因。5.2.3根据协同进化(co-evolved)注释基因功能为了加快基因功能的注释与分类,根据相关功能基因具有协同进化的特点,ZhengL等(2002)提出了一种协同进化基因功能注释策略,用以解决部分没有任何已知背景的基因的注释。协同进化基因功能注释方法:①物理连锁(physicallinkage):许多基因组在物理图谱上都有或多或少的同线性区段,其中不少基因紧密连锁,组成独立的进化单位。ZhengY等(2002)发现,在4个或更多
本文标题:结构基因组学
链接地址:https://www.777doc.com/doc-4786298 .html