您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 基因组与比较基因组学研究
第九讲基因组与比较基因组学研究一、人工染色体构建二、新的测序策略--全基因组鸟枪法测序三、全基因组序列分析--基因组学的新内容四、比较基因组学(Comparativegenomics)一、人工染色体构建1983年,美国的Dana-Farber癌症研究所和哈佛大学医学院的教授首次在Nature上发表文章,报道了构建YAC(YeastArtificialChromosome)库的过程。1987年,Burke等人发现,仅仅带有ARS序列的载体虽然能够被复制,但极易在有丝分裂时丢失。即使在选择培养基上,也只有5%-20%的子代细胞带有ARS载体。加入Centromeres(CEN)能显著提高ARS质粒在有丝分裂时的稳定性,90%以上子代细胞带有该载体。CEN还能显著降低拷贝数,从20-50/细胞降为1-2/细胞。(Science,236:806-812)。人工染色体含有三种必需成分:着丝粒、端粒和复制起点。着丝粒(CEN)位于染色体中央,呈纽扣状结构,在有丝分裂时结合微管并调控染色体的运动,也是姐妹染色单体配对时的最后位点,接收细胞信号而使姐妹染色体分开。端粒(TEL):主要功能是防止染色体融合、降解、确保其完整复制。端粒酶以其自身RNA为模板,在染色体端部添加上端粒重复序列,并参与端粒长度和细胞增殖的调控。复制起点:DNA复制通常由起始蛋白与特定的DNA序列相互作用开始。DNA合成的起始位点和DNA复制起点(遗传位点)所需的Cis靶区常位于同一段长约100bp的DNA上。YAC的主要缺点1.存在高比例的嵌合体,即一个YAC克隆含有两个本来不相连的独立片段;2.部分克隆子不稳定,在转代培养中可能会发生缺失或重排;3.难与酵母染色体区分开,因为YAC与酵母染色体具有相似的结构。4.操作时容易发生染色体机械切割。以细菌寄主系统为基础的克隆载体形成嵌合体的频率较低,转化效率高,又易于分离。科学家用染色体建造法用F质粒及其调控基因构建细菌载体,克隆大片段DNA。该质粒主要包括oriS,repE(控制F质粒复制)和parA、parB(控制拷贝数)等成分。BAC的优点1.易于用电击法转化E.coli(转化效率比转化酵母高10-100倍);2.超螺旋环状载体,易于操作;3.F'质粒本身所带的基因控制了质粒的复制;4.很少发生体内重排。有人把人类染色体端粒DNA上单个α-卫星DNA单元多聚化形成1Mb左右的大片段并与人类基因组DNA混合,产生了能被复制、能正常分裂并得到长期稳定保存的人工合成的染色体,长度约为6-10Mb,称为MAC或HAC。二、新的测序策略--全基因组鸟枪法测序对某基因组文库全部克隆片段进行末端序列测定中未测到的碱基数,即缺口(gap),与已测定的总碱基数相关。随着已测定碱基数的增加,缺口的总碱基数目会按照泊松公式的一个推论(P=e-m)迅速减小。其中P为基因组中某个碱基未被测定的概率,m为所测定的碱基数与基因组大小相比的倍数。m越大P值越小。当m值达到5(即随机测定的碱基数达到基因组5倍时),基因组中未测定的碱基数为基因组总碱基数的0.67%(e-5=0.0067)。对流感嗜血杆菌这样大的基因组(1.83Mb),可能留有128个平均长度为100bp的缺口。全基因组鸟枪法测序的主要步骤是:第一,建立高度随机、插入片段大小为2kb左右的基因组文库。克隆数要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组5倍以上。第二,高效、大规模的末端测序。对文库中每一个克隆,进行两端测序,TIGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三个月时间完成了必需的28,463个测序反应,测序总长度达6倍基因组。第三,序列集合。TIGR发展了新的软件,修改了序列集合规则以最大限度地排除错误的连锁匹配。第四,填补缺口。有两种待填补的缺口,一是没有相应模板DNA的物理缺口,二是有模板DNA但未测序的序列缺口。他们建立了插入片段为15-20kb的λ文库以备缺口填补。鸟枪法测序的缺点随着所测基因组总量增大,所需测序的片段大量增加,各个片段重叠或一个连续体的概率是2n2-2n高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。对鸟枪法的改进(1)Clonecontig法。首先用稀有内切酶把待测基因组降解为数百kb以上的片段,再分别测序。(2)靶标鸟枪法(diretedshotgun)。首先根据染色体上已知基因和标记的位置来确定部分DNA片段的相对位置,再逐步缩小各片段之间的缺口。SSLPs,simplesequencelengthpolymorphisms;STRs,simpletandemrepeats;SNPs,singlenucleotidepolymorphisms.LINEs,longinterspersednuclearelements;SINEs,shortinterspersednuclearelements;LTR,longterminalrepeat.FISH,FluorescentinsituHybridization;STS,SequenceTaggedSiteSTS一般为100-500bp的DNA片段,只在整个genome或染色体中出现1次。EST,EndSequenceTag.三、全基因组序列分析--基因组学的新内容1.数据存放。2.碱基百分含量分析。无论是GC富含区还是AT富含区,都可能是一些特殊功能的区域。肺炎支原体GC百分含量高和GC百分含量低的区域对应于重组值较低的区域,包括着丝粒和端粒,而尿殖道支原体GC百分含量最低的区域对应于rRNA和tRNA。流感嗜血杆菌GC百分含量高的区域也对应于6个rRNA基因。3.ORF分析。首先要用多个不同的软件来要找到并估测基因组中的每一个ORF。通过比较确知其功能的;在数据库中有相匹配的蛋白质序列,但不知其能的;在数据库中找不到任何相匹配蛋白质序列的新基因。1995年,J.C.Venter所领导的TIGR(TheInstituteofGenomicReseach)完成了第一个单细胞自由生物基因组,流感嗜血杆菌(HaemopophilusinfluenzaeRd)全序列测定。1996年他们又完成了拥有最小基因组的单细胞生物尿殖道支原体(Mycoplasmagenitalium)和一种不同于原核、真核生物的单细胞生物--产甲烷古细菌(Methanococcusjannaschi)的全序列测定。德国人则测定了肺炎支原体(Mycoplasmapneumoniae)基因组全序列。与此同时,历时七年(1989-1996年)的第一个真核生物酿酒酵母(Saccharomycescevevisiae)基因组计划在欧共体及美、日、加、英等各国实验室共同努力下得以完成。1997年大肠杆菌(Escherichia.ColiS)的基因组计划完成,美丽隐杆线虫(caenothabditiselegans)的基因组计划也于1998年完成。最受瞩目的人类基因组计划(HGP,HumanGenomeProject)也于2000年底前完成。(1)通过流感嗜血杆菌能量代谢类群的ORF分析,了解到在这种生物中缺乏三羧酸循环(TCA)中必需的三个酶,即柠檬酸合成酶基因、异柠檬酸脱氢酶基因和顺乌头酸酶基因。由此推断流感嗜血杆菌TCA缺失,不能合成谷氨酸,因为谷氨酸的供体是TCA的中间产生物α-酮戊二酸。(2)在尿殖道支原体基因组中有一个称为MgPa的ORF。考察全基因组,共发现有9个与MgPa同源的重复序列,这些重复序列之间发生重组可能诱导尿殖道支原体群体中抗原性改变,帮助细菌逃避宿主免疫攻击。四、比较基因组学(Comparativegenomics)尿殖道支原体是已知最小的基因组,由此可能确定能自我复制的细胞必需的一套最少的核心基因。流感嗜血杆菌的基因组为1.83Mb,而尿殖道支原体的基因组只有0.58Mb,二者相差3倍多,那么,基因组大小影响了基因数目还是基因尺度?流感嗜血杆菌基因大小平均900bp,尿殖道支原体的基因为1040bp,基因大小差不多;流感嗜血杆菌中平均1042bp有1个基因,尿殖道支原体中平均1235bp有1个基因。可见基因组尺度减小并不引起基因密度的增加和基因本身尺寸的减小。二者差别在于基因数量上,流感嗜血杆菌基因组有1743个ORF,而尿殖道支原体只有470个ORF。通过对尿殖道支原体与流感嗜血杆菌这两个亲缘关系较远的生物基因组的比较,选取其共同的基因(共240个),再加上一些其他基因,最后组成一套含256个基因的最小基因组。古细菌产甲烷球菌与原核生物有着共同的染色体组织与结构,如环状基因组、基因的操纵子结构等,其能量产生和固氮基因与原核生物也有很高的同源性。该基因组中与细胞分裂有关的蛋白质及20多个编码无机离子运输蛋白的ORF与细菌基因同源,而且其调控模式也类似于原核生物。然而,产甲烷球菌在细胞遗传信息传递,尤其是转录和翻译系统,以及分泌系统方面与真核生物同源,说明该细菌与真核生物亲缘关系较近。比较基因组学提供的结果表明,在进化系统树上,古细菌与真核生物亲缘关系比原核生物更近。在自养生物的三个分支,细菌、古细菌和真核生物中,细菌的分化发生较早。表6.6E.coli,Haemophilusinfluenzae和Mycoplasmagenitalium基因组中的基因分类分类基因数E.coliH.influenzaeM.genitalium总ORF数42881727470氨基酸合成131681辅基等的合成103545核苷酸合成585319细胞膜合成与装配2378417能量代谢24311231中合物代谢188306脂肪代谢48256DNA复制、重组和修复1158732蛋白质结构967调控蛋白178647转录552712翻译182141101吸收与转运42712334最简单的真核生物--酿酒酵母基因组单细胞真核生物酿酒酵母基因组为12,068kb,比单细胞的原核生物和古细菌大一个数量级。酿酒酵母基因组共有5887个ORF,这比原核生物和古细菌要多很多。酿酒酵母的基因密度为1个基因/2kb,密度小于原核生物流感嗜血杆菌和尿殖道支原体等。酿酒酵母是最小的真核基因组,裂殖酵母其次,其密度是1/2.3kb,简单多细胞生物线虫的基因密度为1/30kb。第二、酿酒酵母只有4%的编码基因有内含子,而裂殖酵母则有40%编码基因有内含子。人类基因组中有多少基因5-15万,大约80000左右。推测依据有三条:1.根据已测定大片段DNA中ORF的比例;2.CpGisland的个数(56%的已知基因5'都与CpG相连,而人基因组中有45000个Islands)3.ESTs。已经报道的是第22染色体和第21染色体。第21染色体全长33.65Mb,长臂上有33.546Mb,仍有7个缺口,长约3kb,99.7%。TheDNAsequenceofhumanchromosome22,Nature402,489-495(1999).TheDNAsequenceofhumanchromosome21,Nature405,311-319(2000).21q上有127个已知基因,98个推测的基因59个pseudogenes。Chromosome22中有545个编码基因第21+22染色体共占2%的人类总DNA,共有770%基因Nature,406,151-157苏格兰爱丁堡罗斯林研究所用来自乳腺的细胞,使它们饥饿,迫使大多数基因进入非活化状态,与受体细胞周期相匹配。将这些乳腺细胞核转移到去核的卵细胞内,某些未知因子使6岁细胞的非活化DNA重返过去,指导卵细胞发育成羊。在227个这样的卵细胞中,只有一个形成了健康的活体:多利羊。果蝇基因组全长180mb,2/3euchromatio,1/3是hetrochromatin.WGS定位3114.8mb,BlastSearch确定有14113个转录产物(功能基因)。Science,287:2185-2195(20
本文标题:基因组与比较基因组学研究
链接地址:https://www.777doc.com/doc-4760323 .html