您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 武汉大学遗传学第6章真核生物的遗传分析
第6章真核生物的遗传分析本章重点是:讨论真核生物的基因组、基因定位与染色体作图和真核生物同源重组的分子机制,并介绍基因丢失、扩增与重排及其遗传学效应。6.1真核生物基因组6.1.1C值悖理一个物种单倍体的染色体数目及其所携带的全部基因称为该物种的基因组(genome)。基因组DNA测序的结果表明基因组中不仅包含着整套基因的编码序列,同时还包含着大量非编码序列,即基因之间的序列。这些序列同样包含着遗传指令(geneticinstruction)。因此,基因组(应该)是整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传指令。genome--Thecompletesetofsequencesinthegeneticmaterialofanorganism.ItincludesthesequenceofeachchromosomeplusanyDNAinorganelles.(genesⅨ)生物体的单倍体基因组所含DNA总量称为C值(C-value)每种生物各有其相对恒定的C值不同物种的C值之间有很大差别能营独立生活的最小的生物——枝原体(Mycoplasma)的C值不到106bp一些显花植物和两栖类动物的C值则可多达1011bp,相差10万倍。C值同生物的进化有什么关系?生物的C值,即基因组的DNA总量是不是随着生物的进化而相应地增加?一方面:在一些低等生物中,随着生物进化,增加了生物体的结构和功能的复杂性,基因组也相应地增大即C值↑。如蠕虫的C值大于霉菌、藻类、真菌、细菌和支原体。另一方面:随着进一步的进化,在其他生物中则看不到这种规律。显花植物和两栖类动物的基因组最大两栖类动物C值小的109bp大的1011bp软骨鱼、硬骨鱼甚至昆虫和软体动物的基因组都大于包括人类在内的哺乳动物的基因组。爬行类和棘皮动物的基因组大小同哺乳动物几乎相等。因此,从总体上说生物基因组的大小同生物在进化上所处的地位及复杂性之间无严格的对应关系,这种现象称为C值悖理(C—valueparadox)。C-valueparadox:thelackofdirectrelationshipbetweentheCvalueandphylogeneticcomplex.人们对C值悖理已经提出许多解释:包括基因组的部分或完全加倍、转座、反转录已加工假基因、DNA复制滑动、不等交换和DNA扩增等,Petrov等又提出一个解释是:各种生物基因组的大小是由于基因组中长期积累起来的过量的非编码DNA被清除的速率不同所造成的结果,即DNA丢失的速率愈慢,那么基因组DNA含量愈高6.1.2N值悖理N(numberofgenes)值悖理(Nvalueparadox)物种的基因数目与生物进化程度或生物复杂性的不对应性,这被称之为N(numberofgenes)值悖理(Nvalueparadox)或G(numberofgenes)值悖理。面对由基因组测序和注释所揭示出来的线虫、果蝇、植物以及人等的有关蛋白质编码基因的数目如何进行解释?比如:人的基因组(3300Mb)——25,000个左右的基因;线虫(C.elegans)基因组(97Mb)——19,000个基因;果蝇(D.melanogaster)基因组(常染色质部分的120Mb)——13,600个基因;啤酒酵母(S.cerevisiae)基因组(12Mb)——约6000个基因;水稻(O.sativa)基因组(389Mb)——37,544蛋白质编码基因等等。非常明显,果蝇基因组比线虫基因组大,进化地位比线虫高,而编码基因反而比线虫少;人的基因组应该是最复杂的,人的进化地位最高,但编码的基因还没有水稻基因组的多。显然,要理解每一个物种发育、代谢、生长、繁殖、行为等等的本质,仅用基因组的序列测定的结果是不能直接地回答这些问题的。在对基因组进行注释后,人们试图用基因组的结构和基因数目的多少来説明基因的功能以及各物种间的关系也不是一个简单的问题。6.1.3真核生物基因组DNA序列的复杂度真核生物基因组DNAC值和N值悖理现象都表明其DNA序列的复杂度,为此可通过复性动力学来检测基因组DNA序列的复杂性。也就是通过DNA的变性(denaturation)和复性(renaturation)反应的动力学过程分析DNA序列的性质,由于复性的速率取决于互补的DNA序列之间的随机碰撞,所以DNA复性是一个双分子二级反应。补充(1)序列复杂性(sequencecomplexity)同一类生物中基因组大小相差悬殊,其主要差别在于“多余”(excess)DNA的量的差别。“多余”DNA量多,则基因组大;反之,则小。所谓“多余”DNA主要是重复序列,即这种DNA序列在基因组中可以有不止一个拷贝。不同序列的总长度称为序列复杂性或者说:DNA分子中不重复碱基的总量(用bp来表示)序列复杂性x=2(bp)序列复杂性x=4(bp)若一个DNA分子长度为106bp,完全不含重复顺序,则x=106(bp)或者说:最长的没有重复序列的核苷酸对的数值ATAT例(TATA)40其总长为160bp,但不重复的碱基:AT所以ATCG而(TAGC)40(2)DNA复性动力学基因组内单一序列和重复序列的组成情况,可通过DNA复性动力学研究来确定。DNA复性:当变性DNA的两条互补链在除去变性因素后,可以重新或部分恢复成双螺旋结构。复性的必要条件:足够的盐浓度;温度适中(低于Tm20-25℃)复性过程缓慢:成核作用→拉链作用当两条单链DNA接触时,如果某个区段可以互补配对,就先形成一个双链核心区,然后扩展其互补配对区段而复性形成双链。复性过程很复杂,但基本符合二级反应动力学dSDNA2SSDNAk1k2复性的速率可用下列公式表示:dC/dt=-kC2这里,C是在t时单链DNA的浓度,k是二级反应常数。上述公式可以重排为-dC/C2=kdt对上式积分整理得:C/C0=1/(1+kC0t)这里C0是t=0时DNA的初始浓度这个公式表明反应中单链DNA所占百分数(C/C0)是DNA浓度(C0)同反应时间(t)乘积的函数,通常用C0t来表示。在一个特定的实验中,C0是已知的,C是可以测定的,如C/C0对C0t作图可以得到下图的曲线,称为Cot曲线(见图5—4)。当C/C0=0.5即复性反应完成一半时(t1/2)的Cot值定义为C0t1/2=基因组B的C0t1/2基因组B的核苷酸对数基因组A的C0t1/2基因组A的核苷酸对数=基因组B的C0t1/2基因组B的核苷酸对数基因组A的C0t1/2基因组A的核苷酸对数当条件一定时:C0t½的大小与DNA的分子量及复杂性有关(1)C0t½越大,表示复性速度越慢,DNA的分子量越大DNA总量一定时,基因组越复杂,任何特定顺序的拷贝数就越少。例如,DNA起始总量为12pg,一种细菌基因组大小为0.004pg,则它的各种顺序有:12/0.004=3000拷贝。另一种真核生物基因组大小3pg,12/3=4拷贝。尽管测得的Co绝对量相同12pg(核苷酸mol/L)。而事实上后者各顺序的浓度比前者低了3000/4=750(倍)。要使该真核生物基因的拷贝数也达到3000,则要多加750倍的DNA.因此,该真核生物DNA复性反应的C0t½是细菌DNA反应C0t½的750倍。•(2)在不存在重复序列的情况下,C0t½值与基因组的大小成正比,也即与反应体系中的复杂度成正比:X=K’C0t½A.在一般标准条件下(阳离子浓度为0.18mol/L,片段大小为400bp)K’=5x105则有:X=5x105C0t½C0t1/2(欲测基因组DNA)B.在非标准条件下,通常用大肠杆菌DNA作为标准测定未知DNA的复杂度:(3).在有重复顺序的复性中,在同一个复性曲线上的各动力学组分的C0t1/2并不因基因组的大小而增减,而是与DNA序列的重复频率成反比:C0t½(1):C0t½(2)=f(2):f(1)式中(1)和(2)代表两个不同的动力学组分,f代表其重复频率(拷贝数)原核生物基因组的C0t曲线是单一的S形曲线复性动力学研究表明真核生物基因组的C0t曲线是多S形曲线,由若干个(一般2-3个)S形加合成的曲线。2复杂度(欲测基因组DNA)4.2×106bp=C0t1/(大肠杆菌DNA)整个基因组:7.8x108bpA:25%C0t(A)1/2=0.0013B:30%C0t(B)1/2=1.9C:45%C0t(C)1/2=630以上数值是从复性动力学曲线上查得。求A、B、C的复杂性和各自根据:f=S’(A)S’(B)S’(C)化学复杂长度的重复频率?(在某一S’曲线内的总长度)动力学复杂长度(在相应S’曲线内的每个拷贝长度)以大肠杆菌的C0t½为标准时有:(E.coliC0t½=4.0)样品DNAC0t1/2E.coilDNAC0t1/2待测样品的DNA复杂性=4.2×106•求每一S’的动力学复杂性:•C0t(C)’1/2=630x45%=283CDNA复杂性=4.2x106x283/4.0=3.0x108(bp)•C0t(B)’1/2=1.9x30%=0.57BDNA复杂性=4.2x106x0.57/4.0=6x105(bp)•C0t(A)’1/2=0.0013x25%=0.000325ADNA复杂性=4.2x106x0.000325/4.0=340(bp)S’(A)S’(B)S’(C)根据化学长度和复杂性求重复频率:B化学长度=7.0x108x30%=2.1x108(bp)B动力学长度=6x105(bp)f(B)=2.1x108/6x105=350A化学长度=7.0x108x25%A动力学长度=340f(A)=7.0x108x25%/340=5x105由此可见,在真核生物中复性反应最快的组分是一些高度重复序列,复性反应次之的是中度重复序列,复性反应最慢的组成则是单一序列以及在基因组中出现2-3份拷贝的一些序列。基因组DNA分子可以根据其结构和功能从不同角度分成不同的类别。(1)基因序列和非基因序列基因序列指基因组里决定蛋白质(或RNA产物)的DNA序列,一端为ATG起始密码子,另一端则是终止密码子。在分析基因组序列时,当一个DNA序列以ATG起始密码子开始,随后是一个个密码子,但还未发现与这个序列对应的蛋白质产物,此时,这种DNA序列称为可读框(openreadingframe,ORF)。一般说,一个ORF相当于一个基因,只是其产物还有待发现和证实。非基因序列则是基因组中除基因以外的所有DNA序列,主要是两个基因之间的间插序列(interveningsequence)。(2)编码序列(Codingsequence)和非编码序列(Non-codingsequence)编码序列指编码RNA和蛋白质的DNA序列。由于基因是由内含子和外显子组成,内含子是基因内的非蛋白质编码序列。所以基因的内含子序列以及居间序列的总和统称为非蛋白质编码序列。(3)单一(unique)序列和重复(repetitive)序列单一序列是基因组里只出现一次的DNA序列。基因序列多半是单一序列,但也不全是单一序列,因为有些基因在基因组内的拷贝数不止一个。同时,非基因序列中也有单一序列。比如用作遗传标记或作图界标的短串联重复序列(shorttandemrepeat,STR)的侧翼序列和序列标定位点(sequencetaggedsite,STS)等。重复序列:是指在基因组中重复出现的DNA序列基因组内的重复序列有的是散在分布,有的是成簇存在。以人类基因组为例,单一序列约占基因组的50%左右;两栖类和显花植物基因组中单一序列所占比例要低得多,主要是一些重复序列。根据DNA序列在基因组中的重复频率,可将其分为:轻度重复序列、中度重复序列和高度重复序列。①轻度重复序列一般指一个基因组内有2—10份拷贝,但有时2—3份拷贝的DNA序列也被视作非重复序列。组蛋白基因和酵母tRNA基因属于轻度重复序列。②中度重复序列一般指10份到几百份拷贝的DNA序列,通常是非编码序列。这类重复序列平均长度约300bp,往往构成序列
本文标题:武汉大学遗传学第6章真核生物的遗传分析
链接地址:https://www.777doc.com/doc-3850049 .html