您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学 第十二章鼠类和人类公用物理图谱数据库的使用
第十二章鼠类和人类公用物理图谱数据库的使用LincolnD.SteinColdSpringHarborLaboratoryColdSpringHarbor,NewYork几年前,几张已经制成的人类基因组图谱还只是在小面积上的低分辨率图。生物医学研究者如果希望定位和克隆一个致病基因,总的说来就不得不对目的区域制图,而这是一个费时费力的过程。这种情况在近几年发生了巨大的变化。现在已经有了高质量的人类基因组基因图谱,它以单一序列重复多态性(Murrayetal.,1994;Dibetal.,1996)为基础,提供分辨率达1-5Mb的图谱信息。此外,还有许多物理图谱分辨率在亚兆(sub-Mb)范围(参见Hudsonetal.,1995;O’Connelletal.,1996,及其它)。长约16000的表达序列的图谱现在也可以得到。利用这些图,一个研究者,在很多情况下,可以只集中研究一个选定区域,用几个小时来搜索公用图谱数据库,而不是用几个月时间做实验了。令人啼笑皆非的是,研究者的困难现在已经从基因组制图转到了使用一个巨大的未知领域。它包括站点,FTP(文件传输协议FileTransferProtocol)服务器和数据库。其中有大型数据库,如NCBIEntrez和GDB。也有小型数据库,可以提供由基因组中心发表的初级图谱、由个体染色体委员会赞助的网址和由小型实验室使用,以发表特定区域详图的网址。每种来源中的信息,即使与另一种中的相重复,也有其自身的价值。使用这个信息网并不容易。最近,一项在AltaVistWeb搜索器上做的对“基因组”一词的搜索就找到了超过80000个的潜在的相关文件。本章作为这些图谱的一个“简图”,用来引导读者穿过物理图谱数据库的迷宫。本章先对物理图谱制图方法作一简要回顾,然后讨论大型公用数据库NCBIEntrez和GDB,这些库提供了查找许多不同来源图谱的简捷途径,并能在这些来源中进行比较。接着,本章再讨论一下由个体制图实验室所出版的资料,从在基因组范围做出制图努力的某些中心,一直到对个体染色体做出制图努力的。因为作者的专业领域所限,本章集中讨论人类和鼠类的图谱。物理图谱的类型物理图谱有许多结构和形式。一个极端是限制性图谱(restrictionmap),用于对小区域、如kb量级做精细结构制图,另一个极端是细胞遗传学图(cytogeneticmap),用于对以104kb为长度量级的区域制图。但是,最常用的两种类型还是STS含量图(STScontentmap)和放射性杂交图(radiationhybridmap),它们的分辨区域都大于1Mb,并且有能使用简易PCR中的定位标记物的优点。在STS含量图(图12.1)中,STS标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个或多个STS被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不是100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据STS含量图已经建立起一系列重叠群,如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度由一些因子决定,如STS的密度、克隆群体的大小、以及克隆文库的深度。通常STS含量图以长1Mb的插入YAC库为基础,分辨率为几百个bp。如果使用插入部分较小的克隆载体,图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的STS。虽然一般有可能从STS含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精确测得。尽管如此,STS含量图还是有与克隆原相关的优点,并且可将其用于更进一步的研究,如次级克隆或DNA测序。到目前为止,STS含量图制图简单而使用最多的来源是巴黎的CEPH(centred’EtudesduPolymorphismeHumain)中的YAC库。它是一个10×覆盖率的文库,平均插入长度为~1Mb。放射性杂交图(图12.2;Cox,1992)对片段DNA的断点作图。在此技术中,一个人体细胞系被致死性的gamma射线照射,染色体DNA分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一套杂合组,供接下来的制图实验用了。如果要在一个放射性杂交组中对一个STS作图,那就要将每种杂交组细胞系中的DNA进行STS的PCR操作。细胞系中如果含有该STS的染色体片段,那么就能得到一个正的PCR信号。在基因组中相邻很近的STS有相似的固位模式(retentionpattern),因为放射性引起的断点落在它们中间的几率很小。相邻较远的STS固位模式相似性降低,相邻很远的STS的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出STS在放射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受的辐射量。一般对基因组大小作图的细胞系分辨率为~1M。除STS含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与STS含量图不同的技术来决定克隆体的接近程度。例如,CEPHYAC图谱法(Chumakovetal.,1995)综合利用指纹法(fingerprinting)、间-Alu产物杂交法(inter-Aluproducthybridization)和STS含量图法来制作一张重叠的YAC克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组(可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的bin?中(Vollrathetal.,1992)。FISH图谱(Licheretal.,1990)使用一个荧光信号来探测克隆体的间期DNA扩散时的杂交情况,从而以细胞遗传学图中一条带的位置定出克隆体的位置。研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那些从已转化成STS并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量EST(Adamsetal.,1991;Houlgatteetal.,1995;Hillieretal.,1996)的工程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后,这些转录序列图谱就能明显加快对目标基因的研究速度。YAC库可用于STS的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于DNA测序。去年高分辨率、可用于测序的质粒和BAC图谱则发展很快。因为它们所需的克隆工艺水平很低。除了几个特例,如染色体19的LawrenceLivemore实验室质粒图外,其它图谱都还只处在初级阶段。大型公用数据库中的基因组范围图谱人类基因组物理图谱信息的主要来源是由NCBI(NationalCenterforBiotechnologyInformation国家生物技术信息中心)和GDB(GenomeDataBase基因组数据基地,见注释)提供的大型公用数据库。这些数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较。在一定程度下,这些数据库还能进行图谱的综合及分析。NCBIEntrez和GDB将在本节介绍。由个体中心维持的数据库可提供更为详尽的信息,并将在下一节“从个体来源的基因组范围的图谱”中介绍。NCBIEntrez中染色体图谱的使用Entrez的基因组部分是最容易获得物理图谱信息的来源之一。此服务由NCBI所提供。Entrez试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA和蛋白序列信息、以及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简单,Entrez可作为搜索图谱的一个起始点。Entrez信息补救系统在第5章详细介绍。任何支持网络浏览器,如Netscape、Mosaic或MicrosoftInternetExplorer的计算机系统都可以使用Entrez。与Internet的连接应支持TCP/IP,通过一个Internet服务提供器就会形成一个有用的网络连接或是一个拨号连接。因为图谱信息中图形很多,所以应能连接28800bp或更多信息。首先,将浏览器连到Entrez的主页所在的URL(UNIFORMRESOURCELOCATOR统一资源定位器),这样就会下载一页,包含一系列与Entrez中核酸、蛋白质、目录、基因组和三维结构数据库的链接,以及一些文档和帮助。选择标有“搜索基因组数据库”的链接,这样就会弹出来一个窗口,提供搜索的范围(如图12.3)和在其它范围中一系列生物种类的名称。每一个生物体名称旁边都有一个数字,说明在数据库中其图谱的数目。得到人类图谱列表最简单的办法就是点击标有“HomoSapiens”的链接,这样就会得到一个含25个染色体图的列表(染色体Ⅰ至Ⅹ再加上线粒体染色体组的两个词条,Y型图谱现仍没有)。现在再在感兴趣的染色体下选择标有“图示”(GraphicalView)的链接。这就会得到与图12.4中所示相似的一个图谱。它是由几个图组成的一张复合图。这类图对于各个染色体来说并不同,但至少它们都含有Genethon和CHLC(CooperativeHumanLinkageCenter合作性人类链接中心)基因图谱(Murrayetal.,1994;Dibetal.,1996)、WhiteheadInstitute放射性杂交图谱和STS含量图(Hudsonetal.,1995)、斯坦福大学放射性杂交图谱、细胞遗传学图、和一个序列图。序列图基本上是一个定位器,即将已制成图的片段定位。对于这些片段,序列分析中心希望能在十年内将其制造出来。存在于多个图谱中的标记物用绿线连接了起来,好让读者能够互相比较并在从一个图谱转向另一个时保持正确的方位。出于比较和图示的目的,每一个图谱均由一个公用坐标系统校正,该系统以物理距离(DNA碱基对)的值为基础。稍一检查就会发现它们只是笼统地排成一条线,如在标记物的顺序上就有很多矛盾,在图上表现为绿线有交叉点。这些图可以用鼠标浏览,一对标有“Action”和“Zoom”的选项按钮(radiobutton)能控制图的大小。要想对图的一部分作更详细的观察,可选择Zoom按钮,并点中需放大的区域。如果选Zoom后直接点击图上的区域,一般默认为放大10%。另外也可以用图形上方的pop-up(复选框)菜单来改变放大率的值。在高放大率下,诸如单个标记物的名称、图示基因、YAC序列群和图示克隆等特征都可以很容易地分辨。进而也可以选择“左、右、校正”(Left、Right、Align)等按钮来调整图象至合适的尺寸(左右按钮在点击Zoom一次后将会出现),Overview(全览)命令将显示图象返回其初始大小。为得到一个具体标记的图中元素的信息,可选择标有“Action”的选项按钮,然后再点击该元素。注意该按钮非要使用一次Zoom才会出现,例如,单击一个STS的名称将会显示其在Genebank中的词条,而此词条又包含着与其它部分,如Entrez词条、核酸、蛋白质和三维结构数据库等的链接。Entrez网同时也提供了一条简单的在图上定位一个特定标记物的途径。在标有Searchbygene(基因查询)的两个小框中选一个,输入标记物的名称或GenBank中的通道号,然后按旁边的按钮。这样就会产生另外一张图,其中标记物以黄色着重标记。如果输入两个名称,则它们之间的区域将会着重显示。在此功能中,除了名称,物理图谱上很少有元素对应着实际的基因,大多数标记物都只是重名的序列或是基因多样性中简单的序列重复(在STS中有很多例子)。要想将一张Entrez图存在用户盘上,可单击鼠标右键(或Machintoch上的Shift-Click键),弹出窗口上方的Cur
本文标题:生物信息学 第十二章鼠类和人类公用物理图谱数据库的使用
链接地址:https://www.777doc.com/doc-4547516 .html