您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 顺反组数据库和数据分析平台的构建
硕士学位论文顺反组数据库和数据分析平台的构建姓名:孙翰菲学号:1132995所在院系:生命科学与技术学院学科门类:生物医学工程学科专业:生物医学工程指导教师:刘小乐教授二〇一四年五月AdissertationsubmittedtoTongjiUniversityinconformitywiththerequirementsforthedegreeofMasterMay,2014Candidate:HanfeiSunStudentNumber:1132995School:SchoolofLifeScienceandTechnologyDiscipline:BiomedicineEngineeringMajor:BiomedicineEngineeringSupervisor:Prof.XiaoleShirleyLiuMay,2014TheConstructionofCistromeDatabaseandDataAnalysisPlatform学位论文版权使用授权书本人完全了解同济大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:年月日同济大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:年月日同济大学硕士学位论文摘要I摘要研究背景:随着测序费用的降低,近年来,染色质免疫共沉淀测序技术(ChIP-seq)和染色质对脱氧核糖核酸酶I测序技术(DNase-seq)数据的数量快速增长,目前已有上万套。ChIP-seq和DNase-seq技术是目前研究转录调控和表观遗传调控的重要手段,然而,目前对于实验生物学家来说,检索和利用公共域上已有的ChIP-seq和DNase-seq数据依然具有较高的门槛。因为(1)测序数据的处理需要多种工具,这些工具没有用户界面,参数配置繁琐(2)测序数据由不同的实验者上传,数据格式、注释信息和命名方式都不统一(3)各研究机构的数据处理流程不同,这些数据之间没有可比性。测序数据通常数据量庞大,处理、检索、分析甚至存储这类数据都费时费力,如何整合ChIP-seq和Dnase-seq的海量数据集,帮助其他研究者快速探索与解决相关的科研问题,是一个实用的课题。研究步骤:1.收集所有公共域上ChIP-seq与DNase-seq数据基于GEO、ENCODE和EpigenomeRoadmap这几个大型的数据仓库收集数据并提取数据的元信息,然后通过人工审核与自动扫描结合的形式来将元信息标准化,接下来将收集到的样本按照处理组和对照组的关系分组,构建一个通用的ChIP-seq和DNase-seq数据库,保存审核过的元信息和分组信息。根据研究对象的不同,可以进而构建更细化的数据库。2.对数据进行统一的处理、分析与质量控制实现一个能完成数据处理、数据分析和质量控制的流程,以便(1)提高数据之间的可比性(2)评估数据的质量好坏(3)提高数据重用性。该流程将原始测序文件做为输入,输出结合位点信息(bed文件),波形信息(bigwig文件),motif信息,质量控制报告等结果。流程需要对文库质量、抗体特异性、测序质量等方面进行质量控制。3.构建数据分析网站利用已处理好的数据和已修订的元信息,构建一个供所有研究者访问的数据分析网站。在该网站上,用户可以根据元信息对所有处理过的ChIP-seq和同济大学硕士学位论文摘要IIDNase-seq数据进行检索,用户可以查看某个蛋白质在某个潜在的靶基因附近是否存在结合位点,还可以查看某个基因附近的结合位点的波形。实验者可以在网站上针对某个结合位点设计ChIP-qPCR的引物。另外,用户还可以上传一套自产数据,网站会根据相似度快速返回一些和它最相似的数据。对于一些下游的分析,需要将该网站与CistromeAP分析平台进行整合,使得该网站的数据可以直接导入到CistromeAP分析平台使用。研究结果:1.收集所有公共域上ChIP-seq与DNase-seq数据本课题开发了一套自动化的信息收集系统,从多个公共数据库收集了17313套ChIP-seq和DNase-seq测序数据的样本,并对其进行注释信息的下载、元信息的提取和样本的分组,并进行人工修订来保证元信息和分组信息的正确性。基于已收集到的信息,本课题构建了一个ChIP-seq和DNase-seq数据集的数据库CistromeDC和针对染色质调控因子和组蛋白修饰相互作用的数据库CistromeCR,并开发了一套数据库管理系统提高人工修订的效率。2.对数据进行统一的处理、分析与质量控制本课题开发了一套ChIP-seq和DNase-seq数据处理的框架SamFlow,并制定了一整套数据处理、分析与质量控制的流程。本工作利用该流程对测序数据进行统一的质量控制(QualityControl,QC)和分析,在质量控制中,本流程利用了文库的复杂度、读段富集的分布、重复样本的一致性、与基因注释的关联性等多方面信息做为依据。3.构建数据分析网站本课题开发了用于数据检索和分析的网站CistromeFinder,在网站上,研究者可以按照其感兴趣的细胞、疾病、蛋白质等信息进行检索,对于每一套样本和数据集,网站以可视化的形式展示了数据分析和质量控制的报告。此外,网站还与UCSC基因浏览器、CistromeAP数据分析平台、Primer3Plus引物设计平台进行了整合,用户可以方便地将网站上的数据发送给其他平台进行下游分析,或者下载到本机。除了通过元信息来检索数据集以外,本工作还尝试了一种利用转录位点的集合检索数据集的手段,并构建了CistromeRadar网站。研究者可以上传一套自产数据的所有转录位点,在数据库中检索与该数据相似的数据。本工作借鉴了信息检索中TF-IDF方法的思想,只使用每套数据中的少数结同济大学硕士学位论文摘要III合位点代表该数据,这样既做能加快检索的速度,也能保留每套数据特异性和显著性较高的结合位点。本课题对高通量顺反组数据的下游分析工具与数据进行了整合。通过各个数据库与CistromeAP分析平台的整合,可以使研究者在网站上完成一些更加定制化的下游分析工具,比如相关性分析、关联性分析、结合表达数据来预测靶基因等等。本课题在CistromeAP中建立了数据导入的接口,研究者可以快速完成导入工作,在浏览器中完成几乎所有的数据分析工作,而无需购置任何服务器和安装任何生物信息软件包。关键词:ChIP-seq,DNase-seq,数据库,转录因子,数据分析TongjiUniversityMasterofPhilosophyAbstractIABSTRACTBackground:Asthecostforhigh-throughputsequencingdecreases,thenumberofChIP-seqandDNase-seqdatasetsisgrowingrapidlyinrecentyears.ChIP-seqandDNase-seqareimportantmethodstostudytranscriptionalregulationandepigeneticregulationnow.However,thethresholdishighforqueryingandusingtheChIP-seqandDNasedatainpublicdomain.Thereasonisthat:(1)Theprocessingofsequencingdataneedsmultipletoolswhichhavenouserinterfaceandhavecumbersomeparametersconfiguration.(2)Thesequencingdataareuploadedbydifferentexperimenters,sothedataformat,annotationinformationandnamingconventionarenotconsistent.(3)Differentresearchinstitutesusedifferentworkflowfordataprocessing,whichmakesthedataincomparable.Usuallytheamountofdataforsequencingisquitelarge,anditistime-costingtoprocess,queryandanalysisthedata.Evenstoringtheselargefilesisdifficultforsomeresearchers.Therefore,itisapracticalsubjecttointegratethesemassiveamountsofdataforChIP-seqandDNase-seqandtohelpotherresearcherstodiscoverandsolveresearchproblems.Methods:1.DatacollectionforallChIP-seqandDNase-seqdatainpublicdomainThissubjectcollectsdataandextractsmetadatafromseverallargedatawarehousesuchasGEO,ENCODEandEpigenomeRoadmap.Thenitstandardizesthemetadatabybothmanualreviewandautomaticscan.NextitgroupsthecollectedsamplesbasedupontherelationshipoftreatmentandcontrolandbuildsanuniversaldatabaseforChIP-seqandDNase-seqdatatostorethemetadataandgroupinformationreviewed.Basedonaspecificresearchsubject,itcanbuildamorefine-graineddatabase.2.Unifieddataprocessing,analysisandqualitycontrolThesubjectwillimplementaworkflowfordataprocessing,dataanalysisandqualitycontrolinorderto(1)makethedatacomparable(2)evaluatethequalityforeachdata(3)improvethereusabilityofdata.Theworkflowtakestherawsequencingfileasinputandoutputstheinformationofbindingsite(bedfiles),profiles(bigwigTongjiUniversityMasterofPhilosophyAbstractIIfile),motifs,aqualitycontrolreportandsoon.Theworkflowneedstodoqualitycontrolonthequalityoflibrary,thespecificityofantibodyandseque
本文标题:顺反组数据库和数据分析平台的构建
链接地址:https://www.777doc.com/doc-4411999 .html