您好,欢迎访问三七文档
TCGADataPrimerTCGA数据入门AddedbyAnnaChu,lasteditedbyJillaineHadfieldonOct272011翻译:任重鲁TCGA数据入门提供了对TCGA和数据的高水平描述,这些数据同样提供给研究团体。这个入门介绍了TCGA数据,数据流程以及数据应用。数据入门一共包括以下几个部分:1.TCGA简介;2.TCGA数据概述;3.TCGA数据档案;4.数据访问;5.处理TCGA数据。第一、TCGA数据简介本章节提供对于TCGA及其产生的数据的高水平描述,分为以下四个部分:1.TCGA概观;2.隐私策略;3.TCGA数据流程;4.TCGA主要标示符。1.TCGA概观TheCancerGenomeAtlas(TCGA)癌症基因组图谱是企图全面的并列的去努力地加速理解癌症的分子基础,它通过利用包括大规模基因组测序的基因组分析技术来实现。TCGA的总体目标是提高我们对癌症的诊断、治疗和预防的能力。为了以科学严谨的方式达到这个目标,美国国立癌症研究所(NationalCancerInstituteNCI)和美国国立人类基因组研究所(NationalHumanGenomeResearchInstituteNHGRI)用分阶段的策略来启动TCGA。试点项目开发并测试了系统地探究人类20多种癌症中全基因组图谱的改变所需的研究框架。查看TCGA来获得关于这个项目更多的信息。2.隐私策略TCGA项目在从人类癌症参与者中收集的样本里生产出大量的基因组信息。项目同样收集了这些样本的大量临床信息。汇总的数据对每一个个体都是独一无二的,尽管数据里缺少任何直接识别个体的信息,但是仍然存在被生物信息学方法和/或第三方数据库重新识别出个体的风险。因为参与者隐私保护是NIH,NCI和TCGA最为关注的,人的主体性的保护和数据访问政策的执行,用来使得捐助人隐私风险最小化并且他们数据的机密性也有所妥协。作为这一努力的一部分,从TCGA生成的数据被分为两个层级:Openaccess,开放访问,存储的数据不能被汇总产生一个对于个体来说是独一无二的数据集。这一层级不需要用户的认证去访问数据。Controlledaccess,受约束的访问,网站把临床数据和潜在地能用来识别单独个体的唯一个体信息保护起来。这一层级需要用于的认证区访问数据。查看AccessControlPolicy来获得关于数据分层的更多信息。3.TCGA数据流程附图中说明的以下步骤总结了通过TCGA管道的数据流程:1.组织样本及其临床数据是由TissueSourceSites(TSS)组织来源点收集的,然后送交给BiospecimenCoreResources(BCRs)生物标本核心资源。2.BCRs提交临床数据和元数据到DataCoordinatingCenter(DCC)数据整理中心,并把分析物送交给GenomeCharacterizationCenter(GCCs)基因组鉴定中心和SequencingCenter(GSCs)测序中心,在这里生成突变信号并把信号提交到DCC。3.GSCs同样也提交跟踪文件、序列和比对图到CancerGenomicsHub(CGHub)癌症基因组中心。4.被提交到DCC和CGHub的数据可供研究团体和GenomeDataAnalysisCenters(GDACs)基因组数据分析中心使用。5.分析渠道和GDACs产出的数据结果通过DCC对研究团体提供服务。下表提供了对来自TCGA不同中心和小组的快速总览,要想对特定的小组或中心获得更多的信息,请单击相应的标签:中心/小组描述TSS组织来源点,收集样本(组织,细胞,血液)和临床元数据,然后把这些数据和样本送到BCR。每一个组织来源点都有一个ID来识别。BCR生物标本核心资源,是TCGA的样本中心,在这里样本及其参与者的临床信息被小心地分类,处理,质量检验和存储。分析物在BCR被等分并且分配等分条形码,之后送到其它中心。GCC基因组鉴定中心,在这里用高通量技术来分析癌症基因组的改变。鉴定出来的基因组的改变被GSCs用来进一步的研究。GCCs把在数据档案中的鉴定实验的实验结果文件转移到DCC。GSC基因组测序中心,在这里利用高通量方法去识别各种癌症的基因组序列中的改变。GSCs对分析物(由BCRs提供)进行测序并且分析假定的体细胞和生殖细胞的突变。测序结果被送到癌症基因组中心,突变结果被送到DCC。DCC数据整理中心,是提供TCGA数据的核心。DCC对数据格式进行标准化并且验证提交的数据。DCC接受并且验证从BCRs,GCCs和GSCs获得的数据,之后研究团体才能通过TCGA门户网站的应用程序对数据进行使用。GDAC基因组数据分析中心,这里给研究团体提供了新颖的信息学工具和TCGA数据的分析结果,DCC不接受通过自动验证和展开系统的任何GDAC的数据提交。GDAC目前通过受控访问临时上传分析数据到DCC。CGHub癌症基因组中心,一个安全的数据库,用来存储,分类和访问TCGA及其相关项目的的癌症基因组序列,比对和突变信息。在SAIC-Frederick分包合同之下,CGHub由加州大学圣克鲁斯分校(UCSC)管理。GSCs上传跟踪文件,短信号序列和BAM文件到CGHub。ProjectTeam协调TCGA的项目团队,由NCI和NHGRI中的成员组成。4.TCGA主要标识符BRCs从TSSs收到参与者的样本和他们相关的元数据。然后BCRs分配人可读的IDs,也就是TCGA条形码给参与者的元数据和样本。TCGA条形码用来把扩展到整个TCGA网络中的数据联系在一起,因为IDs可以唯一识别一个特定样本的一组结果。这个条形码的各个组成部分提供了一个样本的元数据值。自从试点项目开始以来,TCGA条形码已经成为生物标本的主要标识符。项目现在正在经历着使用UUIDs作为主要标识符的转变之中。一旦UUIDs被替换完成,条形码将不再被分配使用。参见TCGABarcodes来获得更多的信息。第二、TCGA数据概述本章提供一个TGCA数据的简介,它的来源和分类。分为以下三个部分:1.从TCGA中心提交到DCC的数据类型2.数据提交来源3.数据分类1.从TCGA中心提交到DCC的数据类型同TCGA简介中描述的一样,BCR把等分的样本转变成TCGA中心里进行处理的四种类型。然后这些中心把数据提供给DCC。下面的表格标明了每一个中心提交到DCC的数据类型。数据源提交的数据BCRs生物标本核心资源参与者信息生物标本数据临床病例数据相关的TCGA条形码(横跨所有生物标本数据水平)组织芯片图像GSCs基因组测序中心基因组鉴定中心的对分析物测序(分析物由BCRs提供)并且分析假定的体细胞和生殖细胞的突变。测序结果被送到癌症基因组中心,突变结果被送到DCC。GCCs基因组鉴定中心GCCs把在数据档案中的鉴定实验的实验结果文件转移到DCC。GDAC基因组数据分析中心目前,DCC不接受通过自动验证和展开系统的任何GDAC的数据提交。GDAC目前通过受控访问临时上传分析数据到DCC。2.数据提交来源关于TCGA中心和它们提交给DCC的数据信息。以下描述那些可以往TCGA上提交数据的研究中心。同时介绍一下这些研究中心提交的数据类型。BCRs:生物标本核心资源是TCGA的一个研究中心,在这里样本连同参与者临床信息被小心地分类,处理,质量检查和存储。在样本被组织来源点收集之后,在提取分子分析物(DNA/RNA)之前,BCR通过一个病理复查确保样本质量。在分析物被送往其它中心之前分析物被等分并分配等分条形码。BCR发送的样本和数据表示如下:GSCs接收DNA分析物相应的等分条形码GCCs接收DNA/RNA分析物相应的等分条形码DCC接收参与者信息生物标本数据临床病例数据相应的TCGA条形码(横跨所有生物标本数据水平)组织切片图像关于临床和生物标本数据临床和生物标本数据有两种文件类型,用XML类型和Tab分隔的文本文件类型两种不同的方式来表示相同的数据。Bothenablethecollectionofaseriesofbarcodescorrespondingtoparticipantsthatfitwithintheclinicaldatatypesofinterest.每一个XML文件包含一个参与者的数据;每一个biotab文件包含多个参与者的数据。每种类型的文件可以用来提取和汇集同参与者临床数据相关联的等分条形码。从XML或者biotab文件中得到的相关样本或等分条形码和数据一旦被解析,样本就可以按照感兴趣的临床数据被汇集起来。汇集的条形码可以映射到相关数据。GSCs:基于序列的数据是通过各种高通量测序平台产生的测序数据。关于基于序列的数据TCGA的序列数据是由数据生成中心创建的。他们使用了多种针对于全基因组,外显子组和micro-RNA的平台获得数据。这些数据生成中心通过对比肿瘤样本结果和正常样本结果来识别基因或者基因组中的变化。可识别的变化有:生殖细胞和体细胞突变、单核苷酸多态性、插入和删除(in-dels)、拷贝数变异、易位、倒转。除了识别这些变化之外,RNA测序和miRNA测序产出定量的数据,例如基因表达和miRNA表达数据。更多的信息,参见RNASeq。TCGA数据整理中心(DCC)组织,存储元数据并提供对序列样本相关的元数据访问,包括临床和生物标本信息。美国国家生物技术信息中心(NCBI)通过它自己的基因型表型数据库(dbGaP)来组织,存储和提供相关的基因型表型注释信息。癌症基因组中心(CGHub)提供原始测序序列和比对信息。GCCs:基于芯片的数据是由GCCs利用不同芯片平台产生的描述型数据。关于基于芯片的数据各种平台把分子探针和靶标组织在一个芯片的各行各列种。TCGA基于芯片的数据是由数据生成中心利用不同平台生成的。它针对基因,外显子,miRNA和蛋白质表达、拷贝数变异、单核苷酸多态性、杂合缺失(LOH)、DNA甲基化。GDAC:基因组数据分析中心是一个提供给研究团体新颖信息学工具同时也提供分析结果的TCGA中心。目前,DCC不接受通过自动验证和展开系统的任何GDAC的数据提交。GDAC通过受控访问临时上传分析数据到DCC。3.数据分类关于TCGA数据不同水平和类型的分类信息以下描述TCGA中对数据的不同分类方式。包括数据类型和数据水平分类两部分。数据类型:在TCGA网络中,数据类型是用来分类多种平台数据的标签。每一种平台都可以潜在地产生许多种类的数据(数据类型)。例如,基于SNP芯片的平台是最复杂的平台,它产出拷贝数结果(CNV)、杂合缺失(LOH)和SNP。下表列出了六种平台下的数据类型。数据水平分类:数据水平是TCGA网络中使用的数据分类方法,促进研究者交流和定位他们感兴趣的数据。每一种数据类型,实验平台和实验中心都有几种数据水平。一共有四个数据水平:1水平(原始数据),2水平(经过处理的数据),3水平(结果分割和解释的数据)和4水平(感兴趣的区域数据)。下表介绍了四种TCGA数据水平。DataLevelLevelTypeDescription1原始数据单个样本的低水平数据没有标准化的数据2处理过的数据经过标准化后的单样本数据对存在或者不存在特定分子异常的解释3经过分割、解释的数据来自单个样本的经过处理的数据的汇集通过已探测的基因座的集合来形成较大的contig区域(在一些案例中)4感兴趣的区域或概要量化跨各类样本之间的关联基于两个或多个数据的关联分子异常、样本特征、临床变量数据类型和数据水平分类之间的关系每一种平台都能产生多种数据类型。为了理解数据的分类,有必要弄清楚数据类型和数据水平之间的关系。每一种数据类型都同一个或多个数据水平相关联。每一个研究中心和每一个实验平台或许在数据水平的概念上会有一点不同,因为这依赖于不同的数据类型,不同实验平台的使用和不同的分析算法。下表显示了应用在每一种数据类型上的原始数据水平和标准化后的数据水平。数据类型在Cod
本文标题:TCGA入门
链接地址:https://www.777doc.com/doc-4408961 .html