您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 1.生物医学大数据概述_刘雷_20160914
生物信息与医学大数据概述刘雷生物医学研究院医学系统生物学系2016.09.142020/7/5生物信息学概述生命科学大数据的挑战与实践生物医学信息学技术2生物信息与医学大数据概述第一部分2020/7/5生物信息学概述生命科学大数据的挑战与实践生物医学信息学技术3生物信息与医学大数据概述遗传学与基因组学2020/7/54人类基因组计划之后取得的成就2020/7/55Nature2011,470:204–213研究内容数据库建设数据库整合和数据挖掘序列分析结构分析与功能预测大规模功能表达谱的分析代谢网络建模分析预测调控网络网络普遍性分析模型分析程序开发商业化2020/7/56数据库建设数据库整合和数据挖掘序列分析结构分析与功能预测大规模功能表达谱的分析代谢网络建模分析预测调控网络网络普遍性分析模型分析程序开发商业化研究内容2020/7/57Roche454IlluminaHiSeq2000ABISOLiD数据库建设数据库整合和数据挖掘序列分析结构分析与功能预测大规模功能表达谱的分析代谢网络建模分析预测调控网络网络普遍性分析模型分析程序开发商业化研究内容2020/7/58研究内容数据库建设数据库整合和数据挖掘序列分析结构分析与功能预测大规模功能表达谱的分析代谢网络建模分析预测调控网络网络普遍性分析模型分析程序开发商业化2020/7/59研究内容数据库建设数据库整合和数据挖掘序列分析结构分析与功能预测大规模功能表达谱的分析代谢网络建模分析预测调控网络网络普遍性分析模型分析程序开发商业化2020/7/510研究内容数据库建设数据库整合和数据挖掘序列分析结构分析与功能预测大规模功能表达谱的分析代谢网络建模分析预测调控网络网络普遍性分析模型分析程序开发商业化2020/7/511ExperimentInformationTechnologyComputationHardware&instrumentationMathematical&PhysicalModels•DNASequence•Gene&genomeorganization•Molecularevolution•Proteinstructure,folding,function&interaction•Metabolicpathwaysregulation•SignalingNetworks•Physiology&cellbiology•Interspeciesinteraction•Ecology&environment基因组测序Genomesequencing基因组数据分析Genomicdataanalysis统计遗传学Statisticalgenetics蛋白质结构预测、折叠、设计Proteinstructureprediction,proteindynamics,proteinfoldinganddesign蛋白质组学Proteomics功能基因组学(生物芯片等)Functionalgenomics(microarrays)高科技野外生态学High-techfieldecology数据格式、标准化及分析复杂生物数据工具Datastandards,datarepresentations,andanalyticaltoolsforcomplexbiologicaldata动态系统建模Dynamicalsystemmodelling计算生态学Computationalecology代谢组学metabolomics转录组学Transcriptomics生物信息学122020/7/5计算生物学的复杂性132020/7/5生物信息学和系统生物学142020/7/5第二部分2020/7/5生物信息学概述生命科学大数据的挑战与实践生物医学信息学技术15生物信息与医学大数据概述生命科学大数据的挑战与实践2020/7/5生命科学大数据概况生命科学“大数据”挑战GWAS和药物基因组学中国人群肝癌的个性化图谱群数据分享与挖掘16生命科学大数据的挑战与实践2020/7/5生命科学大数据概况生命科学“大数据”挑战GWAS和药物基因组学中国人群肝癌的个性化图谱群数据分享与挖掘17个性化遗传背景30亿碱基对,22000个基因,30万蛋白质。个性化遗传差异:300万bp。2020/7/518人类基因变异的深层目录1000基因组2020/7/5191亿3500万340亿大于80亿100万医学:大数据2020/7/520TheInternationalNucleotideSequenceDatabaseCollaboration,NucleicAcidsResearch,2011,1–5doi:10.1093/nar/gkr1006SRA碱基积累率成指数增长。WGS序列仍是传统序列中的组成部分。INSDC碱基对,分解为选定的数据部分21每个碱基与人类基因的检测成本急速下降2020/7/52weeks~$1,0000.010.101.0010.00100.001,000.0010,000.00100,000.00$MThroughput(Gb)人类基因的检测成本NGS通量的革新3Gb6Gb20-30Gb0204060801001202402007200820092012199020012012200720100.001Moore’sLaw深度测序技术因其低廉的价格与高通量在生命科学与转化医学研究领域日益普及。13years~$3,000,000,000200Gb-300Gb22NatureMethods7,495-499(2010)计算能力与急剧上升的生物数据之间的巨大差距我们将面临何种挑战?23NatureMethods7,495-499(2010)计算能力与急剧上升的生物数据之间的巨大差距我们将面临何种挑战?24Illumina/Solexa/HiSeqGeneticAnalyzer200Gb/run/weekAppliedBiosystemsABI3730XL1Mb/dayRoche/454GenomeSequencerFLX1000Mb/run/dayAppliedBiosystemsSOLiD/HQ5500xl300Gb/run/weekPacficBio™SingleMoleculeSequencer1000Mb/dayRoche/IonGenomeSequencer1000Mb/run新一代测序仪器2020/7/525EricS.Lander,2011,“Initialimpactofthesequencingofthehumangenome”Nature“Theultimategoalisforsequencingtobecomesosimpleandinexpensivethatitcanberoutinelydeployedasageneral-purposetoolthroughoutbiomedicine.……,researchapplicationswillincludecharacterizinggenomes,epigenomesandtranscriptomesofhumansandotherspecies,aswellasusingsequencingasaproxytoprobediversemolecularinteractions.”测序的终极目标是变得简单、廉价,成为整个生物医药领域常规的通用的工具。……研究应用包括人类及其他物种的基因组、表观基因组、转录组表征,同时也包括利用测序作为代理来探讨不同分子间的相互作用。2020/7/526基因组学转录组学蛋白质组学代谢组学表观基因组学元基因组学•大量数据是生命科学的根本基础。•生物数据的规模从GB,TB增长到PB。•大数据促进了生命科学的研究与应用。•派生出了疾病基因组学,药物基因组学,环境基因组学等等。生命科学:从实验到数据驱动2020/7/527新一代测序技术使生物成为了数字科学2020/7/5Methyl-SeqBIS-SeqmRNA-SeqChIP-SeqSmallRNADiscoveryNucleosomeMappingDNA-SeqSEQ-Seq基因组调控组表观基因组转录组元基因组生命科学进入信息时代!28背景介绍29GenomeRregulationpathwaysandnetworksTranscriptomeCCTGGAGCACGGAAGATTCTTGCGGACACAAATCGCAACTGCTAAATAAAATTT······基因组表观基因组基因组生物信息学管理、整合大量“组学”数据的挑战!2020/7/5生命科学大数据的挑战与实践2020/7/5生命科学大数据概况生命科学“大数据”挑战数据资源中国人群肝癌的个性化图谱群数据分享与挖掘30信息科学面临“大数据”的挑战存储:磁盘容量与成本的增加。运转:输入/输出限制与传输速度。分析:配备有巨大内存与多个CPU/GPU的电脑服务器。(Interpretation)整合?:异构源的数据整合。可视化:需要新的基因浏览器。寻求解决途径31生物数据的性质研究水平多种多样——从分子、细胞、组织与系统到行为疾病。异构源数据——从遗传学&生理学到成像与临床试验。复杂的数据——能够同步记录1000个细胞甚至更多。动态的数据——生物进程随经历与时间的推移而改变。庞大的数据——TB甚至PB都非常普遍。2020/7/532大数据管理的挑战科学和技术层面—建立可共同操作的数据库。—支持信息学研究,开发信息学工具。—为研究界提供可持续发展的工具。—创建工具开发中心,服务于国家。—构建资源和基础设施,云计算等等。社会层面—制定规范。—组织教育活动(座谈会、研讨会、出版各类文章、文献)。互通性层面—形成标准、词汇与知识本体。—开发新的系统基础设施与工具。—获得如云计算服务等科学界的认可。2020/7/533“大数据”挑战:需要高性能的计算系统基因组数据压缩、存储、检索;可重构的计算;云计算。IntelNehalemCPU4Cores8MBCache2xQuickPath3xDDR3CacheCoherencedFPGACoprocessorCustomizedMacroInstructions:HashIndexingSeed-basedFilteringCAMAddressingDynamicProgrammingCompressing/Decompressing…………DDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMQPIDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMDDR3DIMMIntelTylersburg-36DChipset2xQuickPath36PCIelanesQPIICH9ESIQPIPCIeGen2PCIeGen2PCIeGen2InfiniBandHCA10GbEDualGbEPXHPCI-XPCIeSlotPCIExpressGen236lanes2x16+2x24x8+2x28x4+2x2QuickPath6.4GbpsQuickPath6.4GbpsQuickPath6.4GbpsPCIExpressGen16x1DDR3800/1066/1333MbpsDDR3800/1066/1333Mbps2020/7/534IBM、Amazon、LifeTechnology都建有专门针对生命科学研究云计算服务系统。美国众多著名的实验室都是他们在计算、数据存储方面的忠实的客户。云计算提供了管理、挖掘生物大数据的解决途径2020/7/535生命科学大数据的挑战与实践2020/7/5生命科学大数据概况生命科学“大数据”挑
本文标题:1.生物医学大数据概述_刘雷_20160914
链接地址:https://www.777doc.com/doc-6327320 .html