您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 中科曙光基因数据分析与存储平台方案
基因数据分析与存储平台建设方案目录1平台建设需求分析.......................................................................................................................31.1平台组成............................................................................................................................31.2系统应用分析....................................................................................................................42系统方案设计...............................................................................................................................72.1系统配置表........................................................................................................................72.2系统拓扑图......................................................................................................................102.3系统方案说明..................................................................................................................113系统技术参数.............................................................................................................................123.1总体指标..........................................................................................................................123.2刀片机箱..........................................................................................................................123.3计算刀片..........................................................................................................................123.4四路节点..........................................................................................................................123.5管理登录节点..................................................................................................................123.6存储节点..........................................................................................................................133.7集群网络..........................................................................................................................133.8机柜配电..........................................................................................................................133.9集群软件..........................................................................................................................133.10系统集成实施与售后服务............................................................................................151平台建设需求分析1.1平台组成生物信息学研究平台可分为测序平台和分析平台两部分,测序平台以基因测序仪为核心,完成基因测序,获得原始数据;分析平台以高性能计算软硬件系统为核心,完成数据的分析处理,获得分析结果。其中,基因数据存储与分析平台即生物信息高性能计算系统通常包括:计算子系统(刀片节点、胖计算节点、管理登陆节点)存储子系统(在线存储系统、备份存储系统)网络子系统(高速计算存储网络、低速管理网络)管理调度系统(操作系统、集群管理系统、作业调度系统、KVM)基础软件环境(编译器、数学库、并行环境等)应用软件环境(生物信息平台软件、应用软件与基因组数据资源)集群基础设施(机柜、配电系统)机房环境(机房、制冷、监控、消防、隔音、供电等)1.2系统应用分析生命科学做为21世纪最重要的科学分支之一,高性能计算在生命科学的研究和发展中起来非常重要的作用。由于测序技术的飞速发展,人类发现的基因序列数目按照指数级增长,那么对于如此数量庞大的基因进行同源性搜寻,比对,分析,遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。同时,由于生命科学的研究对象往往是蛋白质和DNA的大分子,对这些分子的三维结构的预测,动力学特性、热力学特性、在生命过程中如何发生作用,这些科学问题也要借助于高性能计算机。所以高性能计算机在生命科学研究中,应用非常广泛,扮演着及其重要的角色。生物信息学研究平台应用包括测序仪离线处理、序列搜寻比对分析、质谱仪原始资料处理、分子对接(药物设计)、电子显微镜图象处理等等,其中最为主要的仍是测序仪离线处理和序列搜寻比对分析,也是基因数据存储与分析平台承担的主要任务。基因数据存储与分析平台应用的主要特点为:1.计算量大,序列比对等大部分任务在双路节点上可以获得较高的计算效率;2.序列拼接等部分应用需要大内存的节点,部分应用需要单节点1TB以上的内存;3.数据访问量巨大,对存储性能、容量要求高,数据增长速度非常快;4.开源软件众多,安装复杂,需要相应的基因组数据资源;5.部分应用的工作流程较为复杂,自动化较低。2系统方案设计2.1系统配置表方案思想:在当前预算下,结合平台应用的特点和对软硬件的需求,搭建符合应用特点的、满足使用需求、并且尽可能完整的基因组分析和存储平台。序号名称技术规格单位数量计算峰值(TFLOPS)存储容量(裸容量TB)功率(kw)高度(U)1硬件部分5.2992965.45171.1计算子系统刀片平台TC4600E5U机架式刀片机箱,可以支持10个计算刀片;管理模块,集成远程KVM和远程虚拟媒体;千兆网络交换模块,提供6个RJ45千兆接口和2个万兆上联接口;56Gb/sFDRIB网络模块,对外提供10个FDRIB接口;4*电源模块(冗余);台1--5计算刀片CB60-G202×IntelXeonE5-2640v38核处理器(2.6GHz);128GBDDR42133MHz;1×300G2.5寸10000转SAS硬盘;1×56GbInfiniband端口;2×1000M以太网接口;片53.3282.25-四路大内存节点I840-G254U机架式;4×IntelXeonE7-4850v314核处理器(2.2GHz);2TBDDR31600MHz内存;2GBCacheSASRAID;2×600GBSAS10K热插拔硬盘;2×千兆以太网接口;1×56GbInfinibandHCA卡;冗余电源;上架导轨;台11.97121.24管理登录节点I620-G202U机架式;2×IntelXeonE5-2620v36核处理器(2.4GHz);4×8GBDDR42133MHz内存;2×300G2.5寸10000转SAS硬盘;2×1000M以太网接口;1×56GbInfinibandHCA卡;冗余电源;上架导轨;台1-0.421.2存储子系统存储节点I640-G154U机架式存储,24盘位,2颗处理器,32GB内存,2*300G10KSAS系统盘,配置24块4TBSATA数据硬盘,提供96TB存储裸容量;对外配置2个千兆网口、1个FDRIB网口。台196141.3网络子系统计算网络FDRIB交换机36口FDRInfiniband交换机台10.41IB线缆3米FDRInfiniband线缆条8管理网络24口千兆交换机24个10/100/1000BASE-T(RJ45)台1-0.211.4机柜子系统机柜系统曙光C200标配2个PDU、双侧门,温湿度监控。个1---2软件部分操作系统LinuxCentOS用户指定版本套1---集群管理与作业调度系统GridviewGridviewHPC版集群管理与作业调度系统;集群自动部署工具、运维管理软件、在线运维软件与服务、计费软件模块;套1---应用开发环境编译器GNU编译器,支持C/C++Fortran77/90Intel编译器,支持C/C++Fortran套1---数学库MKL,BLAS、LAPACK、ScaLAPACK、FFTW套1---MPI并行环境OpenMPI(支持Infiniband和以太网的MPI环境)套1---MPICH2(支持千兆以太网的MPI环境)套1---应用软件与数据环境基因组数据与软件提供常用生物信息软件安装与基因组数据资源套1---2.2系统拓扑图2.3系统方案说明系统配置Intel2600v3与4800v3CPU,刀片节点80个计算核心、胖节点56个计算核心,双精度浮点峰值5.2992万亿次;配置1台2TB大内存节点与5台128GB双路节点;配置1台FDRIB接口的存储节点,提供96TB存储裸容量;配置FDRIB计算存储网络和千兆以太网管理网络;系统配置一套Gridview集群管理软件,提供管理、监控、告警和作业调度等功能,方便集群使用和管理;提供生物信息应用程序运行所必需的常用编译器、数学库等基础软件环境的安装调试服务,保证应用程序的稳定、高效运行;提供生物信息应用软件平台,部署行业应用软件和基因组数据资源;软硬件3年质保与售后服务,提供对生物信息分析的应用支持。3系统技术参数3.1总体指标提供完整的基因数据存储与分析软硬件平台,包含计算、存储、网络、集群管理与作业调度软件、应用开发环境、运维管理软件、应用软件系统、基础基因组数据资源以及机柜配电等基础设施。3.2刀片机箱1.机架式刀片机箱,高度5U,支持10个双路计算刀片2.配置
本文标题:中科曙光基因数据分析与存储平台方案
链接地址:https://www.777doc.com/doc-2776611 .html