您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据分析处理平台及应用52
InstituteofSoftware,ChineseAcademyofSciences汇报人:钟华中国科学院软件研究所2014年1月11日大数据分析关键技术及在医疗领域的应用InstituteofSoftware,ChineseAcademyofSciences一.大数据行业应用二.大数据分析关键技术三.我们的工作及案例提纲InstituteofSoftware,ChineseAcademyofSciences一.大数据行业应用InstituteofSoftware,ChineseAcademyofSciences2014/1/144•全球每秒钟发送2.9百万封电子邮件•每天会有2.88万个小时的视频上传到Youtube•推特上每天发布5千万条消息•每天亚马逊上将产生6.3百万笔订单…•每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…•Google上每天需要处理24PB的数据…互联网时代人们从信息的被动接受者变成了主动创造者InstituteofSoftware,ChineseAcademyofSciences5GBTBPBEBZB地球上至今总共的数据量•在2006年,全球一共新产生了约180EB的数据•在2011年,这个数字达到了1.8ZB•到2020年,数据总量将会增长44倍,达到35.2ZB,也就是350亿TB1GB=2^30字节1TB=2^40字节1PB=2^50字节1EB=2^60字节1ZB=2^70字节数据呈爆炸式的增长InstituteofSoftware,ChineseAcademyofSciences6大数据的4V特征大量化Volume快速化Velocity价值密度低Value多样化VarietyInstituteofSoftware,ChineseAcademyofSciences2014/1/147大数据应用:互联网与电子商务InstituteofSoftware,ChineseAcademyofSciences2014/1/148某位信用卡客户月均刷卡6次,平均每次刷卡金额500元,平均每年打3次客服电话,从未有过投诉,按照传统的数据分析,该客户是一位满意度较高、流失风险较低的客户。通过查看该客户的微博,得到的真实情况是:工资卡和信用卡不在同一家银行,还款不方便,好几次打客服电话没接通,客户多次在微博上抱怨,该客户流失风险较高。来自银行的数据来自网络的数据大数据应用:金融InstituteofSoftware,ChineseAcademyofSciences数据量•检验结果,、费用数据、影像、设备产生的感应数据、基因数据等类型•结构化数据•非结构化数据,,如口述、手写、影像、病理等速度•数据分析往往不是传统的批量处理分析,对于实时运行中的每个时间节点都会产生影响•数据以流的方式进入系统,进行抽取和分析价值•通过对数据进行分析,获取新的知识,拓展新的业务:如实时临床决策支持等医疗行业的数据具有典型的大数据特征InstituteofSoftware,ChineseAcademyofSciences大数据潜在的业务应用领域2013-2015,医疗相关的大数据应用规模年度复合增长率将达到111.3%【赛迪顾问】InstituteofSoftware,ChineseAcademyofSciences医疗大数据案例-疾病预防如何便捷、尽早地诊断早期疾病是医学界的一大课题,Seton医疗机构目前已经能借助大数据做到这一点。例如充血性心脏衰竭的治疗费用非常高昂,通过数据分析,Seton的一个团队发现颈静脉曲张是导致充血性心脏衰竭的高危因素,而颈静脉曲张的诊断几乎没有什么成本,ChineseAcademyofSciences医生需要了解一位新来的病人,或者想知道新治疗手段对哪些病人有效。但是病人病历散布在医院的各个部门,格式各异,更糟糕的是,各部门都用自己的术语创建病历。一家创业公司Apixio正在试图解决这个问题,Apixio将病历集中到云端,医生可通过语义搜索查找任何病历中的相关信息。医疗大数据案例-语义搜索,ChineseAcademyofSciences社交网站PatientsLikeMe允许用户分享他们的治疗信息,用户也能从相似的患者的信息中发现更加符合自身情况的治疗手段。PatientsLikeme还能基于用户自愿分享的数据进行观测性实验,而传统方式的临床实验通常比较昂贵医疗大数据案例-患者互助,ChineseAcademyofSciences二.大数据分析关键技术InstituteofSoftware,ChineseAcademyofSciences角色[南京大学黄宜华]15大数据技术体系InstituteofSoftware,ChineseAcademyofSciences传统集群技术,云计算与虚拟化技术,异构集群技术(CPU+GPU)基础设施网络文件系统,关系数据库,分布式文件系统,NoSQL数据库数据存储批处理,流处理,增量处理,迭代处理,图处理MapReduce范型,BSP模型,DAG数据流数据处理日志分析,数据挖掘,机器学习,关系图分析,实时数据分析传统统计方法,机器学习算法分布式化,DeepLearning数据分析互联网,电信,金融,医药,公安,科学研究等网页检索与排名,社交网络分析,商品推荐,商业智能,自然语言处理上层应用大数据关键技术InstituteofSoftware,ChineseAcademyofSciences大数据关键技术大数据存储如何存取与管理大数据大数据处理如何高效地在数据上进行计算大数据分析如何从大数据上获取到有用知识InstituteofSoftware,ChineseAcademyofSciences网络文件系统,关系数据库,分布式文件系统,NoSQL数据库NFS,MySQL,GFS/HDFS,BigTable/HBase,Dynamo,MongoDB数据存储数据类型决定存储方案普通文件(分布式文件系统)关系型数据(数据库或数据仓库)非结构化(KeyValue数据库,分布式文件系统)图(图数据库,分布式文件系统)大数据存储方式InstituteofSoftware,ChineseAcademyofSciences2014/1/1419大数据存储-数据库SQLNoSQL、NewSQL、面向不同需求,选择不同的数据库InstituteofSoftware,ChineseAcademyofSciences网络文件系统,关系数据库,分布式文件系统,NoSQL数据库NFS,MySQL,GFS/HDFS,BigTable/HBase,Dynamo,MongoDB数据存储扩展性Master-Slave架构,无中心架构存储方案数据分块,数据库分库分表数据一致性强一致性,最终一致性错误容忍复制多份,日志回滚大数据存储技术InstituteofSoftware,ChineseAcademyofSciences批处理主要使用MapReduce或者DAG数据流方法流处理数据实时流入进行处理并更新状态时间窗口数据累积后进行批处理迭代处理将迭代处理转换为批处理,利用内存进行加速图处理将大图划分为子图处理:按节点划分或按边划分使用MapReduce或BSP等范型进行处理批处理,流处理,增量处理,迭代处理,图处理HadoopMapReduce,Spark,Dryad,Storm,GraphLab数据处理大数据处理技术InstituteofSoftware,ChineseAcademyofSciences扩展性大任务分解成多个小任务,任务可在不同机器上执行数据模型Key-Value,节点——边任务调度FIFO,公平调度错误容忍中间数据进行持久化任务失败自动重新执行批处理,流处理,增量处理,迭代处理,图处理HadoopMapReduce,Spark,Dryad,Storm,GraphLab数据处理大数据处理技术InstituteofSoftware,ChineseAcademyofSciences小数据上的分析算法较成熟回归,分类,聚类,神经网络,协同过滤等大数据上分析算法主要来自上面方法一些算法可以用MapReduce表达迭代型算法可以用基于内存的框架如Spark,进行加速新算法新系统DeepLearning技术可以从大数据中抽取有用特征Google,百度等设计专门的分布式系统来处理日志分析,数据挖掘,机器学习,关系图分析,实时数据分析统计方法,机器学习算法分布式化,DeepLearning数据分析大数据分析技术InstituteofSoftware,ChineseAcademyofSciences2014/1/1424大数据可视化通过交互式视觉表现的方式帮助人们探索和解释复杂数据可视化是一个交互与循环往复的过程InstituteofSoftware,ChineseAcademyofSciences大数据可视化InstituteofSoftware,ChineseAcademyofSciences数据安全与隐私保护在Hadoop大数据平台不同环节采用不同的安全保障技术,保证整体系统的安全性InstituteofSoftware,ChineseAcademyofSciences数据科学InstituteofSoftware,ChineseAcademyofSciences数据经济InstituteofSoftware,ChineseAcademyofSciences三.我们的工作及案例InstituteofSoftware,ChineseAcademyofSciences中国科学院软件研究所,软件工程技术研究中心创建于1997年,初始名称为“对象技术中心”,2002年更名为“软件工程技术研究中心”人员规模:110余人,其中职工40人,流动人员70人包括5名研究员/博导,14名副研究员,17人具有博士学位学科方向:网络分布计算与软件工程网络分布式计算(面向云计算、移动互联网、服务计算等大数据计算软件工程(面向云计算、移动互联网、服务计算等)移动和普适计算中心历叱InstituteofSoftware,ChineseAcademyofSciences网驰中间件平台InstituteofSoftware,ChineseAcademyofSciences开放环境下、丌可预估的用户规模+异构多终端事务密集应用数据密集应用文件密集应用流式处理应用移动应用虚拟化共享的分布式软硬件设施+海量信息数据ONCE2.0—面向移动互联网、大数据、云计算等新技术趋势,融合虚拟化、并行计算、内存计算技术,具有云端融合、应用感知等特点网驰(ONCE)2.0InstituteofSoftware,ChineseAcademyofSciences云资源管理技术及平台面向Hadoop/Spark的数据分布式处理技术及平台移动应用支撑技术及工具网驰2.0的主要工作InstituteofSoftware,ChineseAcademyofSciences2014/1/14软件工程技术研发中心34研究面向应用感知的云资源管理平台、工具及关键技术,提升系统资源利用率和服务质量应用层的云化重构弹性虚拟机池管理及高可用保障应用感知中间件层的租户资源管理中间件实例的按需部署及生命周期自管理应用虚拟化技术物理机中间件平台资源分析资源组织资源调度云资源管理技术研究InstituteofSoftware,Chines
本文标题:大数据分析处理平台及应用52
链接地址:https://www.777doc.com/doc-26089 .html