您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 医疗大数据及相关技术49
医疗大数据及相关技术介绍翟运开博士/副教授河南省数字医疗工程技术研究中心副主任数字化远程医疗服务河南省工程实验室副主任郑州大学第一附属医院河南省远程医学中心主任中国卫生信息学会远程医疗信息化专业委员会常委/秘书长郑州大学硕士研究生导师河南省五一劳动奖章获得者河南省教学标兵、河南省技术标兵河南省数字医疗工程技术研究中心副主任河南省教育系统教学技能竞赛特等奖获得者数字化远程医疗服务河南省工程实验室副主任郑州大学第一附属医院河南省远程医学中心主任中国卫生信息学会远程医疗信息化专业委员会常委/秘书长教育部科学技术研究重点项目负责人。河南省重大科技专项课题负责人。国家科技部科技惠民计划重大专项课题负责人。参加国家科技部863项目、国家科技支撑项目、国家自然科学基金项目等5项。获得河南省科技进步奖二等奖、河南省优秀社科成果奖二等奖、河南省自然科学学术奖一等奖等6项。发表各类学术论文80余篇,出版专著1部,参编教材4部。取得软件知识产权10项。医疗信息化与远程医疗、医药电子商务与物流管理、科技创新与管理等。主要研究方向主要参与课题翟运开博士/副教授Page3目录大数据时代大数据带来的变革大数据相关技术医疗大数据大数据时代反思Page41、大数据时代——左右未来十年的四大趋势Page51、大数据时代——数据源呈现指数级增长•IDC(InternationalDataCorporation)预计到2020年,全球将总共拥有35ZB的数据量•如果把35ZB的数据全部刻录到容量为9GB的光盘上,其叠加的高度将达到233万公里,相当于在地球与月球之间往返三次Page61、大数据时代——大数据时代到来(1)2012年3月份美国奥巴马政府发布了“大数据研究和发展倡议”(Bigdataresearchanddevelopmentinitiative),投资2亿以上美元,正式启动“大数据发展计划”美国政府认为,大数据是“未来的新石油”Page71、大数据时代——大数据时代到来(2)大数据是2012年1月份的达沃斯世界经济论坛上的主题之一该次会议还特别针对大数据发布了报告“Bigdata,bigimpact:Newpossibilitiesforinternationaldevelopment”Page81、大数据时代——大数据时代到来(3)联合国一个名为“GlobalPulse”的倡议项目在2012年5月发布报告《BigDataforDevelopment:Challenges&Opportunities》该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流(datadeluge)的情况下所遇到的机遇与挑战Page91、大数据时代——大数据时代到来(4)产业结构调整要依靠改革,进退并举…设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、新能源、新材料等方面赶超先进,引领未来产业发展。---李克强《政府工作报告》2014年3月5日Page101、大数据时代——大数据定义大数据至今尚无确切、统一的定义麦肯锡(McKinsey)的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合IDC的定义:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流Page111、大数据时代——大数据特点4VVolume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转巨大的数据价值Page12目录大数据时代大数据带来的变革大数据相关技术医疗大数据大数据时代反思Page132、大数据带来的变革信息技术革命的小周期Page142、大数据带来的变革——新思维个体数据的精确性不再重要数据就是货币数据随时间迅速折旧数据是资产改变“数据是稀缺资源”的世界观数据是原材料信息是原油Page152、大数据带来的变革——新方法学多数据源的整合描述性分析预测性和处方性分析大数据+小算法+上下文+知识积累数据民主化和开放数据数据资产、数据产品和社会化分析服务的货币化数据极大丰富前提下的新分析思维和技术数据市场和数据定价社会化分析服务实时性大于绝对的精确性Page162、大数据带来的变革——实时精准营销利用大数据能力可以帮助企业获得突破性回报Page172、大数据带来的变革——实时风险控制利用大数据能力可以帮助企业进行实时风险控制,如,银行业Page182、大数据带来的变革——安全检测将安全检测与大数据融合Page192、大数据带来的变革——医疗大数据Page20目录大数据时代大数据带来的变革大数据相关技术医疗大数据大数据时代反思Page21成本可承受(economically)的情况下通过非常快速(velocity)的采集、发现和分析;在大量化(volumes)、多类别(variety)的数据中提取价值(value)分析的数据越全面,分析的结果就越接近于真实能够从这些数据中获取新的洞察力,并将其与已知业务的各个环节相融合3、大数据相关技术Page22计算存储数据库网络单机集群文件存储单机设备间连接设备内连接关系型数据库10GEFCIB分布式数据库非关系型数据库块存储10GESASIB横向扩展块级虚拟化横向扩展分布式文件系统3、大数据相关技术——大数据带来的技术变革Page233、大数据相关技术——大数据系统当前大数据系统主要包括:存储、计算、分析等。Page243、大数据相关技术——分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。大数据系统中常用的分布式文件系统为HDFS。Page253、大数据相关技术——并行计算传统并行计算。拥有多个CPU,计算资源与存储资源分离,数据统一存放、统一读取。对于数据密集型处理,I/O将成为整个系统瓶颈。MapReduce。由普通PC组成,考虑数据局部性原理,将数据分布至各个节点,处理时,就近读取数据。分组聚合X86服务器X86服务器Page263、大数据相关技术——实时流式计算实时计算一般都是针对海量数据进行,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。Page273、大数据相关技术——数据分析流程Page28滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码含有各种噪声数据污染格式标准化异常数据清除错误纠正重复数据的清除数据处理大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具(ETL)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。因此要对数据通过过滤“去噪”从而提取出有效数据3、大数据相关技术——大数据预处理技术Page293、大数据相关技术——大数据分析挖掘•技术方法分类根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web根据挖掘方法:可分为机器学习方法、统计方法、神经网络方法和数据库方法。•重点技术数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度。预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。Page30•顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息•数据挖掘技术投入商用的三种基础技术已发展成熟›海量数据搜集›强大的分布式并行处理技术›数据挖掘算法•知识发现(KDD):从源数据中发掘模式或联系的方法•KDD被用来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(DM,DataMining)来描述使用挖掘算法进行数据挖掘的子过程。•数据挖掘所发现的知识有以下四类:›广义知识:指类别特征的概括性描述知识›关联知识:反应一个事件和其他事件之间依赖或关联的知识›分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识›预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。3、大数据相关技术——大数据分析挖掘之数据挖掘与知识发现Page31关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、loss-leaderanalysis、聚集、分类等。买尿布的客户二者都买的客户买啤酒的客户结论:买啤酒和尿布的客户,占50%在买啤酒的客户中,67%会买尿布交易ID购买商品2000啤酒,花生,尿布1000啤酒,尿布4000啤酒,牛肉干5000糖果,纸巾3、大数据相关技术——大数据分析挖掘之关联分析Page32序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值应用领域:客户购买行为模式预测Web访问模式预测疾病诊断自然灾害预测DNA序列分析工业控制关联解决了大量数据中的“关联”关系问题数据价值中还有非常重要的“顺序”问题,需要依靠序列用户时间访问网站AA20:0020:20XX论坛XX购物BBB21:0021:0521:15XX论坛XX新闻XX购物CCC14:0014:2014:21XX论坛XX搜索XX购物DD21:3021:50XX论坛XX视频目前应用最多的是基于“时间”关系的序列访问XX论坛15分钟后,不低于X%的用户会访问XX购物3、大数据相关技术——大数据分析挖掘之序列模式Page33典型应用信誉证实目标市场医疗诊断性能预测预测分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据建立连续函数值模型,比如预测空缺值分类预测比如将客户采用分类方法来判断信用卡发放的目标对象:分类为:关注、不关注经过不断干预训练,得到分类规则:--【年龄(25~40)、职业(x,y)、收入(5000~10000)】--关注由此如果获取到新的“客户信息”,即可判定其属于哪类。此处:指预测算法;而不是广义的预测活动已有10万人的(年龄,性别,血压)数据,建立一个函数来拟合这些数据。预测:一位新来的病人(男,50岁),预测其血压应为X3、大数据相关技术——大数据分析挖掘之分类、预测Page34将物理或抽象对象的集合分组成为由类似的对象组成的多个类同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性把一个给定的数据对象集合分成不同的簇(分簇完全是自动化的)聚类与分类的不同:聚类是无监督分类法,没有预先指定的类别疾病分析:针对1万冠心病人x个
本文标题:医疗大数据及相关技术49
链接地址:https://www.777doc.com/doc-25936 .html