浅谈医学大数据25

浅谈医学大数据陈遵秋和陈漪伊夫妇是美籍华人，现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表，与大家一起探讨。现在无论国内外均出现了移动医疗热，所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说，90%以上的人都不知道医疗大数据分析是什么东西，因此这是一篇扫盲贴，但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本，以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。大数据定义及其特征大数据顾名思义就是数量极其庞大的数据资料。从上世纪80年代开始，每隔40个月世界上储存的人均科技信息量就会翻倍(Hibert&Lopez,2011)。2012年，每天会有2.5EB量的数据产生(Andrew&Erik,2012)。现在，2014年，每天会有2.3ZB量的数据产生(IBM,2015)。这是一个什么概念？现在一般我们电脑的硬盘大小都以GB，或者TB为单位了。1GB的容量可以储存约5.4亿的汉字，或者170张普通数码相机拍摄的高精度照片，或者300-350首长度为5-6分钟的MP3歌曲。那GB和TB,EB，ZB的关系又是怎样？1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一台1TB硬盘容量的电脑，那1ZB就是大致等于10亿台电脑的容量,远远超出了我们一般的想象。早期，IBM定义了大数据的特性有3个：大量性（Volume）,多样性（Variety）,快速性（Velocity）(Zikopoulos,Eaton,deRooos,Deutsch,&Lapis,2012)。后来又有学者把价值（Value）加到大数据的特性里。随着时间的推移和人们思考的进一步完善，又有三个大数据的特性被提出：易变性（Variability），准确性(Veracity)和复杂性(Complexity)。作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度，和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战，而价值则是征服这些挑战后获得的回报。大数据的6个特性描述如下：大量性：一般在大数据里，单个文件大量性的级别至少为几十，几百GB以上，一调查(Russom,2013)显示相当多的机构拥有的数据总量在10到99TB之间。用我们传统的数据库软件，1GB已经可以储存千万条有着几百个变量的数据记录了。多样性：泛指数据类型及其来源的多样化(Troester,2012)，进一步可以把数据结构归纳为结构化(structured)，半结构化(semi-structured)，和非结构化(unstructured)(SAS,2014)。快速性：反映在数据的快速产生及数据变更的频率上。比如一份哈佛商学院的研究报告称在2012年时，谷歌每天就需要要处理20PB的数据(HarvardBusinessReview,2012)。易变性：伴随数据快速性的特征，数据流还呈现一种波动的特征。不稳定的数据流会随着日，季节，特定事件的触发出现周期性峰值(Troester,2012)。准确性：又称为数据保证(dataassurance)。不同方式，渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低(W.Raghupathi&Raghupathi,2014)。所谓“垃圾进，垃圾出”。没有数据保证，大数据分析就毫无意义。复杂性：复杂性体现在数据的管理和操作上。IT时代，随着数据来源及数据量的爆发，各种不同渠道数据的大量涌现，数据的管理和操作已经变得原来越复杂。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性。医疗大数据的爆发早期，大部分医疗相关数据是纸张化的形式存在，而非电子数据化存储，比如官方的医药记录，收费记录，护士医生手写的病例记录，处方药记录，X光片记录，磁共振成像（MRI）记录，CT影像记录等等。随着强大的数据存储，计算平台，及移动互联网的发展，现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化。有报告显示，2011年，单单美国的医疗健康系统数据量就达到了150EB。照目前的增长速度，ZB（约1021GB）和YB（约1021GB）的级别也会很快达到(IHTT,2013)。KaiserPermanente，一个在加州发展起来的医疗健康网络系统,就有9百万的会员，被认为拥有26.5到44PB的电子健康记录(IHTT,2013)。IT时代涌现的还有各种网络社交媒体数据，比如曾经Google用来预测流感的数据。基因数据也是非常庞大的存在，一次全面的基因测序，产生的个人数据则达到300GB(Leah,2014)。公开发布的基因DNA微阵列达到50万之多，每一阵列包含数万的分子表达值。在生物医药方面，功能性磁共振影像的数据量也达到了数万TB级别，每一幅影像包含有5万像素值(Fan,Han,&Liu,2014)。此外，各种健身，健康可穿戴设备的出现，使得血压、心率、体重，血糖，心电图（EKG）等的监测都变为现实和可能，信息的获取和分析的速度已经从原来的按“天”计算，发展到了按“小时”，按“秒”计算。比如，一家名为BlueSpark的科技公司已经生产出能24小时实时监测体温的新型温度计贴片temptraq。这种数据的扩展速度和覆盖范围是前所未有的，数据的格式也五花八门，可能是无格式文件（flatfile），CSV，关系表，ASCII/纯文本文件等等。同时，数据的来源也纷繁复杂，可能来自不同的地区，不同的医疗机构，不同的软件应用。不可否认，一旦理顺了多格式，多源头，呈爆炸性成长的大数据的整合和分析，医疗大数据将对提高医疗质量，强化患者安全，降低风险，降低医疗成本等方面发挥无与伦比的巨大作用。医疗大数据的优势和应用场景有效的整合和利用数字化的医疗大数据对个体医生，康宝中心，大型医院，和医疗研究机构都有着显著的好处。潜在的利益包括(W.Raghupathi&Raghupathi,2014)：1）更多更准确的数据使得疾病能在早期被监测到，从而使治疗更容易和有效。2）通过对特定个体或人群的健康管理，快速有效地监测保健诈骗。3）基于大量的历史数据，预测和估计特定疾病或人群的某些未来趋势，比如：预测特定病人的住院时间，哪些病人会选择非急需性手术，哪些病人不会从手术治疗中受益，哪些病人会更容易出现并发症，等等。麦肯锡估计，单单就美国而言，医疗大数据的利用可以为医疗开支节省出3千亿美元一年。医疗大数据的利用可以从以下几方面减少浪费和提高效率(Manyika,以及其他人,2011)：临床操作：相对更有效的医学研究，发展出临床相关性更强和成本效益更高的方法用来诊断和治疗病人。研究和发展：在药品和医疗器械方面，建立更低磨损度，更精简，更快速，更有针对性的研发产品线。统计工具和算法方面，提高临床试验设计和患者的招募，使得治疗方法可以更好地匹配个体患者的病症，从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和病人的病历，以确定后续的迹象，并在产品进入市场前发现病人对药物医疗方法的不良反应。公共卫生：分析疾病模式和追踪疾病暴发及传播方式途径，提高公共卫生监测和反应速度。更快更准确地研制靶向疫苗，例如：开发每年的流感疫苗。此外，医疗大数据的分析还有利于以下几方面的发展(W.Raghupathi&Raghupathi,2014)：循证医学：结合和分析各种结构化和非结构化数据，电子病历，财务和运营数据，临床资料和基因组数据用以寻找与病症信息相匹配的治疗，预测疾病的高危患者或提供更多高效的医疗服务。基因组分析：更有效和低成本的执行基因测序，使基因组分析成为正规医疗保健决策的必要信息并纳入病人病历记录。提前裁定欺诈分析：快速分析大量的索赔请求，降低欺诈成功率，减少浪费和滥用。设备/远程监控：从住院和家庭医疗装置采集和分析实时大容量的快速移动数据，用于安全监控和不良反应的预测。病人的个人资料分析：全面分析病人个人信息（例如，分割和预测模型）从中找到能从特定健保措施中获益的个人。例如，某些疾病的高危患者（如糖尿病）可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性的预防病情，那么大多数的危害可以降到最低程度，甚至可以完全消除。然而，根据一份针对美国和加拿大333家医疗机构及10家其他机构的调查(IHTT,2013)，2013年，医疗机构累积的数据量比2011年多出了85%，但77%的医疗健康行政人员对自己机构在数据管理方面的能力评价为“C”。此外，仅有34%报告他们能从电子健康记录（EHR）中获取数据用来帮助病人，而有43%报告他们不能收集到足够多的数据来帮助病人。由此可见，在北美的医疗系统中，医疗大数据的管理使用准备工作还有一大段路要走。中国也是处在起步阶段。数据分析框架（传统数据分析框架，大数据分析框架）医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时，大数据随之带来的各种特性使得传统的数据处理和数据分析方法及软件捉襟见肘，问题多多。在大数据时代出现之前，受限于数据量的可获得性和计算能力的有限性，传统的数据管理和分析采用着不同的思路和流程。传统上，对于问题的研究建立在假设的基础上进行验证，进而研究事物的相关因果性，希望能回答“为什么”。而在大数据时代，海量数据的涌现提供了从不同角度更细致更全面观察研究数据的可能，从而打开了人们的好奇心，探索欲望，人们想知道到数据告诉了我什么，而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联，非关联等相关性，然后再进一步比较，分析，归纳，研究（“为什么”变成一个选项而不是唯一终极目标）。大数据与传统数据思路上的不同导致了分析流程的不同，如图一所示：图一面对海量的数据和不同的分析思路，大数据的管理和分析与传统数据分析的差异日益加大。回答特定问题的单一预设结构化数据库明显不能完全胜任处理大数据的海量及混杂等问题。数据的混杂多样性具体可以从一些调查数据中表现出来。SAS的一份调查报告显示机构内的非结构化数据最多可以占到总数据量的85%，而这些非数字，非结构化的数据却必须被量化分析和用到决策分析中(Troester,2012)。另一份2013年进行的SAS调查报告显示在461个提供完整反馈信息的机构中只有26%的机构表示他们所拥有的大数据是结构化的(Russom,2013)。此外，在机构中，分析的数据一般不会只有一个单一的来源。Alteryx的调查报告显示在200家被调查的机构中只有6%的机构表示他们的数据是只有一个来源，最为普遍的情况是5-10个来源,具体分布如图二(Alteryx,2014)。调查中还显示90%的被调查样本表示有数据整合问题，37%表示需要等其他小组提供数据，30%表示不能得到他们想要的数据，一般估计是一个数据分析师的60%到80%的时间是花在数据处理准备阶段上的(Alteryx,2014)。图二由此可见有效的数据管理，数据库建立及数据分析流程的重要性。传统的数据管理的过程包括抽取（Extraction），转换（Transformation）和载入（load）。通过ETL，可以赋予数据一种合适恰当的结构用于特定的分析发现。具体数据准备分析流程如图三所示：1）抽取单个或多个来源的数据。2）净化，格式化，标准化，聚合，添加，或遵循其他特定的数据处理规则。3）载入处理完的数据到特定的数据库或储存为特定的文件格式。4）采用各种方法进行数据分析。图三ETL的中心内容仍旧适用于大数据，但由于大数据的大量性和多样性对数据库和数据管理及处理方法的要求越来越高，也越来越复杂，这样线性处理整个数据变得相当耗费人力，物力，和时间。此外，大数据的快速性，易变性也使得把数据储存在单一的中央数据库变的不太可行。在这种情况下，最流行的思路是把数据分割处理，也就是把数据储存到多个储存节点（比如网络数据库），在每个节点单独处理数据（甚至处理完

浅谈医学大数据25

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

整合ERP系统与RoHS数据处理

基于B2B的供应链金融模式研究

给排水材质及技术交底大全

大型钢结构厂房施工组织设计

责任保险的基本特征及其有关概念

矿产资源储量估算一般要求、常见问题及处理技巧

奔驰酒会策划

宁乡县旅游产业发展策略研究

马来西亚航空公司营销案例(改)

互联网金融商业模式分析

相关文档

相关搜索

浅谈医学大数据25

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

整合ERP系统与RoHS数据处理

基于B2B的供应链金融模式研究

给排水材质及技术交底大全

大型钢结构厂房施工组织设计

责任保险的基本特征及其有关概念

矿产资源储量估算 一般要求、常见问题及处理技巧

奔驰酒会策划

宁乡县旅游产业发展策略研究

马来西亚航空公司营销案例(改)

互联网金融商业模式分析

相关文档

相关搜索

矿产资源储量估算一般要求、常见问题及处理技巧