您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 4-大数据时代的真实世界研究2
大数据时代的真实世界研究程良斌湖北省中医院肝病科二、大数据时代的思维改变一、大数据时代三、真实世界研究目录二、大数据时代的思维改变一、大数据时代三、真实世界研究目录前言作者:[英]维克托·迈尔-舍恩伯格(ViktorMayer-Schönberger)著盛扬燕周涛译2013年4月14日CCTV《对话》栏目陈伟鸿Vs维克托大数据时代来临•2008年9月,《Nature》出版了一个专刊,讨论大数据存储、管理和分析等问题,昭示着大数据时代的到来。之后麦肯锡公司、《Science》先后出版大数据报告和专刊•大数据的讨论在中国也风起云涌,中国计算机学会于2012年10月在大连成立了以中国工程院院士李国杰为首的“大数据专家委员会”,国家自然科学基金委于2013年3月在上海举办了第89期双清论坛“大数据技术与应用中的挑战性科学问题”大数据时代来临•进入2012年,大数据(bigdata)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。•哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”数据到底有多大?•一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……•IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。大数据是什么?•什么是大数据,其概念定义至今莫衷一是•2012年8月份国际数据挖掘会议SIGKDD的大数据论坛,从数据存储角度认为大数据应该是10台服务器也无法存储的数据,这样的数据必须进行在线分析,否则计算机存储无法支持;有专家从数据分析角度认为,数据结构很复杂,现有方法无法处理,必须采用类似谷歌的Hadoop平台进行处理的就是大数据。•到2013年,世界存储的数据预计达到1.2泽字节(ZB=270),其中98%为数字数据•今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据的来源又有哪些?云计算“大数据”与“数据”的区别•过去我们说的“数据”很大程度上是指“数字”,都是一个个数字或者是可以进行编码的简单文本,这些数据分析起来相对简单,过去传统的数据解决方案(如数据库或商业智能技术)就能轻松应对•而今天我们所说的“大数据”则不单纯指“数字”,可能还包括“文本,图片,音频,视频……”等多种格式,其涵括的内容十分丰富,如我们的博客,微博,轻博客,我们的音频视频分享,我们的通话录音,我们位置信息,我们的点评信息,互动信息等等,包罗万象•用正规的语句来概括就是,“数据”是结构化的,而“大数据”则包括了“结构化数据”、“半结构化数据”和“非结构化数据”“结构化”、“半结构化”、“非结构化•关于“结构化”“半结构化”“非结构化”可能从字面上比较难理解•由于数据是结构化的,数据分析可以遵循一定现有规律的,如通过简单的线性相关,数据分析可以大致预测下个月的营业收入额。目前,只有5%的数据是结构化•而大数据是半结构化和非结构化的,其在分析过程中遵循的规律则是未知的,它通过综合方方面面的信息进行模拟,它以分析形式评估证据,假设应答结果,并计算每种可能性的可信度,通过大数据分析我们可以准确找到下一个热点大数据潜质的信息资源•笔者体会“大数据”不仅是数据量大,数据结构复杂,而且应该是动态变化、蕴含着丰富使用价值的数据•如今,在我们身边具有大数据潜质的信息资源随处可见,目前大多以纸张或模拟信息媒介的形式存放,但随着数字信息技术、网络技术以及物联网技术的出现和应用,他们大都可以被数据化后而激活,成为拥有巨大创新价值的宝库•而中医药领域浩瀚的古代医籍、大量病历资料与现代科学研究文献,以及随着物联网的广泛应用,人们衣食住行过程以及健康信息监测所产生的数字信息,也都将成为可以有力促进中医药和人类健康事业发展的大数据本质上,世界由信息构成•物联网,试图在一切生活的事物中都植入芯片、传感器和通信模块,这个词很像互联网的姐妹,其实不过是一种典型的数据化手段罢了–2009年,苹果公司申请了一项专利,通过音频耳塞收集关于血液氧合度、心率和体温的数据•今天,我们生活在一个计算型社会,因为我们相信世界可以通过数字和数学而获得解释——量化一切——把各种各样的显示转化为数据•耳挂、头戴式16通道•健康监护设备物联网“棱镜门”计划泄密者,美国前中央情报局特工爱德华·斯诺登•量化一切是数据化的核心•数据化:将现象转变为可制表分析的量化形式的过程•数字化:把模拟数据转换成可用0和1表示的二进码,以便电脑处理世界的本质就是数据案例1:莫里绘制航海图•远在1855年,时任美国海军的马修·方丹·莫里利用前人遗留的具有大数据潜质的航海日志,绘制出给航海业带来巨大变化的航海图。•航海日志是船长个人的航海经历的记录,但这些经验信息并没有得到应用。而莫里在发现库房中存留的大量航海日志后,他与20位从事数据处理的人,一起把破损的航海日志记录的有用信息,通过数据提取,制成表格,整合数据之后,把整个大西洋按经纬度划分成了5块,并按月份标出了温度、风速和风向等。于是,这些来自破旧脏乱航海日志的信息,变成了有效的航海路线图。为了不断地提高航海线路的精度,莫里要求航海图的使用者都要将航行经历,使用事先特定的表格继续记录成航海日志,他们再根据航海日志产生的数据不断地修订和完善航海图。•航海图使用后使原航行路程缩短了三分之一,并大大减少了航行的危险,此后不仅得到美国海军的使用,而且也被商船大量使用。案例2:谷歌预测甲型H1N1流感爆发•2009年,在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师在《Nature》杂志发表一篇令人震惊的论文•该文根据互联网上5000万条美国人最频繁检索的词条如“哪些是治疗咳嗽和发热的药物”等,与美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,发现了45条检索词条的组合,再将它们用于一个特定的数学模型所预测的流感发病趋势与CDC曾经预测的相关性高达97%•该论文不仅预测了流感在美国全境的发生,还预测了在不同州或地方的传播趋势,而这样的预测不像疾控中心只能在流感爆发1~2周之后才可以做到案例3:美国总统奥巴马成功当选竟然靠的大数据•奥巴马在2012年的总统大选中之所以最后胜出,借用了大数据的方法,通过对目标选民的细分,奥巴马的竞选团队甚至对每一个个体选民进行统计,如年龄,性别甚至喜欢在什么时段收看节目……这样,在投放广告时才更有针对性。竞选结果表明,他仅以微弱的优势获得了胜利,而这微弱优势的选票,也许就来自于接收到精准投放广告的那部分选民•启示:大数据并不是一门高深的“技术”,而是一种思维方式。从部分抽样到全部抽样,不再是传统统计学对趋势的把握,而更加注重个体特征的综合分析,从而得出更有针对性的决策和判断案例4:挽救早产儿——生命本该不脆弱•在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折•而研究表明,早产儿的稳定有时不是病情好转的标志,而是风暴钱的宁静,就像身体的器官要做好抵抗困难的准备•那些由于早产不幸夭折的孩子们在“特定时期”并不会有剧烈的生命体征变化,而通过大数据分析,只要及时进行医疗干预,这些灾难完全可以避免•启示:大数据的魔力在于不仅仅是事后的分析评估,而是能够在某种程度上“预知未来”。如果被预测出来的“时间窗口”事关重大甚至像上面的案例讲的——“人命关天”,那大数据的价值将不可限量二、大数据时代的思维改变一、大数据时代三、真实世界研究目录大数据时代的思维改变•IBM的资深“大数据”专家杰夫·乔纳斯(JeffJonas)提出:让数据“说话”•大数据时代的三个思维改变:–首先,要分析更多的数据,有时甚至要处理与某事物相关的所有数据,而不是依赖靠分析少量数据样随机抽样–其次,研究数据如此之多,以至于不再热衷于追求精确性–最后,不再探求难以捉摸的“因果关系”,转而关注事物的“相关关系”–大数据时代处理数据上的三大转变:•要全体不要抽样•要效率不要绝对精确•要相关不要因果核心观点:大数据时代“因果关系”变得不那么重要了•大数据时代最大的转变就是:放弃对“因果关系”的渴求,而取而代之关注“相关关系”。也就是说只要知道“是什么”,而不需要知道“为什么”•这是对人们长时间积累起来的思维习惯的一次冲击和挑战,但当我们开始习惯用大数据的思维时,经过一段时间的积累,也许就会发现大数据的魅力了•最重要的是:人们可以在很大的程度上从对于“因果关系”的追求中解脱出来,转而将注意力放在“相关关系”的发现和使用上案例——因果关系臆想导致错误的理解•案例1:手机是否增加癌症发生率?丹麦癌症协会(2011年10月,《英国医学杂志》):研究分析了1990-2007年间358403手机用户,在此期间,共有10729名中枢神经系统肿瘤患者,最后发现,手机与癌症风险增加之间不存在任何关系•案例2:美国折扣零售商塔基特(Target)与怀孕预测•案例3:感冒与穿戴之间没有直接关系•案例4:汽车发电机故障与冰激凌2020/2/2624生活中并不缺少美,缺少的是发现美的眼睛——罗丹生活中并不缺乏数据,只是缺乏善于从数据中发现规律的方法SEB-PM007/01-9/200914.9%12.2%3.6%1.4%1.3%01020304050300300-9991000-999910,000-99,999≥1million%ofpatients4.5%5.9%9.8%23.5%36.2%01020304050300300-9991000-999910,000-99,999≥1million%ofpatients随访13年HCC累计发生率1(N=3,653)随访11年肝硬化累计发生率2(N=3,582)基线HBVDNA(copies/mL)1对1991-1992年台湾3653例HBsAg阳性的人群进行平均13年随访研究.Chen,etal.JAMA2006;295:65-73.2对1991-1992年台湾3582例没有治疗的HBV患者进行平均11年随访研究.Iloeje,etal.Gastroenterology2006;130:678-686.高病毒载量与肝硬化及HCC风险增加相关SEB-PM007/01-9/2009LinSM,etal.JHepatol.2007:46:45-52.对233例干扰素治疗慢乙肝患者和233例无治疗对照组患者进行中位数随访6.8年(1.1-16.5年)研究肝硬化累计发生率(%)(月)无血清学转换血清学转换01020304050024487296120144168192216P=0.03143.5%13.5%HBeAg持续阳性与肝硬化及HCC发生相关7460493932221464134106816452391752YangHI,etal.NEnglJMed.2002;347:168–174.对1991-1992年台湾11893名男性进行长达10年的随访研究.累计发生率(%)YearHBsAg+HBeAg+HBsAg+HBeAg–HBsAg–HBeAg–RR=9.6RR=60.2台湾11,893名男性HCC累计发生率24681012012345678910SEB-PM007/01-9/2009HBeAg血清学转换与降低肝硬化的发生相关0%20%40%60%80%100%02468101214161820HBeAg血清学转换后年数累计肝硬化发生率%HBeAg-阴性肝炎(23%)持续缓解(0.5%)HBeAg逆转(55%)269名台湾自发HBeAg血清学转换H
本文标题:4-大数据时代的真实世界研究2
链接地址:https://www.777doc.com/doc-3870422 .html