您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 【大周分享】大数据时代 邬绮虹
主讲人:邬绮虹时间:2013年5月19日参考书目:《大数据时代》作者:维克托·迈尔-舍恩伯格肯尼思·库克耶——生活、工作与思维的大变革新智学会大周分享目录引言1.大数据时代的思维变革2.大数据时代的商业变革引言Google•预测流感•处理4.5亿个数字模型•判断流感传播时间和地点•准确率高达97%•比官方公布的早一到两周Farecast•预测机票价格•10万亿条价格记录•准确率高达75%•平均每张机票节省50美元大数据,变革公共卫生大数据,变革商业•数据变成商业资本•数据是一项重要的经济投入•数据能创造新的经济利益•大数据是改变市场、组织机构以及政府与公民关系的方法大数据,变革思维引言大数据,开启重大的时代转型引言大数据,开启重大的时代转型数字数据占93%人类所创造、储存和传播的一切信息的确切数目数字数据占98%研究范围包括书籍、图画、电子邮件、照片、音乐、视频、电视、电台、电子游戏、电话、汽车导航和信件等1EB=2的60次方字节1ZB=2的70次方字节南加利福尼亚大学嫩伯格通信学院,MartinHilbert教授引言大数据,量变导致质变类比•事物达到分子级别,其物理性质发生改变•铜不能再导电•银离子不再具有抗菌性纳米技术•生物体的大小影响万有引力的约束效果•万有引力对细小昆虫无关紧要,张力可以使它们在水上行走而不掉下去万有引力大数据,开启重大的时代转型•增加数据量时,可以做很多在小数据量的基础上无法完成的事情•与生物学和物理学类似,当改变数据规模时,事物的性质会改变引言预测,大数据的核心Facebook给我们推荐好友腾讯QQ找到我们可能认识的人亚马逊推荐我们想要的书疾病诊断推荐治疗措施识别潜在犯罪分子Farecast预测机票价格目录引言1.大数据时代的思维变革1.1全体数据VS随机样本1.2混杂性VS精确性1.3相关关系VS因果关系2.大数据时代的商业变革1.1全体数据VS随机样本小数据时代的随机抽样存在许多固有缺陷1.采样缺乏随机性•依赖于采样的绝对随机性,但实现采样的随机性非常困难。•以固话为基础的总统大选民意调查,只考虑固话用户,没考虑手机用户,对奥巴马和麦凯恩的支持率造成非常大的偏差。3.结果缺乏延展性•局部的数据不可被二次利用,以实现计划之外的目的。•乔布斯是世上第一个对自己的所有DNA和肿瘤DNA进行排序的人。•如果只对一小部分的DNA排序,不能确定药物是否有效,但对所有DNA排序,可以鉴别用药效果,及时按需要更换药物。此方法将他的生延长了好几年。2.不适合考察子类别•想考虑更深层次的细分领域时,会失去作用。1.1全体数据VS随机样本全数据模式,样本=总体随机采样忽视细节全体数据才能发掘细节、发现异常。分析一笔交易的所有相关数据,单独来看,每笔交易都是合法的,但事实证明有一个犯罪集团正在试图诈骗。案例1:Xoom与跨境汇款异常交易报警使用11年里超过64000场摔跤比赛的数据分析,重大发现:(1)非法操纵不会出现在关注度很高的比赛中,但冠军赛也有可能被操纵;(2)消极比赛只要出现在不太被关注的联赛的后几场;(3)再赢一局就能晋级的选手遇到已经能晋级的选手时,前者很可能会赢;(4)当两位选手再次相遇时,上次失利的一方比对方多3-4倍的胜率。案例3:StevenLevitt教授与非法操纵比赛分析传统相机只能记录一束光,要在拍照前定焦;Lytro相机可以记录整个光场的所有光,约1100万束,不需要在拍照前聚焦,可在拍照后决定生成什么样的照片。案例2:Lytro相机1.1全体数据VS随机样本Lytro相机的构成及作品1.1全体数据VS随机样本社会科学是被“样本=总体”撼动得最厉害的学科巴拉巴西(《爆发》的作者,全球最权威的复杂网络研究专家)研究人与人的互动,调查了4个月内全美五分之一人口的移动通讯记录第一次在全社会层面用接近于“样本=总体”的数据进行网络分析新发现:把一个在社区内有很多连接关系的人从社区关系网中剔除,这个关系网会没那么高效但不会解体;但把一个与社区外有很多连接关系的人从社区关系网中剔除,这个关系网很快会破碎成很多小块。一个在关系网内有众多好友的人的重要性还不如一个在关系网外有众多好友的人样本分析法将不再是分析数据的主要方式,慢慢地,我们会完全抛弃样本分析1.2混杂性VS精确性允许不精确更多数据的价值能抵消掉错误数据造成的影响,而且能提供更多的额外价值Word中的语法检查方法0%50%100%算法A算法B75%86%20%8%数据规模为500万数据规模为10亿准确率95%94%•往常见算法中添加数据,先是1000万字,再到1亿字,最后到10亿字。•发现添加语料库的数据量比改进算法更有效,如右图所示1.2混杂性VS精确性大数据的简单算法比小数据的复杂算法更有效质量参差不齐数十亿页文档不同语言上万亿语料库相当于950亿句英语涵盖60多种语言无所不包的谷歌翻译系统Candide项目过于追求翻译的精确性,进行了10年后以失败告终。翻译质量较高使用人数最多1.2混杂性VS精确性通过接受不精确性,打开了一个从未踏足的世界的窗户•MIT每天在互联网上收集50万种商品的价格,这些数据是混乱的。•2008年9月雷曼兄弟破产后马上发现通货紧缩趋势。•混杂但是庞大的数据更善于表明价格的发展趋势而不是精确的价格。•美国劳工统计局每月公布CPI•通过电话、传真、登门拜访等方式获取8万种商品价格,这些数据的精确而有序的,但采集数据每年花费2亿5千万美元。•2008年11月份才发现通货紧缩,严重滞后。快速获得一个大概的轮廓和发展脉络,比严格的精确性重要得多MIT的通货紧缩预测软件VS1.3相关关系VS因果关系相关关系可以捕捉现在和预测未来沃尔玛,分析每一个顾客的购物清单以及消费额,购物篮中的物品、具体购买时间、购买天气等,把蛋挞与飓风用品摆在一起,增加了蛋挞的销量。•美国折扣零售商塔吉特Target与怀孕预测•分析顾客的购物方式,发现女性在怀孕第3个月买很多无香乳液,几个月后会买营养品等,在孕期的每个阶段给客户寄送响应的优惠券。•UPS与汽车修理预测•以前会每两三年定期更换零件,会造成好零件被换掉,或者零件还没被换掉就已经坏了,在半路上抛锚。•如今用传感器检测车辆的各部位散发的热量、振幅、承压和发出的声音等,包括只更换需要更换的零件,节省了好几百万美元不知道“为什么”只知道“是什么”1231.3相关关系VS因果关系发现与医生传统看法相违背的相关关系:稳定的生命体征表明病人发生了严重感染,属于暴风雨前的宁静。通过找出关联物并监控它,能预测未来,甚至挽救生命。监测早产儿的病情,包括心率、呼吸、体温、血压和血氧含量等,每个婴儿每秒1260个数据点集。++安大略理工大学医院1.3相关关系VS因果关系人的两种思维模式:1.快速思维,凭借直觉判定因果关系2.慢性思维,对特定问题深思熟虑•在小数据时代,很难证明第一种思维而来的因果联系是错误的,但大数据之间的相关关系可以证明。•影响一个结果的因素很多,不可能完全被找到,因果关系被完全证实的可能性几乎是零。•感冒与穿戴没有直接联系•被带狂犬病毒咬了的男孩能存活于狂犬疫苗没有因果关系•第二种思维模式也将因大数据之间的相关关系迎来大改变。1.3相关关系VS因果关系纽约大型沙井盖爆炸预测目录引言1.大数据时代的思维变革2.大数据时代的商业变革2.1一切皆可“量化”2.2数据创新2.3数据、技术与思维的三足鼎立2.1一切皆可“量化”数据,从最不可能的地方提取•可以用于汽车防盗,识别盗贼身份;•还可以在司机疲劳驾驶时发出警示或自动刹车。在汽车座椅下部安装360个传感器,根据人对座位的压力差异识别出乘坐者身份,准确率高达98%日本先进工业技术研究所的坐姿研究与汽车防盗系统2.1一切皆可“量化”把文字变成数据把方位变成数据把沟通变成数据•Google的数据图书馆•亚马逊的Kindle电子书•各种文献查询的数据库•经纬度的标准化•GPS全球定位系统•UPS的多效地理定位,优化行车路线。少走了4828万公里路程,节省300万加仑染料,减少3万公吨二氧化碳排放量,设计了尽量少左转线路,因为左转更容易出事故。•英国对冲基金和MarketPsych分析微博的数据文本,作为股市投资信号•用微博中单一主题出现的频率预测好莱坞的票房收入2.1一切皆可“量化”一切事物的数据化IBM的“触感技术先导”专利,触感灵敏的地板,自动开门和开灯,可供零售商测量商店的人流量Asthmapolis公司将感应器绑定到哮喘病人的呼吸器上,通过GPS定位分析,可判断环境因素(如接近特定农作物)对哮喘的影响。iTrem手机应用程序,用手机内置的测震仪监测人身体的颤动,以应对帕金森的其他神经系统疾病,让患者避免做昂贵的体检,远程监控病人的治疗效果。本质上世界是由信息构成的2.2数据创新每天完成的ReCaptcha超过2亿节约共50万小时节省识别单词的人工成本10亿多美元。路易斯·冯·安,用计算机光学字符识别程序无法识别的文本替代随机字母作为验证码,破译数字化文本中不清楚的单词验证码,输入随机字母或数字,用于辨别计算机和人,防止垃圾邮件和恶意程序。大量验证码的信息在输入之后就被随意丢弃。数据创新1:数据再利用ReCaptcha与数据再利用ReCaptcha挡Spam同时帮忙书籍数字化2.2数据创新数据创新1:数据再利用ReCaptcha与数据再利用ReCaptcha的工作原理4:变成reCaptcha检查机制1:把印刷品拿去扫描识别2:提取辨识失败的单词影像3:对单词影像加料,提高辨识难度2.2数据创新数据创新2:重组数据手机是否增加致癌率?把各个数据集的总和重组,产生1+12的价值•丹麦癌症协会将1990年-2007年丹麦所有手机用户的数据库和所有癌症患者的信息库重组,研究对象接近于全集。•最终发现使用手机与癌症风险增加不存在任何关系2.2数据创新数据创新3:可扩展数据Google街景与GPS采集器google地图服务Google街景汽车拍摄了房屋和道路的照片,采集GPS数据和无密码wifi发布的私人数据。google自动驾驶汽车2.2数据创新数据创新4:数据的折旧值旧数据的存在有时会破坏新数据的价值如何得知哪些数据不再有价值?即使数据用于基本用途的价值会减少,但选择价值(被二次利用)却依然强大。选择价值表明,数据拥有者在与第三方分享数据时,要保留“延展性”权利。由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分一杯羹。1.2.3.4.数据价值大小2.2数据创新数据创新5:数据废气Google的拼写检查器,处理每天30亿查询中输入搜索框的错误拼写,几乎“免费”获得拼写检查。微软word的拼写检查仅适用于最常用的语言,每年花费数百万美元来创建和维护。“不合标准”、”不正确”、”有缺陷”的数据也是非常有用的Google,从大“噪音”数据中受益,通过google搜索知道人们点击了哪个链接,还是放弃掉所有搜索结果。把用户点击率多的链接和广告提到靠前的位置。数据废气——用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等在线教育课程,跟踪学生的Web交互,若大部分学生要再看一遍课程,表明老师没讲解清晰,改进以提高教学质量。2.2数据创新数据创新6:开放数据政府是大规模信息的原始采集者但其特殊地位,在数据使用上效率很低。•奥巴马促成美国建立了联邦政府的公开信息资料库data.gov•2012年已涵盖了172个机构的45万个数据集•英国、欧盟、澳大利亚、巴西等实施开放数据策略•世界银行公开了数百个经济和社会指标方面的数据集成功案例:FlyOnTime航班时间预测•结合交通运输局的历史航班延误数据、美国空管局的机场信息、美国国家海洋与大气管理局的以往天气报告和国家气象服务的实时状态•揭示从波士顿到纽约拉瓜迪亚机场的航班因大雾延迟的时间是因雪延迟的2倍。2.3数据、技术与思维的三足鼎立大数据掌握公司大数据技术公司大数据思维公司大数据价值链三大构成•ITASoftware与数据授权•VISA&Master
本文标题:【大周分享】大数据时代 邬绮虹
链接地址:https://www.777doc.com/doc-4290261 .html