您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 大数据思维-培训学院95
大数据思维BigDataThinking杜小勇中国人民大学信息学院duyong@ruc.edu.cn2015年6月13日大数据?•大数据是因信息技术特别是数据获取技术的革命性进步而形成的信息爆炸现象,•因其规模巨大、类型复杂、产生速度快、价值密度低等因素,对现有信息技术产生巨大挑战,•需要运用新理念、新技术、新方法对其进行全生命周期的创新管理和应用,•从而促进国民经济的转型升级、社会管理的模式更新,乃至国家综合竞争力的全面提升。数据获取技术的革命性进步•传感器等自动采集的数据•WEB2.0等用户生成数据(UGC)•日志等系统自动生成数据ApacheWebServerLog大数据现象Source:Exabytes:Documentingthe'digitalage'andhugegrowthincomputingcapacity,TheWashingtonPost新理念?•大数据时代,我们需要什么样的“新理念”?•在思考问题和解决问题的方法上有什么新的特点•通过一些案例来说明大数据时代我们应有的一些思维模式大数据?容量大真实性变化快类型多传统数据库的4个要求•大型:LargeVolume•共享:Shared(multi-user)•持久:Durable(durability)•可靠:Reliable(Reliability)•ACID(Atomicity,Consistency,Isolation,Durability)•Highperformance:TpmC类型多(Variety)•数据类型多样:结构化、半结构化、非结构化•数据形态各异:流数据、图数据、关系数据•处理要求不同:批处理、联机处理、流式处理•在一个大数据应用中共存。变化快(Velocity)•不是静态的大数据,而是动态变化的数据•不是低频,而是高频•不是更新,而是插入真实性•GIGO是MIS时代的金科玉律•大数据是真实反映,也可能是虚假反映。•数据质量问题是新的巨大的挑战用大数据解决问题的新思路•航线网络:顶点3k,边50k•联程设计:根据联程航班搭配规则生成联程航班Model-basedapproachBigdatabasedapproach?大数据的价值•大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。•大数据是信息时代的“石油”,是推动信息经济发展的动力。大数据的价值在于应用•产业转型与升级•提升政府治理能力•促进社会创新发展大数据思维•数据思维•互联网思维•计算思维•……1“数据”思维量化、决策、整合1.1量化思维:一切皆可量化!•数据是指存储在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述.•先有数据再说应用•StephenBeck•每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”——–◎点击网页–◎切换电视频道–◎驾车穿过自动收费站–◎用信用卡购物–◎使用手机•而雅虎、Google这样的公司,正在以平均每人、每月2500条信息的速度,捕获我们的详细数据。科学=数据•《科学》发专刊,“科学就是数据,数据就是科学”•“数据推动着科学的发展”《科学》2011年2月11日基因测序数据•在人体的基因中,有30亿个碱基对,每个人的不同,就是由碱基对排列差异造成的大数据、大科学•饶毅先生vs华大基因的杨焕明院士之争跟帖评论:生命科学由实验科学正向理论科学转变。大数据,大科学研究思路必然会导致生命科学的变革。人类基因组计划就是一个典型案例。脑科学的一些数字•大脑由数十亿神经元组成,通过数千个突触相互连接;•仅大脑皮层中的突触连接数量就超过了160万亿个(万亿10^12)•用电子显微镜来重建1mm^3的大脑(大约一根针的针头)中的所有突触回路,信息量大约在10^15字节(1PB)•人类大脑包含约10^6个这样大小的神经组织eScience•eScience是信息技术与科学家相遇而催生的新的学科,科学家利用许多不同的方法收集或产生了数据,•如何从这些积累起来的海量数据中分析发现科学规律?正是这门学科的目的和任务。•如何对海量的数据进行组织、管理和分析挖掘?第四研究范式的提出•数据本身的价值越来越被认识,•基于数据的科学发现,被认为是第四研究范式。–科学实验–理论推导–仿真计算–基于数据的分析MicrosoftResearch,2009年10月James(Jim)Gray•数据库技术和事务处理专家•1944年生,加州大学伯克利分校计算机科学系博士。•数据库和事务处理研究专家•1998年获图灵奖(时任微软研究员)•2007年1月失联至今2个大数据应用•TerraServer:与美国地质调查局合作。引领了基于互联网的地图服务•SDSS斯隆数字巡天项目:与天体物理研究联合会(ARC)合作.后来发展为WWT(worldwidetelecsope)全球望远镜,全球百性均可观看第四科学范式•几千年前–科学以实验为主–描述自然现象•过去数百年–科学出现了理论研究分支–利用模型和归纳•过去数十年–科学出现了计算分支–对复杂现象进行仿真第四科学范式•今天–将理论、实验和计算模拟统一起来–由仪器收集或者计算模拟产生数据–由计算机存储和处理数据–科学家通过数据分析挖掘软件分析数据,发现规律人文社会学科•马克思说:“人的本质不是单个人所固有的抽象物,在其现实性上,它是一切社会关系的总和。”(《马克思恩格斯选集》第2版第1卷第60页)•人与动物的区别就是人会劳动,而劳动就形成了一定的社会关系。人文社会学科•机理不清•模型难以建立•信息系统客观地记录了大量的”社会关系”,这些大数据库本身可以看作是一个”模型”.BAT大数据企业大数据应用百度网页数据搜索数据公众行为阿里电商数据信用计算腾讯社交数据关系营销政府治理•业务层次:•管理层次:•决策层次:例:网格化管理•对社区进行网格化划分•通过视频监控、传感器,以及配置网格管理员,收集信息。•将信息上传到一个统一的平台上进行分享和管理大数据治理(Governing)•数据质量•数据隐私•数据安全•数据标准•数据溯源1.2决策思维:让数据说话•决策模式:•直觉驱动的决策–拍脑袋的决策,有随意性•逻辑驱动的决策–基于逻辑分析的推理•经验驱动的决策–用数据说话、用数据来管理、用数据来决策、用数据来创新如何看待大数据?•概率论和统计学将经验变成了“科学”–数据分布(均匀分布,正态分布,高斯分布,泊松分布,。。。)–数据抽样–假设检验–大数定理大数定理•在随机事件的大量重复出现中,往往呈现几乎必然的规律。•在独立同分布的假设下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。•例子:抛硬币试验,硬币落下后哪面朝上是偶然的,但是当抛硬币的次数足够多之后就会发现,硬币朝上的次数约占总次数的二分之一。统计机器学习训练测试预测模型线性回归大数定理的假设•这个定理有前提–独立同分布–试验的次数非常大•在很多情况下,这些假设不一定能满足–问题空间的参数太大,训练数据对问题空间的覆盖度不大–试验条件在变化,不能满足独立同分布“经验”思维•崇尚“经验主义”、让数据本身说话要全部数据,不要抽样!•模型不再那么重要,让数据说话•“Allmodelsarewrong,butsomeareuseful.”---统计学家GeorgeBox•“Allmodelsarewrong,andincreasinglyyoucansucceedwithoutthem.”---PeterNorvig案例:语言翻译•通过搜索去找到相同或者相似的句子,直接返回结果百度:如果你不离开我,我们会死在一起四级:你如果不离开我,我就和你同归于尽。六级:你若不离不弃,我必生死相依。Ifyoudonotleaveme,wewilldietogether.搜索引擎案例:IBM沃森问答系统•北京时间2011年2月17日,电脑沃森狂胜人类•三个比赛日的总成绩,沃森获得77147美元,肯·詹宁斯排名第二获得24000美元,而布拉德·拉特只获得了21600美元。1.3整合思维:跨界的创新•数据孤岛的形成–技术的原因–历史的原因–认识的原因•打破数据孤岛,是开展大数据应用的前提信息化3.0信息化1.0信息化2.0V1.0-V2.0-V3.0目标技术典型应用特点机器代替人工集中数据库OA,MIS系统基于数据库的信息系统部门级应用,信息孤岛政府部门整体业务过程一体化分布式数据库国家“金字”工程纵向整合,数据大集中对大数据进行整合分析,创造价值云计算大数据系统舆情分析,打击犯罪信息开放、融合;大数据信息化3.0•云计算解决了计算资源的共享问题•大数据技术试图解决数据的利用问题•大数据是由于不同来源的数据汇集而带来的“跨界”型创新应用。案例:淘宝微贷•淘宝:电子商务平台–淘宝网(taobao):C2C业务,–天猫(原名淘宝商城):平台型B2C电子商务服务商–淘网(etao):一站式购物搜索引擎•开展微贷业务–尽管不能经营储蓄业务,但是支付宝平台有上千亿的存量–基于交易记录,可以进行自动化诚信评价–违约率仅有百分之零点几跨界应用比比皆是•2014年7月22号,上海。阿里巴巴宣布,和中行、招行、建行等7家银行深度合作,为中小企业提供基于网商信用的无抵押贷款,最高授信额度1000万元。•阿里将平台拥有的数万家企业交易数据开放给银行,降低银行贷款风控成本的同时,亦为苦于无法自证信用的中小企业,提供了第三方担保。案例:电信运营卖管道:经营流量卖服务:经营业务卖知识:经营数据小结•量化思维:一切皆可量化•决策思维:让数据说话•整合思维:数据跨界融合•数据客观地记载了我们的世界。只要有可能,我们努力去获取、保存、处理之。以数据为中心的新思维•大数据时代使得数据具有独立存在的价值,数据作为资产的地位突显。•以前都是先有应用后有数据,现在是先有数据再说应用•软件是为数据服务的,我们需要以数据为中心的新思维2“互联网”思维互联网的发展SNS开放性封闭开放WEB1.0WEB2.0WEB3.0单向的被动接收型门户分享的参与型博客互联的平等型SNS,语义网199520052015互联网大数据•互联网,特别web2.0之后的UGC,是大数据形成的重要原因之一。•SNS是由于互联网的发展而形成人-人间的互联•因此,大数据的应用自然而然会受到互联网的影响,互联网思维也会影响大数据应用。互联网思维•以客户为中心:人本的思维•万物皆有联系:关联的思维•反垄断去中心化:平等的思维2.1“人本”思维•互联网应用将客户作为了信息系统最重要的组成部分.•传统的信息系统是将业务逻辑作为最重要的内容.•“人本”思维•互联网应用的核心在于以用户需求为主导,将用户思考和用户体验做到极致是关键所在。•有数据显示,高达92%的顾客相信朋友推荐,有75%的顾客决策前参考社会化评价,70%的顾客相信在线评论。•口碑营销(病毒式营销):通过社媒各渠道塑造品牌形象,直接影响消费决策。“人本”思维•互联网应用中,最有价值的是社区。•为用户画像,了解用户的需求,提供个性化的服务。案例:MOOC•MOOC=公开课+学习社区碎片化交互性社交性过程管理精品课程没有无无无网络公开课是无无无MOOC是有有有案例:推荐•当你浏览网页的时候,系统会给你推荐2.2“关联”思维•强调数据之间的关联也很有用,而不去追求数据之间的因果关系。•因果关系是最深刻的一类联系,但是我们很多时候并不能获得。计算机应用的发展科学计算企业计算个人计算计算的精度计算的速度硬件技术系统性能正确性关系理论事务理论信息关联信息质量互联网搜索引擎195019802000案例:监测•今年7月,华东师范大学一名女生收到来自学校勤助中心的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?如有困难,可电话、短信或邮件我。”案例:预测•根据搜索关键字预测失业率失业率预测演示模型2.3“平等”思维•去中心化•去垄断化•长尾效应去中心化•建立和运维社区是大数据应用的关键。•在社区中,成员都是平等的垄断vs反垄断•互联网本质上是反垄断的•技术反垄断:开源
本文标题:大数据思维-培训学院95
链接地址:https://www.777doc.com/doc-973425 .html