您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 7.9叶中行教授授课材料
12013上海市“管理科学与工程学科”暑期学校AnalyticalApproachesandApplicationsofBigData大数据的分析方法和应用叶中行叶中行叶中行叶中行上海交通大学数学系上海交通大学数学系上海交通大学数学系上海交通大学数学系上海对外经贸大学商务信息学院上海对外经贸大学商务信息学院上海对外经贸大学商务信息学院上海对外经贸大学商务信息学院2013年年年年7月月月月9日日日日•什么是大数据•大数据的基本特征•大数据和商务智能•大数据和云计算•基于大数据的金融网络•大数据和信息安全•大数据和人才培养内容提要内容提要内容提要内容提要介绍几本书介绍几本书介绍几本书介绍几本书一一一一、、、、什么是大数据什么是大数据什么是大数据什么是大数据????•什么是信息什么是信息什么是信息什么是信息((((information)?)?)?)?•1000多年前我国唐朝诗句“梦断美人沉信息信息信息信息,目穿长路倚楼台”•信息是泛指一切事物(客观和主观)运动的状态和形式,以及关于运动状态和形式的含义和效用,信息对于人们的效用是消除人们认识上的不确定性,使人们能有效地认识世界和改造世界。•从人类诞生之日起就一刻不停地与信息打交道,从利用器官、手势、动作、眼神传递信息,到“结绳以记事,举烽火为号”,到近代信息革命。信息和数据信息和数据信息和数据信息和数据•数据和信息:数据是对信息数字化的记录,信息是把数据放到一定的背景下,对数字进行解释、赋予意义。通常把所有存储在计算机上的信息,无论是数字、音乐、视频,都统称为数据。•信息都是以数据形式保存在物理存储器上的。要考察信息的多少,就需要以物理存储器上保存的数据量作为度量。大数据是指那些超出传统意义上的尺度、一般软件工具难以捕捉、存储、管理和分析的数据。2数据的存储单位数据的存储单位数据的存储单位数据的存储单位1bit1比特1Byte8位2进制数字,1个字节,1KB(Kilobyte千字节)=1024B=2^10B1MB(Megabyte兆字节简称兆)=1024KB=2^20B,1GB(Gigabyte吉字节)=1024MB=2^30B,1TB(Trillionbyte万亿字节太字)=1024GB=2^40B,1PB(Petabyte千万亿字节拍字节)=1024TB=2^50B,1EB(Exabyte百亿亿字节艾字节)=1024PB=2^60B1ZB(Zettabyte十万亿亿字节泽字节)=1024EB=2^70B1YB(Jottabyte一亿亿亿字节尧字节)=1024ZB=2^80B,1BB(Brontobyte一千亿亿亿字节)=1024YB=2^90B1b个2进制数字,0或11B是计算机基本存储单位1页纸大概5KBMP3上一首歌大约4MB1部电影约1GB美国国会全部藏书的总信息量约15TB美国邮局1年处理量约5P1EB相当于13亿中国人每人1本500页书的总信息量截止2010年人类拥有的信息总量约1.2ZB,而2011年全球被创建和复制的数据总量达1.8ZB,到2020年将达到35ZB大数据的数量级应是TB(太字节)即万亿字节=2^40B大数据定义•Bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.Thechallengesincludecapture,curation,storage,search,sharing,transfer,analysis,andvisualization.•Bigdata:techniquesandtechnologiesthatmakehandlingdataatextremescaleeconomical.大数据的主要来源•传感器数据•网络点击流数据•移动设备数据•射频ID数据(嵌入产品,实现物体的跟踪)全球互联网()在线网站已超6.3亿个•1989年万维网由当时在欧洲核子研究中心工作的英国人蒂姆.伯纳斯-李创建!.该技术的初衷是使全球高校与科研机构的物理学家能更好地分享信息•1991年,全球第一个网站在欧洲核子研究中心诞生,网址为•1993年4月30日,欧洲核子研究中心向公众免费开放万•维网技术.•万维网技术免费开放后,网站数量呈爆炸式增长,1993年底服务器数量超过500个!,如今全球在线的网站约有6.3亿个•万维网从最初的科研领域延伸到商业教育等领域,重新塑造了人们交流、工作、创新与生活的方式。今天我们社会中的每个领域都被万维网所改变!,这是基础科学研究惠及人类生活的力证。大数据时代已经到来•在同一时刻,全球有200万人同时按下”Google”键,有2亿人在发送Email,有5亿部手机、10亿台PC在同时运行。•每60秒就会在Twitter上产生9.8万条微博、在Fickr上有超过6600张照片被上传,在Facebook上有79364篇文章和510040篇评论被发布…….•全球每天可以产生出相当于16.8亿张DVD容量的数据;产生2940亿封电子邮件,相当于全美国2年产生的纸质邮件;产生网络社区帖子200万个,相当于《时代》杂志770年的文字总量…•每两天全球产生的数据相当于人类文明起源到2003年间全部数据的总和,而新的数据还在以每天2.5EB(约合10.7亿GB)的量级高速增长。大数据时代的挑战•IBM研究称,整个人类文明所获得的全部数据当中,有90%是过去两年内产生的,2015年数字宇宙中的信息量(位数)比宇宙天体多3倍。到2020年,全世界所产生的数据规模将达到今天的44倍,达到35.2ZB(泽字节)。•如何收集、保存、维护、管理、分析、共享大数据是我们面临的大挑战。2012年2月《华尔街日报》的文章《科技变革即将引领新的经济繁荣》:“我们再次处于三场宏大技术变革的开端,…,他们分别是大数据、智能制造和无线网络革命。3大数据的挑战(续)•2012年联合国发表大数据政务白皮书《大数据促发展:挑战与机遇》.•美国政府已把大数据上升到了国家战略的层面。2012年3月,奥巴马宣布投资2亿美元启动“大数据研究和发展计划”。奥巴马把数据定义为“未来的石油”,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。•奥巴马政府网站:《大数据研究和发展倡议》提出“通过收集、处理庞大而复杂的数据信息,从中获取知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式”。大数据在政治方面的应用•奥巴马依靠数据挖掘团队用比对手少1亿美元的竞选资金击败对手连任美国总统•微软公司纽约研究院的经济学家大卫·罗斯柴尔德采用大数据分析技术,在2012年美国总统大选中,正确预测了美国51个选区中50个地区的选举结果,准确性高于98%。今年他又用大数据分析技术猜中奥斯卡奖除最佳导演外其他全部奖项。大数据在商业决策中的应用•快餐巨头麦当劳利用大数据为新店精准选址。•零售巨头沃尔玛从上世纪70年代,就开始通过数据挖掘改善自己的供应链。•国内电商1号店利用对大数据的分析给顾客发送个性化订单提醒。•去年5月没啥商业经验的社交媒体监测平台DataSift。精确预测到美国社交网站脸谱(Facebook)上市的股价走势。DataSift监测了当天美国另一社交网站推特上的情感倾向与脸谱股价波动的关联.大数据改变生活•流感预测:,“谷歌流感趋势”项目依据网民搜索内容分析全球范围内流感等病疫传播状况,与美国疾病控制和预防中心提供的报告对比,追踪疾病的精确率达到97%。成功预测2011年美国流感暴发,发现网络上查询流感的高峰比实际流感的流行早2-3个星期.•精确营销:上网检索:根据搜索的数据,如新闻、图片和音乐等,系统会自动检索出海量数据库中与之有关的数据,然后向用户显示。如百度广告系统可以很好地了解到正在搜索的这位用户的当前需求,然后将能满足他需求的广告推荐给他。去年央视广告收入290亿元,百度广告收入260亿,Facebook的广告收入达43亿美元。•智能电表:供电公司能每隔15分钟就读一次智能电表数据,通过快速采集分析用电数据(产生大数据),根据用电高峰和低谷时段制定不同的电价.•移动运营商T-Mobile通过将社交媒体数据和CRM和计费系统中的交易数据进行综合分析,T-mobile在一个季度内将客户流失率降低了一半!•USXpress采集上千种运输大数据类型,从油耗、胎压、卡车引擎运行状况到GPS信息等,甚至从司机们抱怨该系统的博客中收集数据,并通过分析这些数据来优化车队管理、提高生产力、降低油耗,每年节省了数百万美元的运营成本。4大数据在体育方面的应用•麦克拉伦一级方程式车队麦克拉伦一级方程式车队麦克拉伦一级方程式车队麦克拉伦一级方程式车队(Mclaren’sF1racingteam)通过汽车传感器在赛前的场地测试中实时采集数据,结合历史数据,通过预测型分析发现赛车问题,并预先采取正确的赛车调校措施,降低事故几率并提高比赛胜率。•澳大利亚网球公开赛采用了IBM的实时数据分析软件来分析大赛的日程、选手的人气、历史数据日志和海量的社交媒体内容,来预测澳网官网的粉丝访问流量。在此基础上为官网分配合适的计算资源。NBA大数据•美国NBA自1980年代起,就开始使用数据管理技术,所有球员得分、篮板、助攻、盖帽、抢断、失误、犯规等一系列场上数据均被统计在列。还能提供包括场上效率、得分区域等分析。•比如对姚明,通过对他在蓝下接运球失误的次数比得出结论,姚明右手接球时通常能运球3次,左手接球则只能运球2次,这就告诉对手防姚明就要把他限制在远离篮筐的区域,让他必须运球3次以上才能来到篮下,这样他往往就要失误。大数据应用案例:波音787飞机•波音787飞机上的每样东西都是一台电脑,每个机械系统都会在发生问题时通过网络发送报告。•一架波音787飞机的一次飞行,就会产生1万亿(TB)字节的信息。大数据的产业化•数据的获取、整合、传递、加工、算法都有待于成熟。其产业链可分几个层次:•数据收集整理后直接卖数据。•以脸谱、亚马逊、谷歌等公司为代表,基于自身海量的用户信息,提供精准营销和个性化广告推介等。•以IBM、微软、惠普等公司提供“硬件+软件+数据”的整体解决方案,它以平台性为特征,提供基础服务。•提供单个解决方案,如一些新兴创业公司。大数据成为研究前沿•数据仓库之父BillInmon在2008年Nature上发表了《BigData:scienceinthepetabyteera》•科技部十二五国家科技计划信息领域2013备选项目将大数据研究列在首位。国家自然科学基金2013项目指南中与大数据有关项目:•重点项目重点项目重点项目重点项目1.大数据下的学习理论(数理学部)2.大数据环境下的机器学习理论与方法(信息学部)3.大数据环境下管理决策创新研究(管理学部)4.基于全网数据的消费者行为与偏好研究(管理学部)•重大国际重大国际重大国际重大国际((((地区地区地区地区))))合作研究项目合作研究项目合作研究项目合作研究项目1.大数据分析与处理(信息科学部)•联合基金项目联合基金项目联合基金项目联合基金项目((((NSFC和广东基金会和广东基金会和广东基金会和广东基金会))))1.云计算与大数据处理理论与关键技术研究•广东或将成立大数据局广东或将成立大数据局广东或将成立大数据局广东或将成立大数据局。。。。上海市2013年度”科技创新行动计划”信息技术领域项目指南•专题三、大数据关键技术研究与应用示范•研究目标:围绕大数据采集、存储、处理,重点突破大数据分析、挖掘技术,建立大数据资源基础平台和服务平台,面向医疗卫生、公共安全、互联网、航空等行业开展示范应用,带动决策方式变革,培育大数据产业,提升城市“智慧度”。•研究内容:(1)研究数据科学基础理论和共性技术,
本文标题:7.9叶中行教授授课材料
链接地址:https://www.777doc.com/doc-6224304 .html