您好,欢迎访问三七文档
1商务数据分析2第一章大数据时代第一章大数据时代大数据时代的到来什么是大数据商务大数据1,大数据时代的到来51,大数据时代的到来大数据VS章鱼帝百度对世界杯的预测中,一共考虑了团队实力、主场优势、最近表现、世界杯整体表现和博彩公司的赔率等五个因素。百度大数据搜索过去5年内全世界987支球队的3.7万场比赛数据,共涉及到19972名球员和1.12亿条相关数据,利用一个由搜索专家设计的机器学习模型来对这些数据进行汇总和分析,进而做出预测结果。针对本届世界杯的16场淘汰赛的预测,准确度达到了100%。对于频频爆冷的小组赛阶段,百度对比赛结果的预测准确率也达到了58.33%,这一结果高于微软语音助手Cortana和必应搜索联合得出的56.25%的准确率。但是100%的准确度也只是猜胜负,德国和巴西7:1的结果就和百度预测的,德国将会以微弱的优势赢下巴西(51%对49%),二者相去甚远。百度在世界杯开赛前预测的冠军是巴西……2014世界杯6塔吉特点球成金你知道自己怀孕了吗?1,大数据时代的到来微博为新浪带来巨大价值马云的判断来自于数据分析“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。1,大数据时代的到来硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网1,大数据时代的到来硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网1,大数据时代的到来硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网1,大数据时代的到来硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网1,大数据时代的到来硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网1,大数据时代的到来硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网1,大数据时代的到来硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网1,大数据时代的到来每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年时间处理;每天有200万篇博客在网上发布,这些文章相当于《时代》杂志刊发770年的总量;每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80个埃菲尔铁塔那么高;每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年;每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放;谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模;百度每天的关键词搜索量50亿,谷歌33.3亿;淘宝天猫双11那一天营业额达350亿人民币。中国小商品城全年成交额才580.03亿元人民币;累积起来,互联网一天之内产生的信息总量,可以装满1.68亿张DVD光盘。……1,大数据时代的到来数据《周易·系辞下》:上古结绳而治,后世圣人,易之以书契。2,什么是大数据18定义1:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.---Wiki2,什么是大数据VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天大数据的4V特性(1/3)2,什么是大数据大数据的4V特性(2/3)PB是大数据層次的临界点KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB2,什么是大数据大数据的4V特性(3/3)挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息2,什么是大数据定义2:当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据就被称为大数据不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度以目前计算机硬件的发展水平看针对简单查询(如关键字搜索),数据量为PB级时可称为大数据针对复杂查询(如数据挖掘),数据量为TB级时即可称为大数据2,什么是大数据定义3:大数据有两个基本特征不同于传统的数据集:1.大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间;2.大数据以半结构化或非结构化数据为主,具有较高的复杂性。2,什么是大数据大数据=海量数据+复杂类型的数据大数据包括:交易数据和交互数据集在内的所有数据集海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。2,什么是大数据大数据驱动工业革命2,什么是大数据26用户生成数据DeepWeb数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据大数据涉及诸多不同的领域2,什么是大数据科研价值1998年图灵奖得主、数据库技术奠基人JimGray认为数据驱动的研究将是第四种科学研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大数据已为多个不同学科的研究工作提供了宝贵机遇经济价值麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%工业价值分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式社会价值例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态其他价值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的创始人TimO‘Reilly2,什么是大数据深网挖掘深空探索2012年我国神州九号进入太空深海探测2012年我国蛟龙号探测水下7000米实现大数据价值的深度挖据和高度利用!•大数据的深度资源挖掘与价值利用是国家战略•从深空+深海深网2,什么是大数据大数据是各行各业面临的共同问题•促进工业与信息产业的生产效率提升•未来产业竞争的核心要素研究共性问题,突破核心技术2,什么是大数据感知现在:历史数据与当前数据的融合,潜在线索与模式的挖掘,事件、群体与社会发展状态的感知中国发展指数(物价、环境、健康)需求:掌握现状,如淘宝CPI、环境指数难点:PB级社会媒体数据,百亿级日志数据,结构与非结构数据关联,历史与流式数据并存犯罪线索挖掘需求:发现线索,如罪犯行为轨迹难点:PB级日志数据、EB级监控数据中发现嫌疑人及其行为模式犹如大海捞针问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨现有数据处理方法感知度量难、特征融合难、模式挖掘难2,什么是大数据联合国“全球脉动”(GlobalPulse):利用网络大数据预测失业率与疾病爆发等现象,利用数字化的早期预警信号来提前指导援助项目。问题与挑战:数据交互性强、实时性强、动态演变,导致传统数据计算方法:数据生命周期的割裂、时效性与准确性难以兼顾、演变趋势难以预测基于Twitter数据的选举结果预测:通过对Twitter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。预测未来:全量数据、流式数据、离线数据的关联分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测2,什么是大数据2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“BigDataResearchandDevelopmentInitiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA美国的大数据规划-大数据上升为国家意志2,什么是大数据33Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域GRDI2020-GlobalResearchDataInfrastructures建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合FP7Call8IntelligentInformationManagement-BigData预算5千万欧元,2012-1-17截止目标:提升发现、分析、开采、使用大数据及其基础设施的能力通过对大数据收集与分析创造更大价值探索基于大规模互联数据资源与专用基础设施的新型科学研究面向大数据的人力资源开发欧盟的大数据规划-基础设施是先导2,什么是大数据大数据总量增长态势2,什么是大数据35常规数据范围广模态多增长快关联繁数据规模较小模态属性受限增长速度较慢关联相对简单稠密与稀疏共存冗余与缺失并在动态与静
本文标题:商务数据分析1
链接地址:https://www.777doc.com/doc-7067527 .html