您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据技术与应用(最全)
大数据技术与应用1目录一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例2引言→电影《点球成金》基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功;布拉德•皮特主演的《点球成金》是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。3数据本质是生产资料和资产仅供开采162年仅供开采45年仅供开采60年不可再生资源VS数据过去3年数据总量被以往4万年还多2013年,10分钟的信息总量将达1.8ZB2010年全球数据总量1.2ZB,年增长50%数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。4数据爆炸式增长(每分钟……)Twitter上发布98000+新微博13000+个iPhone应用下载Skype上37万+分钟的语音通话上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单Facebook上更新69.5万+条新状态12306出票1840+张5分配丌透明,数据资产错配人力物力浪费数据丌开放,企业数据合作受限分布杂乱,处理缓慢,评估手段缺失,尽管“数据是资产”概念已经广为人知,但“如何管理数据资产”仍然缺少成熟理论以及工具手段需求发现数据资产管理是企业或组织采取的各种管理活劢,用以保证数据资产的安全完整,合理配置和有效利用,从而提高带来的经济效益,保障和促进各项事业发展。该领域是大数据时代企业布局竞争的核心,也是目前市场空白。什么是数据资产?存在什么问题?导致低效决策数据资产价值大定义丌统一错误判断加工流程混乱,数据源丌规范,导致无效数据加工数据资产闲置……打折扣治理无力应用低效运营缺失……数据资产是企业及组织拥有或控制,能带来未来经济利益的数据资源。数据资产管理的挑战6元数据数据稽核管理制度为什么传统数据管理方式并不适合数据资产管理要求?传统数据管理方式外部性管理,依赖管理力度和执行自律,成难毁易。从范围来看,从形式来看,从内涵来看,非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式挑战1数据加工的复杂度和速度要求越来越高,也对传统管理效率提出挑战挑战2数据的交换、转让、租赁、交易等各种创新模式,也要求新的管理手段挑战3资产验证数据整合交易保障数据资产管理的挑战7需要不同“看”数据的方式7可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…810万GB10万TB需要更高性价比的数据计算与储存方式8数据库数据仓库计算更快存储更省985%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile9需要不同的数据管理策略当我们想要扩充时,才发觉:•架构只能scale-up,scale-out不易•处理时间过长,time-to-value受限•成本过高,cost-efficiency受限15%结构化的DB/DW遗憾残缺10每天几百GB、几TB的资料,且持续成长中储存Storing在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing超越企业现有IT的数据解决能量1011中央政府对大数据的重视程度11习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据12目录二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源1313SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是数据?半结构化/非结构化数据143/13/20124什么是大数据?15何为大?—数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes3/13/20126什么是大数据?16《红楼梦》含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB约等于671部红楼梦1TB约等于631,903部1PB约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB=4000倍美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,同时,消费者在PC和笔记本等设备上存储了超过6EB新数据3/13/20127数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务什么是大数据?17大数据的解释大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。18大数据带来的思维变革更好不是因果关系而是相关关系更多不是随机样本而是全部数据更杂不是精确性而是混杂性19大数据带来的思维变革(更多)人口大普查全数据模式随机采样样本模式大数据应用全数据模式•是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记;•主要特点是调查组织高度集中性,普查对象的全面完整性;•人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;•人口大普查是一种典型的全数据模式;大数据时代小数据时代20大数据带来的思维变革(更多)人口大普查全数据模式随机采样样本模式大数据应用全数据模式•人口大普查是一种耗时耗费的工程,一般是以十年为单位;•各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;•源于实用并且很好的创新!•随机采样分析是小数据时代的产物;大数据时代小数据时代21大数据带来的思维变革(更多)人口大普查全数据模式随机采样样本模式大数据应用全数据模式•我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;•大数据不用随机分析法这样的捷径,而采用所有数据的方法;•这里的“大”是相对的——相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!•在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;大数据时代小数据时代22大数据带来的思维变革(更多)Google利用网络大数据预测流感基于全数据进行相扑比赛的作弊分析埃齐奥尼的Farecast有10万亿条数据预测机票价格乔布斯的癌症抗争,自身所有DNA和肿瘤DNA排序23大数据带来的思维变革(更杂)从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;大数据的简单算法比小数据的复杂算法更有效;−IBM的机器翻译VSGoogle的机器翻译;纷繁的数据越多越好;−大数据时代要求我们重新审视数据精确性的优略;−大数据不仅让我们不再期待精确性,也让我们无法实现精确性;−错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;混杂性,不是竭力避免,而是标准途径;24大数据带来的思维变革(更好)佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。佛教关于因果报应的解释原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。哲学范畴的因果关系大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;舍恩伯格对大数据的相关性解释Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”25大数据的4V特征Volume•非结构化数据的超大规模和增长•总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍Value•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity•实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效Variety•大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义BigData大数据TBPBEBStreamsRealtimeNeartimeBatchStructuredUnstructuredSemi-structuredAlltheabove26大数据的4V特征(Volume)1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和一般情况下,大数据是以PB、EB、ZB为单位进行计量的27大数据的4V特征(Velocity)82254132215327现在及未来几年内美国的移动网络数据流量增长(PB/月)源自英国Coda研究咨询公司大数据的增长速度快大数据的处理速度快•实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;•1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;28大数据的4V特征(Variety)行业/企业内数据大数据数据来源多企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。数据类型多保存在关系数据库中的结构化数据只占少数,70~80%的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。关联性强数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。29大数据的4V特征(Value)•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;•价值密度低,是大数据的一个典型特征;大数据不仅仅是技术,关键是产生价值
本文标题:大数据技术与应用(最全)
链接地址:https://www.777doc.com/doc-5475051 .html