您好,欢迎访问三七文档
1目录一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例2引言→电影《点球成金》3数据本质是资产不可再生资源VS数据是核心资源4数据爆炸式增长(每分钟……)5需要看到更完整的数据5可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…610万/GB10万/TB需要更高性价比的数据储存和计算方式6数据库数据仓库计算更快存储更省785%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile7需要更强大的扩展能力当我们想要扩充时,才发觉:•架构只能scale-up,scale-out不易•处理时间过长,time-to-value受限•成本过高,cost-efficiency受限15%结构化的DB/DW遗憾残缺8政府对大数据的重视程度8习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告。2015年11月8日党的十八届五中全会公报提出要实施“国家大数据战略”。奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据9目录二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源1010SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是数据?半结构化/非结构化数据113/13/20124世界就是数据!12《新华字典》约有汉字63万,单本厚度约3cm,信息容量约1.2M1TB约等于832,963部新华字典,堆放高度约25km1PB约等于852,954,475部新华字典,堆放高度约25,000km美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB=4000倍美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,同时,消费者在PC和笔记本等设备上存储了超过6EB新数据数据大到没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务大数据到底有多大?13何谓大?——数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes数据量的度量14人工智能看成一个嗷嗷待哺拥有无限潜力的婴儿,某一领域专业的海量的深度的数据就是喂养这个天才的奶粉。奶粉的数量决定了婴儿是否能长大,而奶粉的质量则决定了婴儿后续的智力发育水平。大数据采集大数据存储大数据处理大数据可视化大数据相关的领域15大数据需要新模式大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据就是“未来的新石油”。16大数据带来的思维变革17大数据带来的思维变革——小数据时代VS大数据时代大数据时代18大数据时代大数据带来的思维变革——小数据时代VS大数据时代19小数据时代大数据带来的思维变革——小数据时代VS大数据时代20大数据带来的思维变革(更多)21大数据带来的思维变革(更杂)从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;大数据的简单算法比小数据的复杂算法更有效;−IBM的机器翻译VSGoogle的机器翻译;纷繁的数据越多越好;−大数据时代要求我们重新审视数据精确性的优略;−大数据让我们不再期待精确性,也让我们无法实现精确性;−错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;混杂性,不是竭力避免,而是标准途径;22大数据带来的思维变革(更好)佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;23大数据的4V特征Volume•非结构化数据的超大规模和增长•总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍Value•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity•实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效Variety•大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义BigData大数据TBPBEBStreamsRealtimeNeartimeBatchStructuredUnstructuredSemi-structuredAlltheabove24大数据的4V特征(Volume)1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和25大数据的4V特征(Velocity)•实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;•1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;26大数据的4V特征(Variety)27大数据的4V特征(Value)•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;•价值密度低,是大数据的一个典型特征;大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体28行业数据处理方式价值银行/金融•贷款、保险、发卡等多业务线数据集成分析、市场评估•新产品风险评估•股票等投资组合趋势分析•增加市场份额•提升客户忠诚度•提高整体收入•降低金融风险医疗•共享电子病历及医疗记录,帮助快速诊断•穿戴式设备远程医疗•改善诊疗质量•加快诊疗速度制造/高科技•产品故障、失效综合分析•专利记录检索•智能设备全球定位,位置服务•优化产品设计、制造•降低保修成本•加快问题解决能源•勘探、钻井等传感器阵列数据集中分析•降低工程事故风险•优化勘探过程互联网/Web2.0•在线广告投放•商品评分、排名•社交网络自动匹配•搜索结果优化•提升网络用户忠诚度•改善社交网络体验•向目标用户提供有针对性的商品与服务政府/公用事业•智能城市信息网络集成•天气、地理、水电煤等公共数据收集、研究•公共安全信息集中处理、智能分析•更好地对外提供公共服务•舆情分析•准确预判安全威胁媒体/娱乐•收视率统计、热点信息统计、分析•创造更多联合、交叉销售商机•准确评估广告效用零售•基于用户位置信息的精确促销•社交网络购买行为分析•促进客户购买热情•顺应客户购买行为习惯13大数据商业价值29大数据商业价值---大数据为“未来的新石油”2015年全球大数据储量达到8.61ZB(约86亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国370多次,如果将之存储于标准的光盘,这些光盘可以堆成三十六堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。30大数据商业价值---企业经营决策某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。31大数据商业价值---个性化营销银行与客户的交流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾客确实对此感兴趣,销售部门就会发送推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低。32大数据商业价值---互联网金融的核心是大数据互联网金融并非简单的把传统金融业务搬到网上去,而是充分利用大数据来颠覆银企之间信息不对称的问题。数据是一个平台,因为数据是新产品和新商业模式的基石。推动互联网金融发展的核心正是大数据的价值。33大数据商业价值---所有互联网公司都将是大数据公司34大数据改变生活。•大数据分析能力逐渐加强,传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失。革命•银行都将基于企业大数据平台开展银行直销业务,同时按照产业链金融服务事业部模式开展业务颠覆•各级政府、主管部门、上市公司、企业集团、外资公司都将基于大数据分析平台优化其决策。优化•因大数据系统的出现,依赖信息不对称盈利的业务大部分将消失。改变大数据对政府、金融机构、企业来说,象空气一样不可或缺!35软件是大数据的引擎•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!36IBMC&PIndustry需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,HDFSStreamingInfiniBandEnterpriseSearch数据分析技术TextAnalyticsEngine自然语言处理、文本情感分析、VisualDataModeling机器学习、聚类关联、数据模型大数据涉及的关键技术37大数据生态圈38大数据(Hadoop)NoSQL数据库数据仓库部署架构水平扩展水平扩展大部分垂直扩展,少数水平扩展大部分水平扩展数据类型文件存储,没有数据类型简单数据类型丰富的数据类型丰富的数据类型数据模型非常简陋的数据模型简单灵活数据模型丰富的数据模型完善丰富的数据模型数据关系没有数据关系描述非常简单的数据关系描述数据关系完善数据关系完善数据一致无一致性弱一致性强一致性强一致性数据安全安全性很弱安全性很弱安全性很高安全性很高计算类型离线批量处理,只读,低并发实时CRUD操作,海量并发实时CRUD操作,高并发离线批量处理,只读,低并发适用场景低密度数据海量存储,数据预处理,预计算高并发实时在线交易,查询,报表高价值数据统一存储和计算平台常见用例日志处理,用户行为分析,搜索引擎用户资料,微博,金融反欺诈金融账户,电信计费,税务等企业数据仓库大数据与传统技术对比39大数据的安全威胁大数据基础设施安全威胁大数据存储安全威胁隐私泄露问题数据访问安全威胁针对大数据的高级持续性攻击其他安全威胁大数据挑战40目录二、什么是大数据三、大数据的应用
本文标题:大数据技术与应用
链接地址:https://www.777doc.com/doc-5278038 .html