您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据应用分析技术与方法概述
大数据应用分析技术与方法——BigData目录大数据概述大数据的产生和发展大数据与传统数据的区别第一章:大数据是信息社会的宝贵资源前言作者维克托·迈尔-舍恩伯格,大数据时代的预言家,《科学》《自然》等著名学术期刊最推崇的互联网研究者之一,“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。前言顾客一次购买商品1面包、黄油、尿布、啤酒2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布、啤酒、鸡蛋4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6鲑鱼、尿布、啤酒7面包、茶叶、糖、鸡蛋8咖啡、糖、鸡、鸡蛋9面包、尿布、啤酒、盐10茶叶、鸡蛋、小甜饼、尿布、啤酒品种计数项:品种面包6啤酒5尿布5鸡蛋5黄油4糖3咖啡3鲑鱼3小甜饼2鸡2茶叶2盐1总计41前言=前言大数据是未来的石油习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据前言*2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”,旨在提高和改进从海量和复杂数据中获取知识的能力,加速美国在科学和工程领域发明的步伐,增强国家安全。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。美国的大数据战略1.1大数据概述大数据的概念大数据源于英文:“BigData”,如“海量数据”“信息爆炸”等。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。1.1大数据概述美国国家标准和技术研究院则认为:大数据是由于数据的容量、数据的获取速度或数据的表示限制了使用传统关系方法对数据的分析处理能力。需要使用扩展的机制来提高数据处理效率的技术。1.1大数据概述大数据的特征容量大1谷歌每月处理数据量在400PB,能处理千亿以上的网页数量百度目前数据总量接近1000PB,存储网页数量近一万亿,每天处理60亿次搜索请求一个8Mbps的摄像头一小时可产生3.6G数据1.1大数据概述1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176BytesBB/NB/DB/CB一个汉字两个字节2byte,1Kb512个汉字1.1大数据概述《红楼梦》含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB约等于671部红楼梦1TB约等于631,903部1PB约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)1EB=4000倍美国国会图书馆存储的信息量1.1大数据概述种类多大数据的特征2越来越多非结构化数据;工业、农业、音视频、天气、地理位置信息等多类型数据。既有结构化数据也有非结构化数据,还有HTML和XML等半结构化数据。1.1大数据概述消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象1.1大数据概述高速度大数据的特征3大数据能够更快地满足实时性的需求。实时分析、要有立竿见影而非事后见效效果。对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。1.1大数据概述Thisisanexampletext.Goaheadandreplaceit.03价值密度低大数据的特征4数据量大并不意味着数据价值大,想得到有价值的数据就像大海捞针,因为有用的数据一般都是隐性的,所以大数据面临的考验就是怎么从海量的数据中发现规律,找出有用的数据。*1.2大数据的产生和发展马云对未来的预测,是建立在对用户行文分析的基础上。大数据的产生和发展•硬件成本的降低•网络带宽的提升•云计算的兴起•网络技术的发展•智能终端的普及•物联网大数据产生的前提:大数据的产生和发展什么是云计算?狭义的云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。这种特性经常被称为像水电一样使用IT基础设施。广义的云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务。举个例子:阿里云计算发布的Matrix+(码+)计划,通过连接全球PC、平板电脑、超便携设备和手机等设备,组建人类有史以来最为强大的计算网络,这些强大的计算能力将被用来搜索外星人。大数据的产生和发展云计算(cloudcomputing)是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。大数据的产生和发展Iaas(基础设施即服务InfrastructureasaServic),阿里云、亚马逊AWS、微软AzurePaas(平台即服务Platform-as-a-Service),GAE(谷歌)、阿里ACESaas(软件即服务Software-as-a-Service)大数据的产生和发展大数据的产生和发展*facebook社交网络…淘宝、ebuy电子商务…微博、Apps移动互联…21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。1.2大数据的产生和发展*GBTBPBEBZB想驾驭这庞大的数据,我们必须了解大数据的特征。在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到39.2ZB(1ZB=10亿TB)!1.2大数据的产生和发展大数据的发展大数据的产生和发展大数据的产生和发展1.3大数据与传统数据的区别数据规模:GB,TB,甚至是PB和EB为基本单位数据类型:结构化,半结构化,非结构化模式和数据的关系:先模式后数据与先数据后模式处理对象:数据作为处理对象与作为资源的区别存储方式:关系型数据库存储与非关系型存储*数据的再利用:由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。大数据价值链的3大构成:数据本身、技能与思维其中三者兼具的有谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。《大数据时代》传统行业最终都会转变为大数据行业,无论是金融服务业、医药还是制造业。大数据的应用——未来,改变一切又是崇山峻岭,又是长城,又是红色的中国地图……我的老天鹅!这也太厉害了大数据的应用(新的生活方式)购物:不受时空限制,随时随地购物。在看不到商品的情况下,口碑就是质量。大数据的应用(新的生活方式)旅行:足不出户,安排好一切。大数据的风险1.安全问题2.数据的真实性和规律性问题大数据的风险根据2012年6月16号纽约时报的一篇报道介绍了一个美国的父亲很生气的找到美国TARGET公司,因为TARGET公司说她女儿怀孕了,而他的女儿才15岁。但是1个月后他又来到了TARGET公司道歉承认他的女儿确实怀孕了,TARGET是一家优惠券发行及网上零售公司,TARGET公司利用大数据发现怀孕的妇女有不同的购买习惯,比如怀孕3个月后会购买无香料的洗发水等,5-6个月后会买补品等,通过类似的搜索,发现相应的客户。大数据的风险•大数据时代没有隐私爱德华·斯诺登谢谢
本文标题:大数据应用分析技术与方法概述
链接地址:https://www.777doc.com/doc-3298055 .html