您好,欢迎访问三七文档
2009年出现了甲型H1N1流感,在短短几周之内迅速传播开来。美国,要求医生在发现新型流感病例时告知疾病控制与预防中心(CDC)。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传递回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。在甲型H1N1流感爆发的几周前,谷歌用几十亿条检索记录,处理了4.5亿个不同的数字模型,准确、及时判断出流感发源地。公共卫生机构的官员获得了非常及时、非常有价值的数据信息。一天之间,互联网上要发生多少事•每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年时间处理;•每天有200万篇博客在网上发布,这些文章相当于《时代》杂志刊发770年的总量;•每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80个埃菲尔铁塔那么高;•每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年;•每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放;•谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模;•百度每天的关键词搜索量50亿,谷歌33.3亿;•淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才580.03亿元人民币;•累积起来,互联网一天之内产生的信息总量,可以装满1.68亿张DVD光盘。•……未来:物联网每天产生的数据将会是海量的。2013年5月,奥巴马政府更是宣布了“大数据的研究和发展计划。”提出“通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究”。2013年6月,安倍内阁正式公布了新IT战略--“创建最尖端IT国家宣言”。“宣言”全面阐述了2013~2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略,提出要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。2010年11月欧盟通信委员会向欧洲议会提交了“开放数据:创新、增长和透明治理的引擎”的报告,报告以开放数据为核心,制定了应对大数据挑战的战略。2011年11月报告被欧盟数字议程采纳,12月12日正式推进这一战略。大数据定义大数据特点大数据下的新模式与技术大数据应用与作用大数据风险大数据=海量数据+海量数据处理大数据包括:交易数据和交互数据集在内的所有数据集大数据的构成海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。1.Volume2.Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,对处理能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量8bit=1Byte1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.•1s是临界点•对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的•实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一6000万用户登录/天20亿次页面访问/天每天1.2亿次网站访问响应时间小于100毫秒由于输入速度加快,所以要求输出速度也要加快•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.•价值密度低,是大数据的一个典型特征.▪基于SQL语言:面对OLAP的传统行和列▪不基于SQL或map-reduce的:由谷歌率先发起▪数据流:基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不同范围的服务▪传统交付模式-单片或基于设备的解决方案▪云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-ForresteranalystJimKobielus新的传输方案新模式和新技术展现方式:大型控制中心、移动终端在多样性、体量、速度三大主要特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。大数据时代全新的生活方式•信息:人人都是传媒。大数据时代全新的生活方式•旅行:足不出户,安排好一切。大数据时代全新的生活方式•购物:不受时空限制,随时随地购物。在看不到商品的情况下,口碑就是质量。大数据时代全新的生活方式•社交:你所有的朋友都能在网络上找到。大数据时代的管理变革“掌控”——责任与自由并举的信息管理当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。大数据时代的商业变革“价值”——“取之不尽,用之不竭”的数据创新数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。“角色定位”——数据、技术与思维的三足鼎立微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITASoftware公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。大数据时代的思维变革“更多”——不是随机样本,而是全体数据当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。“更杂”——不是精确性,而是混杂性“更好”——不是因果关系,而是相关关系知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。大数据的风险•大数据时代没有隐私爱德华·斯诺登大数据的风险•大数据属于谁?大数据的风险•大数据从概念走向实践,引发个人隐私安全问题•企业迈进大数据时代,信息安全面临多重挑战•大数据时代,国家安全将受到信息战与网络恐怖主义的威胁
本文标题:28大数据
链接地址:https://www.777doc.com/doc-3152615 .html