您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 纺织服装 > 第六章补充学习材料_大数据时代
大数据时代主要内容三、大数据相关技术与应用二、信息空间和赛伯空间一、数据、大数据、大数据时代一、数据、大数据、大数据时代1、澄清几个经常被含糊不清的名词和概念2、数据计量单位3、数据科学技术进展的几个阶段4、大数据5、大数据时代的特点1、澄清几个经常被含糊不清的名词和概念●符号:事物的标志,表示一定的意义,可以是图形、语言、文字、手势等。是消息和信息的载体●消息:关于人或事物情况的表达,可以承载于语言、图像、视频、文字或多媒体等载体上。它们是由符号空间中的基本元素——符号编码而成,这涉及信息的表示问题●信号:是物理的,可以是声、光、电的特定表现形式,是消息和信息的载体●数据:对可以存储、处理的实体的描述,可以是语言、文字、图形、表格、视频、多媒体等形式。是消息和信息的载体一、数据、大数据、大数据时代●情报:情况与消息的传递表达,多具机密性●知识:人们在社会实践中所获得的认识和经验总和,具有已被证实为真、并被相信之特征●智慧:“辨析判断、发明创造的能力”,即认知和改造世界的能力从数据可以提取信息,信息经过加工提炼可以成为知识。但知识≠智慧知识多的人不一定都很有智慧,书读得少点的人未必智慧就少,当代人也未必就比2500多年前的孔子更有智慧些一、数据、大数据、大数据时代●信息科学(InformationScience):以信息的运动规律和应用方法为主要研究内容,以计算机等技术为主要研究工具,以扩展人类的信息功能为主要目标的一门新兴的综合性学科。信息科学由信息论、控制论、系统论、计算机科学、仿生学与人工智能等学科互相渗透、互相结合而形成●信息技术(InformationTechnology):实现信息获取、存储、传输、处理以及标准化的有关技术。它具体包括包含通信、控制、计算机软硬件、电子(包括微电子和生物电子)、光和量子技术等信息技术不是电子计算机出现后才有,早在远古时期就已出现,绳结、烽火、图示、语言、文字等都属信息技术范畴,占星、八卦也是一种信息处理,用于预测,只是当代的电子信息技术成为信息技术的主流一、数据、大数据、大数据时代2.数据计量单位B(Byte,字节)=8bits1KB(Kilobyte千字节)=1024B1MB(Megabyte兆字节简称“兆”)=1024KB1GB(Gigabyte吉字节又称“千兆”)=1024MB1TB(Trillionbyte万亿字节太字节)=1024GB1PB(Petabyte千万亿字节拍字节)=1024TB1EB(Exabyte百亿亿字节艾字节)=1024PB1ZB(Zettabyte十万亿亿字节泽字节)=1024EB1YB(Yottabyte一亿亿亿字节尧字节)=1024ZB1BB(Brontobyte一千亿亿亿字节)=1024YB一、数据、大数据、大数据时代GBTBPBEBZB想驾驭这庞大的数据,我们必须了解大数据地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据在2011年,这个数字达到了1.8ZB而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB=2^50字节1EB=2^60字节1ZB=2^70字节一、数据、大数据、大数据时代3.数据科学技术进展经历了下述几个阶段●手工作业时代●单台计算机时代●分布网络时代●互联网时代●大数据时代(AgeofBigData;BigDataTime)一、数据、大数据、大数据时代4.大数据半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。由此,创造出了“大数据”这个概念Fcebook、微信社交网络…淘宝、Ebuy电子商务…微博、Apps移动互联…21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生数据一、数据、大数据、大数据时代4.大数据大数据(BigData)是指超过传统数据库系统处理能力的数据。它的数据规模和对传输速度要求很高、结构复杂,不适于传统的数据库系统处理“大数据”这个名词并不新鲜,早在1980年代,美国就有人提出了“大数据”的概念,“大数据”之“大”,更多的意义在于:人类可以“分析和使用”的数据在大量增加最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来一、数据、大数据、大数据时代一、数据、大数据、大数据时代“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据VolumeVelocityValueVariety大数据的4V特征大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的。通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么海量交互数据:源于Facebook、Twitter、LinkedIn及其它来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输(ManageFileTransfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。可以告诉我们未来会发生什么海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop大数据的构成一、数据、大数据、大数据时代5.大数据时代的特点●数据的产生、传输、存储、处理的规模都是海量的,除了结构性数据外,还有大量非结构性数据,特别体现在数据结构的复杂性和关联性●在大数据时代,挖掘、查找、筛选、分析处理和存储数据的能力是至关重要的,人们将主要靠计算软件完成这类工作●数据的完整性、隐私、安全、产权保护等,是大数据时代的一个重要技术问题●数据可以用来推断某些事情可能发生或者不可能发生,成为判断、决策的工具●由海量数据导致的业务管理系统处理效率问题急需解决一、数据、大数据、大数据时代数据存储能力:20世纪90年代硬盘的存储容量为MB量级(106字节),21世纪初硬盘容量开始以GB级(109字节)计算,目前已达TB级,谷歌系统已迈入PB级数据产生能力:随着数据获取途径越来越便捷,数据生产的速度疯狂加大,谷歌总裁RricSchmidt:“从人类文明诞生到2003年,人类共创造了5EB数据。而如今,每两天就产生同等量的数据”。根据科技研究公司IDC作出的估测,数据一直都在以每年50%的速度增长,即每两年就增长一倍数据搜索、查找、处理能力:谷歌能在不到0.1秒的时间内,可从每天处理的20PB(相当于20座法国国家图书馆的数据)数据中搜索出与所请求相匹配的数据一、数据、大数据、大数据时代1、信息空间与赛伯空间2、赛伯空间中的数据爆炸二、信息空间和赛伯空间1、信息空间与赛伯空间一切生物,动物、植物包括人在内除了生存在物理空间外,还有另一个生存空间——信息空间(Informationspace),不过人类很晚才真正意识到这个空间的存在和重要性直到20世纪后期,人类发明了各种新型的通信、存储、传感、处理和计算工具,经历了数字化革命,构建了互联网,建起了一个全新的数字化、虚拟的数字化网络空间—赛伯空间(Cyberspace),将人类社会推进到了一个新的阶段——信息化社会此时,人们才感受到信息空间对人类社会的巨大所用,认识到我们不仅要在物理空间中生存和竞争,还要在这个虚拟的赛伯空间生存和竞争二、信息空间和赛伯空间互联网赛伯空间信息空间•••内域网1外域网内域网2特种业务网1特种业务网N···物联网二、信息空间和赛伯空间赛伯空间是人类构建的一种虚拟空间,它是整个宇宙中信息空间中的一部分。信息空间是由无形的信息所构成的虚拟空间,它相对于有形的物理空间。物理空间中的很多事物会映射到信息空间中人类构建的赛伯空间只是宇宙中信息空间中的一个子集,互联网是构成赛伯空间的主要组成部分,但绝不是全部。赛伯空间中还有很多专用网,它们并不一定利用TCP/IP与互联网相连通,例如,内域网、外域网,物联网中也有相当一部分不与互联网相连宇宙中还有更多的信息,如动物间、植物间、宇宙中的电磁波、心灵感应信息、……,甚至其中的很大一部分还不为地球上的人类所能获取和认知二、信息空间和赛伯空间尽管人类所创造的赛伯空间只是信息空间中的很小一部分,但它对人类社会的发展起着极其重要的作用。长期以来,人们一直在物理空间中生存和竞争人类区别于一般动物之处是能够不断地发现、发明和制造新的工具,扩大自己感知时空的能力,由用自己能力有限的感官去看、去听、去闻、去嗅、去品尝、去抚摸、去感受,到用听诊器、望远镜、显微镜、超声探测仪、X射线、CT断层扫描……,去间接感知工具的使用大大延伸了人能感受的时空领域,强化了人类探索自然、社会、和我们自己生理和心理的能力在赛伯空间中,人们靠什么来观察和发现空间中现象和问题,进行分析和推断呢?麻省理工学院斯隆管理学院的经济学教授埃里克-布吕诺尔夫松将网络搜索引擎和软件分析工具比作是网络中观测数据的显微镜和望远镜这种虚拟的望远镜和显微镜将成为人类认识信息空间的有力工具二、信息空间和赛伯空间2、在赛伯空间中的数据爆炸若将互联网上的内容抄录到书页大小的纸上,堆垒起来的高度将为地球到冥王星距离的10倍!全球最大的美国国会图书馆供查阅的书达1.4亿册,但这仅为互联网上数据总量的千万分之一!人类社会每年新增数据量约为12EB,其中包括了所有信息存储媒质:书报、杂志、文件、PCs、相片、X光照片、TV、声频、CDs、DVDs等。人均约为250MB每年打印出来的数据约为240TB,其中约有75亿份办公文件、100万种新书、40000种报纸、80000种杂志,而总计的据量不到总数据量的1%二、信息空间和赛伯空间如果在网上搜索“Information”一词,用Goole只需0.33秒就给出3,710,000,000条,用Yahoo只需0.23秒就给出15,300,000,000条,用AOL可给出1,220,000,000条用百度输入“信息”或“Information”,给出“百度为您找到相关结果约100,000,000个”,喻示搜索结果比这要多得多数据爆炸是现实,信息爆炸尚可言,但绝不存在知识爆炸,更不可能存在智慧爆炸!在信息化社会中,信息、信息科学技术已渗透到人类生活的各个方面,科学、技术、经济、政治、教育、文学和艺术,影响着、改变着我们每天的生活二、信息空间和赛伯空间虽然大数据是一个重大问题,真正的问题是让大数据更有意义目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等管理大数据“易”、理解大数据“难”二、信息空间和赛伯空间三、大数据相关技术与应用1、相关技术2、大数据应用3、大数据未来分析技术:•数据处理:自然语言处理技术•统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析•数据挖掘:关联规则分析;分类;聚类•模型预测:预测模型;机器学习;建模仿真大数据技术:•数据采集:ETL工具•数据存取:关系数据库;NoSQL;SQL等•基础架构支持:云存储;分布式文件系统等•计算结果展现:云计算;标签云;关系图等存储•结构化数据:海量数据的查询、统计
本文标题:第六章补充学习材料_大数据时代
链接地址:https://www.777doc.com/doc-2088819 .html