您好,欢迎访问三七文档
浅谈大数据认识—王小丽从入学的第一天就一直在好奇大数据[1]是什么?是新兴的技术?还是跟风的乌托邦?最开始我只是浅层次认为大数据就是很大的数据,只要满足:数据量大、速度快、数据多样性、数据密度低等特征的数据[2]。在经过这一年的书本学习,老师讲解,参加各种大数据峰会、座谈交流,大数据论文调研,公司大数据部门的实习后,我发现大数据不只是一个单一的名词,它更是一种技术、应用、挖掘潜在价值趋势的表象或特征而已。为了更全面地认识大数据,我认为应该从理论、技术、实际应用这三方面来学习。一.理论认识理论是认识的必经途径,也是快速认识的基础。1.名人的见解:最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”。其实也可以看出。大数据的诞生是信息技术发展的必然结果,是不可避免的。IBM最早将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity)。但这并不能说明大数据的真实特征,它还应该包括:分析、存储、技术、复杂等特征。维克托·迈尔-舍恩伯格在《大数据时代》[3]一书中坚持认为大数据的思维应转变:1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。我很认同阿里巴巴的王坚也曾说过的一句话:“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”因为大数据的正真价值在于创造。2.大数据的价值:大数据的核心价值就是充分地挖掘出有用的信息,通过这些信息可以获取更大的利润,实现数据增值[4]。因此,得数据者得天下这句话是很有道理的。譬如,春节期间在智能交通实验室做的油耗模型建立的项目中,如果没有数据,我们能从数据中发现汽车的速度、机动车比功率和油耗之间存在着某种微妙的关系,进一步说,没有发现这层关系,我们又怎么对车辆的耗油建立预估模型。如果没有模型,又怎么把这项发现加以推广应用,创造价值。因此,未来在大数据领域最有价值的两种事物::1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海[5]。3.大数据当下的应用大数据可以帮助智慧城市的建设[6]。帮助电商公司向用户推荐商品和服务,提高公司受益在社交网络上更精准的推荐好友,用户所需信息。使医疗行业更加便捷、智能虽然这些应用会提高用户的满意度和生活的价值。但是,数据是把双刃剑,有利有弊。在数据共享的同时也无形中也泄露了个人的隐私,容易遭受攻击。因此,数据安全问题也是大数据面临的一大难题[7]。二.大数据技术可以说,大数据之所以如此快速发展,源于技术的支持。具体有什么技术和大数据密切相关?毫无置疑,就是我们经常说的云计算。在云计算中分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术等都极大支持了大数据,也促使了它的发展。但是云计算和大数据也存在区别:云计算改变了大数据,而大数据改变了业务层,两者的目标受众不同。1.分布式处理技术定义:分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务。在学习中,接触过hadoop[8]和storm[9]这两种分布式技术。在实际工作中常用hadoop来处理大数据。Mapreduce是hadoop的核心计算模式,它可以自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,在数据被分割后通过Map函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce函数的程序将结果汇整,从而输出开发者需要的结果。另外hive,pig,Hbase[10]都大大提高了hadoop的工作效率。由于hadoop自身的可靠、高效、成本低的特性所决定了它在互联网中针对数据处理的现实意义。2.存储技术大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台[11];大数据分析关注在最短时间内处理大量不同类型的数据集。有一个著名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。在云计算课程中,胡春明老师给我们讲解过google的存储器是基于在廉价服务器和普通存储硬盘的基础上进行的扩大计算能力和存储能力,这大大降低了其服务成本;AmazonS3是一种面向Internet的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。AmazonS3[12]提供一个简明的Web服务界面,用户可通过它随时在Web上的任何位置存储和检索的任意大小的数据。此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供99.999999999%的耐久性和99.99%的可用性,并能够承受两个设施中的数据同时丢失。3.虚拟化虚拟化的服务器不仅提高了服务器的利用率,给服务器以容量弹性调整,而且可以避免企业在高峰期的“瘫痪”。但是虚拟化也会带来数据安全性的忧患,应该对于虚拟化技术中数据的共享和隔离予以严格界定。三.实际应用当下,大数据似乎成了万灵药,从总统竞选到奥斯卡颁奖、从web安全到灾难预测,正如那句俗语:“当你手里有了锤子,什么都看上去像钉子。”当IT经理成功部署一套Hadoop系统后,任何事看上去都与大数据有关(事实也是如此)。类似的事情在云计算的普及中也出现过,一开始大家认为所有的IT都可以搬到云端,而现实是我们依然需要虚拟化技术和基础设施。综合大数据白皮书中的应用现状来看,大数据在商业智能、政府服务和市场营销三个领域的应用非常广泛[13,14]。1.商业智能过去几十年,分析师们都依赖来自Hyperion、Microstrategy和Cognos的BI产品[15]分析海量数据并生成报告。数据仓库和BI工具能够很好地回答类似这样的问题:“某某人本季度的销售业绩是多少?”(基于结构化数据),但如果涉及决策和规划方面的问题,由于不能快速处理非结构化数据,传统的BI会非常吃力和昂贵。大多数传统BI工具都受到以下两个方面的局限:首先,它们都是“预设-抓取”工具,由分析师预先确定收集什么数据用于分析。其次,它们都专注于报告“已知的未知”(Knownunknowns),也就是我们知道问题是什么,然后去找答案。(而大数据会给出一些未知的未知,也就是你没有想到的一些问题的结果)传统BI工具主要用于企业运营,侧重于成本控制和计划执行报告。而大数据技术最主要的功能/应用是ETL(Extract、Transform、Load)。将近80%的Hadoop应用都与ETL有关,例如在导入Vertica这样的分析数据库之前对日志文件或传感器数据的处理。今天计算和存储硬件变得非常便宜,配合大量的开源大数据工具,人们可以非常“奢侈”地先抓取大量数据再考虑分析命题。可以说,低廉的计算资源正在改变我们使用数据的方式。此外,处理性能的大幅提高(例如内存计算)使得实时互动分析更加容易实现,而“实时”和“预测”将BI[16]带到了一个新的境界——未知的未知。这也是大数据分析与传统BI之间最大的区别。今天的大数据技术还处于战国时期,未来几年,随着企业间的兼并和新产品的不断推出,BI厂商们将能推出完善的,让CEO感到满意的“大数据套件”,但这并不意味着企业IT经理们的工作将受到威胁。因为正如云计算在理想和现实间达成妥协一样,大数据也会经历类似的发展过程。传统的BI工具将与大数据分析并存。2.公共服务大数据另外一个重大的应用领域是社会和政府。如今,数据挖掘已经能够预测疾病暴发、卫星行驶轨道、地震、交通模型预估、改善教育[17-21]。今天,城市正面临预算超支、基础设施难题以及从农村和郊区涌入的大量人口。这些都是非常紧迫的问题,而城市,也正是大数据计划的绝佳实验室。以纽约这样的大都市为例,政府公共数据公开化、以及市民生活的高度数字化(购物、交通、医疗等)等都是大数据分析的理想对象。客观的市政数据,是消除争端,维系公民社会的最佳纽带。当然,前提是让公民能够访问这些数据。苹果的Siri和谷歌的GoogleNow都具备成为个人化助理的潜力。当然,我们还需要更多的产品和技术让数据分析结果更容易被公众理解和接受(数据可视化)。此外,IBM的Watson以及WolframAlpha这样的人工智能技术还能实现与用户的互动。今天,智能手机(以及Twitter等社交网络)的普及让人类社会首次实现了公民的联网。应用程序商店实时上已经打通了政府和公民之间的应用层面的通道。(例如奥运期间伦敦警察厅发布的iphone通缉程序)。伴随着各国政务的数字化进程,以及政务数据的透明化,公民将能准确了解政府的运作效率。这是不可逆转的历史潮流,同时也是大数据最具潜力的应用领域之一。3.市场营销大数据的第三大应用领域是市场营销。具体来说,是提升消费者与企业之间的关系。(卖得更多、更快、更有效率)今天,最大的数据系统是web分析、广告优化等。今天的数字化营销与传统营销最大的区别就是个性化和精准定位。如今,企业与客户之间的接触点也发生了翻天覆地的变化,从过去的电话和邮件地址,发展到网页、社交媒体账户、博客等等。在这些五花八门的渠道里跟踪客户,将他们的每一次点击、收藏、“顶”、分享、加好友、转发等行为纳入企业的销售漏斗中并转化成收入是一个巨大的挑战。也就是所谓的“360度客户视角”。大数据已经与在线营销交织在一起,其应用可以分为两大类:首先,从线上到线下。配备了NFC近场通讯技术的智能手机和基于位置的签到正在成为营销人员的最新利器。他们将能跟踪商场人流,把在线零售的分析优化应用于线下。其次,数据分析工具将更加容易使用(面向中小企业应用的大数据创业非常火爆),中小企业也许没有BI平台,但他们都有平板电脑和智能手机,移动版客户智能分析将会改变企业使用营销工具的方式。小结综合上述的理论介绍、大数据技术支持、实际应用这三个方向全面介绍了我对大数据的理解,当然由于对于大数据技术的应用不是很精通,因此介绍的比较浅。参考文献:[1]甘绮翠,何为大数据.《销售市场》.2013年01期[2]马建光、姜巍.国防科技大学.大数据的概念、特征及其应用.2013年4月[3]维克托·尔耶·舍恩伯格.《大数据时代:生活、工作与思维的大变革》[4]何非,何克清,《大数据及其科学问题与方法的探讨》[5]SteveLohr.TheAgeofBigData.2012[6]大数据在智慧城市的10大应用[7]中国计算机协会.大数据白皮书2013-12[8](美)怀特.hadoop权威指南.清华大学出版社.2010[9]使用Storm实现实时大数据分析[10]乔治.HBase权威指南.2012[11]甲骨文公司亚太系统事业部高级顾问总监.数据和存储管理在大数据时代的作用.2012[12]11个9的持久性保障亚马逊S3云存储解读[13]BigData:theNextFrontierforInnovation,Competition,andProductivity.McKinseyGlobalInstitute.5,2011[14]曾曦梅、施雯、施国君.《刍议如何应对大数据时代》[15]梅宏.中
本文标题:大数据认识报告
链接地址:https://www.777doc.com/doc-6352741 .html