您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 大数据--下一个创新、竞争和生产力的前沿
‐ 1 ‐ 同步跟踪国外工业和信息化最新动向2012年6月18日第25期总第57期内部资料大数据:下一个创新、竞争和生产力的前沿 【译者按】为深入了解大数据技术特点,更好把握大数据应用的发展趋势,继上期刊登美国总统办事机构今年4月公布的《美国联邦政府大数据研发计划》之后,本期《赛迪译丛》特别刊载由世界著名咨询机构麦肯锡公司于2011年5月发布的《大数据:下一个创新、竞争和生产力的前沿》报告。作为从经济和商业维度诠释大数据发展潜力的第一份专题研究成果,该报告系统阐述了大数据概念,详细列举了大数据的核心技术,深入分析了大数据在不同行业的应用,明确提出了政府和企业决策者应对大数据发展的策略。赛迪智库软件与信息服务业研究所对这份专题报告进行了编译,希望能为我国政府相关部门提供决策参考。赛迪译丛 ‐ 2 ‐ 麦肯锡认为,“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。目前,大数据的一般范围是从几个TB到数个PB(数千TB)。大数据可以发挥重要的经济作用,不但有利于私人商业活动,也有利于国民经济和公民。数据可以为世界经济创造重要价值,提高企业和公共部门的生产率和竞争力,并为消费者创造大量的经济剩余。例如,如果能够富有创造性而有效地利用大数据来提高效率和质量,预计美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元,能够使得美国医疗卫生支出降低超过8%;充分利用大数据的零售商有可能将其经营利润提高60%以上;通过利用大数据实现政府行政管理方面的运作效率提高,估计欧洲发达经济体可以节省开支超过1000亿欧元(这其中尚不包括可以用来减少欺诈、错误以及税差的影响作用)。麦肯锡认为,随着人们存储、汇聚和组合数据然后利 ‐ 3 ‐ 用其结果进行深入分析的能力超过以往,随着越来越尖端技术的软件与不断提高的计算能力相结合,从数据中提取洞见的能力也在显著提高。麦肯锡对大数据的具体研究成果可以归纳为5个方面。第一章全球数据现状及发展趋势当前大数据规模以及其存储容量正在迅速增长,大数据已经渗透到各个行业和业务职能领域,成为重要的生产因素,大数据的演进将与生产力的提高有着直接的关系。(一)数据量呈现指数级增长不同机构的研究成果都表明,未来数年全球数据总量将会呈现指数性增长。麦肯锡估计,全球企业2010年硬盘上存储了超过7EB(1EB等于10亿GB,相当于美国国会图书馆中存储数据的4000多倍)的新数据,消费者在个人电脑等设备上存储了超过6EB的新数据。(二)不同行业的大数据强度和内容各有不同各个行业都呈现大数据增长的现象,但不同行业数据存储量有所不同,数据产生和存储的类型在不同行业之间也有所区别。证券、投资服务以及银行等金融服务领域拥 ‐ 4 ‐ 有最高的平均数字化数据存储量,通信和媒体公司、公共事业公司以及政府等企业和组织也有规模显著的数字化数据存储。这些数据强度高的行业更加具有通过大数据来创造价值的潜力。(三)现有趋势将继续推动数据增长在各部门和地区之间,企业正在加快收集数据的步伐,推动了传统的事务数据库的增长;医疗卫生等面向消费者的行业中,多媒体的广泛使用刺激了大数据的持续扩张;社交媒体的广泛普及以及物联网中应用的不断创新都进一步推动了大数据不断增长……这些相互交叉的动力刺激了数据的增长,并将继续推动数据池的迅速扩张。(四)大数据是继传统IT之后下一个提高生产率的技术前沿只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以及创造消费者盈余的关键要素。医疗卫生行业,能够利用大数据避免过度治疗、减少错误治疗和重复治疗,从而降低系统成本、提高工作效率, ‐ 5 ‐ 改进和提升治疗质量;公共管理领域,能够利用大数据有效推动税收工作开展,提高教育部门和就业部门的服务效率;零售业领域,通过在供应链和业务方面使用大数据,能够改善和提高整个行业的效率;市场和营销领域,能够利用大数据帮助消费者在更合理的价格范围内找到更合适的产品以满足自身的需求,提高附加值。如今,数据已经成为可以与物质资产和人力资本相提并论的重要的生产要素。伴随着多媒体、社会媒体以及物联网的发展,企业将收集更多的信息,从而带来数据呈现指数级的增长。大数据在同时为商业和消费者创造价值方面具有巨大的发展潜力。第二章大数据的关键技术从大数据中挖掘更多的价值,需要运用灵活的、多学科的方法。目前,源于统计学、计算机科学、应用数学和经济学等领域的技术已经开发并应用于整合、处理、分析和形象化大数据。一些面向规模较小、种类较少的数据开发的技术,也被成功应用于更多元的大规模的数据集。依靠分析大数据来预测在线业务的企业已经并持续自主开 ‐ 6 ‐ 发相关技术和工具。随着大数据的不断发展,新的方法和工具正不断被开发。(一)可用于大数据分析的关键技术可用于大数据分析的关键技术源于统计学和计算机科学等多个学科,其中关于分析新数据集方法的研究仍在继续。需要注意的是,A/B测试、回归分析等技术也可应用于小数据集分析。麦肯锡认为,可用于大数据分析的关键技术主要包括A/B测试、关联规则挖掘、分类、数据聚类、众包、数据融合和集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、神经分析、优化、模式识别、预测模型、回归、情绪分析、信号处理、空间分析、统计、监督式学习、无监督式学习、模拟、时间序列分析、时间序列预测模型、可视化技术等(见表1)。 ‐ 7 ‐ 表1.可用于大数据分析的关键技术名称定义示例备注A/B测试也称为分离测试或水桶测试。通过对比测试群体,确定哪种方案能提高目标变量的技术。确定何种的标题、布局、图像或颜色可以提高电子商务网站的转化率。大数据可以使大量的测试被执行和分析,保证这个群体有足够的规模来检测控制组和治疗组之间有意义的区别。关联规则挖掘发现大数据仓库中变量之间的关系的一组技术。这些技术包含多种算法来生成和测试可能的规则。市场购物篮分析,零售商可以确定哪些产品是经常一起销售的,并使用这些信息进行营销。典型的例子就是发现,很多超市的顾客在买尿布的同时也会买啤酒分类在已确定分类的基础上,识别新的数据点属于哪种类别的一组技术。对特定客户行为的预测(例如购买决策、流失率、消费率等),有一个明确的假设或客观的结果。这些技术被经常描述为监督式学习,因为有一个训练集的存在,他们与聚类分析形成对比,聚类分析是一类无监督学习。数据聚类划分对象的统计学方法,将不同的集群划分成有相似属性的小群体,而这些相似属性是预先未知的。将客户划分成几个自相似性的群体以进行针对性的营销。是一种没有使用训练数据的无监督学习。众包用来收集数据的技术,这些数据是由大规模群体或组织公开征集,通过网络媒体提交的。这是一种大规模协作和使用Web2.0的一个实例。 ‐ 8 ‐ 名称定义示例备注数据融合和集成集成和分析多个来源数据的技术,比分析单一来源数据更能获得高效、可能更精确的结果。从网络采集的数据经过整合对复杂的分发系统的表现,比如炼油。将来自社会媒体的数据,经过自然语言处理,可以结合实时地销售数据,以确定营销行为对顾客的情绪和购买行为的影响。数据挖掘结合数据库管理的统计和机器学习方法从大数据集提取模式的技术。包括关联规则学习、聚类分析、分类和回归。挖掘客户数据以确定最可能获得订单的客户群,挖掘人力资源数据以识别最能干的员工,或市场购物篮分析来模拟客户的购买行为。集成学习通过多个预测模型(均通过使用统计数据或机器学习开发),以取得比任何成分模型更好的预测效果。一种监督式学习。遗传算法通过模拟自然进化或适者生存过程的搜索最优解的技术。改善作业调度、优化投资组合等。作为进化算法的一种类型,这些算法非常适合求解非线性问题。机器学习有关设计和开发算法的计算机科学(曾被称为“人工智能”),允许电脑基于经验数据进化。自然语言处理。机器学习最主要的一个研究重点是自动学会识别复杂的模式,并基于数据作出明确的决定。自然语言处理使用计算机算法来分析自然语言的一组技术。使用社交媒体的情绪分析,以判断潜在客户对一个品牌活动的反应。大多数自然语言处理技术是机器学习的一类。 ‐ 9 ‐ 名称定义示例备注神经网络通过生物神经网络的结构和运作(即脑细胞和内连接)的启发发现数据模式的计算模型识别高价值客户离开公司的风险以及识别欺诈性保险理赔。神经网络非常适用于发现非线性模型。它可用来做模式识别和优化。一些神经网络的应用涉及监督式学习和非监督式学习。神经分析用来描述图中或网络中的离散节点关系的技术。识别最有影响力的营销目标,或识别企业信息流的瓶颈。在社会网络分析中,群体或组织中单个个体之间的关系优化用来重新设计复杂的系统和流程,依据一个或多个目标措施(例如成本、速度或可靠性)来改善其表现的数值方法组合。改善业务流程,例如调度、路由和地板格局,并做出决策,如产品范围策略、挂钩投资分析和研发组合策略。遗传算法就是优化技术的一种。模式识别依照一种特定的算法给某种产值(或标签)分配给定的输入值(或实例)的机器学习技术。分类技术属于这种类型预测模型通过建立或选择一个数学模型得出最好预测结果的技术。在客户关系管理中的一个应用:通过预测模型估计客户会流失的可能性或者客户被交叉销售其他产品的可能性。回归就是预测模型中的一种。回归确定当一个或多个自变量变化时因变量变化的程度的统计技术。基于不同的市场和经济变量或最能影响客户满意度的制造业参数,来预测销售规模。用于数据挖掘,经常用来预测。 ‐ 10 ‐ 名称定义示例备注情绪分析自然语言处理和其他分析技术的应用,用于从文字材料识别和提取主观信息。企业通过情绪分析来分析社会媒体(如博客、微博和社交网络)确定不同的客户群,以及股东对他们产品和行为的反应。分析的内容主要包括特征识别或有关表达情感的产品,并确定属于正面或负面或中性的类型以及强度。空间分析源于分析拓扑、几何、地理数据的统计技术。空间数据的空间回归(例如消费者是否愿意购买与位置相关的产品)或模拟(例如如何将制造业的供应链网络与不同的地理位置结合起来)。空间分析的数据经常源于地理信息系统(GIS),采集的数据包括位置信息,如地址或纬度/经度坐标。统计收集、组织和说明数据的科学,包括设计调查和实验。通过A/B测试判断哪种类型的营销材料会最快增加收入。统计技术经常用于判断变量之间发生关系的概率(“零假设”),以及潜在因果关系推测变量之间的关系(如统计学意义)。统计学技术同样用于降低I类型(误报)和II类型(假阴性)错误的可能性。监督式学习从一组训练数据集推断一个函数或关系的机器学习技术。分类和支持向量机。无监督式学习用于找到未标记数据中的隐形结构的机器学习技术。聚类分析属于无监督式学习。 ‐ 11 ‐ 名称定义示例备注模拟为复杂系统的行为建模,常用于预测和情境规划。估计不同措施在不确定情况下满足财务目标的可能性。例如,蒙特卡罗模拟,是一类依赖重复随机抽样,其结果是给出一个结果的概率分布的直方图。时间序列分析组源于统计数据和信号处理的技术,从一组连续的时间值代表的数据点提取有用的信息。股票市场指数的时间价值或每天特定条件下治疗的患者数。时间序列预测模型利用过去相同或其他系列的时间序列值来预测未来的模型。预测销售规模或传染性病人就诊的数量。包括结构建模、分解成一系列的趋势,季节性和剩余组件,可以用于识别数据的周期性模式。(二)专门用于处理大数据的关键技术麦肯锡认为,可专门用于整合、处理、管理和分析大数据的关键技术主要包括BigTable、商业智能、云计算、Cassandra、数据仓库、数据集市、分布式系统、Dynamo、GFS、Hadoop、HBase、MapReduce、Mashup、元数据、非关系型数据库、关系型数据库、R语言、结构化数据、非结构化数据、半结构化数据、SQL、流处理、可视化技术等。 ‐ 12 ‐ (三)可视化技术麦肯锡认为,可视化技术是大数据应用
本文标题:大数据--下一个创新、竞争和生产力的前沿
链接地址:https://www.777doc.com/doc-468595 .html