您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 关于大数据分析的月总结
关于大数据分析领域的综述报告1现状分析1.1背景介绍理解大数据分析这个专业领域,有必要先了解大数据相比于传统数据形式所具有的不同特征,主要包括以下四点(4V特性):1数据量大。根据互联网数据中心(IDC)的报告显示,目前的数据容量为1.8万亿GB,2020年全球数据总量将超40ZB。数据来源包括以微博为代表的Web数据,Facebook、QQ为代表的社交网络数据,阿里巴巴为代表的电子商务数据,由各类传感器、摄像头采集到的物联网数据,以及来自医疗、制造、金融等传统行业信息化后产生的数据。2数据流动性大,增长迅速,时效性高。最具代表性的就是Web数据和社交网络数据,Facebook每天生成的日志数据达到300TB以上。3数据类型多样化,包括结构化、半结构化、非结构化的数据,根据IDC的报告显示,1.8万亿GB的数据中,非结构化数据占到80~90%之间。4数据价值高密度低。在海量数据中,包含有用信息的数据比例较低。而当我们借助传感器、数据采集设备获得海量数据后,再通过挖掘形成知识,人们还想知道这些数据代表了什么,面对这些数据我们应该采取的应对策略。因此,形成了大数据分析的概念,即:对海量数据进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。大数据代表了信息科技和商业世界的联合,将大数据分析嵌入产品生产和服务的过程已经成为一种趋势。大数据产业在中国的发展主要分为四个过程,如图1所示:X轴Y轴大数据产业在中国逐步受到关注,典型大数据产品及服务纷纷上线。互联网企业大数据率先应用落地。具有数据资产的企业谋求转型市场产品同质化程度加强,各色数据分析厂商借机登场,细分市场涌现。多种商业模式得到市场印证,新产品和服务具有稳定的刚性需求,细分市场走向差异化竞争新的商业模式有待进一步挖掘探索期(2009-2011)市场启动期(2012-2013)高速发展期(2014-至今)图1大数据产业在中国的发展过程目前,我国大数据产业处于高速发展期,多种商业模式得到市场印证,新产品和服务不断推出,细分市场走向差异化竞争。大数据分析带来的直接经济效益也是很可观的。来自麦肯锡2012年大数据报告中的一组数据显示,大数据产业为美国医疗系统带来每年3000亿美元的收益;为欧洲公共管理部门带来2500亿欧元的收益;为零售业增加60%的净利润;为制造业减少50%的产品研发等成本。2015年超过85%的财富500强企业将在大数据竞争中失去优势。据IDC预测,大数据技术与服务市场将从2010年的32亿美元攀升到2015年的169亿美元,实现40%的年增长率(是IT与通信产业增长率的7倍)。大数据应用在全球七大重点领域(教育、交通、消费、电力、资源、大健康及金融)都存在巨大的潜在价值。图2为中国的2011-2016年大数据产业的营收规模,如图所示,大数据产业规模以25%以上的年增长率在快速发展着,预计2016-2018年中国大数据市场规模还将维持40%左右的高速增长。图22011-2016年中国的大数据产业营收规模1.2技术介绍及新挑战1.2.1技术概述及进展从大数据的处理过程来看,分为以下几个步骤:大数据采集、大数据预处理、大数据存储及管理、大数据分析、大数据展现和应用,分布式技术以及非传统关系型的NoSQL数据库技术的发展,能够应对海量数据的存储管理及预处理,这也为后续的数据分析提供了技术支撑。大数据展现和应用则需要借助可视化技术,将数据挖掘结果以一种直观,可理解的方式呈现,并结合应用领域的专业知识,将数据认知,转化为可帮助决策的有用信息。对于本文论述的大数据分析技术,其核心是数据挖掘,数据挖掘是在大型数据存储库中,自动地发现有用信息的过程,发现先前未知的有用模式,还可以预测未来的观测结果,主要表现为对现有数据进行基于各种算法的计算。不同于传统的数据分析技术,数据挖掘算法必须要满足可伸缩性,并具备对高维属性的、大量异种或复杂的数据进行处理的能力,另外,当数据分布于多个机构的资源中,还需要相应地开发分布式的数据挖掘算法。为此,数据挖掘技术吸收了统计学、人工智能、模式识别和机器学习等领域的思想,图3展示了数据挖掘与其他学科之间的关系:37.447.35975.7102137.9020406080100120140160201120122013201420152016大数据产业营收规模(亿人民币)2011-2016年统计学数据挖掘人工智能、机器学习和模式识别数据库技术、并行计算、分布式计算图3数据挖掘汇集的学科知识数据挖掘的任务主要有四类:1.分类和预测,分类是预测分类标号,对已知的训练数据集表现出来的特性,构造相应地分类器,应用比较广泛的分类算法有决策树、贝叶斯分类器、人工神经网络和支持向量机,而预测则是建立连续值函数模型。2.关联分析,其目标是发现数据中强关联特征的模式,著名的关联分析方法有AgrawalR提出的挖掘布尔关联规则频繁项集的Apriori算法,此外还有HanJ等提出的解决Apriori算法缺陷的不产生候选挖掘频繁项集的频繁模式树算法等;3.聚类分析,旨在发现紧密相关的观测值组群,主流的算法有K均值、凝聚层次聚类和DBSCAN,能适用于大数据、处理不同类型数据、发现任意形状的簇、处理高维数据、具有处理噪声的能力和聚类结果可解释、易使用是聚类分析的目标;4.异常检测,任务是识别其特征显著不同于其他数据的观测值。近年来,大数据领域的数据挖掘方面的研究进展主要包括可扩展性、并行性、分布式算法等方面,在大规模数据下,如何保证现有数据挖掘算法的时间和空间复杂度的应用成为研究热点。Canny和Zhao通过全新的算法设计方案提出了BID大数据处理框架;MichaelIJordan等提出“bagoflittlebootstraps”方法解决传统分布式计算和并行计算中存在的问题;KarthikRaman等将大数据上的复杂分析任务分解为一系列的简单任务;此外,社交网络分析和信息网络分析方面,Yang等提出时间序列聚类方法,从Twitter数据中挖掘热门话题发展趋势的规律。1.2.2技术难点当前,在大数据分析领域面临的问题主要有以下几点:1.大数据建模问题。大数据分析处理的是海量数据,过去单个或少数几个模型组合已经不能适应大数据分析的需要,通过构建由众多模型构成的模型库是解决海量数据分析的有效办法。另一方面,随着其他社会因素的变化及其综合影响,大数据环境下人们行为习惯会发生彻底的改变,或者涌现出一些全新的行为特征,因此需要对这些数据进行有效地监测和分析,找出新的共性特征和个性化差异,构建与这些新的数据分析任务相适应的分析模型。2.专业大数据分析工具功能受限于复杂数据结构和数据量。在计算机辅助信息分析的背景下,我们熟知的软件工具有SPSS、SAS和R等,但在信息分析日益专业化和复杂化的今天,这些工具已经不能直接处理人类活动所产生的海量非结构化数据,而随着金融交易大数据、电子商务评论数据、电信服务大数据、医疗健康大数据和科学研究大数据等的长期积累和快速增长,使得目前还没有成熟的数据分析工具能够很好地应对当前人类对大数据分析的需求。3.59%的数据是无效数据,70-85%数据过于复杂,85%企业数据架构无法适应数据量和复杂性增长的需求。4.数据实时处理的要求提高。传统的数据处理都是采取批处理形式,这产生了一定的滞后性。目前没有一个通用的大数据实时处理框架,且各种工具采用的方法不一,支持的应用类型都相对有限,这导致实际应用中往往需要根据自己的业务需求和应用场景对现有的这些技术和工具进行改造才能满足要求。1.2.3行业挑战但是我们也应该清醒地认识到,我国大数据产业也是刚刚起步,从技术上、观念上、法律上等多个层面都需要变革,才能跟上大数据的发展需要。在技术上,要将打造自主可控的技术解决方案作为首要目标。对于企业用户,面临着如何规划技术路线、如何选择商用产品、如何构建和运维大数据平台等问题;对于供应商,面临着紧跟技术趋势、精准对接用户需求的压力。要贯彻供给侧结构性改革的思路,加强供需精准对接,把国内优势技术力量凝聚起来形成合力,突破关键技术,推出满足关键行业重大需求的大数据技术产品体系,以产业实践为基础,形成接地气的大数据标准体系。随着数据挖掘新的应用出现,数据挖掘面临新的挑战。例如,近年来人们对数据挖掘破坏隐私问题的关注逐步上升,在电子商务和卫生保健领域的应用尤其如此。因此,人们对于开发保护用户隐私的数据挖掘算法的兴趣逐步上升。为挖掘加密数据或随机数据而开发的技术称作保护隐私的数据挖掘,相关文献在ACM知识发现与数据挖掘国际会议和IEEE数据挖掘国际会议(ICDM)都有发表。在观念上,要打造跨部门、跨行业分享数据、创造价值的新形式。要在全社会普及数据驱动的决策文化,普及开放共享的发展理念,推动大数据思维理念生根发芽。在制度上,尽快建立适应大数据发展形势的政策法律法规制度体系。目前,我国数据采集、开放、交易等方面的法律法规仍不健全,在企业开放数据和数据的商业化流通中,普遍面临着隐私保护、数据安全、数据清洗等方面的问题,一定程度上制约了基于数据的业务发展。在法律和监管体系逐步完善的过程中,要依托行业组织推进数据流通行业自律,引导大数据流通应用规范发展。下一步要做的是必须明确大数据资源的权属问题,有效保护数据资产价值;同时还要建立对数据安全保护不利和泄露隐私的惩处机制,有效推动产业联盟、各级协会的行业自律作用。为了推进大数据产业发展中数据安全保护的标准化与规范化,需要全行业参与,制定并签约相应的公约。另外,大数据产品和服务采购进入爆发期,国务院出台的《促进大数据发展行动纲要》指出,缺乏顶层设计和统筹规划是我国大数据发展和应用存在的待解难题之一。1.3应用领域图4展示的是大数据在全球七大重点领域的潜在应用价值,预计在32200-53900亿美元之间,其中占据前三的分别是教育、交通、消费行业。图4大数据在全球七大重点领域的潜在应用价值我国大数据的行业应用正在逐步深化,展现出广阔前景。我国互联网、电信、金融和医疗等企业已经将发展的重点转向数据资源挖掘和应用。大型互联网企业已将大数据应用于网络社交、电商、广告、搜索等业务中,探索出新的商业模式盈利增长点。电信、金融等行业基于大数据推出了风险防控、信用评价等应用,保障企业的正常运营,全社会形成了大数据应用发展的良好氛围。图5为中国大数据市场行业契合度及应用可能分析,图6为市场集中度与成熟度分析,应用可行度应用契合度金融通信零售医疗政府旅游两个维度暂时都不具备优势,可适当给予关注优先关注行业,应用特点与云计算技术有较高的契合度,在主客观条件上也有较高的应用可能性值得关注行业,应用特点与云计算的契合度及应用可能性综合较高图5中国大数据市场行业契合度及应用可能分析市场成熟度市场集中度通信零售金融旅游医疗政府市场影响力大创新与成长机会多图6中国大数据市场集中度与成熟度分析020040060080010001200教育交通消费电力能源大健康金融单位:十亿美元大数据在消费领域的应用主要集中在用户、市场、产品、供应链、运营五个方面,如图7所示,用户市场产品供应链运营用户洞察客户细分增强体验精准营销市场响应销售分析分销渠道产品分析购物检测用户产品创新仓库管理供应链提效数据化管理核心资产分析图7大数据在消费领域的应用大数据在金融领域的应用主要包括支付结算(第三方支付)、网络融资(P2P网贷、众筹融资、电商小贷)、平台金融(平台金融、供应链金融、金融系电商)、渠道创新(传统电子渠道、金融超市、搜索与金融门户、直销银行)、产品创新(余额理财、无抵押贷款)、虚拟货币,图8展示了中国金融行业大数据应用投资结构,图8应用投资结构下图展示了大数据产业市场主体,三者之间的角色也在互相渗透,都推出了自己的大数据分析平台。大数据在工业领域的应用主要包括加速产品创新,产品故障诊断与预测,工业物联网生产线的大数据应用,工业供应链的分析与优化,产品销售预测与需求管理,生产计划与排程,产品质量管理与分析,工业污染与环保监测。大数据在医疗领域的应用主要的应用场景包
本文标题:关于大数据分析的月总结
链接地址:https://www.777doc.com/doc-2668506 .html