您好,欢迎访问三七文档
当前位置:首页 > 学术论文 > 其它学术论文 > 移动互联网大数据关键技术
□TELECOMMUNICATIONSNETWORKTECHNOLOGYNo.7DEVELOPINGSTRATEGY七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七发展策略1引言随着智能手机的应用,中国的移动互联网已经步入大数据时代。社交网络逐渐成熟、移动带宽迅速提升,更多的移动终端、传感设备接入网络,产生的数据及其增长速度是前所未有的。新型应用、业务的不断涌现(例如移动支付、移动搜索、移动社交、移动阅读、移动购物、移动音乐视频下载等),其产生的海量数据所带来的价值难以估量,移动互联网大数据对这些新兴产业和业务模式也产生了强有力的几何级数叠加效应。移动互联网大数据分析是针对移动互联网中的海量数据进行分析研究,以揭示其内部隐藏的模式和数据间的相关性。通过获得的有用信息帮助企业和机构,使其对客户的需求和体验、业务的发展具有更丰富、更深刻的理解,帮助其在竞争中取得优势。本文将分析移动互联网大数据处理所面临的挑战,讨论移动互联网大数据处理的关键技术,希望通过对移动互联网大数据高效率、低成本的处理,为用户提供更好的体验,为企业的发展提供指引。2移动互联网大数据的机遇与挑战移动互联网大数据是指用户使用智能终端在移动网络中产生的数据,主要包括:(1)与网络信令、协议、流量等相关的网络信息数据。(2)与用户信息相关的用户数据。(3)与业务相关的数据。移动网络中产生着越来越多的数据,电信运营商在提供网络服务的同时,也拥有了这些宝贵的数据资源。这些数据信息对于市场和业务的发展是极其宝贵的,蕴藏着巨大的、造福社会的潜力。而这些数据是运营商管理网络的基础,很多信息高度个人化,如何合理、有效地发挥这些数据资源的作用,为电信运营商带来了机遇与挑战。2.1移动互联网大数据的机遇移动互联网大数据可以为电信行业提供海量的通信网络运营数据,包括网络信令、网络运营服务质量、亿万用户的基础信息和位置信息、各类应用的使用信息、物联网和视频网络的使用信息等。对这些数据的处理、分析是了解网络运营状态、互联网应用发展趋势和改善客户体验的重要技术。通过大数据分析超越客户支持范畴在整个客户生命周期中帮助客户,能够提升客户体验。大数据分析也是简化网络和服务管理流程,提高运营效率的重要技术。移动客户体验方案结合大数据分析可以提供客户在任何时间、地点、经历了何种体验的完整信息,可移动互联网大数据关键技术金珊上海贝尔软件有限公司研发总监沈蕾上海贝尔软件有限公司技术标准总监王大鹏上海贝尔软件有限公司博士,高级产品经理摘要随着智能终端的普及,移动互联网得到蓬勃发展。其产生维护了海量的数据信息,包括系统的日志、服务质量、服务调用关系、用户的行为、位置、业务使用偏好等。越来越多的数据使得数据量变得过于庞大、内容过于复杂,难以通过传统的方法进行有效地处理。本文将讨论移动互联网大数据处理的关键技术,包括移动互联网的多源数据采集、海量异构数据管理、实时数据挖掘、高效数据分析与呈现等技术。关键词移动互联网大数据海量异构数据存储实时数据挖掘··30《电信网技术》2014年7月第7期发展策略以帮助运营商预期、理解网络上发生的情况和客户体验,同时做出适当响应。这些信息能够帮助服务提应商优先考虑重要的问题,提供积极的技术支持、改善客户体验、减少客户流失倾向。2.2移动互联网大数据面临的挑战移动互联网大数据是网络运营发展和创造新的商业模式和价值的核心。这些数据产生于网上交易、电子邮件、视频、音频、图像、点击流、日志、帖子、搜索查询、健康档案、社交互动、科学数据、传感器和移动电话及其应用。由于数据量规模巨大,传统的技术已经难以撷取、存储、管理、共享、分析,并将结果可视化。这些是移动互联网大数据所面临的挑战。2.2.1多源数据采集问题大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。举例来说,一个用户的一条位置信息的价值是很小的,但是很多这样的低价值数据可以完整刻画出用户的运动轨迹,获得本质上的价值提升。然而,在已有的数据采集系统中,数据收集不全面是一个普遍的问题,如何处理来自多源的数据是移动互联网大数据时代面临的新挑战。其中,迫切需要解决如下几个问题:●无线移动网络结构复杂,需要在网络中高效地采集数据。●多源数据集成和多类型数据集成的技术。●兼顾用户的隐私和数据的所有权和使用权等。2.2.2移动互联网海量异构数据管理问题据统计,2003年前人类共创造了5艾字节(Exabytes)的数据,而今天两天的时间就可以创造如此大量的数据。这些数据大部分是异构数据,有些具有用户标注、有些没有;有些是结构化的(比如数值、符号)、有些是非结构化话的(比如图片、声音);有些时效性强、有些时效性弱;有些价值度高、有些价值度低。移动互联网海量异构数据管理平台包含以下关键研究和技术:海量异构大数据传输控制、大数据存储、大数据质量管理。2.2.3移动互联网大数据实时数据挖掘问题传统意义上的数据分析(Analysis)主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先,利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(OLAP,OnlineAnalyticalProcessing),可以进行多个维度的下钻(Drill-down)或上卷(Roll-up)操作。对于从数据中提炼更深层次的知识的需求促使了数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是,对于移动互联网来说,涉及更多的是多模态数据挖掘,这些数据包括手机上的传感器,包括加速度计、陀螺仪、指南针、GPS、麦克风、摄像头、以及各种无线信号(如GSM、Wi-Fi)和蓝牙等。这些原始数据在不同维度上刻画被感知的对象,需要经过不同层次的加工和提炼才能形成从数据到信息再到知识的飞跃。移动互联网半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。2.2.4高效资源管理与分析问题移动互联网通过物理空间和信息空间的感知互动,高效灵活地为用户提供智慧服务。移动互联网系统存在高度的混杂性特征,诸如终端类型多样、数量巨大,感知属性、特征、控制与处理方法等差异巨大,使得移动互联网的运行场景和待处理因素极为复杂多样。这就对移动互联网的资源可靠性提出了要求,使其需要相应检测方法的研究。支持移动互联网大数据的资源管理是移动互联网运行的基础,为移动互联网大数据的感知、采集、交互、处理和决策提供了重要支撑,因而移动互联网的高效资源管理与分析机理是亟待解决的基础科学问题。在移动互联网中,由于泛在业务的异构性、大规模性与时空复杂性,如何在这样的异构非线性复杂巨型系统中建立基于Web的无限泛在网业务环境体系架构,是目前亟待解决的问题。3移动互联网大数据的关键技术移动互联网大数据的关键技术涉及多源数据采集、海量异构数据管理、实时数据挖掘、高效资源管理与分析等,这些技术的核心是数据的管理、分析和呈现。3.1海量异构数据管理技术移动互联网时刻都在产生海量的多源异构数据。这些数据具有4大特点,第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多,如网络日志、视频、图片、地理位置信息等;第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;第四,处理速度快,1秒定律,即要求在秒级时间范围内给出分析结果,时间太长··31□TELECOMMUNICATIONSNETWORKTECHNOLOGYNo.7就失去了价值。最后这一点也是和传统的数据挖掘技术有着本质的不同。为此,业界将大数据的特点归纳为4个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)。针对这4个特点给海量异构数据的管理带来的挑战,海量异构数据管理需重点关注如图1所示架构中的关键模块,具体有:(1)流处理与批处理模块。(2)异构数据融合与海量数据集成模块。(3)文件系统模块。(4)数据库系统模块。(5)数据管理易用性模块。(6)为数据管理、挖掘、呈现提供接口的数据访问层。针对移动互联网大数据处理的不同要求,数据探测模块可将数据分别送给实时流处理系统和批处理系统。很多互联网公司(如职业社交网站Linkedin)根据处理时间的要求将业务划分为在线(Online)、近线(Nearline)和离线(Offline)。这种划分方式是按处理所耗时间来划分的。其中,在线的处理时间一般在秒级,甚至是毫秒级,通常采用流处理技术。离线的处理时间可以以天为基本单位,基本采用批处理方式,以便最大限度地利用系统I/O。近线的处理时间在分钟级或小时级,对其处理模型并没有特别的要求,可以根据需求灵活选择,实际中多采用批处理模式。流式处理系统主要采用Flume、Kafka、Storm的系统架构,数据处理后存入数据库系统,并向数据访问层提供数据服务。其特点是具备实时处理能力。批处理系统,是首先将数据进行存储,再进行计算和处理,在某些场景下时延较大。其存储系统可选用HDFS或HBase,对于冷数据可采取存入GlusterFS的策略,以降低成本。常用的批处理系统通过ETL(ExtractionTransformationLoading),即数据的提取、转换和加载,然后利用OLAP(On-LineAnalyticalProcessing)技术对多维异构数据进行建模分析,也可以进行更复杂的数据模型的建立。Hadoop批处理系统里面具体可利用组件包括最常用的MapReduce,以及Hive、Impala、Shark等SQLonHadoop,这些组件的灵活使用可以给下一层的数据挖掘模块提供丰富的统一的结构化数据基础。随着移动互联网大数据处理技术的发展,相关技术也在不断地发展和演进中。如高效的分布式计算系统Spark,将中间数据存放在内存中,提高迭代运算效率,支持实时批计算。Pregel计算模型,用于解决分布式图计算问题,绘制大量网上信息间的“图形数据库”,如网页链接关系和社交关系图等。数据访问层重要的功能是抽取下层处理的结果数据,屏蔽下层处理的复杂性,通过某种接口(如RestfulAPI)提供给前端应用接口进行展现,开发应用、提供服务。3.2实时数据挖掘技术移动互联网大数据纷繁复杂,对不同的使用目的,有不同的实时数据挖掘技术。图2关注运营商对网络的维护和业务推广两个重要功能,对无线网络数据挖掘技术和应用数据挖掘技术进行了分析。3.2.1无线网络数据挖掘技术随着移动网络的发展,网络结构变得比较复杂,体现在网元多、多种无线技术同时存在、网络故障诊断困难、干扰用户体验的因素很多等方面。无线网络数据图1移动互联网大数据处理架构图DEVELOPINGSTRATEGY··32《电信网技术》2014年7月第7期挖掘模块,根据对无线网络的理解,以及网络中能够产生的各类日志文件、信令采集系统、计费信息、用户签约信息等系统,综合大数据分析,通过统计和数据挖掘,生成报表,并对外提供数据分析能力、开放API。具体可以提供的信息包括:(1)网络分析:包括全网的流量分析、会话和告警分析、漫游分析、网络的使用变化趋势分析、网络性能KPI分析。(2)网元分析:包括网元对比分析、网元组对比分析、网元时间变化趋势分析、全网Cell累计分布分析和RNC性能负载分析。(3)终端分析:终端设备使用趋势分析、终端设备每天小时时段变化趋势的分析、终端设备的性能指标分析等。(4)用户分析:用户比较分析、无线共享路由用户对比分析、无线共享路由用户的资源使用、无线共享路由用户的设备型号/操作系统构成分析、用户组的比较分析、全网用户累积分布分析、单用户时间变化趋势分析等。(5)应用分析:应用业务使用趋势分析、应用业务每天小时时段趋势变化分析、指定终端设备类型上的TopN应用业务分析、应用业务性能分析、应用业务系统分组的性能KPI分析、应用业务组使用趋势分析、应用业务组每天小时时段趋势变化分析。(6)其他组合分析
本文标题:移动互联网大数据关键技术
链接地址:https://www.777doc.com/doc-8694018 .html