您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 大数据在移动用户上网记录查询中的
研究与开发Research&Development29大数据在移动用户上网记录查询中的应用研究引言随着移动智能终端的普及和3G网络的部署运营,移动用户上网流量高速增长,随之产生的数据流量争议和投诉也不断上升。以中国联通为例,2011年各省分公司3G客户数据流量问题争议占3G业务投诉的比例达7~11%,且呈现上升趋势,如图1所示,个别省分比例高达20%。232221:98763122/23122/33122/43122/53122/63122/73122/93122/88/9:/922/39/::/59/48/:8/4ຕୁଉኛᅱԲ૩0&图13G客户数据流量争议占投诉比例(数据来源:中国联通客户服务部)数据流量争议主要来自用户对数据流量计费不认可,占比达到95%。主要原因如下。1)移动用户对智能手机上网行为和流量计费方式不了解,主观认为自己未使用或使用较少数据流量。在语音时代,手机用户打多长时间电话、发几条短信,是可以直观感知的,能够做到“心中有数”。而在数据时代,流量“看不见,摸不着”,用户对流量计量单位(千字节,KB)难以直观理解,更无法预知每次业务使用的流量,流量消费充满不确定性。再者,有些数据流量的产生并非来自用户的主动行为,如软件自动更新、数据自动同步、应用后台推送等。因此,消费者难免对流量消费有“雾里看花”的感觉[1]。2)运营商无法提供流量详单。语音时代,运营商可以提供语音和短信详单,明确告知用户在何时、与何人进行了通信行为,发生时间和使用时长多少,用户可以做到“明明白白消费”。而在数据消费时代,运营商提供的数据流量话单无法做到这一点。运营商计费系统主要依赖于GGSN产生的G-CDR进行流量计费[2],如图2所示。计费话单的产生规则是:用户上网流量累计到一定限度(如5MB),或者达到一定时长(如30分钟)、或者PDP去激活时生成一条话单。内容包括:手机用户的IMSI、手机用户的MSISDN、当前GGSN的IP地址、GGSN的代号、PDP上下文的计费标识、APN的网络标识部分、PDP类型、数据流量(上行流量、下行流量)、王志军黄文良中国联通研究院北京100032摘 要在移动互联网时代,提供移动用户上网记录详单是解决流量计费“雾里看花”问题的必然要求。而上网记录详单数据是典型的“大数据”,传统技术架构设计模式已不再适用。文章分析当前主流的大数据处理技术,对其在移动用户上网记录查询系统中的应用进行研究。通过搭建以上网记录数据为核心的大数据平台,为数据挖据分析奠定基础。关键词上网记录;大数据;数据采集;数据存储;移动用户上网记录查询基金项目:新一代宽带无线移动通信网国家科技重大专项资助项目(课题编号:2012ZX03002022、2012ZX03002009)研究与开发Research&Development30话单的持续时长、记录过程中使用的SGSNPLMN标识(MCC及MNC)等,并不包含用户访问的地址(网址)信息。由此可见,流量话单不是流量详单,即它只能告诉用户一段时间内产生了多少流量,而无法告知用户到底因为什么而产生了流量。THTOHHTOHoVUSBODHHbऺݯဣཥJoufsofuHj图2数据计费话单生成作为运营商,解决流量计费“雾里看花”的问题,就是不仅要向消费者提供累计使用的流量,还必须提供流量花费的详细清单,即上网记录详单(FlowDetailRecord,FDR)。这不仅有助于减少消费纠纷,也是运营商改进管理的内在要求。1移动用户上网记录是典型的大数据1.1上网记录详单提供用户上网记录详单,就是要提供用户每一次网络访问的时间、位置、源地址、目的地址、网址信息(URL)、流量大小、使用的终端以及软件客户端等。但在存储和处理上网记录数据时,却带来技术上的极大挑战:上网记录详单数据量非常庞大。以中国联通为例,每月的上网记录数已超过2万亿条,是目前运营商所有计费数据的30倍以上,并且以每月7%的速度递增。数据规模之所以如此庞大,是因为:1)详单是用户(终端)所有上网行为的记录。对于智能手机用户,一次简单的上网行为,就会产生几十条甚至上百条不同流向的记录。举例来说,用户在终端浏览器中访问新浪网首页(),将会产生约20个HTTP请求,再加上域名解析请求,一次访问将会生成至少24条上网记录。还有,当前智能终端普遍永久在线(AlwaysOnline),并且存在大量永久在线类应用,如微信等。这类终端和应用,即使用户不在使用,也会产生大量的后台访问,包括心跳消息,通知消息等,这都会生成记录;因此,一个用户每月的上网记录通常有几万、几十万甚至上百万条之多。2)用户规模大。截至2013年6月,中国联通移动用户总规模达到2.6亿,其中3G用户已突破1亿。3)上网记录包含的信息字段多,包括手机号码、位置区编码、基站编码、终端设备标识(IMEI)、流量类型、开始时间、结束时间、上行流量、下行流量、访问的网络类型、终端IP、目的IP、状态码、用户代理(UserAgent)、APN、IMSI、SGSNIP、GGSNIP、内容类型(Content-Type)、源端口、目的端口、访问URL等。根据实际测算,采用文本方式存储上述信息平均需要近300个字节。以当前每月上网记录2万亿条计算,中国联通一个月就需要近546TB的存储容量。面对如此大规模的数据,运营商传统采用的IOE(IBM+Oracle+EMC2)架构设计模式,即为了追求高性能而采用高端计算处理设备——小型机(以IBM为代表)、为了满足数据存储和处理需要而采用商用关系型数据库(以Oracle为代表)、为了满足数据高可靠快速读写需要而采用高端磁盘阵列存储设备(以EMC2为代表),将不再适用。原因如下:1)关系数据库查询性能随数据量的增加呈现指数级下降;2)关系数据库插入性能由于索引更新的关系,也随数据量的增加呈指数级下降。实验数据表明,采用传统关系型数据库,当数据量增大时,查询统计延时呈指数增加。图3中采用关系数据库存放实验数据,运行较复杂SQLSelect语句(包含GroupBy和较多过滤条件),当数据量达到500GB时,查询延时达到3000秒(50分钟);当数据量更大时,关系数据库系统已经变得不可用。即使采用分区和索引方式优化后,时间能减少到1700秒(接近30分钟),但是随着数据量的增加,延时仍呈现指数级增加(如图3中SQLIdx曲线所示)。也就是说关系数据库已经无法扩展,无法胜任海量数据处理工作。以中国联通在某省分公司建设的系统为例,在一个中等用户规模的省分公司,通过关系型数据库对移动用户一个月的上网数据进行检索,等待时间至少超过半个小时。由此可见,上网记录数据已经“大到传统数据库无研究与开发Research&Development31法处理”,而这正符合大数据的定义。Ujnf!jo!tfdpoet!4611411136113111261121116111Rvfsz!fyfdvujpo!qfsgpsnbodf!ֱკኴႜႠీKbwb!71!OpeftQfsm!23!OpeftKbwb!23!OpeftTRM!GmbuTRM!Jey6724:38851662673:845948Ebubtfu!Tj{f0HC้क़0௱ຕणڦٷၭ0HC图3关系型数据库查询性能(数据来源:英特尔亚太研发有限公司)1.2大数据大数据是指无法在可接受的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合[3]。大数据首先体现在数据规模“大”上:以目前技术看,单一数据集的规模至少应该在TB级以上;其次,大数据超过传统数据库系统处理能力,不再适宜用传统数据库管理工具来进行分析处理。因此,运营商要向用户提供上网记录详单,首先面临的挑战是必须跳出传统技术架构设计模式、寻找新的处理技术。2大数据处理技术在大数据处理技术方面,谷歌(Google)无疑是业界的先驱和领先者。谷歌分别于2003、2004和2006年发表了《Google文件系统》(TheGoogleFileSystem)[4]、《MapReduce:大集群上的简化数据处理》(MapReduce:SimplifiedDataProcessingonLargeClusters)[5]、《大表:一个分布式的结构化数据存储系统》(Bigtable:ADistributedStorageSystemforStructuredData)[6]三篇论文,分别描述一个可以部署在数千台普通配置计算机上面向大规模数据密集型应用的可伸缩分布式文件系统、一个并行化处理和生成超大数据集的算法模型和一个适用于PB级海量数据的分布式结构化数据存储系统,解决了大数据存储和高效处理的三大难题。Hadoop是一个分布式系统基础架构,由Apache基金会开发[7]。作为一个开源软件系统,它源于上述谷歌三篇论文,可以说是谷歌三篇论文的开源实现。Hadoop已经成为大数据处理领域应用最广泛的技术之一,图4描述了其主要组件。ݴք๕࿔ॲဣཥ;IEGTݴք๕ຕੰ;ICbtfݴք๕ऺ໙ॐǖNbqSfevdfຕୁت;Qjhຕ֞ੰ;Ijwfຕྌਢǖຕྌਢ;Nbipvu;[pplffqfs图4Hadoop基本组件1)HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统),对应谷歌的GFS(GoogleFileSystem,谷歌文件系统)。在一个HDFS集群中通常包含一个名字节点(NameNode)和一系列数据节点(DataNode)。HDFS有着高容错性,并且用来部署在低廉的硬件设备之上。它提供高传输率来访问应用程序数据,适合有着超大数据集的应用。2)HBase(HadoopDatabase)是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,对应于谷歌的Bigtable。HBase采用四维表空间设计,横向可以随意扩展。它充分利用底层HDFS的存储特性,可在廉价PC服务器上搭建起大规模结构化存储集群,支持TB到PB级的海量数据存储和高速读写。3)MapReduce是为解决TB、PB级数据处理而开发出的一种编程模式。它提供一个并行处理大数据集的软件框架,是分布式计算的核心。用户首先创建一个Map函数处理基于“键值对(key/valuepair)”的数据集合,输出中间“键值对”集合,然后再创建一个Reduce函数合并所有具有相同中间键值的结果。MapReduce基于这样一个理念:在大数据场景下,移动计算比移动数据更加经济。为此,框架可以让程序自动分布到一个超大集群上并发执行,极大地提升处理效率。研究与开发Research&Development324)Zookeeper是针对大型分布式系统的一个可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。可以用来维护系统配置、群组用户和命名等信息。5)Pig提供一个基于Hadoop的分布式数据分析语言和运行平台。6)Hive是一个分布式数据仓库引擎,可以将数据存放在分布式文件系统或分布式数据库中,并使用类SQL语言进行海量数据统计、查询和分析操作。7)Mahout提供可扩展的机器学习类库,与Hadoop结合后可以提供分布式数据分析功能,帮助开发人员更加方便快捷地创建智能应用程序。Hadoop的优势在于:①使用低成本服务器和存储设备构建高可靠和高容错系统,数据自动复制,并可自我修复;②支持GB到TB级别的大文件;③简化了数据一致性模型,非常适合数据“一次写入,多次读取”的情况;④提供各种结构化和非结构数据存储工具,提供PB级别的存储容量;⑤易于扩展,可动态扩容至数千个节点,满足数据的快速增长需要;⑥负载均衡,能够在节点之间动态移动数据,保证各个节点间的动态平衡;⑦MapReduce为大数据的高效处理提供了可能;⑧提供了一系列工具,方便进行数据分析和挖掘。通过分析移动用户上网记录的数据特性,不难发现,它特别适合采用Hadoop框架进行处理:①上网记录数据规模庞大,是PB级规模数据(目前存储2个月的数据就超过1PB);②上网记录是用户上网过程的日志,不存在
本文标题:大数据在移动用户上网记录查询中的
链接地址:https://www.777doc.com/doc-3527439 .html