您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > BIG-DATA及互联网行为分析方案培训
BI系统应对BIGDATA方法及互联网行为分析技术方案电信运营商定位于“智能管道”在移动互联网的大势所趋下,如何摆脱沦为单纯的“数据传送管道”角色,如何依靠基础网络挖掘更多的价值,是摆在所有网络运营商面前的一道难题。要扭转这一局面,网络运营商必须转变过去简单粗放型的网络经营方式。近年来,全球主要电信业领袖和专家都呼吁,运营商构建“智能管道”已刻不容缓。既然智能管道是必不可少的,那么智能管道是什么样的?简单来说,智能管道就是要做到用户可识别、业务可区分、流量可调控、网络可管理,而且能够承载丰富的应用。因此,我们需要将现有的互联网访问数据、增值业务使用信息加以整合,充分发挥数据价值,通过对数据的理解整体把握自有产品、业务发展情况,并掌握用户差异化的使用行为习惯。用于指导产品创新、营销维系活动等方面。BIGDATA的定义数据结构的多样化,不仅包含关系型数据而且包含日志,原始文本等半结构化和非结构化数据流数据和大容量数据的移动TB级扩增到ZB级Variety:Velocity:Volume:Gartner定义:BigData是指由于数据量巨大,已经不能被现有软件系统在可以容忍的时限内,及时获取、管理、处理的数据集在原有oracle数据库外,需新增分析型数据库与非关系型数据库分析型数据库分析型数据库分析型数据库分析型数据库通用型数据库通用型数据库通用型数据库通用型数据库非关系型非关系型非关系型非关系型数据库数据库数据库数据库电信级BIGDATA开始被关注──处理面临挑战DataAnalytics,DataOperations&ModelBuildingDatabase&WarehouseAt-RestDataAnalyticsTraditional/RelationalDataSourcesTraditional/RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesTraditional/RelationalDataSourcesTraditional/RelationalDataSourcesInternetScale传统数据仓库实时数据互联网非结构化数据市场、客户、产品分析等网络状态实时分析和监控客户洞察分析BillingCRMLocation10000CDRsNetworkDevicesInternetBlogs,e-Mail开始关注互联网日志数据和互联网站内容数据处理速度要求更快存储容量要求更高网络带宽要求更高传统数据仓库无法满足存储和处理的要求集团《增值业务及互联网数据整合规范》-----数据视图原文:有条件省份,要求在2012年完成移动互联网数据的整合,同时启动宽带上网数据整合,2013年完成宽带数据整合。无条件的省要保证2012年完成移动互联网数据的整合。集团《增值业务及互联网数据整合规范》--数据接口范围●4.1数据接口20●4.1.1增值业务数据20●4.1.1.1天翼视讯20●4.1.1.2天翼阅读22●4.1.1.3天翼空间24●4.1.1.4爱音乐25●4.1.1.5爱游戏27●4.1.1.6爱动漫29●4.1.1.7VSOP31●4.1.1.8爱优惠32●4.1.1.9天翼导航33●4.1.1.10168声讯34●4.1.2互联网行为数据35●4.1.2.1宽带上网36●4.1.2.2手机上网36●4.1.2.3互联星空37●4.1.2.4ITV38●4.1.2.5网上营业厅40●4.1.2.6网址和分类数据42●4.1.●4.1.3手机终端数据44●4.1.3.1终端自注册平台44●4.1.4号百业务数据47●4.1.4.1114平台47●4.1.5行业应用数据48●4.1.5.1协同通讯48●4.1.5.2翼机通50●4.1.6移动位置数据52●4.1.6.1核心网网管52●4.1.6.2无线网管52集团《增值业务及互联网数据整合规范》--总体架构承载BigData的EDA系统新数据架构EDA业务网管ODS明细数据计费、CRM等BSS,OSS系统EDW基础数据层(小型机)EDW基础数据层(oracle或一体机)数据服务总线门户平台元数据数据质量决策分析专题分析客户洞察系统增值业务及互联网分析自助分析平台全业务详单查询库计费互联网行为数据(hadoop)直客户洞察集市(Oracle/GP)决策视窗一线看数增值业务及互联网数据集市指标层固定报表专题分析聚焦财务集团上传临时统计(小型机)(小型机)手机门户大纲●互联网行为分析业务目标和定位●业务目标●在EDA中的定位●互联网行为分析业务架构及技术架构●互联网行为分析平台开发最新进展业务目标1-面向前端市场支撑分析只有深入的了解客户,才能精确的掌握用户信息和当前所需,才能做到“想之所想,急之所急”,从而赢得客户。只有全方位剖析产品和市场,才能全面洞悉并获取最真实的信息反馈,才能真切掌握电信主体业务和自身品牌优缺点,从而以取长补短、不断创新的方式去把握住市场。让自己在市场中处于领先地位。互联网行为系统将全方位提升市场和业务分析能力。用户营销市场产品业务分析支撑服务业务用户群归类管理用户群归类管理用户行为透视用户行为透视客户流失预分析客户流失预分析提高用户特征精确度提高用户特征精确度提供数据服务提供数据服务产品改良与竞争分析产品改良与竞争分析促进主体业务发展促进主体业务发展推动携号转网等业务推动携号转网等业务业务目标2-面向行业分析和后向运营价值提升语言资费不断下调,以及移动正逐步代替固网,运营商对于行业合作的重视程度达到了前所未有的高度,行业客户作为稀缺资源,运营商之间为其争夺也是趋向于白热化。所以如果为行业用户提供更好的营销及企业信息化服务将成为较量的核心,所以必须切实掌握行业客户需求和变化趋势,以提供“一站式”全业务解决方案,提供权威的行业报告和行业资讯服务,改善行业运营模式,提升后向价值!打造综合信息化商城提供全业务咨询服务提供营销解决方案为行业用户分析品牌关注度;为其挖掘其潜在客户;提供关注度差异分析;提供广告投放、广告增收等营销方案。分析用户访问(号码百事通)行为,获取客户类型及需求信息,为其挖掘潜在客户。分析后向客户关注度等,提供宣传及业务改良等营销方案;从而提高“号百”品牌影响力!吸收更多合作伙伴!提升后向运营价值,打造权威的综合信息服务化商城。获取不同行业的个性化应用和移动化、信息化需求;提供服务提供商业务产品创新改良的方案等;提供行业报告和行业资讯服务利用电信自身的优势资源,为行业及合作商提供全业务解决方案。业务目标3-促进网络服务质量分析系统将全方位分析异常行为、业务热点及发展趋势等互联网全业务资源分析,为营销决策人员在全局网络监管、业务健康运营、热点业务推荐提供权威的营销决策支撑监测高流量区域监测高流量区域监测高流量区域监测高流量区域为网络维护部门提供扩为网络维护部门提供扩为网络维护部门提供扩为网络维护部门提供扩容决策支撑容决策支撑容决策支撑容决策支撑非法站点监控非法站点监控非法站点监控非法站点监控业务热点评估业务热点评估业务热点评估业务热点评估业务关注度分析业务关注度分析业务关注度分析业务关注度分析支撑运营监管部门保证支撑运营监管部门保证支撑运营监管部门保证支撑运营监管部门保证网络健康运营网络健康运营网络健康运营网络健康运营决策支撑决策支撑决策支撑决策支撑信息流:1.,收集URL;2.从Int网页分词、建立站点树;3.萃取出用户与行业、专业关系;4.收集搜索关键字,建立用户与行业及专业的关系;5.依据客户与各行业和专业的关系,提供给三类应用业务流与数据流-14URL搜索关键字流量经营各行业分析网络质量分析客户行为与行业、专业的关系网页搜索网站/消费网站社会各行业及专业关键词库Internet各网页站点树互联网用户13241234555业务流:1.用户输入或点击URL,访问网页;2.用户从网页获取到某行业及其下某专业的信息,并进行交互;3.用户在搜索网站/消费输入搜索关键字;4.用户访问搜索结果网站大纲●互联网行为分析业务目标和定位●互联网行为分析技术架构●技术架构●关键技术介绍●互联网行为分析平台开发最新进展电信级BIGDATA开始被关注──处理面临挑战DataAnalytics,DataOperations&ModelBuildingDatabase&WarehouseAt-RestDataAnalyticsTraditional/RelationalDataSourcesTraditional/RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesTraditional/RelationalDataSourcesTraditional/RelationalDataSourcesInternetScale传统数据仓库实时数据互联网非结构化数据市场、客户、产品分析等网络状态实时分析和监控客户洞察分析BillingCRMLocation10000CDRsNetworkDevicesInternetBlogs,e-Mail开始关注互联网日志数据和互联网站内容数据处理速度要求更快存储容量要求更高网络带宽要求更高传统数据仓库无法满足存储和处理的要求解决方案网络带宽要求更高处理速度要求更快存储容量要求更高传统以太网千兆升级到万兆传统以太网升级到Infiniband,单端口带宽最大可达到20Gbps采用集群计算并优化每点计算算法和效率采用Hadoop分布式文件系统容量可扩展到ZB级序号项目性能指标1用户数量(3000万)300000002文件采集时限(2分钟)1203文件处理时限(2分钟)1204文件入库时限(5分钟)3005每天日志量(3T)3*1024*10246采集需要网络带宽242.8MB/s7所需存储空间(全备份保存30天)150TMapReduceBigData技术落地──分布式文件管理系统及组件HIVEHBASEHadoop分布式文件系统(HDFS)基于分布式文件的关系数据库基于分布式文件的非结构化数据库大规模并行处理引擎MapReduce技术•有较强容错性•可在通用的机器上运行,降低总体成本•可扩展,能构建大规模应用关键技术--互联网信息萃取互联网信息萃取处理流程:关键技术点:网络爬虫:我们采用Heritrix框架的网络爬虫技术获取常规站点的网页内容分词和文本挖掘技术:采用最优算法进行文本分词,基于关键字排序算法进行网页分类非结构化存储hadoop结构化存储ODSHadoop分布式文件系统(HDFS)分布式文件系统优点:•有较强容错性•可在通用的机器上运行,降低总体成本•可扩展,能构建大规模应用基于分布式文件的关系数据库(HIVE)HIVE优点:•表定义是基于HDFS文件,不必复制数据•表查询采用与兼容的语句查询数据•自动调用分布式处理引擎,查询处理速度快2011/12/2716:35:11[debug]243385#0:*11LatnId=5512011/12/2716:35:11[debug]243385#0:*11avscFileName=3504.avsc2011/12/2716:35:11[debug]243385#0:*11svcName:DPRINTwillbecalled.2011/12/2716:35:11[debug]243385#0:*11BeginWrite:r
本文标题:BIG-DATA及互联网行为分析方案培训
链接地址:https://www.777doc.com/doc-5907165 .html