您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 数据预处理技术在电信经营分析系统中的研究
数据预处理技术在电信经营分析系统中的研究张扬北京邮电大学电信工程学院,北京(100876)E-mail:yondchang@163.com摘要:数据仓库及其分析技术的出现,为电信企业提供了高效的数据处理能力,满足了对海量数据的处理需求,为以后进行科学的决策分析提供了更好的支持,因而在电信经营分析系统中应用数据仓库技术成为一种趋势。本文提出了集成运营商多业务系统离散数据的方案,并制定了数据抽取的统一策略,基本解决了海量数据预处理时的低效高耗问题。关键词:预处理,抽取,数据仓库,经营分析1.引言某省电信运营商在企业信息化建设过程中,建立不同的业务系统来满足管理需求。但这些系统往往因为市场需求、设计理念、建设时间、平台选择等因素的不一致性而导致系统间相互独立、信息分散等特点,从而形成信息孤岛。具体的问题表现在:(一)数据的问题目前的业务数据分布在多个不同系统,如:渠道系统、计费、大客户系统等,其它的数据分散在地市,系统不能直接提供。数据的集中度不够,形成了信息孤岛。由于没有一个系统能整合经营分析需要的全部信息,这为数据的访问和分析工作带来很大复杂度。从数据采集的周期来看,大部分为每月一次,采集的周期过长,无法满足经营分析对于实时性的要求,不能对瞬息万变的市场作出迅速的反应。(二)分析手段的问题目前系统提供的分析手段严重不足,系统中所提供的分析手段大多是固定报表,只能完成标准的统计功能,有些报表甚至需要手工完成。系统不能让用户自定义报表,不能进行定制分析。基于上述状况,我们提出在省中心建立独立于业务系统,面向分析主题的数据仓库[1],从各生产系统采集经营分析所需的数据,通过统计报表、即席查询、OLAP分析等技术手段实现业务分析和决策支持功能,使公司在信息的传递与反馈速度、信息的广度与深度、信息的统计与分析手段、信息的使用效率等方面有质的变化。1过程我们先介绍某省经营分析系统的架构,分析数据预处理的规则,然后提出数据审计和元数据管理方法。经营分析系统如图1所示:图1.经分三层结构图其数据流图如图2所示:图2.数据流向示意图2源系统的数据以标准接口文件(SIF)等方式,通过通讯服务传输至经营分析系统的临时工作区域(SA或ODS),再利用数据仓库系统强大的并行处理能力和分时隙工作原理,把缓冲区域经过清洗、格式化的数据加载至中央数据仓库。中央数据仓库按照企业整体的信息模型、尽可能以最小的业务单元来组织并存储数据,3NF是最为常用和有效的方式[2]。这样既能保证数据访问的灵活性,又可保证最少量的数据冗余。在经营分析系统的实施过程中,对于某些主题的业务分析问题,可能会按照主题采用数据集市的方式对数据进行进一步的组织,MDDB(多维数据库)则是组织数据集市最为有效的方式。所以在数据仓库的基础之上根据分析需求会创建相应的从属的数据集市。根据某电信运营商的IT战略规划,未来某电信运营商的业务系统将集中为BSS、OSS和MSS三大系统,数据仓库的数据将来自于这些系统。由于业务系统的改造刚刚开始,因此现阶段经营分析系统的主要数据来源依然是目前分散的各个业务系统,如:97系统,计费帐务系统,营维一体综合系统,结算系统,智能网计费系统,客服系统等。在经营分析系统的实施过程中,必须对源数据进行全面分析,包括如下内容:1.数据的业务范围及业务含义2.数据所在平台,包括系统平台和数据库平台3.数据结构4.数据更新周期5.数据更新方式6.数据量源数据分析完成之后,需要将源数据与数据仓库系统物理数据模型进行匹配,即源数据映射。这是设计和开发ETL的前提。系统每天或定期从各个业务系统中抽取详尽的业务数据,对源数据进行过滤以保持数据一致性及完整性,按分析的要求对数据进行汇总、聚合等处理,将整合后的数据装载到信息管理平台中。这就是ETL过程[3]。ETL(ExtractTransformLoad)子系统是建立数据仓库系统的重要组成部分,它将经营分析系统中所需的数据按数据仓库建立的方法从业务系统进行采集,并根据各自的需求进行数据调整,数据迁移过程中需将原始数据进行抽取、清洗、合并和装载。在此过程中必须保证数据的完备性和数据的一致性。从功能上看,整个ETL包括三个部分数据抽取:从数据源系统抽取数据仓库系统需要的数据;3数据转换:将从数据源获取的数据转换按数据仓库要求的形式,对数据进行转换;数据加载:将数据装入数据仓库。ETL实现过程的流程图如图3所示:4图3:ETL实现过程简单流程图2.2数据审计在ETL的整个过程中,必须充分考虑异常情况的处理。这主要是指数据审计[4].每个数据加载周期中,保证数据仓库系统中数据同业务系统中数据在业务意义上的一致性及数据的准确性是至关重要的[5]。因此,系统必须具备数据审计功能。审计工作必须在数据抽取、转换、加载、数据存储、数据展现等各个处理环节都要进行,比如,如果采用异步数据抽取和加载,则在数据抽取传输完毕后,要从记录数、文件大小等角度检验抽取和传输的正确性。数据加载完毕后,一方面通过加载日志检验加载过程的正确性,另一方面要通过业务规则来校验数据的正确性。数据审计必须包括以下几个方面的检查:¾数据一致性检查:与计费系统等相关生产系统报表保持一致,与财务/统计数据的差异性可解释;¾数据准确性与完整性检查:各纬度的未知值为零;编码同统一的纬度定义保持一致;¾数据逻辑性检查:数据之间得逻辑性必须合理;抽取加载转换数据仓库业务系统数据源临时数据其它数据源数据集市¾数据完整性检查:数据是否涵盖了需求书包含的主题需求;¾数据及时性检查:数据必须在规定时间内完成;图4是数据审计流程:图4:审计流程图数据质量审计人员进行审计时,有以下几个步骤:1.定义审计指标:2.定义审计规则:3.记录审计结果:数据质量审计方式主要是通过比对数据仓库中,数据处理前和处理后的结果是否一致来进行检查的。数据质量审计人员分别定义出数据处理前和数据处理后的数据核查点,并在核查点上定义出具体的审计指标,对比数据处理前的审计指标结果和数据处理后的审计指标结果是否平衡。1、定义常规审计指标:在数据质量审计中,从待审计的核查点上选择的数据值,或者数据值集合。¾实体数据量¾文件实体的数据类型及格式,值域,主外键一致性5¾实体生成时间¾实体生成时长2、计算审计指标定义好审计指标后,会根据仓库流程数据的处理情况,计算审计指标结果。审计指标的计算通过程序统计或SQL语句计算。3、结果比对数据质量审计人员根据业务需要,将需要比对的审计指标结果进行比较,检查指标结果是否一致。2.3元数据管理元数据[6]是关于数据的数据。元数据涉及到数据仓库构造、运行、维护的整个生命周期,元数据建设是一个长期的过程,元数据建设需要前期的基础数据比较准确和完善,本论文只涉及元数据管理的一些简单应用。2.3.1元数据类型按照元数据的使用情况和面向对象的不同,元数据分为业务元数据、技术元数据。业务元数据在经营分析系统的数据仓库中的体现是全方位的,经营分析系统使用人员通过浏览元数据可以清晰地了解各指标代表什么业务、如何计算得出的、以什么为单位等相关描述信息。技术元数据描述了数据源、数据转换、抽取过程、加载策略以及目标数据库的定义等。技术元数据可供信息系统人员和一部分经营分析系统使用人员使用,用来进行影响分析、变化管理、数据库优化、任务调度和安全管理等。2.3.2元数据管理元数据管理涉及到数据仓库构造、运行、维护的整个生命周期,是数据仓库构建过程中十分重要的一环。元数据管理满足以下:1.元数据的存储:元数据支持数据库存储,便于管理,维护和扩展。2.数据交换:支持以XML等标准进行数据交换。6应用编程接口(API):通过API接入为元数据管理提供所需的灵活性。4.元数据集中控制:元数据为整个经营分析系统的信息资源提供了记录,支持元数据集中管理控制,以确保信息的一致性和准确性。5.元数据的集成:对于数据库、ETL、OLAP服务器和前端展现工具等各个数据仓库组件的元数据能够实现集成管理。6.影响分析:从元数据中发现任何变化给全局带来的影响,确定某个实体的用途和与其它实体的关联。7.版本管理:由于网通每年的报表都会发生一些细微的变化,所以能做到报表元数据的版本管理、历史保留。元数据管理包括以下几个关键部分:1.一个元数据存储库,用以存储企业重要元数据;2.用以支持元数据生成、应用和持续管理的一套方针、流程和程序;3.经适当集成后,由一种或多种工具进行管理和应用。我们对元数据管理有如下建议:1.建立联邦式元数据管理存储库(FederatedMetadataRepository),确保元数据在企业内部的统一和关联;2.采取技术及程序合成的方法,如元数据桥接器(MetadataBridge)来获取并导入来自各个系统的元数据;3.开发一个通用元模型作为基础,以便集中存放各类元数据,并实现信息共享;4.提供元数据管理工具,并提供元数据管理的用户及权限控制。包括:¾读Read(授予读访问权限)¾集合Collection(授予读取和集合访问权限)¾修改Update(授予读取、集合、写和删除访问权限)¾完全Full(授予读取、集合、创建、写和删除访问权限)5.选择可靠的与数据仓库架构兼容的技术工具。工具尽可能较少集成,建立在开放式标准之上,且被各主要供应商所支持;6.业务用户积极参与定义与之相关领域的元数据。7.元数据统一标准,统一编码机制。包括:¾设定分类编码规范和规则,如:接口元数据统一采用Interface_XX,商业网元数据统一采用Busi_XX等等的形式;根据不同的分类以及不同细类进行元数据的编码规范制定;¾元数据管理系统会根据元系统的种类,用缺省的编码规范进行验7证,如果不符合则不通过;¾提供元数据的正确性验证工作,将错误的元数据挑选出来;¾进行元数据设计,将错误或不符合编码规范的元数据组成列表,提供给用户;¾对“产品、帐目、功能”等商业元数据,牵涉到某电信运营商的业务定义,需要由集团总部制定规范来统一业务编码,并指导省公司使用;省公司可以在遵循集团标准编码的情况下,细化或扩展本省的个性业务编码,但需报备集团总部。¾元数据接口1.支持XML接口;2.支持读取非结构化数据接口,包括E-MAIL,文本文件等;支持各种数据源的接口,包括各种主流的数据库,ORACLE、Sybase、Informix、SQL-SERVER、TERADATA、FoxPro等主流数据库;数据经抽取,转换,装载后就已经加载到了数据仓库系统,这样就能进行后续的查询和分析操作了,图5是某省运营商数据仓库系统的总体结构图。业务系统(营帐、计费、客服、结算...)接口层数据仓库-ODS层数据仓库-DW层数据仓库-DM层应用层-多维分析应用层-专题应用层-报表维表展现层图5数据仓库系统结构图8结论本文以某省运营商的经营分析系统为平台,对电信行业海量数据的预处理技术进行了详细的分析,说明了数据仓库技术对于电信行业经营分析的重要性和可行性。虽然本文提出的方案已被采用并且在千万级oracle数据库上运行稳定,但如何进一步提高ETL的效率将是后续工作需要解决的问题。5.参考文献[1]JiaweiHan,MichelineKamber,数据挖掘概念与技术,机械工业出版社,2005Page1-6,304[2]杨文川,数据仓库技术在统计行业应用的研究与实现,计算机科学,第29卷8月增刊(NDBC2002)[3]张旭峰,孙未未,汪卫等.增量ETL过程自动化产生方法的研究.计算机研究与发展2006[4]数据库之路
本文标题:数据预处理技术在电信经营分析系统中的研究
链接地址:https://www.777doc.com/doc-617241 .html