您好,欢迎访问三七文档
1、BI/DWIntroductionJamesChenPSOSr.Consultant程序=算法+数据结构--NiklausWirth数据结构离散结构线形结构-数组链表栈队列树图算法空间复杂度时间复杂度用户内存中数据结构物理数据结构E-R业务流程二者相辅相成,不同应用侧重不同经典业务系统模型Skillset数据库C++/J2EE/.netPowerDesignerER_WINOOUML面向过程OODesignWorkflowDevelopBusinessTypeModelIdentifyBusinessInterfacesIdentifySystemInterfaces&OpsCreateInitialCompSpecs&ArchitectureDiscoverBusinessOperationsRefineInterfaces&OpsRefineComponentSpecs&ArchitectureDefineInterfaceInformationModelsSpecifyOperationPre/PostconditionsSpecifyComponentInterfaceCon。
2、straintsBusinessConceptModelUseCaseModelBusinessInterfacesSystemInterfacesInterfacesInterfacesComponentSpecs&ArchitectureComponentSpecs&ArchitectureComponentSpecs&ArchitectureBusinessTypeModelArchitecturePatternsExistingInterfacesExistingAssetsComponentIdentificationComponentInteractionComponentSpecification笑一笑•数据仓库初学者:数据仓库与数据库有什么区别?•某专家:一个有仓一个没仓!BI/DW的引出•统计报表需求–数字越来越重要–报表越来越多–效率越来越差数据仓库的定义“数据仓库是在企业管理和决策中面向主题的,集成的,与时间相关的和不可修改的数据集合”BillInmon数据仓库(DataWarehouse)是一种专为联机分析应用和决策支持系统提供数据源的结构化的数据环境数据仓。
3、库要解决的问题是从数据库中获取信息的问题。DATADATADATADATADATADATADATADATADATADATADATADATADATADATA数据信息INFORMATIONINFORMATIONINFORMATIONINFORMATION影响数据仓库的几个人物•BillInmon-《数据仓库》•RalphKimball-《数据仓库工具箱》•BernardLiautaud-《商业智能》OLTP与数据仓库系统RDBMS关系数据库SAP/ERPVSAM主机系统EXCELWeb/XMLOLTP业务系统数据仓库系统数据是当前的数据总在实时变化中存储明细数据优化是针对即时更新的事务处理支持日常的业务支持办事人员或行政人员数据是历史的数据是静态的,除数据刷新外数据是汇总的优化是针对大批量查询而不是更新支持长远的业务战略决策支持决策人员和管理人员面向事务面向决策5-10年数据集市分析型CRM业务指标分析数据仓库BI系统建设方法(1)•直接建立BI应用OLTP数据源各种前端应用KPI指标报表多维分析即席查询数据挖掘数据仓库环境业务智能层中央数据仓库数据仓库数据集结数据源公司数据源外部数据源B。
4、IW数据集市数据仓库管理子系统数据仓库元数据目录信息访问和引用部件BI系统建设方法(2)企业数据仓库体系架构RelationalPackageLegacyExternalsourceDataCleanToolSourceDataDataStagingWareHouseAdmin.ToolsEnterpriseDataWarehouseDataExtraction,TransformationandloadDatamartDatamartEnterprise/CentralDataWarehouseRDBMSROLAPRDBMSRDBMSArchitectedDatamartsCentralMetadataDataModelingToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolLocalMetadataLocalMetadata典型物理架构ETL_DM1ETL_DM2BAS_DW1BAS_DW2BAS_OP1BAS_OP2Bas_sw01Bas_sw02Dx_sp01Dx_sp02Dx_sp03元数据管理服务器BAS_SM1B。
5、AS_SM270T!企业数据仓库的目的•数据整合--建立一个企业统一的信息平台–建立统一的业务数据定义–建立唯一的统计分析数据源•快速访问—采用适合企业BI应用的数据组织方式–新需求的开发快–数据获取的效率快业务管理层业务操作层战略层底层数据低粒度汇总高粒度汇总建设数据仓库的主要任务•数据仓库建模•ETL•前端展现组•数据挖掘•元数据数据仓库引擎•NCRTeredata•ORACLE9以上•DB2EEE•SybaseIQ•MSSQLServer维模型的设计每个维可以由一个或多个维层次或聚合路径组成Dimension1事实Dimension2Dimension4measure1measure2.....supportiveattributes....Dimension3aggregationpathordimensionhierarchydimensionkey1dimensionkey2.....IWS模型的特点•简单视图—实例仓库底层设计考量(一)•慢速变化维问题用户资料用户标识MSISDN用户品牌IMSI号客户标识用户状态修改时间修改人快速变化和慢速变化D_用户资料用户标识MSIS。
6、DN用户品牌IMSI号客户标识生效时间失效时间用户状态用户标识用户状态变化时间仓库底层设计考量(二)•粒度问题用户资料用户标识MSISDN用户品牌IMSI号客户标识用户状态修改时间修改人一天变化多次入库时间仓库中间层设计考量•基于用户标识•多个粒度汇总•综合各个数据集市•效率考虑仓库集市层设计考量•面向应用–报表集市–挖掘集市–主题集市–KPI集市•维模型•以最细粒度数据为主•表加物化视图数据仓库与数据集市数据源CUBE报表事实表维表维表维表维表数据仓库事实视图维视图维视图维视图维视图业务驱动数据驱动数据集市设计技巧•星型还是雪花?•组合代理键•慢速变化维•维度的不同层次处理•聚合表的设计•….ETL过程•源表结构--目标结构•工具?自己编码?--业务逻辑的任务已经很大•实时任务和批量任务•CDC的处理•ODS的处理?BODateIntegratorInformaticaPowerCenterDatastageSagent数据源•大数据量•变化数据•关联数据•手工数据抽取时机和最迟到达时间!数据源考量-大数据量•二十余种清单•上万个文件,大小不一•一天几十GB的数据WLAN清单业务类型。
7、业务标识移动号码手机IMSI号用户类型用户归属省用户漫游省漫游类型认证类型起始时间结束时间连接时长上行数据流量下行数据流量MMS清单移动号码IMSI号MM话单类型用户类型漫游类型用户接入地省代码发送方地址接收方地址转发的手机号码发送时间最早发送时间存储时间信息类型应用类型转发复制类型计费类型通信费梦网WAP清单移动号码IMSI号CDR标志话单类型WAP网关名字MISC的代码承载类型SP企业代码SP业务代码用户类型折扣率业务属性UNDEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEFGPRS清单移动号码IMSI号通话类型用户类型开始时间通话时长上行流量下行流量基本通话费信息费APN-2服务质量归属地短信清单移动号码IMSI号通话类型对端号码开始时间通信费信息费归属地漫游地漫游类型语音清单移动号码IMSI号通话类型用户类型对方号码开始时间通话时长动态漫游号交换机代码小区号基站号出中继入中继业务类型业务代码归属地包月清单移动号码IMSI号IP卡清单通话类型业务代码业务类别用户帐户开始时间终止时间主叫号码被叫号码时长UNDEFUN。
8、DEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEFUNDEF梦网短信清单移动号码IMSI号话单类型用户类型SP运营商代码第三方号码业务代码服务代码用户计费类别信息费包月费发送状态数据源考量-变化数据帐本帐户ID帐本ID余额帐单用户ID应收金额欠费金额已销金额•实时变化•未存历史数据源考量-关联数据帐本帐户ID帐本ID余额帐单用户ID应收金额欠费金额已销金额•没有transaction•几个文件不一致怎么办?销账记录销账记录编码销账时间触发销账类型帐单开始时间帐单截止时间帐单销帐前状态帐单销帐后状态收据号码滞纳金额反销账记录编码付款记录付款记录编码付费方式付款目的收据号码费用付款冲正编码数据源考量-手工数据•外部录入?•OLTP系统?•天气•社会指标•集团客户信息•操作型CRM天气日期地区代码天气数据源考量-历史数据更新语音清单移动号码基本通话费长话费附加费基本通话优惠长途通话优惠附加费优惠通话结束原因IMSI号通话类型用户类型对方号码综合帐单付款冲正编码生成时间帐单状态状态变更时间销帐标志应收费用已收金额应收滞纳金实收滞纳金•修改昨日数据•批错价/延迟话单等ETL•抽取。
9、/转换/加载•源数据的理解•加载时间4小时•ETL实现–工具–Loader•汇总(数据库汇总还是文件汇总)•调度ETL-调度•一天几十GB的数据•并行度/任务大小/资源/优先级•调度–清单类(大数据量)-文件的拆分和合并/实时处理–业务类(实体之间的关系复杂)-稽合–帐务类(数据准确)-验证–参数类(变化影响其他实体)-告警/事先处理–其他任务–月末处理前端展现•固定报表•多维分析•即席查询•仪表盘•数据挖据BO(CR)Hyperion(Brio)CognosMicrostrategy仪表盘OLAP分析报表,即席查询固定报表•格式灵活多变•CrystalReport•MSTR•Brio•ReportNet多维分析•MOLAP--CognosPowerPlay,HyperionEssbase•ROLAP--BOE,MSTR•HOLAP--BO--MSOLAP•切片•旋转•切块•钻取OLAP分析多角度、多层次对同一主题进行分析通过旋转、钻取、切片等技术探察数据–旋转:按不同顺序组织各个维,对结果进行考察–钻取:在一个维内部沿着从高到低或从低到高的方向考察数据(有上钻和下钻两种)–切片:。
10、在确定某些维数据的情况下对其他维进行观察有MOLAP、ROLAP、HOLAP三种实现方式OLAP设计-指标还是维度性别年龄长途类型通话时段客户数通话时长性别年龄客户数通话时长长途类型通话时长通话时段通话时长1-2点通话时长即席查询•语义层•效率很关键•BO语义层仪表盘•仪表盘、KPI---EPM•整合了企业的整个绩效、把告警、报表、分析穿在了一起•BOEPM•HyperionBPM数据挖掘•机器学习•数理统计•数据库•预测、特征分析、客户分类•SAS\SPSS数据挖掘实施的体系结构数据仓库数据挖掘引擎算法数据选择知识库评价修改知识建模分析员领域知识元数据元数据管理•什么是元数据?•元数据和开发文档有何区别?•为什么单单在数据仓库中如此重视元数据?文档语音计费GPRS计费文档帐务文档结算营业文档文档客服文档MIS网管HR文档文档文档元数据管理(续)•业务元数据–业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供业务分析人员使用。•技术元数据–技术元数据描述了数据源、数据转换。
本文标题:BI商业智能简介
链接地址:https://www.777doc.com/doc-167 .html