您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 2数据仓库与数据挖掘项目建设_讲义(DOC104页)
数据仓库与数据挖掘项目建设1.数据仓库知识简介1.1软件质量控制软件质量控制的主要目的是为了获得更高的开发效率,避免返工,提高产品的市场竞争力,从而为客户提高符合质量需求的稳定可靠的软件产品,同时它也是控制方法的集合,包括软件建模、度量、评审以及其他活动。1.2用于软件控制的一般性方法如下:1.目标问题度量法,即通过软件质量目标并持续观察这些目标是否达到软件质量控制的一种方法2.风险管理法,即识别与控制软件开发中对成功达到质量目标危害最大的哪些因素的系统性方法3.PDCA循环。这种方法发源于日本,是指计划plan,做do,检查check,和行动action1.3信息化的需求:随着信息化的高速发展,各行各业,各组织单位积累了大量的业务数据,这些数据存在于各单位的数据库,各种报表、文档中,真可谓是数据的海洋。这些数据中蕴含着组织业务活动的大量规则,包含着组织管理决策所需要的重要知识,从这些数据中挖掘出有价值的信息,为管理决策提供支持是政府和企业事业单位共同面临的问题。解决这个问题主要依赖于亮相技术:一是对整个组织各部门生产的各种业务数据进行统一和综合,把业务数据转化为商业信息,支持决策,即数据仓库。二是发现隐藏在各种数据之中有用的知识,即数据挖掘。1.4以银行为案例的IT整体架构1.5数据仓库的定义数据仓库系统是指面向主题的、集成的、稳定的同时又是随时间变化的大量的数据集合。在综合使用一些应用软件下,用户获得想要的信息,最终为经营管理的决策提供有力的帮助数据仓库系统的业务特征是业务需求的范围和内容,不像业务系统那样清晰和明确:系统建设的一个主要风险是体现在软件工程质量和串接方面存在较大的过程风险:系统建设的成功标准应该由应用系统的用户数及其使用频率作为重要参考依据。1.6数据仓库的建设过程的挑战如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设的生命线,把它贯穿于数据仓库建设整个过程的始终。那么质量控制的中心环节又是什么呢?简单而言,包括事前控制:对方案和计划进行充分的咨询和论证;事中管理:对建设开发阶段进行持续不断的过程控制;事后控制:对于建设成果通过测试、评审、验收、试运行等方式进行面向结果的管理控制。1.7数据仓库的质量控制关于数据仓库中的质量管理问题的研究,目前有几个主要的切入点:(1)从数据仓库的设计入手,简历适合全方位质量控制的体系结构(2)遵从生命周期观点,全过程控制数据仓库建设质量(3)按照数据仓库凶的工作机制和部件构成来制定质量控制标准数据仓库质量从本质上说是总体数据质量的问题。数据仓库的质量问题是一个主观的标准问题,不同层次的人员对数据仓库的质量有不同的要求,必须根据追求的目标来制定质量的测评、预测标准并加以实现,才能真正达到质量控制的目的1.8数据仓库的精确定义上世纪80年代中期,“数据仓库之父”William.H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的数据集合。与其他数据库应用不同的是,数据仓库更像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种可以购买的产品。1.9数据仓库的特点1.9.1数据仓库是面向主题的主题是一个比较抽象的概念,是一种在较高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、统一、一致的描述,能完整及统一地描述出各个分析对象所设计的相关企业的分项数据,以及数据之间的联系1.9.2数据仓库是集成的全面而正确的数据是进行有效分析和决策的首要前提。在某一个主题的统帅下,需要对数据进行抽取、清晰、转换和加载等集成操作。因为:(1)数据仓库的数据不是直接从原有数据库系统复制得到,因为原有数据库系统记录的是每一项业务处理的流水账,这类数据不适合用于分析处理。在进入数据仓库之前必须经过综合计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。(2)数据仓库每一个主题所对应的源数据在原数据库中有可能有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量。显而易见的是,对不准确,甚至不正确的数据进行分析得出的结果将不能用于知道企业领导者做出科学的决策1.9.3数据仓库是相对稳定的操作型数据库中的数据通常实时更新,数据根据需要发生变化。数据仓库的数据主要供企业领导者决策分析之用,所涉及的数据操作主要是数据查询和分析,一旦某个数据进入数据操作主要是数据查询和分析,一旦某个数据进入数据仓库之后,一般情况下将会被长期保留,也就是数据仓库中一般有大量的查询操作和分析,修改和删除操作一般不多,通常只需要定期的加载、刷新。1.9.4数据仓库是相对时间变化的由于数据仓库中的数据是为了分析用的,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬态,并将各个瞬态连续起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据提取的周期决定了动画间隔的时间,数据提取的周期越短,则动画的速度越快1.10数据成熟度*商业智能包含(数据仓库和数据挖掘)1.11商业智能(仓库和挖掘)能够帮助我们做什么增加销售额深化客户关系研发客户关系提供更好的服务提升运营效率降低成本制定更好的决策1.12商业智能能够回答的一些重要的问题举例1.产品分析:哪些产品是营利性最好的?哪些产品是营利性最差的?2.销售分析华南地区已经开设2年以上的商店,销售趋势是怎样的?哪些产品具有向上的销售趋势,哪些客户群体在购买这些产品?3.客户分析盈利性排在前10%的客户的特征是什么?盈利性最差的10%客户的特征是什么?哪些客户在过去6个月中的购买量超过了所有客户购买量均值2个标准差?盈利性最好的客户群居住在什么地方?1.13数据仓库的体系架构数据仓库的简单层1.源数据层:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存在于关系型数据库系统(RelationalDataBaseManagementSystem,RDBMS)中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。2.数据导入层:主要进行数据清洗、转换、加载(Extract-Transform-Load,以下简称ETL)。把处理后符合业务逻辑规则的数据导入到数据仓库中。通过ETL调度管理、ETL日志管理、ETL出错管理来控制管理数据加载的整个过程。通过数据质量管理进行数据的检查,及时地控制管理数据的质量情况。3.数据存储层:是整个数据仓库的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。数据集市可能是企业及数据仓库的一个组成部分。4.数据应用层:主要分为查询、统计报表、多维分析和数据挖掘四大类应用。5.数据展现层:主要分为三大类。有一定技术经验的业务人员进行多维分析、数据挖掘;普通业务人员进行查询、统计报表打印;管理人员进行用户管理、权限管理等。1.14数据仓库总体架构*与上一张图异曲同工1.15商业智能技术1.数据仓库:跨功能的数据库历史细节数据中型到大型的数据库2.数据集市:聚焦在选定的主题上依赖的(数据直接来自企业数据库)独立的stand-alone3.多维分析通过多个业务主题对汇总数据进行分析以性能为导向对数据的不同层次进行钻取4.数据挖掘:工具驱动依赖算法识别和预测1.16数据仓库系统特征1.满足分析或决策类的应用需求非操作型的应用2.一套整体性的决绝方案由数据库、前端工具、系统管理平台等部分组成3.仓库的特点(1)高质量的数据平台面向主题的、集成的、非易失的、随时间变化的数据存储业务数据的统一视图数据的一致性和完整性(2)灵活的分析和展现平台满足分析、查询、报表等多种类型的应用需求1.17企业级数据仓库模型的规划1.18数据质量管理体系1.19OLAP多维分析1.20成功几个简单原则总体规划,分别实时,急用先行,沿途下蛋1.21分步实施规划原则1.紧迫程度主要是从业务角度来讲的,主要因素包括:业务需求的紧迫性业务需求的重要性项目点可能带来的效益大小2.难易程度主要是从技术方面考虑,影响因素包括可行性、实现的复杂程度周期的长度技术的成熟度准备工作的进度是否有足够的数据支持关键技术是否成熟1.22数据仓库管理概述数据仓库的管理在不同的数据仓库建设阶段,其范围和内容是不同的。数据仓库管理以数据仓库的生命周期分为规划、开发、运行和维护三个阶段。与传统应用系统不同的是,数据仓库的开发是一个持续整个生命周期的不断演进的过程。1.23在不同的阶段,数据仓库管理的重点是不同的1.数据仓库的规划阶段在现有系统中的位置、与现有系统的依赖关系;前景需求的描述;业务需求的确立;实施条件的审核2.数据仓库的设计与实施阶段项目的范围和计划的管理系统风险管理人员和组织结构的简历系统架构管理数据仓库技术的选用关键成功因素的确立3.数据仓库支持与完善阶段数据一致性的维护性能的维护需求变更的维护备份与恢复的维护1.24人员的组成看系统结构商业智能系统逻辑架构2.数据仓库需求管理2.1有哪些需求2.1.1有哪些需求需求收集阶段的目标是搜集业务与IT需求,并且确定数据仓库主题。这包括确定并记录下列类型的需求。功能需求:用来说明系统将做什么非功能需求:确定将要建立的系统特性。如性能、可靠性、可用性、安全性、接口需求与设计约束等系统开发过程的详细需求:包括使用的方法论、安装与发布需求、验证、测试与培训需求等2.1.2需求和需求分析的内容需求分析的先决条件包括项目计划、主题模型、项目风险分析、数据质量估计、安全系统文档、安全特征、用户概况、评价数据仓库标准、性能标准、主题、宏观信息需求、IT标准、IT结构、开发测试与生产环境及其期限、信息结构文档、宏观业务需求和基本的维模型等。可提交的文档包括:已确认的验证后的数据异常报告、详细需求文档、测试计划、培训策略和项目计划等。2.1.3需求分析的方法2.2详细需求的收集需求分析的第二步是收集详细需求。采访用户是获得需求的最惯用的方法。采访需要记录,并且将采访记录整理好以后由被采访者确认以及修改补充和再确认。调查者对需要调查的内容以及相关的业务术语有所了解,有采访提纲,能够与业务用户单独交谈,如果参与的人过多会使得采访者不会坦诚招待,或发生相互攻击等情况,并应该控制每次采访的时间,这样的话可以提高效率。2.3详细需求2.3.1对详细业务需求的确定详细的开发需求,包括:信息传输的平台、方法、形式及标准,用户站点的硬件平台,用户方人员的计算机使用经验与知识,当前使用的软件一级接口需求:对用户情况进行调查,并且记录使用仓库的用户数量与类型。对每类用户的类型、安全约束、位置、计算环境等均进行调查安全性需求,包括存取需求、装载开发及转换需求性能需求,包括容量、响应时间和刷新等需求2.3.2基本维模型的建立确认用户的数据仓库类型需求。是需要一个单一的数据仓库,还是需要数据仓库加上依赖型的数据集市,或者仅需要一个单一的数据集市。确认主题和基本维。建立数据仓库与所相关的数据集市的高级主题与基本维的文档。2.3.3对信息结构需求的收集确定数据仓库技术体系结构,详细说明支持数据仓库的操作型系统的配置。该信息需要包括下列有关的软硬件因素:OLTP系统名称与类型、平台(包括硬件与操作系统)、网络通信协议、可用的
本文标题:2数据仓库与数据挖掘项目建设_讲义(DOC104页)
链接地址:https://www.777doc.com/doc-25718 .html