您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 基于数据仓库的数据挖掘技术
数据仓库技术在超市中的应用[摘要]本文主要介绍数据仓库的技术,以某超市销售决策支持系统为例,叙述了面向超市的数据仓库的建模过程。通过联机分析技术和数据挖掘技术对数据仓库中的数据进行处理得到需要的信息,然后应用到超市中以满足各种潜在的个性化的需求。[关键词]:数据仓库,超市,数据挖掘,数据处理,潜在需求,OLAP,决策支持ApplicationofDataWarehouseintheSuppermarket[Abstract]ThethesismainlyintroducesthetechniqueofDataWarehouseandnarratehowtobuildDataWarehouseinsupermarket.WecandodataprocessingbythetechniqueofOLAPandDataMininginthesupermarkettogetsomepotentialinformationtomeetconsumers’potentialdiverserequirements.[Keywords]DataMining,Datawarehouse,Dataprocessing,OLAP,Supermarket;1.引言随着计算方法和信息技术的不断发展,大量数据的产生和收集导致信息爆炸。现代社会的竞争趋势要求对这些数据进行实时的和深层次的分析。虽然现在很多超市都有很大的存储系统和很强的存储系统,但是使用者发现在分析所拥有的信息方面变得越来越困难。数据仓库提供了容纳大量信息的场所,用户可以使用联机分析技术和数据挖掘技术从繁杂的数据中找出真正有价值的信息和知识。数据仓库可以加强企业对信息的管理能力,数据挖掘可以改善企业的经营状况,为超市的管理和决策提供科学的依据,为超市带来巨大的收益,增强企业的竞争优势。超市在经营中积累了海量的历史数据,使用数据仓库对这些数据进行管理和分析,比人工数据管理更有效,更科学。针对不同类型的客户,商家推出不同的策略,以迎合不同客户的购物习惯,这样的策略才具有针对性。针对以上问题,以某个超市的应用数据库为基础,该数据库中存储了大量的客户信息,购买时得交易数据,产品信息等数据,讨论如何构建该数据仓库和进行数据挖掘。2.数据仓库及相关概念2.1数据仓库的概念1993年,WilliamH.Inmon在发表的著作BuildingtheDataWarehouse中首先给出了数据仓库的定义:“数据仓库是一个面向主题的,集成的,非易失的且随时间变化的,用来支持管理人员做出决策的数据集合。”数据仓库的特征:○1数据仓库是面向主题的○2数据仓库中的数据是综合或提炼的○3数据仓库中保存的是过去的和现在的数据○4数据仓库中数据不可更新○5操作需求是临时决定的○6数据常冗余○7所查询的是经过公的数据○8支持决策分析综上所述,数据仓库是把企业中异构的历史数据进行抽取,转换,合并和统一管理,从而用来对数据进行进一步的加工以辅助决策分析,数据挖掘,产生报表的应用。因此数据仓库是一个集中式得,集成式的数据存储。2.1数据进入数据库的过程数据进入数据仓库要经过数据提取,数据交换,数据净化,数据加载和数据汇总五个五阶段。2.2联机分析处理OLAP用中,对数据库的简单查询已满足不了用户分析和决策者提出的要求,于是我们需要多角度的观察数据,并分析其之间的关系。由于传统的数据库及查询工具对于管理和应用这样复杂的数据已满足不了要求,于是出现了多维数据库和多维分析的OLAP技术。OLAP是一种软件技术,它使分析人员能够迅速,一致,交互地从各个方面观提取交换汇总加载净化察信息,已达到深入理解数据的目的。OLAP是多维数据分析工具的集合,其目标是满足决策支持和多维环境下特定的查询和报表需求。OLAP分析主要通过对多维数据进行切片,切块,聚合,钻取,旋转等分析操作以求剖析数据,使用户能够从多种维度,多个侧面,多种数据综合度查看数据,从而了解数据背后蕴涵的规律。2.3数据挖掘数据挖掘就是从大量的,不完全的,有噪声的,模糊的,随机的实际应用数据中提取隐含其中的,事先未知的,但又具有潜在价值的信息和知识的过程。从数据分析的角度出发,数据挖掘可以分为两种类型:描述性数据挖掘和预测性数据挖掘。描述性数据挖掘包含关联分析,序列分析,聚类分析等方法。预测性数据挖掘包含分类和统计回归等方法,常用的预测模型有决策树,神经网络,线性回归等。数据挖掘为经营决策,市场策划,金融预测等提供依据,使大型数据库作为一个丰富可靠的资源为知识归纳服务。3数据仓库在超市中的应用根据某超市的需求,建立一个基于数据仓库的决策支持系统。主要分为三个阶段:(1)数据仓库建模,根据超市的经营数据确定分析主题,维度,粒度,事实表,维表等。(2)使用数据仓库提取,转换,加载(ETL)工具中的调度器,抽取转换器,加载器等实现对数据的抽取,转换,清理,装载,从而将对决策有用的,经过清理的数据存储在数据仓库中。(3)使用数据仓库OLAP分析工具实现数据的多维分析,并生成报表供决策者制定正确的营销政策,提高效益。3.1基于超市销售管理的数据仓库建模3.1.1需求分析数据仓库的数据是面向主题的,超市数据仓库系统最重要的是商品和顾客。超市的高级管理人员最关心的是商品销量,销售额和利润;也很关心顾客的购买行为和习惯。可以采用雪花模型,雪花模型中包括事实表和维表。事实表存储事实的度量值和各个维的码值;维表存储维的描述信息,包括为的层次,成员类别和码值等。针对超市海量数据信息,系统主要从商品销售,库存,采购信息以及客户关系信息入手:(1)对于商品销售,要如何通过商品的采购,存储与销售,最大限度地获取利润,需要通过加强对每种商品的管理,降低商品的采购成本和管理费用,吸引更多的客户,其中最重要的就是商品促销,需要适当的促销策略针对合适的顾客群,以增加销售利润。(2)库存对超市利润有很大影响,要采用JIT技术,在合适的时候合适的地点在合适的时间向合适的顾客出手合适的商品,再不脱销的情况下尽量减少库存,以降低成本。再次热销商品往往是加快企业资金流的动力,在商品采购中需求分析哪些是热销商品,尽可能的采购热销商品。(3)有效划分主客户群体以了解主要客户群体状况,主要客户群对企业销售服务的需求状况,不同客户群给企业带来的利润,采用不同的营销策略应对不同的客户群体,对客户群体的消费进行合理的引导。3.1.1模型构建3.1.1.1概念模型设计数据仓库中数据的组织是面向主题的,首先要确定主题,主题是一个在较高层次将数据归类的标准。本系统确定了三个基本主题:供应,销售。其属性如下:超市供应商顾客商品销售供应商品(商品编号,商品名称,型号,所属类别,供应商编号,单价,供应量,供应日期)顾客(顾客编号,姓名,性别,所属群体)供应商(供应商编号,地址,联系方式,重要程度)超市(连锁超市编号,地址,联系方式)销售(销售流水号,商品编号,客户编号,采购价,销售日期,销售量,销售单价)供应(供应编号,供货商号,日期,供应量,连锁超市编号)3.1.1.2逻辑模型设计3.1.1.2.1事实表设计事实表用来存储主题的主干内容,包含业务销售数据,如现金登记事务,商品交易事务等,目前大多数超市都已安装并使用销售终端系统(POS),每个POS清单都是一次交易过程的具体记录,包含消费者一次购买活动的全部信息,且数据丰富,把许多POS清单联系起来可以挖掘很多潜在信息,最著名的就是美国的啤酒尿布案例。本系统将POS交易清单处理后作为主要的事实表,包含销售流水号,商品编号,供应商编号,商品单价,商品采购号,商品利润,购买数量,累计销售额,累计利润,交易时间等内容。以事实表为中心,各维度按星型模式链接到中心事实表。3.1.1.2.2维度表设计维度表设计为表示主要就是将维度的诸多属性的值放置在单独的表中,本系统设计的维度如下:商品(商品编号,商品名称,所属类别,供应商编号,单价,数量)顾客(顾客编号,姓名,性别,所属群体)员工(员工号,员工姓名,员工级别)供应商(供应商编号,供应商名称,地址,联系方式,重要程度)超市(连锁超市编号,地址,联系方式,管理者编号)促销(促销编号,促销名,促销类别,优惠类别,起始日期,终止日期,反馈)时间维(年,月,日)产品分类(产品分类编号,产品分类名称)销售清单(销售流水号,产品编号,供应商编号,顾客编号,订货时间,产品单价,产品数量,折扣,销售量,库存数量)系统采用“星型模型”表示多维数据集:3.1.1.3物理模型设计数据仓库的物理结构设计就是为逻辑数据模型选取一个最适合应用环境的物理结构。数据仓库的物理结构设计主要包括存储记录结构设计,存储记录布局,存取方法设计三各方面。物理设计的目的在于尽量减少I/O操作的次数以提高数据检索效率,以及在多用户共享系统中,减少多用户对磁盘的访问冲突,均衡I/O符合,提高I/O的并行性,缩短等待时间,提高查询效率。以下主要从磁盘、文件、表数据三方面来描述非分布式存储的情况,。(1)磁盘RAID0提供了最好的读写性能,但RAID0没有提供冗余恢复策略,所以通常使用RAID10或RAID5来实现磁盘数据的存储与容灾。但是,RAID5的读写性能低于RAID10,性能优先,所以我们使用使用RAID10。使用多个磁盘分布式存储数据,避免用一个磁盘集中存取数据。对于5个200G的硬盘和1个1T的硬盘,优先选用5个200G的硬盘存储数据。(2)文件对数据文件进行逻辑分组,以方便存储和查找。(3)表数据表数据有堆表和索引表两种。本系统可以根据主键的单值或范围查找,所以选择索引组织表。3.1.2OLAP设计联机分析处理(OLAP)是基于数据仓库的应用而提出的一种数据分析机制。OLAP的功能主要是建立OLAP分析模型,在OLAP分析模型上进行获取数据,OLAP分析操作,展示OLAP分析结果。OLAP具有很强的功能,它能将多维数据按照任意的维度路径,以直观的方式展现给使用者。我们使用MicrosoftSQLServer2005通过上钻,下钻,旋转,切片等操作,实现以下功能:销售分析:管理人员能够对商品的销售情况进行查询和分析,并可以从多维角度分析数据,通过销售分析,管理人员可以对超市的经营状况有一个直观的了解,从而做出高效的决策。商品分析:通过对商品的跟踪调查,判断商品的生命周期。对于生长期的商品可以采用大量的促销方式以打开商品的销售渠道;对于发展起的商品,可以使用适当的营销手段保持其市场占有率和稳定的增长率;对处于稳定期的商品,应尽量吸引消费者的购买兴趣,开拓市场,以延长其稳定期;对于衰退期的商品,应视情况寻找其他替代品。供货商分析:对于不同供货商提供的同种商品的销量,成本,利润进行比较分析,从而挑选出最好的供应商。3.1.2数据挖掘技术OLAP只能告诉使用者过去和现在的情况,不能自动发掘事物之间的潜在的重要联系,数据挖掘技术可以利用各种挖掘工具和数据算法从现在的和过去的数据中挖掘出潜在的有价值的信息。超市可以使用一下的数据挖掘算法来辅助决策:(1)关联分析。关联分析可以挖掘隐藏在数据之间的相互关系。支持度,置信度和规则约束可以发现两个或多个数据项之间的关系。支持度,置信度和规则约束作为挖掘关联规则的阈值,可以过滤掉无意义的关联规则。关联分析在超市应用中可以发现一些隐藏的顾客购买行为。如美国典型的啤酒尿布案例,全球最大的两手上沃尔玛通过对销售记录进行关联分析,发现与啤酒同时出手最多的竟然是尿布,于是便将这两者摆在一起,使得啤酒喝尿布的销量都得以提高,这就是常说的”购物篮分析”。通过分析,将牛奶尿布的案例推广到超市中的各类商品,从而知道超市中的各类商品拜访,货架安排,搭配销售等营销策略。关联分析中用到的比较广泛的是Aprior算法。(2)分类。利用分类挖掘算法,超市经营者可以对客户进行分类,这样可以有针对性地进行促销和传单的发放。同样,可以把超市中所有商品分为四类:高销量高盈利商品高销量低盈利商品,低销量高盈利商品和低销量低盈利商品。分析样本中的每一类商品所具有的特征,建立分类规则,以便根据新商品
本文标题:基于数据仓库的数据挖掘技术
链接地址:https://www.777doc.com/doc-2575268 .html