您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 电子商务中的数据处理技术(数据仓库、数据挖掘、BI、OLAP)
第八章电子商务中的数据处理技术内容提要:1.数据仓库的概念2.联机分析处理技术3.数据挖掘的原理与应用4.现代数据库技术对电子商务的支持5.商业智能的内涵及特点介绍想要成功地实现电子商务,需要许多IT管理系统的支持,其中数据处理技术的发展和应用是决定电子商务成功运行和有效管理的关键因素之一。数据处理技术一般分为两种类型:操作型数据处理和分析性数据处理。操作型数据处理也称为事务处理,是指对数据库联机的日常操作。而分析型数据处理是指从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,涉及数据仓库。本章将介绍数据仓库的概念,以及应用于电子商务中的前沿数据处理技术,包括在线分析处理、数据挖掘技术和商业智能的概念及应用。8.1数据仓库8.1.1数据仓库的概念及特点1.数据仓库及相关特点(1)数据仓库(DataWarehouse,DW)建立数据仓库的目的是解决企业遇到的“企业应用蜘蛛网”现象,并更好地支持管理决策。(2)多维数据库(Multi-DimensionalDatabase,MDD)多维数据库可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。当维数扩展到三维甚至更多维时,多维数组库将形成类似“超立方块”一样的结构,人们通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。(3)数据集市(DataMarts)数据集市是一种更小、更集中的数据仓库,是为企业提供分析数据的一条廉价途径。(4)元数据(Metadata)元数据是关于数据的数据,它描述了数据仓库的数据和环境。数据通常可以分为两类:一类是管理元数据,它是对源数据及其内容、数据仓库主题、数据转换及各种操作信息的描述。另一类是用户元数据,它帮助用户查询信息、理解结果、了解数据仓库中的数据和组织。(5)外部数据源外部数据是不能在联机事务处理(OLTP)系统中找到,却是增强数据仓库欣喜质量所需的数据。2.数据仓库与数据库的区别传统的数据库系统由于主要用于企业的日常事务处理工作,存放在数据库中的数据基本符合操作性数据特点。而为了适应数据分析处理的要求而产生的数据仓库存放的数据,基本符合分析型数据的特点,下表显示出了操作性数据和分析型数据的区别。数据仓库与普通数据库之间的区别主要表现在以下三个方面:(1)它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。(2)数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。(3)它采用分析型的数据处理而非普通的操作型的数据处理方式,支持决策处理而非常规事务处理。3.数据仓库的技术支持数据仓库需要以下数据库技术的支持:(1)并行数据库技术(2)高性能的数据库服务器(3)数据库互操作技术4.数据仓库的特性(1)数据仓库的数据是面向主题的(2)数据仓库的数据是集成的(3)数据仓库的数据是不可更新的(4)数据仓库的数据是随时间不断变化的5.数据仓库的应用目标(1)作为企业的核心业务(2)优化企业内部管理控制(3)为企业增加商业机会8.1.2数据仓库的结构及功能1.数据仓库的体系结构数据仓库的体系结果图如下。2.数据仓库的作用数据仓库的主要作用是对数据进行处理以提高它们的质量,是企业日常处理过程中记录的数据能够更好地用于更高层次的分析和得到更有效地利用。下表描述了产品的生产过程与数据仓库数据处理过的对比。3.数据仓库的功能(1)建模功能(2)数据的抽取、转换和加载功能,抽取(Extraction)、转换(Transformation)和加载(Load),简称ETL(3)数据的清洗、融合与集成功能(4)数据存储管理和查询功能(5)运行维护功能8.1.3联机分析处理技术(OLAP)1.OLAP分析联机分析处理技术也称多维分析,它是一种数据分析技术,能够完成基于某种数据存储的数据分析功能。它可简单地定义为共享多维信息的快速分析。(1)OLAP的生产与发展OLAP是在联机事务处理(OLTP)基础上发展起来的。传统的OLTP应用是基于客户/服务器的两层结构体系,随着Internet/Intranet技术的发展,它的更多应用向三层客户/服务器方向发展。(2)OLAP的特点联机分析处理要求按多维方式组织企业的数据,传统的关系数据库难以胜任。为此,人们提出了多维数据库的概念。目前,联机分析处理的工具可分为两大类,一类是基于多维数据库的,另一类是基于关系数据的。(3)OLAP服务器OLAP服务器是一个高容量和多用户的数据操作引擎,用于支持和操作多维数据结构。2.OLAP分析工具OLAP系统上要执行的任务,为交互和在日常业务中处理面向事务的任务而优化;而OLAP分析工具在专用数据仓库服务器上执行任务,需要高的批处理性能以处理许多聚合、与计算和查询任务。(1)数据源:是操作型数据库、历史数据、外部数据或从己有的数据仓库环境所得的信息。(2)抽取/传播:是从各种数据源和不同的平台收集数据并将它们移动到数据仓库的过程。(3)转换/清洗:是在整个数据仓库建立的过程都有转换发生通常不止一步。数据转换通常包括使用映射表来解析代码及发现数据域隐藏的业务规则。在该过程的较早阶段,转换更多地用于合并不同数据源的数据。另一方面,清洗确保数据仓库具有正确的、有用的和有意义的信息。(4)数据提炼:数据提炼过程生成数据集市中的数据,它所完成的任务是:创建数据仓库的一个子集、创建计算域/虚拟域、汇总信息和聚合信息。(5)数据存储与访问:数据仓库中的操作细节数据一般用关系数据库系统进行储存和管理,但对于汇总数据等分析型数据的储存有两种方式:建立专用的多维数据库系统(MOLAP)和利用现有的关系数据库来模拟多维数据(ROLAP)。3.OLAP分析中的维度与事实数据仓库通常采用三层结构。底层是数据仓库服务器,中间层是OLAP服务器。模型中的事实一般用维表来描述。(1)维表的特征:维表的本质是多维分析空间在某个角度上的投影,多个维表共同建立一个多维的分析空间。(2)在OLAP分析中有一些维表是常用的:时间维、地理维、机构维、客户维、产品维。(3)事实表。事实是各个维度的交点,是对某个特定事件的度量。4.多维OLAP分析我们以一个卷烟销售分析为例,看如何从产品、时间、财务的角度,用多维的方式观察数据,此例中数据模型等同于业务模型。OLAP分析有如下特点:(1)钻取:在一个维内部沿着层次从上到下或从下到上的方向考察数据。如查找的产品为国产上海的中华烟,则钻取到的各级数据层次。(2)切片:固定某些维成员,用切片的方法对其他维进行观察,即在3维数据库中固定1维。对其余的两维切片观察。(3)旋转:按不同顺序组织哥哥维,对结果进行考察。8.2数据挖掘技术8.2.1数据挖掘的概念数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。从数据库的角度看,数据挖掘就是这样一个过程:从数据库的数据中识别出有效的、新颖的、具有潜在效用的并最终可理解的信息,是一个非平凡过程。1.数据挖掘的定义一个比较正式的数据挖掘的定义是:数据挖掘是从数据中抽取正确的、有用的、以前未知的和综合的可理解的信息,并使用该信息作商业决策的过程。2.数据挖掘的意义数据挖掘是先有了数据才兴起的技术。从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,从而减少风险,辅助做出正确的决策。它是提高商业和科学决策过程中的质量和效率的一种新方法。3.联机分析处理的局限从某种意义上来说,联机分析处理还是一种传统的决策支持方法,即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,所以联机分析处理是一种验证性的分析。一般来说验证型的分析有如下局限性:(1)常常需要以假设为基础。(2)联机分析处理需要对用户的需求有全面而深入的了解,然而实际上有些时候用户的需求并不是确定的。(3)抽取信息的质量依赖于用户对结果的解释,容易导致错误。8.2.2数据挖掘的内涵数据挖掘DM技术,就是对海量的数据进行精加工,从大量的数据中抽取出潜在的、不为人知的、有价值的信息、模式和趋势,然后,将它们以可视化形式和易于理解的方式表达出来,为人么所用。1.数据挖掘的功能数据挖掘目前的功能主要有以下几种:(1)概念描述功能(2)关联分析功能(3)分类和预测功能(4)聚类功能(5)检测功能(6)演变分析功能2.数据挖掘技术的应用(1)金融业:分析金融企业影响业务的关键因素,将市场和服务分成有意义的群组。(2)银行业:以提高资金的使用效率,制定正确的金融政策和加强对犯罪活动的防范措施。(3)保险业:对索赔数据进行挖掘,防止欺诈行为。(4)零售业:识别和找出客户人口统计特征间的联系和购买行为,以改进服务质量,提高客户的满意度,减少商业成本,提高利润。(5)医疗与保健:找出病人的行为特征,找出各种疾病的成功医疗与预防方法,提提高治愈率等。(6)物流业:对运输路径、物流运行方式等作业数据进行挖掘,可以支持SCS优化物流网络。(7)电信业:确定电信模式,捕捉盗用行为,进行异常模式识别,以便更好地利用资源和提高服务质量,降低成本和创造盈利。上述只是DM应用的典型行业,还有如税务、能源、房地产、证券、教育、制造业和政府等,DM几乎可用于所有的行业。下面有几个运用数字挖掘技术成功的案例:案例1:美国国内税务局为了提高对纳税人的服务水平。运用数据挖掘技术,合理地安排税务官的工作,为纳税人提供更迅捷、更准确的服务。案例2:GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%案例3:汇丰银行运用数据挖掘技术对不断增长的客户群进行分类,对每种产品找出最有价值的客户。使得营销费用减少了30%3.数据挖掘的过程与技术数据挖掘的过程如下图所示。先将选择的数据组织成一致的格式,再用ETL工具完成数据的抽取、转换和加载功能,数据挖掘过程中抽取的信息经过去粗取精的处理,最终转换为可以支持企业关键性决策的信息。数据挖掘所有到的关键技术主要有以下几项:(1)关联技术:若两个或多个变量的取值之间存在某种规律性,就称为关联。从大量的商务事务记录中发现潜在的关联,可以帮助人们做出正确的商务决策。①关联规则②关联分析③“啤酒与尿布”的故事④购物篮分析(2)分类:分类要解决的问题是为一个事件或对象归类,即预测一个特定的对象属于哪一类。(3)聚类:聚类就是根据一定的聚类规则把整个数据分成不同的组,即将具有某种相同特征的数据聚在一起,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。8.2.3现代数据库技术1.现代数据库技术的优越性在传统的决策支持系统中,数据库、模型库和知识库往往被独立地设计和实现,因而缺乏内在的统一性。而以数据仓库为中心、事务处理和数据挖掘为手段的现代数据库技术很好地解决了这个问题。现代数据库技术的优越性在于:(1)数据仓库解决了数据不统一的问题。(2)联机分析处理从数据仓库中的集成数据出发,实现了分析方法和数据结构的分离。(3)数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动作出预测。2.数据库技术对电子商务系统的支持数据库技术对电子商务系统的支持是全方位的,从底层的数据基础到上层的应用都涉及到数据库技术。数据库技术对于电子商务系统的支持可以概括为以下几部分:(1)数据的收集、存储和组织:这是传统数据库系统的主要功能。(2)决策支持:这就要用到前面所提到的数据仓库解决方案。(3)对EDI的支持:EOI是电子商务重要的组成部分。8.3商业智能8.3.1商业智能的内涵1.商业智能的概念商业智能(BusinessIntelligence,BI)系统使组织能够通过利用客户、供应商以及内部业务操作的有关信息
本文标题:电子商务中的数据处理技术(数据仓库、数据挖掘、BI、OLAP)
链接地址:https://www.777doc.com/doc-6138182 .html