您好,欢迎访问三七文档
数据挖掘数据库技术统计分析机器学习模式识别算法其它。。。可视化技术数据挖掘数据库技术统计分析机器学习模式识别算法其它。。。可视化技术数据挖掘数据库技术统计分析机器学习模式识别算法其它。。。可视化技术考考填空选择教学纲要商务智能概述(三个技术填空选择)在线分析处理OLAP技术(1)数据挖掘技术和方法*数据挖掘过程数据仓库(大题考的多,6选1实验指导书有18分)商务智能应用*知识知识是对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。事实性知识和经验知识(考什么是隐性和显性知识)。洞察力(insight)IBM商务智能定义知识就是力量。BI系统收集您客户的相关信息并加以分析,以帮助您确定商机和创建可以满足客户需求的战略。数据仓库、数据挖掘和决策支持中的先进技术创建大量的BI工具。http://www-900.ibm.com/cn/smb/solutions/bi/微软商务智能定义WatchthisinteractivevideoandlearnhowMicrosoftbusinessintelligencesolutionscanhelpyourIT,Finance,OperationsandSalesdepartmentsaccesstherightinformation,faster:http://www.microsoft.com/bi/aboutbi/default.aspx#SAP商务智能定义SAPBusinessObjectsBI解决方案提供全面的商务智能功能,用户可根据可靠的数据和分析,作出有效而明智的决策。借助这些强大的解决方案,企业中的所有用户均可访问、分析和共享组织中的各种信息,并可以设置信息格式及在信息中进行导航。http://www.sap.com/china/solutions/sapbusinessobjects/large/intelligenceplatform/bi/index.epx7事务型处理数据和分析型处理数据的区别3-4条一条2分特性OLTPOLAP特征面向用户功能DB设计数据汇总视图工作单位存取关注操作访问记录数用户数DB规模优先度量操作处理事务办事员、DBA、数据库专业人员日常操作基于E-R,面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千100MB到GB高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,统一的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到TB高灵活性,端点用户自治查询吞吐量,响应时间8数据仓库(DataWarehouse)定义数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。以1992年WHInmon出版《BuildingtheDataWarehouse》为标志,数据仓库发展速度很快。WHInmon被誉为数据仓库之父。WHInmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。9面向主题(特点、什么意思)数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。101集成性数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。112稳定性数据仓库内的数据有很长的时间跨度,通常是5-10年。数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。123时变性时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。134支持管理决策数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。14数据仓库系统的结构(四步曲画图)数据质量控制数据重新组织EII解决方案数据质量控制数据重新组织EII解决方案数据质量控制数据重新组织EII解决方案企业信息集成(EII)数据展现数据管理数据获取数据迁移数据清洗数据仓库元数据管理数据集市管理安全性、分析管理最终用户数据质量控制数据重新组织ETL解决方案数据抽取、迁移、加载周数据加载日常数据增加日周期ETL周日周期数据源ETL数据存储管理业务模型数据展现利润成本分析资产分析营销分析投资组合分析平衡记分卡/KPI解决的业务问题利润成本分析资产分析营销分析投资组合分析平衡计分卡数据分析采购系统生产系统销售系统财务系统采购系统生产系统销售系统财务系统数据仓库企业数据模型RDMDDBDW即席查询Intranet/Internet产品报告数据挖掘OLAP分析随即查询报表例外分析数据挖掘决策人员管理人员分析人员业务人员实时增量虚拟数据仓库实时增量虚拟数据仓库实时增量实时增量虚拟数据仓库访问工具ODS元数据管理(业务元数据、技术元数据等)15元数据数据仓库的所有数据都要通过元数据来管理和控制。元数据描述关于源数据的说明,包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个Web页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。16元数据(2)元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。17数据仓库的数据模型最后大题要有模型(重点前两个模型)星型图模型物理数据模型概念模型逻辑模型物理模型面向用户的需求细化层次更详细的技术细节信息包图18概念模型由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。概念模型简化了这个过程并且允许用户与开发者和其他用户建立联系:确定系统边界:决策类型、需要的信息、原始信息确定主题域及其内容:主题域的公共键码、联系、属性组确定维度:如时间维、销售位置维、产品维、组别维等确定类别:相应维的详细类别确定指标和事实:用于进行分析的数值化信息19实例〖例〗试画出销售分析的概念模型。解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)度量和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。20销售分析的概念模型日期销售地点销售产品年龄组别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)度量和事实:预测销售量、实际销售量、预测偏差信息包:销售分析维度类别21概念模型图实例组合ID写清楚22逻辑模型星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。星形图包括了三种逻辑实体:指标、维度和详细类别维表的本质是多维分析空间在某个角度上的投影,多个维表共同建立一个多维分析空间。23sales数据仓库的雪花模式24InformationModellingofSalesInformationDemandUniqueIdentifierAttributeStrongEntityType1-nRelationship0-nRelationshipDerivedAttributeWeakEntityType25DWLayerandtheMappingtoInformationModelDataWarehouseLayer(logicallayer)InformationModel(conceptuallayer)MapInformationObjectsToDatabasefields-RenameObjectstoUserfriendlynames-Calculatefields-Defineobjectdisplayattributes-Convertcurrenciesetc….26星型模型例子27粒度(选择填空)粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。粒度越小,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。2.1数据仓库的开发模型填空题张三客户客户与产品特性个体整体整体间联系属性实体同质实体异质实体列(字段、数据项)记录表文件数据库信用现实世界是存在于现实之中的各种客观事物。概念世界是现实情况在人们头脑中的反应。逻辑世界是人们为为将存在于自己头脑中的概念模型转换到计算机中的实际的物理存储过程中的一个计算机逻辑表示模式。计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。图2.1现实与不同模型的变化联系元数据模型数据粒度模型和聚集模型图2.2数据模型关系图数据仓库的设计是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。元数据模型作为数据仓库的灵魂自始自终伴随着数据仓库的开发、实施与使用。数据粒度模型和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。大题可用由于传统的实体关系图无法表述数据仓库中所需要的用户所感
本文标题:商务智能考点汇总
链接地址:https://www.777doc.com/doc-475 .html