您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 2014知识发现与数据开采试题及答案
1.什么叫数据挖掘?数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程。2.数据挖掘一般有哪些步骤?从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。3.数据挖掘的功能大致有哪些?(1)自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题,如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。(2)关联分析数据关联,是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。(3)聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。(4)概念描述概念描述,就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。(5)偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。4.什么叫孤立点(outlier)?在数学上是指坐标满足曲线方程,但并不落在曲线上的点。孤立点也可以指是在数据集合中与大多数数据的特征或不一致的数据。5.什么叫数据仓库?数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。6.为什么数据仓库的数据是非挥发的?因为数据仓库是一个物理上独立的存储结构(存储着转换自操作系统的数据)。数据更新的操作不在数据仓库环境下进行。(1)不需要事务处理,恢复,和并发控制机制(2)在数据访问中只需要两种操作:数据的初始化和访问。7.什么叫OLTP?什么叫OLAP?它们有何区别?On-LineTransactionProcessing联机事务处理系统(OLTP)。也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。联机分析处理(on一lineanalyticalprocessing,OLAP).是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。两者的区别如下表:OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB设计面向应用面向主题数据当前的,最新的细节的,二维的分立的历史的,聚集的,多维的集成的,统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百万个DB大小100MB-GB100GB-TB时间要求具有实时性对时间的要求不严格主要应用数据库数据仓库8.多维数据仓库的事实表的用途是什么?每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与维度表中对应项的相关索引字段之外的任何数据。包含在事实数据表中的“度量值”有两种:一种是可以累计的度量值,另一种是非累计的度量值。最有用的度量值是可累计的度量值,其累计起来的数字是非常有意义的。用户可以通过累计度量值获得汇总信息,例如。可以汇总具体时间段内一组商店的特定商品的销售情况。非累计的度量值也可以用于事实数据表,单汇总结果一般是没有意义的,例如,在一座大厦的不同位置测量温度时,如果将大厦中所有不同位置的温度累加是没有意义的,但是求平均值是有意义的。一般来说,一个事实数据表都要和一个或多个维度表相关联,用户在利用事实数据表创建多维数据集时,可以使用一个或多个维度表。9.什么叫雪花模式?什么叫事实星座模式?一个雪花模式是一个合乎逻辑的安排表中的多维数据库,这样的实体关系图类似于花的形状。雪花模式是集中代表事实表的连接到多个层面。雪花模式是类似星型模式。然而,在雪花架构,尺寸归到多个相关的表,而星型模式的尺寸非标准化,每个维度表由一个单一的。形状复杂的雪花出现时,雪花模式的详细尺寸,并具有多层次的关系,并有多个子表的父表的效果只会影响维度表而不是事实表。一种常见的数据仓库的概念模型。这种模型往往应用于数据关系比星型模型和雪花模型更复杂的场合。事实星座模型需要多个事实表共享维度表,因而可以视为星形模型的集合,故亦被称为星系模型。10.雪花模式与星形模式各有哪些有缺点?雪花型结构是一种正规化结构,他取除了数据仓库中的冗余数据。比如有一张销售事实表,然后有一张产品维度表与之相连,然后有一张产品类别维度表与产品维度表连。这种结构就是雪花型结构。雪花型结构取除了数据冗余,所以有些统计就需要做连接才能产生,所以效率不一定有星型架构高。正规化也是一种比较复杂的过程,相应数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。:雪花模式比较复杂,用户不容易理解;浏览内容相对困难;额外的连接将使查询性能下降。星型架构是一种非正规化的结构,多维数据集中的每一个维度都与事实表相连接,不存在渐变维度,所以数据有一定的冗余,正因为数据的冗余所以很多统计查询不需要做外部的连接所以一般情况下效率比雪花型要高。星型结构不用考虑很多正规化的因素,设计与实现都比较简单。11.举例说明什么是分布式函数?什么是代数函数?什么是全息函数?分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如:count(),sum(),min(),max()等代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。比如:avg(),min_N(),standard_deviation()整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。比如:median(),mode(),rank()12、维的概念层次可为数据库的哪些操作提供支撑?上卷(roll-up):汇总数据(1)通过一个维的概念分层向上攀升或者通过维规约(2)当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现(为给定数据添加更多细节)切片和切块(sliceanddice)切片操作在给定的数据立方体的一个维上进行选择,导致一个子方切块操作通过对两个或多个维进行选择,定义子方转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列转轴是一种可视化操作,通过转动当前数据的视图来提供一个数据的替代表示钻过(drill_across):执行涉及多个事实表的查询钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表其他OLAP操作可能包括列出表中最高或最低的N项,以及计算移动平均值、增长率、利润、统计函数等等13、什么叫企业级数据仓库?什么叫部门级数据仓库?什么叫虚拟数据仓库?企业仓库:搜集关于跨越整个组织的主题的所有信息数据集市:企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市虚拟仓库:操作数据库上的一系列视图,只有一些可能的汇总视图被物化(先计算出来,小部分)。14、数据立方体的计算有哪些优化策略?基于ROLAP的方体计算(Agarwaletal’96)基于数组的算法(MOLAP)(Zhaoetal’97)自底向上的计算方法(Beyer&Ramarkrishnan’99)H-cubing技术(Han,pei,dong&wang:SIGMOD’0115、什么叫数据清洗?数据清理:填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。16、什么叫OLAM?与OLAP有什么区别?联机分析挖掘OLAM(on一lineanalyticalmining)是OLAP与数据挖掘相结合的产物。它融合和OLAP和数据挖掘两者的优点,即体现了OLAP的对用户请求的快速响应,交互式操作和多维分析,又体现了数据挖掘分析数据的深入和分析过程的自动化。与OLAP相比由于融合了数据挖掘技术,因此在数据分析时更加深入,并可实现分析过程的自动化。17、挖掘前为什么要进行数据预处理?1不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据2含噪声的:包含错误或者“孤立点”3不一致的:在编码或者命名上存在差异4没
本文标题:2014知识发现与数据开采试题及答案
链接地址:https://www.777doc.com/doc-4222619 .html