您好,欢迎访问三七文档
2011Alibaba数据分析师(实习)试题解析一、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs’test(是以FrankE.Grubbs命名的),又叫maximumnormedresidualtest,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析计算方法主要有:层次的方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。其中,前两种算法是利用统计学定义的距离进行度量。k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点:本算法确定的K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,KN,tN。缺点:1.K是事先给定的,但非常难以选定;2.初始聚类中心的选择对聚类结果有较大的影响。三、根据要求写出SQL表A结构如下:Member_ID(用户的ID,字符型)Log_time(用户访问页面时间,日期型(只有一天的数据))URL(访问的页面地址,字符型)要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)createtableBasselectMember_ID,min(Log_time),URLfromAgroupbyMember_ID;四、销售数据分析以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,a)从数据中,你看到了什么问题?你觉得背后的原因是什么?b)如果你的老板要求你提出一个运营改进计划,你会怎么做?表如下:一组每天某网站的销售数据a)从这一周的数据可以看出,周末的销售额明显偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。b)针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。五、用户调研某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:a)试验需要为决策提供什么样的信息?c)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。a)试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。b)根据三类客户的数量,采用分层比例抽样;需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-samplet-test)。摘录一段企业面对海量数据应如何具体实施数据挖掘,使之转换成可行的结果/模型?首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAPServer、数据库、数据挖掘工具)和熟悉程度。ETL工具:AscentialDataStage,IBMwarehouseMANAGER、Informatica公司的PowerCenter、Cognos公司的DecisionStream市场上的主流数据仓库存储层软件有:SQLSERVER、SYBASE、ORACLE、DB2、TERADATA请谈一下你对元数据管理在数据仓库中的运用的理解。元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。数据挖掘对聚类的数据要求是什么?(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感(7)高维性(8)基于约束的聚类(9)可解释性和可利用性简述Apriori算法的思想,谈谈该算法的应用领域并举例。思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。在商务、金融、保险等领域皆有应用。在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori算法通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)?单选题1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类D.自然语言处理2.以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A.Precision,RecallB.Recall,PrecisionA.Precision,ROCD.Recall,ROC3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.隐马尔可夫链5.什么是KDD?(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化C聚集D估计遗漏值12.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B)A第一个B第二个C第三个D第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)A第一个B第二个C第三个D第四个14.下面哪个不属于数据的属性类型:(D)A标称B序数C区间D相异15.在上题中,属于定量的属性类型是:(C)A标称B序数C区间D相异16.只有非零值才重要的二元属性被称作:(C)A计数属性B离散属性C非对称的二元属性D对称属性17.以下哪种方法不属于特征选择的标准方法:(D)A嵌入B过滤C包装D抽样18.下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造19.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)A2B3C3.5D520.下面哪个属于映射数据到新的空间的方法?(A)A傅立叶变换B特征加权C渐进抽样D维归约21.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:(B)A1比特B2.6比特C3.2比特D3.8比特22.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)A0.821B1.224C1.458D0.71623.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)A18.3B22.6C26.8D27.924.考虑值集{12243324556826},其四分位数极差是:(A)A31B24C55D325.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:(A)A一年级B二年级C三年级D四年级26.下列哪个不是专门用于可视化时间空间数据的技术:(B)A等高线图B饼图C曲面图D矢量场图27.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:(D)A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样28.数据仓库是随着时间变化的,下面的描述不正确的是(C)A.数据仓库随时间的变化不断增加新的数据内容;B.捕捉到的新数据会覆盖原来的快照;C.数据仓库随事件变化不断删去旧的数据内容;D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.29.关于基本数据的元数据是指:(D)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30.下面关于数据粒度的描述不正确的是:(C)A.粒度是指数据仓库小数据单元的详
本文标题:数据挖掘分析面试题
链接地址:https://www.777doc.com/doc-2333435 .html