您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 数据挖掘导论习题答案(中文版)
介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael教授VipinKumar版权所有2006年PearsonAddison-Wesley。保留所有权利。内容。1Introduction52Data53ExploringData194Classification:BasicConcepts,DecisionTrees,andModel24Evaluation245Classification:AlternativeTechniques446AssociationAnalysis:BasicConceptsandAlgorithms717AssociationAnalysis:AdvancedConcepts958ClusterAnalysis:BasicConceptsandAlgorithms1259ClusterAnalysis:AdditionalIssuesandAlgorithms14510AnomalyDetection153三1介绍1.讨论是否执行下列每项活动的是一种数据miningtask。(a)把客户的公司根据他们的性别。否。这是一种简单的数据库查询。(b)把客户的公司根据他们的盈利能力。第这是一种会计计算、应用程序的门限值。然而,预测盈利的一种新的客户将数据挖掘。(c)计算的总销售公司。否。这又是简单的会计工作。(d)排序的学生数据库基于学生的身份证号码。第再次,这是一种简单的数据库查询。(e)预测结果丢(公平)的一对骰子。否。既然死是公正的,这是一种概率的计算。如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。(f)预测未来股价的公司使用。historicalrecords是的。我们将试图创建的模型,可以预测未来的持续价值的股票价格。这是一例的2第1章介绍领域的数据挖掘预测模型。我们可以使用回归分析。这一建模,尽管研究人员在许多领域已经开发了多种技术来预测时间序列。(g)监控在患者心率异常。是的。我们将构建一种型号的正常行为的心率和提高报警当寻常心的行为发生。这将涉及领域的数据挖掘被称为异常检测。这也可以看作是一种分类的问题如果我们的例子两个正常和不正常的心的行为。(h)监测地震波地震活动。是的。在这种情况下,我们将构建模型的不同类型的地震波的行为与地震活动和提高报警时,这些不同类型的地震活动。这一例子说明,在区域的数据挖掘已知的分级。(i)解压的频率的声音波形。否。这是信号处理。2.假设您是作为一种数据挖掘咨询顾问的互联网搜索引擎公司。介绍如何将数据挖掘可以帮助该公司的具体的例子,说明技术,如群集、分类、关联规则挖掘和异常检测可以被应用。下面的示例将可能的答案。•群集可以组的结果与类似的主题和现在的他们的用户以更精简的形式,例如,报告了10个最常见的词集。•分类可以将结果以预定义的类别如“体育”、“政治”等。•连续的关联分析可以检测到这种特定的查询按照某些其他的查询使用的概率很高,从而更有效的高速缓存。•异常检测技术可以发现不寻常的模式的用户流量,例如,一主题已突然变得更受欢迎。广告策略可以调整,以利用这种事态发展。33.对于下面的每个数据集说明数据是否privacyis一项重要的问题。(a)普查数据的收集从1900年—1950年。无(b)IP地址和访问次数的Web用户访问你的网站。单击“是”(c)图像从地球轨道运行的卫星。无(d)名字和地址的人从电话通讯簿。无(e)姓名和电子邮件地址收集网。无2数据1.在最初的例子第2章、统计师说:“是的,字段2和3基本上是相同的。您能告诉我从三条线的样本数据所显示的为什么她说吗?7对所显示的值。虽然它可以是危险的结论从这样的小样本,两个字似乎包含基本相同的信息。2.分类以下属性为Binary、离散或连续的。还将其归为质量(名义或序数)或数量(时间间隔或比例)。某些情况下可能会有多个解释,简要说明你的理由如果您认为可能有某些含糊不清之处。例如:年龄。答:独立的、定量的、比率(a)时间在上午或下午。Binary、定性、序号(b)亮度计测量光度计。持续不断的、定量的、比率(c)亮度测量人的判决。离散的、定性的、序号(d)角度以度为单位0◦和360◦。持续不断的、定量的、比率(e)铜牌、银牌和金牌颁发的奖项在奥运会上。离散的、定性的、序号(f)高度海平面以上。持续不断的、定量的、间隔/比例(取决于海一级被认为是一种任意的来源)。(g)多的病人在医院里。离散的、定量的、比率(h)ISBN号的书籍。(查找格式在Web上的)离散的、定性的、名义上的(ISBN号码没有订单信息,虽然)第2章数据(i)可以通过指示灯的以下值:不透明、半透明、透明。离散的、定性的、序号(j)军衔。离散的、定性的、序号(k)中心的距离园区。持续不断的、定量的、间隔/比例(取决于)6(l)密度的物质以克每立方厘米。离散的、定量的、比率(m)检查涂层的编号。(当你参加活动,你可以常常giveyour衣的人将为您提供的号码,您可以使用要求您的外套当你离开。)离散的、定性的、名义3.您接触的营销总监,当地一家公司,他认为他已设计出一种简易的方法来衡量客户的满意度。他解释了他的计划:“它是如此的简单,我不相信没有人想过。我只是保持跟踪客户投诉的每个产品。我读的是数据挖掘的图书,计数率的属性,因此,我国的产品满意度必须是比特性。但当我的产品都是基于我的新的客户满意度测量和显示出他们对我的老板,他告诉我,我忽略了很明显的,我的措施是毫无价值的。我认为他是疯了,因为我们最畅销的产品,最满意的,因为它的投诉最多。你可以帮我把他直吗?”(a)谁是谁的营销总监或老板吗?如果您的回答,,hisboss你将如何修复措施的满意度?老板是正确的。一种更好的衡量标准是由投诉的产品满意地注意到产品)=”。总数销售的产品(b)你能说什么关于属性的类型的原始productsatisfaction属性?没有什么可以说的属性类型的原始度量。例如,两个产品具有相同的客户满意度的级别会有不同的投诉数目和反之亦然。4.几个月后,你会再次接触相同的营销directoras行使3。这一次,他已经设计出一种更好的方法来衡量在多大程度上对客户更喜欢一种产品在其他类似的产品。他解释说,“当我们开发新的产品,我们通常要创建几个变量和评估这一客户的喜欢。我们的标准程序,以使我们的测试主体所有的产品变化在一段时间,然后让他们排的变型产品。然而,我们的测试科目有很优柔寡断的,尤其是当有两个以上的产品。结果,测试永远需要的。我建议,我们执行的比较成对的然后使用这些比较获得的排名。因此,如果我们有三个产品的变化,我们的客户比较不同1和2、2和3,和最后3和1。我们的测试时间与我的新程序是第三,什么是旧的程序,但雇员在测试的抱怨说他们无法拿出排名的结果。和我的老板想要的最新的产品的评价,昨天。我还要提到的是他的人了老产品的评价办法。您能帮助我吗?”7(a)是营销总监的麻烦吗?将他的方法工作的生成顺序排列的变型产品的客户的首选项?解释一下。是的,营销总监是有麻烦了。客户可能会不稳定的排名。例如,客户可能更喜欢1,2,2,3,但3到1。(b)有什么方法可以修复的营销总监的做法?更普遍的是,你能说什么来创建顺序测量基于规模的成对比较的吗?解决方案之一:三个项目,只做前两个比较。一种更通用的解决方案:将选择的客户之一,订购产品,但仍然只允许配对比较的。总的创建顺序测量基于规模的成对比较是很困难的,因为可能的矛盾之处。(c)对于原来的产品评估计划的整体排名eachproduct变化中发现的计算其平均在所有测试的科目。评论你是否认为这是一种合理的办法。有什么其他的办法可能您考虑吗?第一,存在的问题是分摊比额表是不可能有时间间隔或比例分摊比额表。但实际上,平均可能不够好。更重要的是,少数几个极端的评级可能会导致在总的评级,是一种误导。因此,中值或修剪指(请参阅第3章)可能是更好的选择。5.您能想到的情况的识别号码将usefulfor预测吗?例如:学生ID是一种良好的“调头预警”功能的毕业日期。6.一名教育心理学家想要使用关联分析方法来分析。testresults测试包括100个问题有四个可能的答案。第2章数据(a)你将如何将此类数据转换成适合于associationanalysis吗?关联规则分析工程使用binary属性,因此您必须将原始数据转化为Binary格式如下所示:Q1=AQ1=BQ1=CQ1=D...Q100=AQ100=BQ100=CQ100=D1000...10000010...0100(b)特别是,什么类型的属性将您和howmany,他们有吗?400不对称的二元属性。7.以下哪一项的数量很可能会表现出更多的时间自动关联:雨量或每日的温度吗?为什么?一种功能显示的空间自动关联如果位置更接近每个其他的更多的类似的值的功能比位置更远的地方。这是更为常见的物理关闭位置有类似的温度比类8似的降雨量降雨量以来可以非常本地化;,即降雨量可更改突然从一处向另一处。因此,每日温度显示了更多的空间自相关性然后每天的降雨量。8.讨论为什么有的文档的列表是一种数据集hasasymmetric离散或连续的非对称性的特点。Ijth的项的文档的列表的次数,长期j出现在我的文档”。大多数文档所包含的只是一小部分的所有可能的条件,因此,零条目并没有很大的意义,不论是在描述或比较文档。因此,文档的矩阵有不对称的离散特性。如果我们应用了TFIDF正常化的条件和归档到二级缓存的规范1、然后这将会创建一个文档矩阵与连续的功能。然而,功能仍然是不对称的,因为这些变化并不创建非零的条目中的所有条目,以前是0,因此,零条目仍没有很大的意义。9.许多科学依赖于观察而不是(或除了)设计实验。比较的数据质量问题的参与观测的科学与实验科学和数据挖掘。观测科学的问题,不能够完全控制数据的质量,他们获得的。例如,直到地球轨道运行的卫星,测量,海洋表面的温度依赖的测量船。同样的,天气的测量往往采取从站位于城镇或城市。因此,有必要与所提供的数据,而不是数据从精心设计的实验。在这种意义上说,数据分析的科学观测类似的数据挖掘。10.讨论之间的差值的精度测量和termssingle和双精度,因为它们是用来在计算机科学中,通常为代表的浮点数字,需要32位和64位的分别。精度的浮点数字的最大精度。更明确地规定,精度通常表示的有效数字的位数来表示的值。因此,单精度数只能代表值与多达32位、≈9位小数位数的精确。然而,往往的精度值使用32位(64bits)是远远少于32位数(64位)。11.提供至少两个优点与数据存储在文本文件中insteadofabinary格式。(1)文本文件可以很容易的检查键入的文件或查看它的文本编辑器。(2)文本文件是更便携的binary文件、两个跨越多个系统和方案。(3)文本文件可以更方便地进行修改,例如,使用文本编辑器或perl。12.区分噪音和异常值。请务必考虑。followingquestions(a)噪音是以往任何时候都更加令人感兴趣的或需要?异常值®没有任何的定义。是的。(请参阅第10章。)(b)可以噪音对象异常值?是的。随机的数据失真通常负责为离群值。(c)有噪音的对象总是异常值?第随机的失真会导致对象或值更象是正常的。(d)都是异常值总是发出噪音的对象吗?第往往离群值仅仅是类的对象,是不同于正常的对象。9(e)可以使噪声典型值不寻常的一种,或反之亦然?是的。1013.考虑的问题是找出K近邻的数据对象。程序员在设计算法2.1来执行这项任务。算法2.1算法查找K最接近的邻居。1:fori=1的数据对象2:查找距离的对象的所有其他对象。3:排序这些距离递减的顺序。(跟踪对象所关联的每个距离)。4:返回的关联对象的第一次K的距离,经过排序的列表。5:结束。(a)描述了可能出现的问题与此算法如果有重复的对象的数据集。假设距离函数将仅返回的距离为0的对象是相同的
本文标题:数据挖掘导论习题答案(中文版)
链接地址:https://www.777doc.com/doc-2333500 .html