您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库与数据挖掘ppt习题剖析
computer.dqpi.edu.cn数据仓库与数据挖掘主讲教师:王浩畅E-mail:wanghch_angel@tom.comSchoolofComputer&InformationTechnologyofNEPU第2章数据预处理练习1假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)该数据的均值是什么?中位数是什么?(b)该数据的众数是什么?讨论数据的峰(c)数据的中列数是什么?解答(a)均值:中位数:有序集中间值或者中间两个值平均。奇数个,中间值:25(b):表示数据集中出现频率最高的值两个值出现了相同的最高频率,25和35,都出现了4次,也就是双峰(c)中列数:最大值和最小值的平均(13+70)/2=41.5niixnx11练习2假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(d)找出数据的第一个四分位数Q1和第三个四分位数Q3(e)给出数据的五数概括解答(d)第一个四分位数Q1:20第三个四分位数Q3:35中位数:有序集中间值或者中间两个值平均。奇数个,中间值:25(e)五数概括:13,20,25,35,70练习3假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(f)画出数据的盒图解答2035257013年龄(f)52噪声数据(3)数据平滑的分箱方法price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34划分为(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34练习假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.使用分箱均值光滑对以上数据进行光滑,箱的深度为3.解释你的步骤解答Step1:排序数据.Step2:将有序值划分到大小为3的等频箱中Step3:计算每个箱中数据的算术平均值.Step4:.将每个箱中的每个值用此箱的算术平均值替换Bin1:44/3,44/3,44/3Bin2:55/3,55/3,55/3Bin3:21,21,21Bin4:24,24,24…规范化最小-最大规范化:对原始数据进行线性变换。假定minA和maxA分别为属性A的最小和最大值。将A的值v映射到区间[new_minA,new_maxA]中的v’最小-最大规范化通过计算例:假定属性income的最小与最大值分别为12000美元和98000美元。我们想把income映射到区间[0.0,0.1]。根据最小最大规范化,income值73600美元将变换为:数据变换(2)AAAAAAminnewminnewmaxnewminmaxminvv_)__('716.00)00.1(12000980001200036007z-score规范化:属性A的值基于A的平均值和标准差规范化。最大最小值未知,或者离群点影响较大的时候适用例:假定属性income的均值和标准差分别为54000美元和16000美元。使用z-score规范化,值73600美元转换为数据变换(3)AAdevstandardmeanvv_'225.1160005400073600小数定标规范化:通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。例:假定A的取值由-986~917。A的最大绝对值为986。使用小数定标规范化,用1000(即j=3)除每个值,这样,-986规范化为-0.986,而917被规范化为0.917。数据变换(4)jvv10'其中,j是使Max(||)1的最小整数'v练习用如下两种方法规范化如下数据组200;300;400;600;1000(a)min-max规范化令min=0,max=1(b)z-score规范化解答(a)min-max规范化令min=0,max=1(b)z-score规范化例下面的数据是AllElectronics通常销售的商品的单价表(按$取整)。已对数据进行了排序:1,1,5,5,5,5,5,5,8,8,10,10,10,10,12,12,12,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,25,28,28,30,30,30为进一步压缩数据,让每个桶代表price的一个不同值。通过自然划分分段将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98,60872.34]通常数据分析人员希望看到划分的形式为[50000,60000]自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间自然划分的3-4-5规则规则的划分步骤:如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g.5%-95%3-4-5规则——例子假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间,由-$351,976.00到$4,700,896.50。用户希望自动地产生利润的概念分层。为了改进可读性,我们使用记号(l...r]表示区间(l,r]。例如,(-$1,000,000...$0]表示由-$1,000,000(开的)到$0(闭的)的区间。1.根据以上信息,最小和最大值分别为MIN=-$351,976.00和MAX=$4,700,896.50。对于分段的顶层或第一层,要考虑的最低(第5个百分位数)和最高(第95个百分位数)值是:LOW=-$159,876,HIGH=$1,838,761。2.给定LOW和HIGH,最高有效位在百万美元数字位(即,msd=1,000,000)。LOW向下对百万美元数字位取整,得到LOW’=-$1,000,000;HIGH向上对百万美元数字位取整,得到HIGH’=+$2,000,000。3-4-5规则——例子3.由于该区间在最高有效位上跨越了三个值,即,(2,000,000–(1,000,000))/1,000,000=3,根据3-4-5规则,该区间被划分成三个等宽的区间:(-$1,000,000...$0],($0...$1,000,000]和($1,000,000...$2,000,000]。这代表分层结构的最顶层。4.现在,我们考察MIN和MAX,看它们“适合”在第一层分划的什么地方。由于第一个区间(-$1,000,000...$0]覆盖了MIN值(即,LOW′MIN),我们可以调整该区间的左边界,使区间更小一点。MIN的最高有效位字在十万数字位。MIN向下对十万数字位取整,得到MIN’=-$400,000。因此,第一个区间被重新定义为(-$400,000...$0]。由于最后一个区间($1,000,000...$2,000,000]不包含MAX值,即MAXHIGH′,我们需要创建一个新的区间来覆盖它。对MAX向上对最高有效位取整,新的区间为($2,000,000…$5,000,000]。因此,分层结构的最顶层包含4个区间:(-$400,000...$0],($0...$1,000,000],($1,000,000...$2,000,000]和($2,000,000...$5,000,000]。3-4-5规则——例子5.递归地,每一个区间可以根据3-4-5规则进一步划分,形成分层结构的下一个较低层:•第一个区间(-$400,000...$0]划分成4个子区间:(-$400,000...-$300,000],(-$300,000...-$200,000],(-$200,000...-$100,000]和(-$100,000...$0]。•第二个区间($0...$1,000,000]划分成5个子区间:($0...$200,000],($200,000...$400,000],($400,000...$600,000],($600,000...$800,000]和($800,000...$1,000,000]。•第三个区间($1,000,000...$2,000,000]划分成5个子区间:($1,000,000...$1,200,000],($1,200,000...$1,400,000],($1,400,000...$1,600,000],($1,600,000...$1,800,000]和($1,800,000…$2,000,000]。•最后一个区间($2,000,000...$5,000,000]划分成3个子区间:($2,000,000...$3,000,000],($3,000,000...$4,000,000]和($4,000,000...$5,000,000]。类似地,如果必要的话,3-4-5规则可以在较低的层上继续迭代3-4-5规则——例子(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000Low=-$1,000High=$2,000第二步第四步第一步-$351-$159profit$1,838$4,700MinLow(i.e,5%-tile)High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)第3章数据仓库和数据挖掘的OLAP技术习题假定数据仓库包含三个维:time,doctor和patient;两个度量:count和charge;其中,charge是医生对一位病人的一次来访的收费。(a)列举三种流行的数据仓库建模模式。(b)使用星型模式,画出上面数据仓库的模式图。解答(a)星型模式、雪花模式、或事实星座模式(b)习题假定数据仓库包含三个维:time,doctor和pa
本文标题:数据仓库与数据挖掘ppt习题剖析
链接地址:https://www.777doc.com/doc-3976029 .html