数据仓库与数据挖掘ppt习题

computer.dqpi.edu.cn数据仓库与数据挖掘主讲教师：王浩畅E-mail:wanghch_angel@tom.comSchoolofComputer&InformationTechnologyofNEPU第2章数据预处理练习1假定用于分析的数据包含属性age.数据元组age值(以递增序)是：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)该数据的均值是什么?中位数是什么?(b)该数据的众数是什么？讨论数据的峰(c)数据的中列数是什么？解答(a)均值：中位数：有序集中间值或者中间两个值平均。奇数个，中间值：25(b)：表示数据集中出现频率最高的值两个值出现了相同的最高频率，25和35，都出现了4次，也就是双峰(c)中列数：最大值和最小值的平均（13+70）/2=41.5niixnx11练习2假定用于分析的数据包含属性age.数据元组age值(以递增序)是：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(d)找出数据的第一个四分位数Q1和第三个四分位数Q3(e)给出数据的五数概括解答(d)第一个四分位数Q1：20第三个四分位数Q3：35中位数：有序集中间值或者中间两个值平均。奇数个，中间值：25(e)五数概括:13,20,25,35,70练习3假定用于分析的数据包含属性age.数据元组age值(以递增序)是：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(f)画出数据的盒图解答2035257013年龄(f)52噪声数据(3)数据平滑的分箱方法price的排序后数据（单位：美元）：4，8，15，21，21，24，25，28，34划分为（等深的）箱：箱1：4，8，15箱2：21，21，24箱3：25，28，34用箱平均值平滑：箱1：9，9，9箱2：22，22，22箱3：29，29，29用箱边界平滑：箱1：4，4，15箱2：21，21，24箱3：25，25，34练习假定用于分析的数据包含属性age.数据元组age值(以递增序)是：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.使用分箱均值光滑对以上数据进行光滑，箱的深度为3.解释你的步骤解答Step1:排序数据.Step2:将有序值划分到大小为3的等频箱中Step3:计算每个箱中数据的算术平均值.Step4:.将每个箱中的每个值用此箱的算术平均值替换Bin1:44/3,44/3,44/3Bin2:55/3,55/3,55/3Bin3:21,21,21Bin4:24,24,24…规范化最小－最大规范化：对原始数据进行线性变换。假定minA和maxA分别为属性A的最小和最大值。将A的值v映射到区间[new_minA,new_maxA]中的v’最小-最大规范化通过计算例：假定属性income的最小与最大值分别为12000美元和98000美元。我们想把income映射到区间[0.0,0.1]。根据最小最大规范化，income值73600美元将变换为：数据变换(2)AAAAAAminnewminnewmaxnewminmaxminvv_)__('716.00)00.1(12000980001200036007z-score规范化：属性A的值基于A的平均值和标准差规范化。最大最小值未知，或者离群点影响较大的时候适用例：假定属性income的均值和标准差分别为54000美元和16000美元。使用z-score规范化，值73600美元转换为数据变换(3)AAdevstandardmeanvv_'225.1160005400073600小数定标规范化：通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。例：假定A的取值由-986～917。A的最大绝对值为986。使用小数定标规范化，用1000（即j=3）除每个值，这样，－986规范化为－0.986，而917被规范化为0.917。数据变换(4)jvv10'其中，j是使Max(||)1的最小整数'v练习用如下两种方法规范化如下数据组200;300;400;600;1000(a)min-max规范化令min=0，max=1(b)z-score规范化解答(a)min-max规范化令min=0，max=1(b)z-score规范化例下面的数据是AllElectronics通常销售的商品的单价表（按$取整）。已对数据进行了排序：1,1,5,5,5,5,5,5,8,8,10,10,10,10,12,12,12,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,25,28,28,30,30,30为进一步压缩数据，让每个桶代表price的一个不同值。通过自然划分分段将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为：[51263.98,60872.34]通常数据分析人员希望看到划分的形式为[50000，60000]自然划分的3-4-5规则常被用来将数值数据划分为相对一致，“更自然”的区间自然划分的3-4-5规则规则的划分步骤：如果一个区间最高有效位上包含3，6，7或9个不同的值，就将该区间划分为3个等宽子区间；(72,3,2)如果一个区间最高有效位上包含2，4，或8个不同的值，就将该区间划分为4个等宽子区间；如果一个区间最高有效位上包含1，5，或10个不同的值，就将该区间划分为5个等宽子区间；将该规则递归的应用于每个子区间，产生给定数值属性的概念分层；对于数据集中出现的最大值和最小值的极端分布，为了避免上述方法出现的结果扭曲，可以在顶层分段时，选用一个大部分的概率空间。e.g.5%-95%3-4-5规则——例子假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间，由-$351,976.00到$4,700,896.50。用户希望自动地产生利润的概念分层。为了改进可读性，我们使用记号(l...r]表示区间(l,r]。例如，(-$1,000,000...$0]表示由-$1,000,000（开的）到$0（闭的）的区间。1．根据以上信息，最小和最大值分别为MIN=-$351,976.00和MAX=$4,700,896.50。对于分段的顶层或第一层，要考虑的最低（第5个百分位数）和最高（第95个百分位数）值是：LOW=-$159,876，HIGH=$1,838,761。2．给定LOW和HIGH，最高有效位在百万美元数字位（即，msd=1,000,000）。LOW向下对百万美元数字位取整，得到LOW’=-$1,000,000；HIGH向上对百万美元数字位取整，得到HIGH’=+$2,000,000。3-4-5规则——例子3．由于该区间在最高有效位上跨越了三个值，即，(2,000,000–(1,000,000))/1,000,000=3，根据3-4-5规则，该区间被划分成三个等宽的区间：(-$1,000,000...$0],($0...$1,000,000]和($1,000,000...$2,000,000]。这代表分层结构的最顶层。4.现在，我们考察MIN和MAX，看它们“适合”在第一层分划的什么地方。由于第一个区间(-$1,000,000...$0]覆盖了MIN值（即，LOW′MIN），我们可以调整该区间的左边界，使区间更小一点。MIN的最高有效位字在十万数字位。MIN向下对十万数字位取整，得到MIN’=-$400,000。因此，第一个区间被重新定义为(-$400,000...$0]。由于最后一个区间($1,000,000...$2,000,000]不包含MAX值，即MAXHIGH′，我们需要创建一个新的区间来覆盖它。对MAX向上对最高有效位取整，新的区间为($2,000,000…$5,000,000]。因此，分层结构的最顶层包含4个区间：(-$400,000...$0]，($0...$1,000,000]，($1,000,000...$2,000,000]和($2,000,000...$5,000,000]。3-4-5规则——例子5.递归地，每一个区间可以根据3-4-5规则进一步划分，形成分层结构的下一个较低层：•第一个区间(-$400,000...$0]划分成4个子区间：(-$400,000...-$300,000],(-$300,000...-$200,000],(-$200,000...-$100,000]和(-$100,000...$0]。•第二个区间($0...$1,000,000]划分成5个子区间：($0...$200,000],($200,000...$400,000],($400,000...$600,000],($600,000...$800,000]和($800,000...$1,000,000]。•第三个区间($1,000,000...$2,000,000]划分成5个子区间：($1,000,000...$1,200,000],($1,200,000...$1,400,000],($1,400,000...$1,600,000],($1,600,000...$1,800,000]和($1,800,000…$2,000,000]。•最后一个区间($2,000,000...$5,000,000]划分成3个子区间:($2,000,000...$3,000,000],($3,000,000...$4,000,000]和($4,000,000...$5,000,000]。类似地，如果必要的话，3-4-5规则可以在较低的层上继续迭代􀀀3-4-5规则——例子(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000Low=-$1,000High=$2,000第二步第四步第一步-$351-$159profit$1,838$4,700MinLow(i.e,5%-tile)High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)第3章数据仓库和数据挖掘的OLAP技术习题假定数据仓库包含三个维：time,doctor和patient；两个度量：count和charge；其中，charge是医生对一位病人的一次来访的收费。(a)列举三种流行的数据仓库建模模式。(b)使用星型模式，画出上面数据仓库的模式图。解答(a)星型模式、雪花模式、或事实星座模式(b)习题假定数据仓库包含三个维：time,doctor和pa

数据仓库与数据挖掘ppt习题

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

BIT8-5网络信息系统安全体系-综合审计系统

钢结构围挡工程技术标（DOC30页）

基坑支护施工方案(锚杆、挂网、钢管桩)

专题十交通

区域产业发展阶段和陕北产业跨越式发展实证研究

岗位职务说明书(6)

温病学期末复习资料超级完整

基础教育课程改革纲要模拟试卷三及答案

华电价格报告

【保密制度】集团公司宣传保密工作管理办法(WORD7页)

相关文档

相关搜索