您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第五章概念描述特征化与比较
《数据挖掘》主讲:王名扬信息与计算机工程学院2引言—要挖掘知识的类型概念描述:特征化和比较;关联规则;分类/预测;聚类分析;其他的数据挖掘任务。3引言从数据分析角度,DM可分为两类:描述式数据挖掘:以简洁、概要的方式描述数据,并提供数据的有趣的一般性质;预测式数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。4引言概念描述:描述性数据挖掘的最简单类型;概念:指一类数据的集合,如研究生、大客户等。概念描述用以产生数据的特征化和比较描述:特征化:提供给定数据集的简洁汇总;比较(区分):提供两个或多个数据集的比较描述。第5章5.1什么是概念描述?5.2数据概化与基于汇总的特征化5.3属性相关分析5.4挖掘类比较:区分不同的类5.5常见的统计度量指标6学习目的掌握属性归纳的一般方法。掌握属性相关分析的一般方法;掌握大型数据库中统计度量的常见指标。5.1什么是概念描述概念描述(Conceptdescription):描述性数据挖掘的最简单类型;对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要对该数据进行描述以概括出固有的特性,这种描述性数据挖掘称为概念描述。特征化(characterization):提供给定数据汇集的简洁汇总。比较(comparision):也称区分(discrimination),提供两个或多个数据汇集(或不同类别数据)的对比概念描述。数据概化数据概化:概念描述与数据概化(datageneralization)密切相关。给定存放在数据库中的大量数据,如果能以简洁的形式在更一般的(而不是较低的)抽象层描述数据,这非常有利于用户考察数据的一般行为。如,一个商场数据库中,销售主管不用对每个顾客的购买记录进行检查,而只需要对更高抽象层次的数据进行研究即可。例如:对按地理位置进行划分的顾客购买总额、每组顾客的购买频率以及顾客收入情况进行更高层次的研究分析。5.2数据概化与基于汇总的特征化为什么进行数据概化:数据库中数据及对象在基本概念层次包含了许多细节性的数据信息,如:在商场销售数据库的商品信息数据中,就包含着诸如:item_ID,name,brand,supplier等低层次信息,对这类大量的数据进行更高层次抽象以提供一个概要性描述是十分重要的。数据概化可以将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。如从南京转换到江苏,江苏转换到华东地区等。10数据概化和基于汇总的特征化方法一数据立方体(或OLAP)方法在数据立方体上进行计算和存储结果优点:数据概化的一种有效实现;效率高,能够计算多种不同的度量值,如:count,average,sum,min,max;概化和特征分析通过一系列的数据立方体操作完成,如roll-down和roll-up操作。12等价于第三章的数据立方体聚集13数据立方体聚集方法一数据立方体(或OLAP)方法限制–维和度量的数据类型有限,数据立方体和OLAP只能处理非数值类型(离散类型)的维和简单聚集数值类型的度量值;–大部分现有商业系统中,只能为非数值类型的维产生概念分层;–缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次。15面向属性归纳(Attribute-OrientedInduction,AOI):基本思想:(1)首先使用关系数据库查询收集任务相关的数据;(2)然后,通过考察任务相关数据中每个属性的不同值的个数,进行概化(属性删除;属性概化);(3)通过合并相等的、概化的广义元组,并累计它们对应的计数值进行聚集操作。(4)通过与用户交互,将广义关系以图表或规则等形式,提交给用户。方法二面向属性的归纳16属性删除属性删除基本原则:若一个属性(在初始数据集中)有许多不同数值,且:a)该属性上没有定义概化操作符(如:没有定义相应的概念层次);b)它的较高层概念可用其他属性表示;则,该属性从数据集中删除。17属性删除解释:a)没有定义概化操作符:一个属性拥有许多不同的数值但却没有定义对它的泛化操作,该属性应被删除;因为如果保留,则会产生过多的规则;b)较高层概念可用其他属性表示:如街道属性street,它的更高层次概念是利用(city,province,country)三个属性表示的,此时删除street相当于应用于了概化操作。18属性概化属性概化基本原则:若一个属性(在初始数据集中)有许多不同数值,且:在该属性上存在概化操作符,则应当选择该概化操作符。解释:在一个数据集中对一个属性进行概化操作,将会使得所产生的规则覆盖更多的数据行,实现了对其所表示的概念的概化。19特征化:面向属性归纳属性删除和属性概化都表明:如果某属性有大量的不同值,应进一步进行概化。问题是:多大才算“属性具有大量不同值?”两种方法:1)属性概化阈值控制;2)概化关系阈值控制。20特征化:面向属性归纳基本原理:如果属性的不同值的个数大于属性概化阈值,则应当进一步进行属性删除或概化。如果用户感到一个属性概化达到的层次太高,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)。21特征化:面向属性归纳基本原理:为概化关系设置一个阈值,如果概化关系中不同元组的个数超过该阈值,则应进一步概化;否则,不再概化。阈值可在数据挖掘系统中预先设定(通常为10~30),或由用户或专家设置、调整。如果用户感到概化的关系太少,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)。22示例:面向属性归纳示例1:从一个大学数据库的学生数据中挖掘出研究生的概念描述,所涉及的属性包括:姓名、性别、专业、出生地、出生日期、居住地、电话和gpa。AOI方法的第一步是:首先利用数据库查询语言从大学数据库中将与本挖掘任务相关的学生数据抽取出来;然后指定一组与挖掘任务相关的属性集。最终得到如下关系表。23示例:面向属性归纳表1与任务相关的初始数据集合要求对以上数据集进行面向属性归纳的操作。24示例:面向属性归纳1)name:由于name属性拥有许多不同的取值,且对它没定义合适的概化操作符,因此该属性被删除;2)gender:由于gender属性仅包括两个不同取值,该属性被保留且无需进行概化;3)major:假设对major属性已定义一个概念层次{science,management,engineering,},从而可对major进行概化。又假设属性概化阈值设定为5,大于major较高层概化的属性值个数,则major可以沿概念分层向上攀升并被概化。25示例:面向属性归纳4)birth_place:该属性拥有大量不同取值,需进行概化。假设其上存在一个概念层次:cityprovincecountry。如果初始数据集中country的不同值个数大于属性概化阈值,则birth_place应当被删除,因为即使存在概化操作符,概化阈值也不会满足;如果country的不同值个数小于属性概化阈值,则该属性应被概化到country。5)birth_data:假定存在概念分层,可将birth_data概化到age,而age可进一步概化到age_range;如果age_range的不同值个数小于对应的属性概化阈值,将birth_data概化到age_range。26示例:面向属性归纳6)residence:假设residence被属性number,street,residence_city,residence_province和residence_country属性定义。Number和street的不同值多半很多,删除;将residence概化到residence_city,假定仅包含4个不同取值。7)phone#:与属性name类似,也包含过多不同取值,删除。8)gpa:假定存在概念分层,将平均成绩划分为若干间隔,如:{excellent,verygood,…}等,对其进行概化。27示例:面向属性归纳概化过程会产生一系列内容相同的数据行,如表1所示的头两行数据记录就被上述的概化操作转变成具有相同内容的数据行。这里,继续对具有相同内容的数据行进行合并,同时累计其个数(count),最终获得的结果如表2所示。表2表1示例2在下面的初始工作表上做属性归纳姓名性别专业籍贯出身日期信用情况电话学历张明男计算机南京79。01良4316111本李枚女生物苏州76。02优4315111研李山男高分子化学盐城80。02中4315808本.................…...王民男通信工程镇江80。04一般4315807本对于每个属性,概化讨论如下:1)姓名、电话:该属性的值有许多,并且无概化操作符,属性删除2)性别:属性可取的值2个,属性保留不概化3)专业:假定我们事先已定义了一个概念分层,可以将专业概化到{艺术、化学、机械、通信、信息、…..},所以可被概化4)籍贯:此表以城市为单位,已无法概化,值不算太多,保留5)出生日期:假定存在概念分层,首先概化到年龄,再到年龄段6)信用:假定有{优、良、中、一般、差}的分层,可以概化7)学历:可以按{博士生、硕士生、本科生}概化概化过程将产生相等的元组,相等的元组归为一类并给出计数性别专业籍贯年龄段信用情况计数男信息南京19-22良10女信息南京19-22优9男化学盐城19-22中4................男通信镇江22-25一般1学历本研本..本2.面向属性归纳结果的表示?31面向属性归纳结果的表示方法AOI方法的挖掘结果可以通过多种形式来输出表示:表格;组合表;图表等。32示例—表格表示假设面向属性的归纳操作是在一个商场数据库(2000年的销售额)中进行的,最终获得如表3所示的概化结果。表3AOI挖掘结果表格表示示意图33示例—组合表表示AOI的结果也可用组合表(交叉表)表示。其中每一行代表属性的一个值;每一列代表其他属性的一个值。在一个n维组合表中,列可能代表多个属性的值并分栏显示各属性的累计值。表4对应表3的组合表表示示意图34示例—图表表示AOI的结果也可用图表的形式表示。如:棒图、饼图、曲线,以实现结果的可视化。图1对应表3的棒图示意图图2对应表3(部分数据)的饼图示意图35定量描述规则概化关系用逻辑规则的形式表示。通常,每个概化后的数据行代表规则中的一个合取项。由于一个大型数据库中的数据通常具有多种不同的分布,因此一个概化后的数据行不可能覆盖或表达所有(100%)的初始数据集中的数据行。36定量描述规则因此需要为每条规则带上量化的信息。如,满足规则条件前件和后件的数据行数目与初始数据集中总行数之比,作为度量规则客观价值的参量。将这种带参量的规则称为:定量描述规则。37定量描述规则t-weight(t-权):规则兴趣度度量指标表示规则中一个析取项具有的代表性。将需要进行归纳描述的对象集合称为目标集合,设qa是描述目标集合的一个概化数据行,则qa的t-weight是该数据行所涵盖的数据行数与初始数据集中数据行数之比,定义如下:其中,N是概化后目标集合中的数据行个数;q1,q2,…,qN是概化后目标集合中的数据行。显然,qa是其中的一行,且t_weight的值在[0,1]区间中。38定量描述规则定量描述规则:一个定量描述规则可表示为:其中,wi是conditioni的t_weight。给出了目标集合X中,各个条件出现的兴趣度。如设定目标集合为{电脑},查看电脑在各个地域的销售情况。39示例1将表3所示的概化结果,转换为定量规则的形式。表340示例1设目标集合为一组电脑产品,相应的定量规则为:其中,第一个t-weight值0.25,是通过将(computer,Asia)的count累计值1000除以(computer,all_region)的count累计值4000(代表总体电脑销售额)而得到的;其余的权值通过类似方法获得。例:有部分学生在图书馆借阅了《大趋势》这本书,想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是:学号姓名系别书名借阅日期993
本文标题:第五章概念描述特征化与比较
链接地址:https://www.777doc.com/doc-2084445 .html