您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘5概念描述特征化与比较知识讲解
2020/12/281概念描述2020/12/282特征化和比较什么是概念描述?数据概化和基于汇总的特征化解析特征化:分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结2020/12/283什么是概念描述?描述性vs.预测性数据挖掘描述性数据挖掘:预测性数据挖掘:概念描述:特征化:对所选择的数据集给出一个简单明了的描述,汇总比较:提供对于两个或多个数据集进行比较的描述2020/12/284概念描述和OLAP区别概念描述:能够处理复杂的数据类型和各种汇总方法更加自动化OLAP:只能限制于少量的维度和数据类型用户控制的流程2020/12/286数据概化和基于汇总的特征化数据概化将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次方法:OLAP方法:面向属性的归纳2020/12/287OLAP方法在数据立方体上进行计算和存储结果优点效率高能够计算多种汇总如:count,average,sum,min,max还可以使用roll-down和roll-up操作限制只能处理非数值化数据和数值数据的简单汇总。只能分析,不能自动的选择哪些字段和相应的概念层次2020/12/288面向属性的归纳KDDWorkshop(89)中提出不限制于种类字段和特定的汇总方法方法介绍:使用SQL等收集相关数据通过数据属性值删除和属性值概化来实现概化聚集通过合并相等的广义元组,并累计他们对应的计数值进行和使用者之间交互式的呈现方式.2020/12/289基本方法数据聚焦:选择和当前分析相关的数据,包括维。属性删除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。属性阈值控制:typical2-8,specified/default.概化关系阈值控制:控制最终关系的大小2020/12/2810基本算法InitialRel:得到相关数据,形成初始关系表PreGen:通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。结果的表示:概化关系、交叉表、3D立方体2020/12/2811示例DMQL:useBig_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin“graduate”相应的SQL:Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin{“Msc”,“MBA”,“PhD”}2020/12/2812类特征化:示例NameGenderMajorBirth-PlaceBirth_dateResidencePhone#GPAJimWoodmanMCSVancouver,BC,Canada8-12-763511MainSt.,Richmond687-45983.67ScottLachanceMCSMontreal,Que,Canada28-7-753451stAve.,Richmond253-91063.70LauraLee…F…Physics…Seattle,WA,USA…25-8-70…125AustinAve.,Burnaby…420-5232…3.83…RemovedRetainedSci,Eng,BusCountryAgerangeCityRemovedExcl,VG,..GenderMajorBirth_regionAge_rangeResidenceGPACountMScienceCanada20-25RichmondVery-good16FScienceForeign25-30BurnabyExcellent22…………………Birth_RegionGenderCanadaForeignTotalM161430F102232Total263662PrimeGeneralizedRelationInitialRelation2020/12/2813概化结果的表示概化关系:一个表格,其中有属性字段,后附汇总方法。交叉表:二维交叉表可视化方法:Piecharts,barcharts,curves,cubes,andothervisualforms.量化特征规则:(上表与136页例4.26).%]47:[)(_%]53:[)(_)(tforeignxregionbirthtCanadaxregionbirthmalexgender2020/12/2814表达方式-概化关系(133页例4.22)2020/12/2815表达方式—交叉表(133页例4.23)2020/12/2816使用Cube技术进行实现对给定的数据动态创建数据立方体:便于有效的下钻操作可能增加响应时间解决方法:实现存储一些较高层次的统计信息。使用预定义的数据立方体:预先构建数据立方体Cube计算的花费和额外的存储空间2020/12/2817特征化和比较什么是概念描述?数据概化和基于汇总的特征化分析特征化:分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结2020/12/2818属性相关性分析why?哪些维需要包括?需要概化到什么层次?减少属性;从而容易理解模型结果What?使用统计的方法进行数据预处理过滤掉一些不相关或者相关性比较弱的字段保留并对相关属性进行排序相关性和维度、层次有关分析特征化,分析比较2020/12/2819属性相关性分析步骤:数据收集使用保守的AOI进行预相关分析相关性分析,删除不相关和弱相关属性使用AOI产生概念描述2020/12/2820相关性度量标准相关性度量标准决定了如何对属性进行判断的标准方法信息增益informationgain(ID3)增益比gainratio(C4.5)Gini索引giniindex不确定性相关系数2020/12/2821Entropy和InformationGain集合S中类别Ci的记录个数是si个i={1,…,m}期望信息属性A的熵是信息增益ssss,...,s,ssimiim2121log)I()s,...,s(Iss...sE(A)mjjvjmjj111E(A))s,...,s,I(sGain(A)m212020/12/2822一个例子(131页例5.9)任务使用分析特征化来了解研究生的一般特征属性名称gender,major,birth_place,birth_date,phone#,andgpaGen(ai)=concepthierarchiesonaiUi=attributeanalyticalthresholdsforaiTi=attributegeneralizationthresholdsforaiR=attributerelevancethreshold2020/12/2823例子:分析特征化(续)1.数据收集targetclass:graduatestudentcontrastingclass:undergraduatestudent2.使用Ui分析概化属性删除removenameandphone#属性概化generalizemajor,birth_place,birth_dateandgpaaccumulatecounts候选关系:gender,major,birth_country,age_rangeandgpa2020/12/2824例子:分析特征化(2)gendermajorbirth_countryage_rangegpacountMScienceCanada21-25Very_good16FScienceForeign26-30Excellent22MEngineeringForeign26-30Excellent18FScienceForeign26-30Excellent25MScienceCanada21-25Excellent21FEngineeringCanada21-25Excellent18CandidaterelationforTargetclass:Graduatestudents(=120)gendermajorbirth_countryage_rangegpacountMScienceForeign=20Very_good18FBusinessCanada=20Fair20MBusinessCanada=20Fair22FScienceCanada21-25Fair24MEngineeringForeign21-25Very_good22FEngineeringCanada=20Excellent24CandidaterelationforContrastingclass:Undergraduatestudents(=130)2020/12/2825例子:分析特征化(3)3.相关性分析计算期望信息计算每个属性的熵998802501302501302501202501201301202221.loglog),I()s,I(sFormajor=”Science”:S11=84S21=42I(s11,s21)=0.9183Formajor=”Engineering”:S12=36S22=46I(s12,s22)=0.9892Formajor=”Business”:S13=0S23=42I(s13,s23)=0Numberofgradstudentsin“Science”Numberofundergradstudentsin“Science”2020/12/2826例子:分析特征化(4)得出每个属性的熵计算每个属性的InformationGainInformationgainforallattributes787302504225082250126231322122111.)s,s(I)s,s(I)s,s(IE(major)2115021.E(major))s,I(s)Gain(majorGain(gender)=0.0003Gain(birth_country)=0.0407Gain(major)=0.2115Gain(gpa)=0.4490Gain(age_range)=0.59712020/12/2827例子:分析特征化(5)4.Initialworkingrelation(W0)derivationR=0.1删除不相关或者弱相关的属性=dropgender,birth_country删除比较类的关系5.在W0进行AOI分析majorage_rangegpacountScience21-25Very_good16Science26-30Excellent47Science21-25Excellent21Engineering21-25Excellent18Engineering26-30Excellent18InitialtargetclassworkingrelationW0:Graduatestudents2020/12/2828特征化和比较什么是概念描述?数据概化和基于汇总的特征化分析特征化:分析属性之间的关联性挖掘类比较:获取不同类
本文标题:数据挖掘5概念描述特征化与比较知识讲解
链接地址:https://www.777doc.com/doc-7335908 .html