您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 2019年-数据挖掘4章节挖掘原语-语言和体系结构-PPT精选文档
挖掘原语,语言和体系结构数据挖掘原语数据挖掘语言数据挖掘系统体系结构总结数据挖掘原语划分•挖掘相关的数据•挖掘的知识类型•背景知识•模式的兴趣度量•结果的表示与可视化任务相关数据数据库(或数据仓库)名称例如:AllElectronics_db数据库表(或数据仓库的立方体)例如:表item,customer,purchase,items_sold数据选择条件例如:选取本年度加拿大地区购买商品的数据选取条件可能在概念上层次高于DB/DW的数据如:”type=homeentertainment”,DB/DW中数据{tv,cdplayer,vcr}有关的属性(或维)例如:item表的name,price属性;customer表的income,age属性。系统应具备自动选取相关属性的机制,比如通过评估各属性与特定操作的相关程度。数据分组的标准例如:根据日期进行分组挖掘的知识类型描述(characterization)区别分析(discrimination)关联(association)分类/预测(classification/prediction)聚类(clustering)例:用户如果想发掘AllElectronics数据库中用户的购买习惯,可能会选择下面关联规则:P(X:customer,W)^Q(X,Y)=buys(X,Z)X是customer表的主键,P,Q是谓词变量(在相关数据中定义),W,Y,Z是目标变量。可能的挖掘结果是:age(X,”30…39”)^income(X,”40k…49k”)=buys(X,”VCR”)[2.2%,60%]accupation(X,”student”)^age(X,”20…29”)=buys(X,”computer”)[1.4%,70%]背景知识:概念层次概念层次模式层次(schemahierarchy)例:Streetcityprovince_or_statecountry集合-分组层次(set-groupinghierarchy)例:{young,middle_aged,senior}all(age){20-39}=young,{40-59}=middle_aged基于操作层次(operation-derivedhierarchy)包括信息解码,复杂数据对象的信息提取,数据聚类,数据分布分析算法等例:emailaddress:login-namedepartmentuniversitycountry基于规则层次(rule-basedhierarchy)例:low_profit_margin(X)=price(X,P1)andcost(X,P2)and(P1-P2)$50用户对数据间关系的预测可以用于评价挖掘模式的兴趣度量模式兴趣度量简洁性(simplicity)如:(关联)规则长度,(决策)决策树规模大小确定性(certainty)如:confidence,P(A|B)=n(AandB)/n(B),classificationreliabilityoraccuracy(alsoknownasrulereliability,rulestrength,rulequality,certaintyfactor,discriminatingweight)等.有用性(utility)如:support(association),s(A=B)=n(AndB)/n(all),noisethreshold(description)新颖程度(novelty)如:notpreviouslyknown,surprising(usedtoremoveredundantrules,e.g.,Canadavs.Vancouverruleimplicationsupportratio结果模式的可视化挖掘系统应能够用多种形式来显示发掘出来的模式如:规则,表,报表,图表,图,决策数和立方体挖掘系统应能够支持挖掘结果的多种操作如:drill-down,roll-up,slicing,dicing,rotation…挖掘原语,语言和体系结构数据挖掘原语数据挖掘语言数据挖掘系统体系结构总结DMQL——一个数据挖掘语言动机为了能提供交互式数据挖掘能力通过提供一个类似SQL的语言希望能像SQL语言一样成为挖掘标准语言希望成为系统开发和演化(evolution)的基础希望促进信息交换,技术转移,商业化并获得广泛承认设计DMQL在前面介绍的挖掘原语基础之上进行设计任务相关数据的语法表示usedatabasedatabase_name,orusedatawarehousedata_warehouse_namefromrelation(s)/cube(s)where[condition]inrelevancetoatt_or_dim_listorderbyorder_listgroupbygrouping_listhavingcondition任务相关数据语法表示(续)例:如果挖掘AllElectronics的加拿大顾客经常购买的商品之间的关联,针对顾客不同收入和年龄,并且数据用购买日期进行分组。挖掘相关数据可以写成:usedatabaseAllElectronics_dbinrelevancetoI.name,I.price,C.income,C.agefromcustomerC,itemI,purchaseP,item_soldSwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDgroupbyP.date挖掘知识类型的语法Mine_Knowledge_Specificaton::=Mine_Char|Mine_Discri|Mine_Assoc|Mine_Class|Mine_PredMine_Char::=Minecharacterization[aspattern_name]analyzemeansure(s)例:minecharacteristicsascustomerPurchasinganalyzecount%Mine_Discri::=Minecomparison[aspattern_name]fortarget_classwheretarget_condition{versuscontrast_class_iwherecontrast_condition_i}analyzemeasure(s)例:minecomparisonaspurchaseGroupsforbigSpenderswhereavg(I.price)≥$100analyzecountversusbudgetSpenderswhereavg(I.price),$100挖掘知识类型的语法(续)Mine_assoc::=mineassociation[aspattern_name][matchingmetapattern]例:mineassociationsasbuyingHabitsmatchingP(X:customer,W)^Q(X,Y)=buys(X,Z)Mine_class::=mineclassification[aspattern_name]analyzeclassifying_attribute_or_dimention例:mineclassificationasclassifyingCustomerCreditRatinganalyzecredit_infoMine_predi::=Mineprediction[aspattern_name]analyzeprediction_attribute_or_dimention{set{attribute_or_dimention_i=value_i}}例:minepredictionaspredictItemPriceanalyzepricesetcategory=“TV”andbrand=“SONY”概念层次语法语法:Usehierarchyhierarchyforattribute_or_dimention不同概念层次采用不同定义方式模式概念层次definehierarchytime_hierarchyondateas[date,monthquarter,year]集合-分组概念层次definehierarchyage_hierarchyforageoncustomeraslevel1:{young,middle_aged,senior}level0:alllevel2:{20,...,39}level1:younglevel2:{40,...,59}level1:middle_agedlevel2:{60,...,89}level1:senior概念层次语法(续)基于操作概念模式(operation-derivedhierarchies)definehierarchyage_hierarchyforageoncustomeras{age_category(1),...,age_category(5)}:=cluster(default,age,5)all(age)基于规则概念模式(rule-basedhierarchies)definehierarchyprofit_margin_hierarchyonitemaslevel_1:low_profit_marginlevel_0:allif(price-cost)$50level_1:medium-profit_marginlevel_0:allif((price-cost)$50)and((price-cost)=$250))level_1:high_profit_marginlevel_0:allif(price-cost)$250兴趣度量语法语法:withinterest_measure_namethreshold=threshold_value例:withsupportthreshold=0.05withconfidencethreshold=0.7挖掘知识表示语法用户指定显示方法displayasresult_form为在不同概念层次上观察结果:Multilevel_Manipulation::=rolluponattribute_or_dimension|drilldownonattribute_or_dimension|addattribute_or_dimension|dropattribute_or_dimension一个完整的DMQL语句usedatabaseAllElectronics_dbusehierarchylocation_hierarchyforB.addressminecharacteristicsascustomerPurchasinganalyzecount%inrelevancetoC.age,I.type,I.place_madefromcustomerC,itemI,purchasesP,items_soldS,works_atW,branchBwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDandP.method_paid=``AmEx''andP.empl_ID=W.empl_IDandW.branch_ID=B.branch_IDandB.address=``CanadaandI.price=100wi
本文标题:2019年-数据挖掘4章节挖掘原语-语言和体系结构-PPT精选文档
链接地址:https://www.777doc.com/doc-6072764 .html