您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 4.智能服务系统-数据挖掘2
智能服务系统-数据挖掘2表分析工具为非数据挖掘人员创建的,不需要太多的投入,就可以很好的理解数据。什么是DMX?DMX(DataMiningExtension)是微软为执行数据挖掘操作而开发的查询语言。DMX发展历史1999年,DMX首次在微软和其他厂商编写的OLEDBforDataMining规范中提出。OLEDB(ObjectLinkandembed)是微软的战略性的通向不同的数据源的低级应用程序接口。使用DMX意义为数据挖掘定义统一的概念和统一的查询表达式,类似于数据库中SQL语音所起的作用。1)制定规范2)便于理解3)便于讨论数据挖掘过程引擎数据表格数据表格引擎数据表格DMX关键概念-属性数据挖掘最基本的部分是属性,是关于范例的一条信息。属性类型:1-类别属性,2-连续属性注意:属性越多,从这些属性探索出信息所需要的范例越多。DMX关键概念-状态与每个类别属性相关联的一组可能的值,或者说状态。DMX关键概念-事例事例:是DMX最重要的概念。DMX事例为数据挖掘算法提供的唯一范例,有一组属性和这些属性的相关值组成。事务表TransIDProcductQuantityOnSale1Bread4False2Milk3True2Cheerios1True3Television1True3Milk2True3Bread4TrueDMX关键概念-事例-嵌套表嵌套表:当事务表或者类似于事务表的数据出现在事例中时,称为嵌套表。PurchasesMovieRatingKeyNameGenderAgeProductQuantityMovieRating1JamieMale38Milk2Matrix5Bread3TheTruman4Coffee1DMX关键概念-键DMX引用两种不同类型的列作为键:1、事例键、事例表示实体的标识。2、嵌套键嵌套行的命名实体。People[Key]PKNameGenderPurchasesTransIdPKCustIDProductMovieRatingCustIDMovieRatingAgeQuantityDMX关键概念-输入输出DMX中的属性既可以是输入,也可以是输出,还可以同时是输入和输出。输入和输出都是在模型训练期间提供给算法。在预测时,输入提供给算法,并返回输出。选择和定义正确的输入和输出对于成功地完成数据挖掘解决方案是至关重要的。DMX关键概念-输入输出-范例日志挖掘:预测服务器故障1)运行查询次数、连接的用户数、在用的内存容量、CPU的使用率2)查询成功的次数、查询失败的次数(由于超时失败、内存不足失败、其他原因失败次数)、平均查询时间、平均内存使用率、平均CPU使用率、连接的数量、连接断开的数量DMX对象对象?1、挖掘结构描述问题的外形,可用于挖掘问题的数据列以及这些列的信息。2、挖掘模型挖掘结构是一个容器和描述符,挖掘是一个对象,它把数据行转换为示例,并使用特定的数据挖掘算法进行计算机学习;来自结构的列的子集。DMX查询语法//创建挖掘结构CREATEMININGSTRUCTURE[People1]([CustID]LONGKEY,[Name]TEXTDISCRETE,[Gender]TEXTDISCRETE,[Age]LONGCONTINUOUS,[CarMake]TEXTDISCRETE,[CarModel]TEXTDISCRETE)DMX查询语法数据类型和内容表KEYTIME用于时序模型KEYSEQUENCE只在嵌套表中用于序列聚类模型数据类型内容类型LONGKEYDOUBLEDISCRETETEXTCONTINUEDATEDISCRETIZEDBOOLEANKEYTIMETABLEKEYSEQUENCEDMX查询语法//离散列CREATEMININGSTRUCTURE[People2]([CustID]LONGKEY,[Name]TEXTDISCRETE,[Gender]TEXTDISCRETE,[Age]LONGCONTINUOUS,[AgeDisc]LONGDISCRETIZED(EQUAL_AREAS,3),[CarMake]TEXTDISCRETE,[CarModel]TEXTDISCRETE)DMX查询语法//嵌套表CREATEMININGSTRUCTURE[People3]([CustID]LONGKEY,[Name]TEXTDISCRETE,[Gender]TEXTDISCRETE,[Age]LONGCONTINUOUS,[AgeDisc]LONGDISCRETIZED(EQUAL_AREAS,3),[CarMake]TEXTDISCRETE,[CarModel]TEXTDISCRETE,[Purchases]TABLE([Product]TEXTKEY,[Quantity]LONGCONTINUOUS,[OnSale]BOOLEANDISCRETE),[MovieRatings]TABLE([Movie]TEXTKEY,[Rating]LONGCONTINUOUS))DMX查询语法//分成测试集和训练集CREATEMININGSTRUCTURE[People4]([CustID]LONGKEY,[Name]TEXTDISCRETE,[Gender]TEXTDISCRETE,[Age]LONGCONTINUOUS,[CarMake]TEXTDISCRETE,[CarModel]TEXTDISCRETE)WITHHOLDOUT(30PERCENTOR10000CASES)DMX查询语法//创建挖掘模型ALTERMININGSTRUCTURE[People1]ADDMININGMODEL[PeopleClusters]USINGMicrosoft_Clustering//用决策树预测性别ALTERMININGSTRUCTURE[People2]ADDMININGMODEL[PredictGender-Tree]([CustID],[Gender]PREDICT,[Age],[CarModel])USINGMicrosoft_Decision_TreesDMX查询语法//创建挖掘模型-嵌套表ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[PredictGenderNested-Trees]([CustID],[Gender]PREDICT,[Age],[Purchases]([Product],[Quantity],[OnSale]),[MovieRatings]([Movie],[Rating]))USINGMicrosoft_Decision_Trees(COMPLEXITY_PENALTY=0.5)DMX查询语法//创建挖掘模型-复杂嵌套表1ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[PredictQuantity]([CustID],[Gender],[Age],[Purchases]([Product],[Quantity]PREDICT))USINGMicrosoft_Decision_TreesDMX查询语法//创建挖掘模型-复杂嵌套表2ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[PredictOnlyQuantity]([CustID],[Gender],[Age],[Purchases]([Product],[Quantity]PREDICT_ONLY))USINGMicrosoft_Decision_TreesDMX查询语法//创建挖掘模型-复杂嵌套表3ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[PredictOnlyTable]([CustID],[Gender],[Age],[Purchases]PREDICT_ONLY([Product],[Quantity]))USINGMicrosoft_Decision_TreesDMX查询语法//创建挖掘模型-复杂嵌套表4ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[PredictOnlyTableQuantity]([CustID],[Gender],[Age],[Purchases]PREDICT_ONLY([Product],[Quantity]PREDICT_ONLY))USINGMicrosoft_Decision_TreesDMX查询语法//过滤器1ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[FilterByAge]([CustID],[Gender],[Age],[CarModel]PREDICT)USINGMicrosoft_Decision_TreesWITHFILTER(Age20)DMX查询语法//过滤器2ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[FilterByCoffee]([CustID],[Gender],[Age],[CarModel]PREDICT)USINGMicrosoft_Decision_TreesWITHFILTER(EXISTS(SELECT*FROMPurchasesWHEREProduct='Coffee'ANDOnSale))DMX查询语法//过滤器3ALTERMININGSTRUCTURE[People3]ADDMININGMODEL[FilterNested]([CustID],[Gender],[Age],[Purchases]PREDICT([Product])WITHFILTER(NOTOnSale))USINGMicrosoft_Decision_TreesDMX查询语法//填充挖掘结构INSERTINTOMININGSTRUCTURE[People1]([CustID],[Name],[Gender],[Age],[CarMake],[CarModel])OPENQUERY(Chapter3Data,'SELECT[Key],Name,Gender,Age,CarMake,CarModelFROMPeople')//关于数据源//DatasourcesidebarCALLASSprocs.CreateDataSource('Chapter3Data','Provider=SQLNCLI10.1;DataSource=localhost;IntegratedSecurity=SSPI;InitialCatalog=Chapter3','ImpersonateCurrentUser','','')DMX查询语法//填充嵌套表INSERTINTOMININGSTRUCTURE[People3]([CustID],[Name],[Gender],[Age],[AgeDisc],[CarMake],[CarModel],[Purchases](SKIP,[Product],[Quantity],[OnSale]),[MovieRatings](SKIP,[Movie],[Rating]))SHAPE{OPENQUERY(Chapter3Data,'SELECT[Key],Name,Gender,Age,Age,CarMake,CarModelFROMPeopleORDERBY[Key]')}APPEND({OPENQUERY(Chapter3Data,'SELECTCustID,Product,Quantity,[OnSale]FROMPurchasesORDERBYCustID')}RELATE[Key]TO[CustID])ASPurchases,({OPENQUERY(Chapter3Data,'SELECTCustID,Movie,RatingFROMMovieRatingsORDERBYCustID')}RELATE[Key]T
本文标题:4.智能服务系统-数据挖掘2
链接地址:https://www.777doc.com/doc-3799569 .html