您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 使用SASEM的数据挖掘实例2
使用SASEM的数据挖掘实例:第二版(译者:李保坤)西南财经大学2008年10月16日目录第一章SASEM介绍启动SASEM建立初步的项目和流程图(Project和Diagram)了解界面组件数据挖掘和SEMMA通过SAS文件夹(SASLibraries)连接数据第二章预测建模问题创建过程流流程图(ProcessFlowDiagram)数据准备和调查拟和和比较可行模型产生和使用打分程序使用报告(Reporter)节点生成报告第三章变量选择变量选择介绍使用变量选择(VariableSelection)节点第四章聚类工具问题聚类方法回顾第五章关联分析问题第六章链接分析问题考察网络日志数据第一章SASEM介绍1.1启动SASEM在SAS命令条键入miner.按回车键或者点击命令条旁的“√”号。或者在主菜单下选择1.2建立初步的项目和流程图EM按项目和流程图组织它进行的多个数据分析。每一个项目可以包括几个流程图,每一个流程图可包括几个数据分析。通常一个流程图的分析只基于一个数据集合。遵照以下步骤创建一个项目。1.选择FileNewProject….2.键入项目名(例如,MyProject).3.如果有必要点选Client/serverproject.(如果该项目不用某服务器的数据集合就不要点Client/serverproject。)注意:要建立Client/serverproject,你必须联通一个运行同样版本EM的服务器才行。关于如何创建client/server项目,请参照“GettingStartedwithSASEnterpriseMiner”,或寻求在线帮助。4.如有必要可改变项目存放地址,方法是直接键入或选择Browse….5.选择Create.项目被建立。该项目下面有一无标题流程图“untitled”6.选择流程图标题,并键入一新名,如MyFirstFlow.选择流程图标题后取新名后1.3了解EM界面组件SASEM窗口包含以下界面组件:1.项目导航区—让你管理项目和流程图、向流程图工作区(DiagramWorkspace)添加工具、浏览报告(Reporter)节点生成的HTML报告。注意当一件工具被加到流程图工作区后,该工具就被称为是一个节点。项目导航区有3个标签:�流程图标签(Diagrams)—列出了当前项目和该项目包含的流程图。当项目窗口打开时,按照缺省,流程图标签处于激活状态。�工具标签(Tools)—包括EM工具盘。该标签可让你看到所有的EM可用工具(或节点)。这些工具按照SEMMA数据挖掘方法论被分组。许多常用的工具显示在窗口顶部的工具条上。你可以从工具标签拖拽过来的方式往工具条里添加工具。另外你还可以通过拖拽重新安排工具在工具条上的位置。�报告标签(Reports)—显示报告节点(Reporter)生成的HTML报告2.流程图工作区(DiagramWorkplace)—构建、编辑、运行、以及储存流程图的区域3.工具条(ToolsBar)—包括一系列可调配的EM常用工具,用于在DiagramWorkspace里构建流程图。你可以往工具条上加入或删除工具。4.进展指示条(ProgressIndicator)—该条指示的是EM任务的执行情况。5.信息条(MessagePanel)—显示EM任务执行情况的信息。6.连接状况指示条(ConnectionStatusIndicator)—显示远程主机名并指示连接对于客户/服务器项目是否处于活动状态。1.4数据挖掘和SEMMA1.4.1数据挖掘的定义本文献把数据挖掘定义为对大量数据各种关系的探索和建模。1.4.2关于数据的数据经常会来源于几个不同的数据源,把这些数据源的信息整合到一起是相当艰巨的工作。一个典型的数据集合通常有数千条观测记录。一个观测记录可能代表着一个实体,比如:一个客户、一项特定的交易、或者某一个家庭。数据集合中的变量包含观测记录的诸如人口信息、销售额历史、或者金融信息等特定信息。这些信息的使用依赖于人们的研究问题。关于数据类型,根据每一个变量的测量水平我们可以把他们划分为以下几种:1区间变量(interval)—均值有意义的变量,例如收入、温度。2类别变量(categorical)—包括几个水平的变量,例如性别(男或女)、酒量(小、中、大)。总的来说,一个变量不是连续的那它就是类别的。类别型变量可有好几种分类。在EM任务中,我们把类别变量细分为:�单值量(unary)—数据集合中所有观测记录在该变量上的值都相同�二元变量(binary)—只有两个可能观测水平的变量。例如性别�名义变量(nominal)—一个变量有几个观测水平,但这些水平没有一定的顺序。例如水果派的味道有樱桃、苹果、梨等。�有序变量(ordinal)—有两个以上的观测水平,而且这些水平值具有一定的次序。例如酒量变量有小、中、大几个水平。注意:如果你对观测水平的次序不感兴趣的话,有序变量可当作名义变量处理。但名义变量不能被当作有序变量处理,因为根据定义不存在一定的次序。�缺失值(Missingvalues)不能算作类别变量的一个级别。为进行有意义的分析,你必须建立一个适当的数据集合并为每一个变量确定正确的观测水平。1.4.3预测和描述技术预测建模技术可使你明白一些输入变量在预测某结果变量时是否有用。例如,一家金融机构想决定一个申请人的收入和信用历史(输入变量)信息是否有助于预测该客户是否在某项贷款上会有欺诈活动(结果变量)。为了把输入变量和输出变量区别开来,需要为数据集合的每一个变量设定模型角色。用目标模型角色(targetmodelrole)来标定输出变量,用输入模型角色(inputmodelrole)来标定输入变量。模型角色包括成本、频数、代号(ID)、以及输入。如果你想把一些变量排除在分析之外,用拒绝模型角色(rejectedmodelrole)来标记这些变量。用ID模型角色(IDmodelrole)标记ID变量。预测模型变量需要一个或多个结果变量。每一项技术均是按照某种标准-比如最大化精度或最大化利润对结果尽可能预测得准确。这本书将告诉你如何使用EM的预测建模技术:回归模型、决策树、以及神经网络等。每一项技术均可让你使用输入变量的任意组合来预测一个二元的、名义、有序、或者连续的输出变量。描述技术让你识别出数据集合内在的模式。这些技术并不需要一个感兴趣的结果变量。该书探索如何使用EM进行以下的描述分析:�聚类分析(Clusteranalysis):这种分析企图根据一些输入变量发现数据中观测记录的自然分组。在对观测记录聚集成几个类别之后,你可以使用这些输入变量对每一个聚类进行描述。当这些聚类被挑选出来并加以解释之后,你可以决定是否对每一个聚类进行单独处理。�关联分析:这种分析辨别产品或服务的组合,这些组合趋向于为人们同时购买,或者被相同的客户在不同的时间购买。这种分析回答的问题如下:�买了鸡蛋和牛奶的客户还买了面包的比例有多少?�从某金融机构使用了汽车贷款的人后来又从相同的机构获得了房屋抵押贷款的客户比例是多少?SEMMA回顾EM的节点是根据SAS数据挖掘流程SEMMA分组放置的:�抽样—挑选输入数据集合(挑选输入数据;从更大的数据集合抽样;把数据集合划分为训练、验证、和测试数据集合)。�探索—按统计方法和图形方法探索数据集合(数据图示、获取描述统计量、挑选重要变量、作关联分析)。�调整—准备数据用于分析(创建新变量或者转变现有的变量用于分析、挑选奇异值、替换缺失值、改变变量在分析中的使用方式、作聚类分析、用自组织图形(SOM)或者Kohonen网络分析数据)。�建模—拟和一个预测模型(使用回归模型、决策树、神经网络、或者用户定义的模型拟和目标变量).�评估—比较几个候选预测模型(创建图形显示响应者所占的百分数、被发现的响应者百分数,提升图、利润图等)打分(Score)节点和分数转换(ScoreConverter)节点和前面介绍的工具不同。它们的目标是获取模型的打分程序编码,以及把SAS数据步(SASDATAstep)打分编码转变成C和Java编程语言的程序编码。SAS数据步打分编码可以存放为EM之外的一个SAS程序。而后这个SAS程序可以在任何运行SAS基础模块的平台上运行。因此你可以在几乎任何类型的平台上进行实际打分工作。生成的C或者Java编码可以嵌入到在SAS以外单独运行的C或者Java程序中。另外还有一些工具放在Utility节点组中。1.4.5节点概览1采样有关的节点a.输入数据源(InputDataSource)输入数据源(InputDataSource)为EM作分析读入数据源以及定义数据源的变量。这一节点可执行以下任务:�联通SAS数据集合和数据店(datamarts)。数据店可以使用SASDataWarehouseAdministrator定义,通过使用EM的数据仓库插件由EM建立。�当使用输入数据源节点(InputDataSource)导入数据时,为所有变量自动创建一个元数据样本(metadatasample)。按照缺省,EM的元数据样本是一个从数据源节点指定的数据集合里抽取的有2000个观测记录的随机样本。你也可以选择要求更大的样本。如果数据集合少于2000条记录,整个数据集合就被使用。�使用元数据样本为每一个变量的观测水平设定值和模型角色。如果你对该节点的自动选择不满意,你可以改变这些设置。�显示区间变量和类别变量的综合统计量。�为输入数据集合的每一个目标定义目标特征。注意:该文献使用术语数据集合而不用数据表。b.抽样节点(Sampling)抽样节点让你进行随机抽样、分层随机抽样、以及聚类抽样。对于很大的数据库我们建议进行抽样,因为它能够显著地降低模型训练时间。如果样本是有充分代表性的,样本中发现的关系可以推广到整个数据集合上。抽样(Sampling)节点把抽出来的观测记录写到一个输出数据集合,并储存为样本产生随机数的种子值。用相同的种子值你可以重新产生样本。c.数据划分(DataPartition)数据划分(DataPartition)节点让你把数据集合划分为训练、测试、和验证数据集合。训练数据集合用于初步模型拟和。验证数据用于在估计阶段审查和调节模型权重,也用于模型评价。测试数据集合是另外一个数据集合你可以用它做模型评价。这个节点使用简单随机采样、分层随机采样、或者一个用户定义的划分方式建立训练、测试和验证数据集合。如果你已经决定哪些记录应该安排到训练、验证、和测试数据集合,你可以制订一个用户定义的划分。这一划分是在原始数据集合的一个类别变量上进行的。2关于数据探索的节点a.分布探索(DistributionExplorer)分布探索(DistributionExplorer)节点能让你用多维直方图的方式探索大量的数据。用这个节点一次可以看到多达3个变量的分布。当变量是二元、名义、或有序变量,你可以选择一些特别数值排除在图形之外。如果要把奇异值从区间变量中排除出去,你可以设定一个范围。对于区间变量,该节点还产生简单的描述性统计量。b.多图(Multiplot)多图(Multiplot)节点使你用图形探索大量的数据。和透视(Insight)节点或者分布探索(DistributionExplorer)节点不同,多图(Multiplot)节点在不需要作许多菜单或者窗口条目选择的情况下自动为输入和输出变量创建条形图以及散点图。该节点产生的程序编码可以用于在批处理环境下创建图形,而透视(Insight)节点和分布探索(DistributionExplorer)节点必须通过界面运行。c.透视(Insight)透视(Insight)节点可让你打开SAS/INSIGHT模块.SAS/INSIGHT软件是用于数据探索和分析的交互式工具。使用这个节点,你可以通过多个窗口对数据样本画图或其它探索分析。你可以进行单变量分布、多变量分布分析,用广义线性模型(GLM)方法建立解释性模型。d.关联(Association)关联节点(association)可用于找出
本文标题:使用SASEM的数据挖掘实例2
链接地址:https://www.777doc.com/doc-4438821 .html