您好,欢迎访问三七文档
1SAS/EnterpriseMiner4.3SAS/ENTERPRISEMINERSERVER处理从客户端SAS/ENTERPRISEMINERCLIENT发来的数据挖掘要求,并把处理的结果,经过SAS/CONNECT转送回SAS/ENTERPRISEMINERCLIENT。SAS/EM是一个图形化界面,菜单驱动的,拖拉式操作,对用户非常友好且功能强大的数据挖掘集成环境。其中集成了:数据获取工具;数据抽样工具;数据筛选工具;数据变量转换工具;数据挖掘数据库;数据挖掘过程;多种形式的回归工具;为建立决策树的数据剖分工具;决策树浏览工具;人工神经元网络;数据挖掘的评价工具。在SAS/EM中,可利用具有明确代表意义的图形化的模块将这些数据挖掘的工具单元组成一个处理流程图,并依此来组织您的数据挖掘的过程。这一过程在任何时候均可根据具体情况的需要进行修改、更新并将适合您需要的模式存储起来,以便此后重新调出来使用。SAS/EM图形化的界面,可视化的操作,可引导即使是数理统计经验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘。对于有经验的专家,SAS/EM又提供了大量的选项,可让有经验的人士进行精细的调整分析处理。SAS/EM界面这一强大的数据挖掘工具组合阵容,保证了可以支持企业级的数据挖掘的各个方面工作。1.数据获取工具在SAS/EM的这个数据获取工具中,您可以通过对话框指定要使用的数据集的名称,并指定要在数据挖掘中使用的数据变量。变量分为两类:区间变量(IntervalVariable)和分类变量(ClassVariable)。区间变量是指那些要进行统计处理的变量。对于这样一些变量,在数据输入阶段您就可以指定它们是否要作昀大值、昀小值、平均值、标准差等的处理。还可给出该变量是否有值的缺漏,缺漏的百分比是多少等。利用这些指定可对输入数据在获取伊始就进行了一次检查,并把结果告诉您,您可初步审视其质量如何。区间变量以外的变量称之为分类变量。在数据输入阶段将会提供给您每个分类变量共有多少种值可供分类之用。2.数据抽样工具对获取的数据,可再从中作抽样操作。抽样的方式是多种多样的,有:随机抽样、等距抽样、分层抽样、从起始顺序抽样和分类抽样等方式。随机抽样在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被取到。等距抽样如按5%的比例对一个有100组观测值的数据集进行等距抽样,则有:100/5=20,等距抽样方式是取第20、40、60、80和第100等五组观测值。分层抽样在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次您可设定不同的概率。这样的抽样结果可能具有更好的代表性,进而使模型具有更好的拟合精度。从起始顺序抽样这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者就直接给定选取观测值的组数。分类抽样在前述几种抽样方式中,抽样的单位都是一组观测值。分类抽样的单位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户名称分类、按地址区域分类等。显然在同一类中可能会有多组观测值。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。设置多种形式的抽样方式不仅给了您抽样的灵活性,更重要的是从抽样阶段您就能主动的考虑数据挖掘的目的性,强化了昀后结论的效果。3.数据筛选工具通过数据筛选工具您可从观测值样本中筛选掉您不希望包括进来的观测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于抽样范围之外的。对于区间变量可指定其值大于或小于某值时的这些组观测值是要排除于抽样范围之外的。通过数据筛选使样本数据更适合您要数据挖掘的目标。4.数据变量转换工具利用此工具可将某一个数据进行某种转换操作,然后将转换后的值作为新的变量存放在样本数据中。转换的目的是为了使您的数据和将来要建立的模型拟合的更好。例如,原来的非线性模型线性化、加强变量的稳定性等。可进行取幂、对数、开方…等转换。当然,您亦可给定一个公式进行转换。5.建立数据挖掘用的数据库在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库(DMDB),其中就放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算,在这里建立一个专门的数据集将使您的工作更加有效率。在处理之前,可对您选进数据挖掘数据库的各个变量预先进行诸如昀大、昀小、平均、标准差…等处理。对一些要按其分类的变量的等级也先放入MetaData之中,以利接下来的操作。总之在这个数据库中为数据挖掘建立一个良好的工作环境。6.数据挖掘过程在数据挖掘的过程中可以使用SAS广泛的数学方法,以及实现昀新数学方法的环境。SAS/EM提供丰富的数据挖掘模型和灵活算法,包括如下模型算法:聚类分析(Clustering);支持平均距离、欧几里得距离和WARD方法。多元回归模型/Logistic回归(Regression);在线性回归中有若干不同方法可供选择,诸如向前、向后的逐步回归等,还有多种回归运算结束的准则可以指定。在Logistic回归过程中可拟合逻辑型的模型,其中响应变量可以是双值的或者是多值的。亦可使用逐步法选择模型,还可以进行回归诊断及计算预测值和残差值。决策树模型,支持C45、CHAID、CART等算法;神经网络模型;可以处理线性模型;多层感知模型(MLP-Multilayerperceptron这是采用较多的缺省方式)和放射型功能(RBF-Radialbasisfunction)。关联模式/序列模式分析(Association);时间序列分析(TimeSeries);SAS/EM的TimeSeries节点可以很方便的把交易数据转换为时间序列数据。链路分析模型(LinkAnalysis);用于检查一个复杂系统中的各个个体的链接关系。记忆基础推理(Memory-basedReasoning);支持K-昀近邻算法(k-nearestneighboralgorithm)。SOM/KOHONEN神经网络分类算法;支持Kohonen向量量化(Kohonenvectorquantization)、自组织特征映射(Self-OrganizingFeatureMap)。主成分分析(principalcomponentsanalysis);二阶模型(TwoStageModel)。二阶模型可以同时预测分类目标变量与间隔值目标变量。同时,SAS/EM提供Ensemble节点进行多个模型的整合。Ensemble节点可以创建一个新的模型以平均来自多个前置模型的分类目标的后验概率或间隔目标的预测值。由此可以使得生成的模型更加稳定和高效。SAS/EM的模型整合能力在SAS/EM中,可以通过SASCode节点编写SAS代码,使用SAS/STAT、SAS/OR等模块中的大量算法。另外,SAS/EM中的用户自定义模型(User-definedModel)节点可以允许用户在一个集成的数据挖掘环境中评估并比较自定义的模型。自定义的模型可以是使用SAS语言开发的算法模型。也可以是某些用C或Fortran开发的专利算法,通过SAS/TOOLKIT模块将其代码移植集成到SAS系统。7.数据挖掘的评价工具在SAS/EM的评价工具中,向您提供了一个通用的数据挖掘评价的架构,可以比较不同的模型效果;预报各种不同类型分析工具的结果。SAS/EM提供Assessment节点进行模型评估。在Assessment节点中,可以使用LIFT图、PROFIT/LOSS图、ROI图、诊断分类图、ROC图、Threshold-based图等一系列标准的图表,进行模型比较与评估。在SAS/EM的评价工具中,还可以进行客户化的工作,对那些标准的评价图表按具体要求进行更改。这样一来,评价工作就会更有意义。8.结果输出SAS/EM的Score节点提供以SAS数据步代码的方式产生模型打分的公式。SAS/EM提供ScoreConverter节点,可以把EnterpriseMiner的挖掘流程图由Score节点产生的SAS数据步打分代码转换成C或JAVA语言。客户可以把这些C或JAVA语言的数据挖掘打分代码集成到标准的C或JAVA应用中去。2SASEnterpriseMiner5.1SASEM是基于全球广泛认可的SEMMA数据挖掘进程。SEMMA为执行数据挖掘的核心任务提供了一个灵活的框架,所以不管是富有经验的统计人员,还是经验稍微欠缺的商业分析师,都可以在该框架的指导下开发出更多更好的模型。SEMMA包括五个主要的步骤,亦即采样(S),研究(E),修改(M),建模(M)和评估(A)。SAS独特的SEMMA方法采用了结构化的进程,以合理的方式对每一步所需的工具进行组织。借助可以被您修改,保存和共享的流程图,SEMMA能够更方便地使用研究统计技术和视图技术,选择和变换昀重要的变量,通过这些变量来创建模型,以便预测结果,对模型的精确度进行确认,并进行模型部署的准备工作。具体来讲,EM的功能包括以下几点:多重界面便于操作的图形用户界面,可以创建流程图:z通过更快的方式创建更多更好的模型。z可通过网络发送。z可访问SAS编程环境。z可进行XML图交换。z其他项目或者用户可以把流程图作为模板进行复用。z批处理:z封装了图形用户界面的所有功能。z基于SAS宏进行操作。z试验性的JavaAPI。z基于网络的模型库:z管理大型模型组合。z通过算法,等级,目标等内容来查询模型。z把诸如累积增益图,树形图和评分代码这样的结果发送给商务管理者和数据管理者。操作规模非常灵活的处理功能z基于服务器的处理–异步模型训练。以干脆的方式停止处理过程。z并行处理–同时运行多个工具和流程图。z多线程前瞻算法。z服务器上所有存储功能。访问数据z访问50多个不同的文件结构。z通过SAS元数据服务器与SASETL集成:z通过SASETLStudio定义用于EnterpriseMiner数据挖掘的训练图表。z通过SASETLStudio恢复和部署EnterpriseMiner评分代码。采样z简单随机采样。z分层采样。z按权重采样。z聚类采样。z系统采样。z通过前N个点采样。z罕见事件采样。数据分割z创建训练,验证和测试数据集。z确保您的模型在使用发布数据的过程中具有良好的通用性。z通过类目标进行缺省的分层。z通过任何类变量进行均匀分割。变换z简单:对数,平方根,倒数,平方,指数,标准化运算。z分箱:桶处理,分位数,用于目标关系的分箱处理。z昀合适指数:常态昀大化,目标关联昀大化,对与目标等级的差值进行平均处理过滤异端数据z通过各种分布的阈值来除去较为极端的区间值。z把出现次数少于n次的类值组合起来。数据更换z集中性测量。z基于分布的操作。z通过替代数据把树的数据补齐。z中等间距。z稳健的M估计。z缺省常数。描述性统计z单变量统计和图形:z等距变量–n,平均值,中值,昀小值,昀大值,平均偏差,比例偏差和百分比缺失。z类变量–类的数量,计数,模式,百分比模式,百分比缺失。z分布图。z针对每一级类目标的详细资料。z双变量统计和图形:z规则的皮尔森和斯皮尔曼相关性图。z规则的X平方分布图,可以选择把连续输入分装到n个箱子中。z变量图的系数。z通过logworth运算(把原数取负作为10的指数进行运算)进行变量选择。通过SASEnterpriseMinerz其他交互图形:z热图显示输入在各个段上与目标值的关联或者X平方分布关系。z变量价值图根据输入对目标的价值对它们进行排序。z在目标和/或段变量上的类变量分布。z比例平均偏差图。图形/视图z批量和交互图:散点图,柱状图,多维图,圆形分格统计图,面积图,泡泡图。z细分资料图:z通过聚类和建模工具创建的交互数据资料段。z能够方便地确认用来确定资料和组间差异的变量。z便于使用的Java图形向导:z标题和脚注。z使用WHERE语句。z从若干个颜色方案中进行选择。z方便地缩放坐标轴。z从标准的Ente
本文标题:SAS-EM-简介
链接地址:https://www.777doc.com/doc-4434498 .html