您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > SPSS-新手使用入门_中文
数据挖掘产品IBMSPSSModeler新手使用入门IBMSPSSModeler简介作为IBM分析与预测解决方案的重要组成部分,IBMSPSSModeler是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。随着于2010年其新版本14.1的发布,名字也由PASWModeler更名为现在的IBMSPSSModeler。SPSSModeler提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。初次上手典型的SPSSModeler界面如下:图1.SPSSModeler界面接下来将详细介绍其基本概念及操作。基本概念:节点节点代表要对数据执行的操作。例如,假定您需要打开某个数据源、添加新字段、根据新字段中的值选择记录,然后在表中显示结果。在这种情况下,您的数据流应由以下四个节点组成:表1.节点示例变量文件节点,设置此节点后可以读取数据源中的数据。导出节点,用于向数据集中添加计算的新字段。选择节点,用于设置选择标准,以从数据流中排除某些记录。表节点,用于在屏幕上显示操作结果。基本概念:数据流SPSSModeler进行的数据挖掘重点关注通过一系列节点运行数据的过程,我们将这一过程称为数据流。也可以说SPSSModeler是以数据流为驱动的产品。这一系列节点代表要对数据执行的操作,而节点之间的链接指示数据的流动方向。如,上面提到的四个节点可以创建如下数据流:图2.数据流示例通常,SPSSModeler将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)。使用SPSSModeler处理数据的三个步骤:1.将数据读入SPSSModeler。2.通过一系列操纵运行数据。3.将数据发送到目标位置。在SPSSModeler中,可以通过打开新的数据流来一次处理多个数据流。会话期间,可以在SPSSModeler窗口右上角的流管理器中管理打开的多个数据流。图3.流管理器节点选项板节点选项板位于流工作区下方窗口的底部。图4.节点选项板每个选项板选项卡均包含一组不同的流操作阶段中使用的相关节点,如:源:此类节点可将数据导入SPSSModeler,如数据库、文本文件、SPSSStatistics数据文件、Excel、XML等。记录选项:此类节点可对数据记录执行操作,如选择、合并和追加等。字段选项:此类节点可对数据字段执行操作,如过滤、导出新字段和确定给定字段的测量级别等。图形:此类节点可在建模前后以图表形式显示数据。图形包括散点图、直方图、网络节点和评估图表等。建模:此类节点可使用SPSSModeler中提供的建模算法,如神经网络、决策树、聚类算法和数据排序等。数据库建模:节点使用MicrosoftSQLServer、IBMDB2和Oracle数据库中可用的建模算法直接在数据库里进行建模及评估。输出:节点生成数据、图表和可在SPSSModeler中查看的模型等多种输出结果。导出:节点生成可在外部应用程序(如IBMSPSSDataCollection或Excel)中查看的多种输出。IBMSPSSStatistics:节点将IBMSPSSStatistics数据导入或导出为SPSSStatistics数据,以及运行SPSSStatistics提供的功能。随着对SPSSModeler的熟悉,您可以在收藏夹自定义常用的选项板内容。使用节点和流要将节点添加到工作区,请在节点选项板中双击图标或将其拖放到工作区。已添加到流工作区的节点在连接之前不会形成数据流,可以将各个图标连接以创建一个表示数据流动的流,节点之间的连接指示数据从一项操作流向下一项操作的方向。SPSSModeler中最常见的鼠标用法如下所示:单击。使用鼠标左键或右键选择菜单选项,打开上下文相关菜单以及访问其他各种标准控件和选项。单击节点并按住按键可拖动节点。双击。双击鼠标左键可将节点置于流工作区,编辑工作区现有节点。中键单击。单击鼠标中键并拖动光标可在流工作区中连接节点。双击鼠标中键可断开某个节点的连接。如果没有三键鼠标,可在单击并拖动鼠标时通过按Alt键来模拟此功能。创建了流以后,可以对流进行保存、添加注解,将其添加到工程。从文件主菜单中,选择流属性还可以为流设置各种选项,如优化、日期和时间设置、参数和脚本。使用流属性对话框中的消息选项卡,可以轻松查看有关运行、优化和模型构建和评估所用时间等流操作有关的消息,流操作的错误消息也将在这里报告。SPSSModeler管理器可以使用流选项卡打开、重命名、保存和删除在会话中创建的多个流。图5.流管理器输出选项卡中包含由SPSSModeler中的流操作生成的输出或图形文件。您可以显示、保存、重命名和关闭此选项上列出的表格、图形和报告。图6.输出文件管理器模型选项卡是管理器选项卡中功能最强大的选项卡。该选项卡中包含所有模型块,如当前会话中生成的模型,通过PMML导入的模型等。这些模型可以直接从模型选项卡上浏览或将其添加到工作区的流中进行数据分析。图7.模型管理器窗口右侧底部是工程工具,用于创建和管理数据挖掘工程(与数据挖掘任务相关的文件组)。有两种方式可查看您在SPSSModeler中创建的工程-类视图或CRISP-DM视图。依据跨行业数据挖掘过程标准CRISP-DM选项卡提供了一种组织工程的方式。不论是有经验的数据挖掘人员还是新手,使用CRISP-DM工具都会使您事半功倍。图8.工程工具-CRISP-DM视图类选项卡提供了一种在SPSSModeler中按类别(按照所创建对象的类别)组织您工作的方式。此视图在获取数据、流、模型的详尽目录时十分有用。图9.工程工具-类视图建模简介模型是一组规则、公式或方程式,可以用它们根据一组输入或变量来预测输出。例如,一家财务机构可根据对过往申请人的已知信息,使用模型预测贷款申请人可能存在优良还是不良风险。预测结果是预测性分析的中心目标,了解建模过程是使用SPSSModeler的关键。图10.简单的决策树模型本示例使用CHAID(卡方自动交互效应检测)模型,通过一系列决策规则对记录进行分类(并预测用户响应),例如:如果收入=中等并且卡5则-“优良”本示例旨在介绍使用SPSSModeler进行数据挖掘的基本流程,其中大部分概念可广泛应用于SPSSModeler中的其他建模类型。无论要了解哪种模型,均需要首先了解进入该模型的数据。此示例中的数据包含有关银行客户的信息。其中使用了下列字段:表2.数据字段字段名描述Credit_rating信用评价:0=不良,1=优良,9=丢失值年龄客户年龄收入收入水平:1=低,2=中,3=高Credit_cards持有的信用卡数量:1=少于五张,2=五张或更多教育教育程度:1=高中,2=大学Car_loans贷款的汽车数量:1=没有或一辆,2=超过两辆银行可维护银行贷款客户的历史信息,包括客户是正常还贷(信用评价=优良)还是在拖欠贷款(信用评价=不良)。银行希望使用现有的数据建立一个模型,允许他们预测未来贷款申请人拖欠贷款的可能性。使用决策树模型,您可分析这两组客户的特征,并预测不良客户拖欠贷款的可能性。构建流本示例使用了名为modelingintro.str的流,数据文件是tree_credit.sav。(与示例一起使用的数据文件和样本流安装在产品安装目录下的Demos文件夹中。)我们来看一下流:1.从主菜单中选择下列选项:文件打开流2.单击“打开”对话框的工具栏上的金色模型块图标,然后选择Demos文件夹。见图示。3.双击streams文件夹。4.双击名为modelingintro.str的文件。图11.“打开”对话框在本例中,我们使用CHAID建模节点。CHAID,或卡方自动交互效应检测,是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割来构建决策树的分类方法。要构建流以创建模型,至少需要三个元素:从外部源读取数据的源节点,在本示例中为IBMSPSSStatistics数据文件。指定字段属性的类型节点,字段属性包括测量级别(字段包含的数据类型)以及每个字段在建模过程中的角色是目标还是输入等。在运行流时生成模型块的建模节点。该流中还包含表节点和分析节点,当创建模型块并将其添加到流以后,可使用这两个节点查看评分结果以评估模型。图12.流modelingintro.strStatistics文件源节点从tree_credit.sav数据文件读取SPSSStatistics格式数据,该文件安装在Demos文件夹中。(名为$CLEO_DEMOS的特殊变量用于引用安装目录位于Demos目录下的文件。这样,无论当前的安装文件夹或版本是什么,均可以确保路径有效。如在本例中可以写作:$CLEO_DEMOS/tree_credit.sav,与图中全路径效果是一样的。)图13.源节点类型节点指定每个字段的测量级别。测量级别是一种指示字段中数据类型的类别。我们的源数据文件使用三种不同的测量级别:连续字段(Continuous,例如年龄字段)包含连续的数字值,而名义字段(Nominal,例如信用评价字段)有两个或多个不同值,如不良、优良或无信用历史。有序字段(Ordinal,例如收入水平字段)用于描述具有顺序固定的不同值的数据,在本例中为低、中和高。对于每个字段,类型节点还指定角色,以指示每个字段在建模中扮演的部分。字段信用评价(Creditrating)指示指定的客户是否拖欠贷款,这是要预测的目标字段,将其角色设置为目标。对于其他字段,将角色设置为输入。输入字段也称为预测变量,即建模算法用来预测目标字段值的字段。CHAID建模节点生成模型。在建模节点的字段选项卡中,已选中使用预定义角色,这意味着将使用在类型节点中指定的目标字段和输入字段。可以在此处更改字段角色,但在本例中不做任何更改。图14.CHAID模型节点-字段页单击“构建选项”选项卡。图15.CHAID模型节点-构建选项页-目标项此处包含的选项可以用于指定要构建的模型类型。由于我们想要一个全新的模型,因此使用默认选项构建新模型。我们还要求它为单个标准决策树模型,并且不使用任何增强,因此保留默认目标选项构建单个树。还可以选择启动交互会话对模型进行手动的微调,本示例只使用默认设置来生成模型。对于此示例,我们希望保持树的结构简单,因此通过增加用于父节点和子节点的最小记录数限制树的增长。在构建选项选项卡上,从左侧的导航器窗格选择停止规则。选择使用绝对值选项。将父分支中的最小记录数设置为400。将子分支中的最小记录数设置为200。图16.CHAID模型节点-构建选项页-停止规则项我们可以使用所有其他默认选项,然后单击运行以创建模型。(或者,也可以右键单击该节点然后选择运行,或选择节点并从工具主菜单中选择运行。)浏览模型等一小段时间当流执行完成后,模型块将被添加到应用程序窗口右上角的模型选项板中,它还会被自动连接在流工作区中,并带有指向创建它的建模节点的链接。要查看模型的详细信息,右键单击模型块并选择浏览(在模型选项板上)或编辑(在工作区上)。图17.包含模型块的流modelingintro.str对于CHAID模型块,模型选项卡以规则集的形式显示详细信息,规则集实际上是可根据不同输入字段的值将各个记录分配给相应子节点的一组规则。图18.CHAID模型块-模型页对于每个决策树终端节点--意味着那些树节点没有再进一步拆分--返回优良或不良的预测值。对于落在该节点内的记录,所有个案中的预测均由模式或最常见的响应决定。在规则集的右侧,模型选项卡显示预测变量重要性图表,该图表显示评估模型时每个预测变量的相对重要性。通过这一点,我们看到收入水平(Incomelevel)在此个案中最显著,而其他唯一显著的因子是信用卡数量(Numberofcreditcards)。图19.CHAID模型块
本文标题:SPSS-新手使用入门_中文
链接地址:https://www.777doc.com/doc-4577205 .html