您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > Clementine上机操作实验指导
Clementine实验指导主要内容Clementine简介Clementine基本操作读取数据文件应用Apriori挖掘关联规则决策树挖掘1Clementine简介Clementine是ISL(IntegralSolutionsLimited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发。SPSS公司将Clementine更名为PASWModelerClementine自带的重要资源SPSSCommandSyntaxReference.pdfClementineSourceProcessOutputNodes.pdfClementineModelingNodes.pdfClementineApplicationsGuide.pdfClementineScriptingAutomation.pdfClementineCLEFReference.pdfClementineDatabaseMiningGuide.pdfClementineServerandPerformanceGuide.pdfClementineAlgorithmsGuide.pdfClementineSolutionPublisher.pdfCRISP-DM.pdfClementineUsersGuide.pdf2Clementine基本操作Clementine主窗口Clementine主窗口数据流区域数据流(stream)由一系列的节点构成,每个节点代表了对数据的某种处理,节点之间通过有方向的箭头连接。选项板区分为收藏夹、源、记录选项、字段选项、图形、建模、输出、导出八个栏Clementine主窗口管理器窗口管理器窗口中共包含了“流”、“输出”、“模型”三个栏。工程管理区工程管理区含有两个选项栏,一个是“CRISP-DM”,一个是“类”。数据流的基本操作生成数据流的基本过程向数据流区域增添新的节点;将这些节点连接到数据流中;设定数据节点或数据流的功能;运行数据流。数据流的基本操作向数据流区域添节点双击选项板区中待添加的节点;左键按住待添加节点,将其拖入数据流区域内;先选中选项板区中待添加的节点,然后将鼠标放入数据流区域,在鼠标变为十字形时单击数据流区域的任何空白处。向数据流区域删节点左键单击待删除的节点,按键盘上的delete键删除;右键单击待删除的节点,在快捷菜单中选择delete。增加一个节点在选项板上双击节点,自动放置节点到数据流区域注意:它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下未选择选择当节点在选项板中被选中后,会变成淡蓝色编辑一个节点在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作连接节点使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键未选中的节点(灰白色)被选中的节点(淡蓝色)删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”关于连接节点:源节点源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点关于连接节点:终端节点终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点数据流的基本操作将节点连接到数据流中双击节点通过Alt键连接手动连接数据流的基本操作绕过数据流中的节点将节点插入已存在的连接中图2.2(a)绕过节点之前图2.2(b)绕过节点之后用鼠标滑轮双击需要绕过的结点或者选择按住alt键,用鼠标左键双击该结点用鼠标滑轮单击欲插入新结点的两结点间的连线,按住它并拖到新结点时放手,没有滑轮时可用alt键代替.数据流的基本操作删除连接选择待删除的连接,单击右键,从弹出的快捷菜单中选择“删除连接”;选择待删除连接的节点,按F3键,删除了所有连接到该节点上的连接;数据流的执行选择菜单栏中的按钮,数据流区域内的所有数据流将被执行;先选择要输出的数据流,再选择菜单栏中的按钮,被选的数据流将被执行;选择要执行的数据流中的输出节点,单击鼠标右键,在弹出的快捷菜单中选择“执行”选项,执行被选中的节点。第三节读取数据文件内容Clementine中可以读取的数据格式读取文本数据文件读取SPSS数据文件使用ODBC读取数据库查看数据Clementine中的数据类型和字段方向保存Clementine数据流目的介绍数据读入Clementine的一些方法Clementine中读取数据格式文本文件SPSS数据文件ODBC兼容的数据库SAS数据文件用户输入文件文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用变项文件节点读取数据如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文本文件导入固定文件节点读取自由字段文本文件添加变量文件节点到数据流区域编辑节点指向文件SmallSampleComma.txt通过选择“类型”条目检查结果读取固定字段文本文件移动一个固定文件节点到数据流区域编辑这个节点指向文件SmallSampleFixed.txt构造4个新字段,列出变量名和字段长度交互式手动输入读取SPSS数据文件添加SPSS文件节点到数据流区域编辑节点,指向文件SmallSample.savSPSS数据文件有特殊的“标签”:变量标签描述字段数值标签附上解释数值的编码数据库节点使用数据库节点前必须配置ODBC驱动去指定数据库的位置“控制面板--管理工具”选择ODBC选择“添加…”添加ODBC数据源选择合适的ODBC驱动,该驱动应该匹配数据库的名称和版本数据源Holidays数据库文件custandhol.mdb使用数据库节点添加并编辑数据库节点:选择数据库节点连接数据源选择“添加新的数据库连接”在数据源列表中选择需要连接的数据源,点击连接选择需要读取的表格定义字段类型类型节点指定字段的一系列重要属性指定字段类型、方向和缺失值Clementine可以自动设置变量类型,用户也可以强制指定类型为建立模型,指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置定义字段类型字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的字段类型:连续型–用于描述数值,如0-100或者0.75-1.25内的连续值一个连续值可以是整数、实数或日期/时间离散型–用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型集合型–用于描述带有多个具体值的数据(黄、绿、蓝)标记型–用于只取两个具体值的数据(真、假)无类型–用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据字段实例化在读取值前数据称为未实例化,字段设置为连续或离散型通过读取值后数据完全实例化,字段的取值和类型都是可知的通过类型节点或数据源节点上的类型条目可以指定数据类型字段实例化何时在源节点实例化数据集不太大不打算以后在流中增加字段何时在类型节点实例化数据集较大,而且流在类型节点前就过滤了子集数据在流中被过滤数据在流中被合并或追加在处理过程中导出新的数据字段字段类型用变项文件节点读取SmallSampleComma.txt字段实例化将ID字段的类型修改为无类型字段方向输入:输入或者预测字段输出:输出或者被预测字段字段两者:既是输入又是输出,只在关联规则中用到无:建模过程中不使用该字段分区:将数据拆分为训练、测试(验证)部分字段方向设置只有在建模时才起作用在Clementine中应用Apriori算法应用Apriori节点来对某超市的客户采购数据集进行购物篮分析。该数据集包含有21个属性(这些属性包括:COD、pasta、milk、water、biscuits、coffee、brioches、yoghurt、frozenvegetables、tunny、beer、tomato、souce、coke、rice、juices、crackers、oil、frozenfish、icecream、mozzarella、tinnedmeat。其中“COD”是记录编号,其它20个属性代表20种商品),共46243个记录。每个属性代表某种商品,其取值为“0”或者“1”,“0”表示没有购买该商品,“1”表示购买了该商品。数据源设置“类型”节点设置“Apriori”节点“Apriori”节点的高级选项浏览模型在Clementine中应用C5.0用C5.0算法对某银行的信贷历史记录进行数据挖掘的案例,通过构建决策树并形成规则,为银行的信贷服务提供决策支持。目标是要找出银行批准或否决贷款人的信用申请的标准。数据存放在文件crx.data中。一共包含690个样本,16个属性。由于商业保密的缘故,属性名称用A1,A2,…,A16来表示,其中A16是类标号属性,有两个取值:“+”和“﹣”,“+”表示信贷申请被通过,“﹣”表示信贷申请被否决。用“写字板”可以打开crx.data文件。需要注意的是,一些属性的值为“?”,表示值缺失。添加数据源节点编辑“数据源节点”节点重命名加入表节点“选择”节点A1=?or@NULL(A2)or@NULL(A3)orA4=?orA5=?orA6=?orA7=?or@NULL(A8)orA9=?orA10=?or@NULL(A11)orA12=?orA13=?or@NULL(A14)or@NULL(A15)orA16=?,“类型”节点“抽样”节点“C5.0”节点生成的决策树模型图将测试数据集输入模型得到测试数据的分类结果对预测结果的分析分析结果有91.41%的测试样本(298个)的预测值和实际值相符8.59%的测试样本(28个)的预测值和实际值不符在28个预测错误的样本中,实际值为“+”但被预测为“-”的样本有19个,实际值为“-”但被预测为“+”的样本有9个。对预测类别“+”和“-”的绩效评价统计量分别为1.226和0.22。在Clementine中应用k-means根据饮料中的五种微量元素的含量(毫克/升)来对这15种饮料进行分组。计算每个记录与其所属类群质心的距离从计算每个聚类和其它聚类的距离点击“执行”按钮,即可在管理器窗口的“模型”标签下显示生成的K-Means模型节点。默认(Default)停止条件是迭代20次或者差异容忍度0.000001,其中任一项达到就停止。调节因子η右键单击管理器窗口“模型”标签下生成的K-Means模型节点,在快捷菜单中选择“浏览”,打开“K-Means”对话框,在“模型”标签下会显示划分出来的三个聚类,点击“全部展开”,则可以显示每个簇的一些统计信息将生成的K-Means模型节点拖入到数据流区域在Clementine中应用TwoStep在Clementine中应用序列模式挖掘对某超市的顾客购物事务数据库进行分析以提取序列模式。从事务数据库中随机抽取10个顾客,每个顾客都有多次购物记录,组成训练数据集,共67个训练样本,存放在sequence.xls文件中。样本属性包括顾客ID、购物时间以及商品名称数据流设置序列节点的字段属性建模基本设置建模高级设置生成的序列模式预测结果
本文标题:Clementine上机操作实验指导
链接地址:https://www.777doc.com/doc-1820479 .html