您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > Clementine完整教程
Clementine教程1.概要资料采矿使用Clementine系统主要关注通过一系列节点来执行资料的过程,这被称作一个数据流(stream)。这一系列的节点代表了将在资料上执行的操作,而在这些节点之间的联系表明了数据流(stream)的方向。使用者的数据流包括四个节点:一个变量文件节点,用来从资料源读取资料。一个导出节点,向资料集中增加新的,通过计算得到的字段。一个选择节点,用来建立选择标准,从数据流中去除记录。一个表节点,用来显示使用者操作后得到的结果。2.建立数据流使用者可以使用下列步骤来建立一个数据流:●向数据流区域中增加节点●连接节点形成一个数据流●指明任一节点或数据流的选项●执行这个数据流图2-1在数据流区域上的一个完整数据流2.1节点的操作工作区域中的各种节点代表了不同的目标和操作。把节点连接成数据流,当使用者执行的时候,让使用者可以看到它们之间的联系并得出结论。数据流(stream)就像脚本(scripts),使用者能够保存它们,还可以在不同的数据文件中使用它们。节点选项板(palette)在Clementine系统窗口底部的选项板(palette)中包含了用来建立数据流的所有可能的节点。图2-2在节点选项板上的记录选项项目(RecordOpstab)每一个项目(tab)包含了一系列相关的节点用于一个数据流(stream)操作的不同阶段,例如:●来源(Sources)。用来将资料读进系统的节点。●记录选项(RecordOps)。用来在资料记录上进行操作的节点,例如选择、合并和增加。●字段选项(Fieldops)。用来在数据域位上进行操作的节点,例如过滤、导出新字段和确定给出字段的数据类型。●图。在建模之前和之后用来可视化资料的节点。图包括点图、直方图、Web节点和评估图表。1●建模。在Clementine系统中可用的代表有效建模算法的节点,例如类神经网络、决策树、聚类算法和资料排序。定制常用项在节点选项板(palette)上的Favorites项目能够被定义成包含使用者对Clementine系统的习惯用法。例如,如果使用者经常分析一个数据库中的时间序列资料,就可能想确保数据库来源节点和序列建模节点这两个都可以从Favorites项目中获得。向数据流中增加数据流节点从节点选项板中向数据流增加节点有三种方式:●在选项板上双击一个节点。注意:双击一个节点会自动的将它连接到目前的数据流上。更多的信息参看下面的“在数据流中连接节点”。●将一个节点从选项板拖放到数据流区域中。●在选项板上点击一个节点,然后在数据流区域中点击一下。删除节点为了从数据流中删除一个节点,点击它并按删除。或者,单击鼠标右键并且从菜单中选择删除。在数据流中连接节点首先选择这个节点,然后在选项板双击另一个节点,比如一个生成节点。这个操作自动的把这个生成节点连接到目前的数据库节点。图2-4在选项板上双击节点建立一个数据流通过鼠标中间键点击和拖放来完成。(如果你的鼠标没有中间键,使用者可以通过按住“Alt”键来模拟这个过程。)表2-5使用鼠标的中间键来连接节点手工连接节点●选择一个节点并且单击鼠标右键打开内容菜单。●从菜单中选择“connect”。●一个连接符号将同时出现在开始节点上和游标上,点击数据流区域上的第二个节点将两个节点连接在一起。图2-6使用菜单上的连接选项来连接节点图2-7被连接的节点当连接节点的时候,必须遵循以下几个指导方针。如果使用者试图做下列任何类型的连接,将会收到一个错误信息:●导向一个来源节点的连接。●从一个昀终节点导出的连接。●一个超过它的输入连接昀大值的节点。●连接两个已经被连接的节点●循环(资料返回一个它已经经过的节点)。在一个数据流中绕过节点在数据流区域上,使用鼠标的中间键来双击想要绕开的那个节点,也可以按住Alt键后双击鼠标左键来完成。注意:通过编辑菜单中的撤销选项或者按Ctrl+Z键可以撤销这个操作。图2-8绕过一个先前连接的过滤节点2用鼠标的中间键,点击连接箭头到想要插入的节点上。此外,也可以使用按住Alt键后单击鼠标左键来模拟鼠标的中间键。继续按住鼠标。图2-10新数据流(stream)连接拖到目的节点上,松开鼠标。注意:你可以绕开那个节点,从那个节点上撤销这个新的连接来恢复原来的样子。删除节点间的连接使用者可以使用两种方法来删除节点间的连接:●在连接箭头的头部按住鼠标右键。●从菜单中选择DeleteConnection.图2-11在一个数据流中删除节点间的连接或者可以按照下列步骤来删除一个连接:●选择一个节点并且按F3键,来删除所有的连接。●选择一个节点,从主菜单中选择:Edit→Note→Disconnect为节点设置选项右击一个节点,选择菜单选项中的一个。图2-12节点的菜单选项●选择Edit打开被选节点的对话框。●选择Connect来手工将一个节点连接到另一个节点。●选择Disconnect来断开某个节点上的,从它发出和到达它上的所有连接。●选择Rename和Annotate打开编辑对话框来批注卷标。●选择Copy对没有连接的节点做备份。这个能够被增加到一个新的或者目前的数据流。●选择Cut或者Delete删除被选择的数据流区域上的节点。●选择LoadNode来打开一个先前保存的节点并且将它的选项装载到目前被选择的节点。●选择SaveNode将节点的详细信息保存到一个文件中。使用者只能将节点详细信息装载到相同类型的节点。●选择Cache来扩展菜单,通过使用选项来暂存被选节点。●选择DataMapping来扩展菜单,使用选项来将资料映像到一个新来源或强制指定的字段。●选择CreatSuperNode来扩展菜单,使用选项在目前数据流建立一个超级节点。●选择GenerateUsesInputNode来替换被选择的节点。由这个节点产生的例子将和目前的节点有相同的字段。●选择ExecuteFromHere执行所有的从被选择节点向下游方向的昀终节点。对于节点的选项为了昀佳化数据流(stream)的执行,使用者可以对任何没有结束的节点建立一个暂存。当对一个节点建立一个暂存(cache)的时候,缓冲区会被下一次执行数据流时要通过节点的资料所填满。从那时起,资料就从该缓冲区中读取而不是从资料源中读取。带有缓冲区的节点能够以一个小的文件图标被显示在右上角。当资料在节点处被暂存时,这个文件图标是绿色的。图2-13在类型节点暂存(cache)来存储新的导出字段32.1.1激活一个暂存数据流区域(streamcanvas)中,在某个节点上单击鼠标右键并且从菜单中选择cache。从Cache子菜单中选择Enable。使用者可以通过在该节点上单击鼠标右键并且从暂存的子菜单中选择Disable来关掉暂存cache。2.1.2更新缓冲区节点上的文件图标若是白色的则表明其缓冲区(Cache)是空的。当这个缓冲区满时,那个文件图标就变成了深绿色。如果使用者想要代换缓冲区中的内容,使用者首先必须更新(Flush)这个缓冲区,然后在重新执行数据流去填充它。在数据流区域上,在此节点上单击鼠标右键并从菜单中选择Cache。从Caching子菜单中选择Flush。2.1.3保存一个缓冲区●使用者可以以SPSS檔(*.sav)的形式来保存一个缓冲区的内容,也可以重新装载这个档作为一个缓冲区(cache),或者建立一个使用缓冲区文件作为它的资料源。还可以从使用者保存过的另一个项目中装载一个缓冲区。●在数据流区域上,在此节点上单击鼠标右键,从菜单中选择Cache。●从Caching的子菜单中选择SaveCache。●在保存Cache的对话框中,通过浏览找到想要保存此文件的位置。●在文件名称选框里填写文件名称。●确定在文件保存类型的下拉选项中选择的是*.sav,点击Save。2.1.4装载一个缓冲区●在将缓冲区档从节点中删除之前,如果使用者想保存它,可以重新装载。●在数据流上,在该节点单击鼠标右键,并从菜单中选择Cache。●从Caching子菜单中选择LoadCache。●在LoadCache对话框中,浏览找到Cache文件,选择它,并且点击Load。2.1.5注释节点●编辑一个节点,要打开一个对话框,它包含一个注释项目,用来设置各种注释选项。在数据流区域上的节点单击鼠标右键。●选择(RenameAndAnnotate)。打开带有可见注释项目的编辑对话框。●名称(Name):选择Custom来调整自动生成的名字,或为数据流区域上的这个节点命名一个唯一的名字。默认值为Auto。●工具提示文本(Tooltiptext):输入文本作为一个数据流区域节点的提示工具。在处理大量相似的节点的时候,这是十分有用的。图2-14注释键选项图2-15工具管理器菜单选项中的Stream项目2.2数据流的操作在Clementine系统,使用者每次可以使用、并且修改不止一个的数据流。Clementine系统窗口的右边包含工具管理器,它可以帮助浏览目前打开的数据流。为了显示工具管理器,从视图菜单中选择Manager,然后点击Stream2.2.1为数据流设置选项●设置数据流的选项从文件菜单中选择StreamProperties。●另外,使用者也可以使用工具管理器上的stream项目。点击Optionstab。4●Calculationsin:选择弧度或度作为CLEM三角表达式的度量单位。●Importdate/timeas:指定输入日期/时间资料的存储格式,可选项:日期/时间或者字符串变量●Dateformat:选择一个日期格式用于存储日期字段或当字符串被CLEM日期函数解释为日期资料时,选择一个日期格式。●Timeformat:选择一个时间格式用来做时间存储字段,或当字符串被CLEM时间函数解释为时间资料时,进行时间格式的选择。●Displaydecimalplaces:在Clementine系统里,设置多位小数字是用来显示和打印实数的。●Decimalsymbol:从下拉菜单中选择一个逗号(,)也可以选择句号(.)作为一个小数分割符。●Rolloverdays/mins:选择是否使用负数时间,即前一天或前一小时。●Datebaseline(1stJan.):选择用于CLEM日期函数的基准年度(通常为1月1日)。●2-digitdatesstartfrom:指定一个起始年份,来标识所用时间的“世纪”,由此,日期仅需要两位元数来表示年份。●maximumsetsize:指定设置字段成员的(members)昀大个数。的所有字段会被设为无类型。这个选项在预设的情况下为无效,但是当处理大的字段集时很有用。注意:无类型字段的方向被自动设置为无方向。这就意味着这些字段在建模时是不可得到的。●rulesetevaluation:决定如何评估规则集。预设时,规则集使用评分规则对各个规则产生的预测进行整合,进而得到一个昀终的预测。若要缺省使用首发命中原则,选择FirstHit。图2-16设置资料流程选项图2-17设置layout选项2.2.2对数据流配置设置选项●设置layout选项从文件菜单中选择StreamProperties。此外也可以从工具菜单中选择StreamProperties→Layout在数据流属性对话框中点击Layout项目。●Streamcanvas宽度:以像素(pixels)为单位指定宽度。●Streamcanvas高度:以像素(pixels)为单位指定高度。●数据流的滚动速度(Streamscroll):指定Streamcanvas的滚动速度。●图标名称昀大值:对Streamcanvas上的节点名字指定一个字符数目的限制。●图标大小:选择在Streamcanvas上是显示大的还是小的节点图标。●单元格大小:在下拉的菜单中选择单元格大小,这个数字被用来使用一个不可见的格子对准Streamcanvas上的节点。单元格大小的默认值为0.25。2.2.3显示数据流的执行信息●从文件菜单中选择StreamProperties。此外还可以从工具菜单中选择:Stream→Mes
本文标题:Clementine完整教程
链接地址:https://www.777doc.com/doc-1855256 .html