您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘技术与应用实验报告yf
数据挖掘技术与应用实验报告编制教师:王顺民审定:赵晓鸿专业:_______________________班级:_______________________学号:_______________________姓名:_______________________2012-2013学年第二学期经济与管理学院1实验名称:SPSSClementine软件安装、功能演练指导教师:实验日期:成绩:实验目的1、熟悉SPSSClementine软件安装、功能和操作特点。2、了解SPSSClementine软件的各选项面板和操作方法。3、熟练掌握SPSSClementine工作流程。实验内容1、打开SPSSClementine软件,逐一操作各选项,熟悉软件功能。2、打开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做access数据库文件、excel文件、txt文件、可变文件的导入、导出)实验步骤一,软件安装一,在网上下载spassclementine软件,下载破解,中文版二,下载光盘镜像软件三,搜索精灵虚拟光驱,找到下载网站点击下载thunder://QUFodHRwOi8vMjExLjE2Mi4yMDkuMTUwOjgyL2Rvd24vRFRMaXRlNDQ1NC0wMzE0LnppcFpa四,安装虚拟光驱五,用虚拟光驱加载clementine镜像,[统计数据挖掘工具].TLF-SOFT-SPSS_Clementine_v12.0-CYGiSO.bin六,双击setup程序安装程序,选择第一个,点击下一步,执行安装步骤,安装完成。七,由于安装的是英文试用版,因此必须安装破解软件八,双击SPSSClementine12·0·3多国语言含中文破解版.exe,将软件汉化九,破解软件,将软件使用期限破解为永久;用虚拟光驱打开SPSS_Clementine,打开CYGiso文件夹,复制lservic与PlatformSPSSLic7.dll十,将复制的文件粘贴到安装文件夹下的\SPSSinc\Clementine12.0\12文件夹下,2并替换原文件二,熟悉软件功能1,Clementine窗口当第一次启动Clementine时,工作区将以默认视图打开。中间的区域称作流工作区。在Clementine中,这将是用来工作的主要区域。Clementine中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。窗口的右上方是输出和对象管理器。这些选项卡用于查看和管理各种2,Clementine对象。“输出”选项卡包含了由Clementine中的流操作产生的各类文件。可以显示、重命名和关闭此处所列的表格、图形和报告。“模型”选项卡,包含了在一次会话中产生的所有模型(即,已在Clementine中构建完毕的模型)。通过它,可以对模型作更深入的查看、将其添加至流中、导出或为其加注解。窗口右侧底部的部分是工程工具,它用来创建和管理数据挖掘工程要在流工作区添加节点可以使用几种方法:1,在节点选项板中双击所选图标;2,将所选的图标直接拖到工作区;3,在菜单栏中选择插入,执行“源”或其他节点操作。对节点的连接方法包括:1,在源节点面板中选择一个类型添加到工作区,在“输出节点面板中选双击输出节点,可以直接连接”2,在节点面板中拖一个节点到面板中,按F2将上一个节点与本节点连接。3,按住alt键点击上一个节点与需要连接的节点进行连接,。实验总结:在软件安装的时候注意安装步骤,由于是安装破解中文版,所以需要3在安装完主程序后再安装语言包,然后进行软件破解。在软件操作方面基本解了SPSSClementine软件的功能和操作特点,了解了Clementine各选项面板和操作方法。实验评价(教师):4实验名称:SPSSClementine数据可视化指导教师:实验日期:成绩:实验目的1、熟悉SPSSClementine绘图。2、了解SPSSClementine图形选项面板各节点的使用方法。3、熟练掌握SPSSClementine数据可视化流程。实验内容1、打开SPSSClementine软件,逐一操作各图形选项面板,熟悉软件功能。2、打开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做分布图、直方图、收集图、多重散点图、时间散点图)实验步骤一,熟悉软件功能1,打开Clementine点击开始菜单,找到Clementine12.0,点击打开2,熟悉各功能软件最上方是菜单栏包括,文件,编辑,插入,视图,窗口等,可以执行文件的保存,打开导入导出,对流进行清除,添加,对窗口进行布局等功能。最上面的第二排是工具栏,可以点击新建流,打开,保存打印等工作软件的主界面为工作区,对流的各种操作在这里执行最下面是软件的选项板区,添加节点的方法可以是,双击;左键点击,然后定位到工作区;也可以是拖动,软件的右方是流,输出,模型,工程面板二,操作分布图1),在选项面板中找到原节点面板,双击数据库节点,将数据库节点添加到流工作区中2)编辑数据库源,双击数据库节点,单击“文件”右边的省略号”…”进入spass安装目录,打开demo文件夹,在数据源中选择visioDatabaseSamples,在表名称中选择办公-雇员详细5信息表。在“数据库”文件对话框中,我们可以对数据源的各个类型进行了解,例如在“可变文件”对话框中最底部,单击类型,可以看到灭个节点中每个字段的类型,值,缺失等3),将源文件添加到工作流中后,然后在节点面板中找到帆布节点,双击分布图标,将其放置在工作面板中4),按f2将源与分布节点连接5),双击分布节点编辑,字段选择部门,颜色选择姓名,执行,然后生成部门的分布图6),从图中可以看出该公司的员工大部分在技术部门。所以可以推断该公司应该是以技术为主导的知识密集型公司。散点图1)在源节点面板中,找到可变文件节点,双击可变文件,将源可变文件节点添加到流工作区中。2)双击可变文件节点图标,进入可变文件的编辑界面,点击选择文件,打开软件安装目录,打开demo,文件选择DRUG1n,点击确定。3)将图形节点面板中,找到散点图,双击图标,将散点图添加到面板中,右键连接,将源文件与散点图连接。4)双击面板中的散点图节点图标,进入散点图的编辑界面,将x字段调为sex,y字段调为na,颜色选择sex,点击执行5)生成的散点图如下F代表女性,M代表男性,横轴代表性别,纵轴代表na的含量。6:6)从图中可以看出男性的平均na含量明显高于女性的平均na含量。而且在na含量较多的情况下,也就是含量在0.7以上,女性明显比男性多。直方图1)任然以DRUG1n为源文件2)将图形中的直方图添加到面板中3)连接源文件与直方图4)双击直方图,编辑,将字段设为na,颜色设为drug5)执行后生成的图形如下:76)从图中可以很明显的看出drugy的na含量最多,drugb的na含量最少。实验总结:在选择源文件的时候需要选择有表头的文件不然生成的图形不能够很好的反应相关性,通过实验熟悉了spss的绘图特点,了解了选项面板各节点的是使用方法实验评价(教师):8实验名称:决策树C5.0建模指导教师:实验日期:成绩:实验目的1、熟悉SPSSClementine建模方法。2、掌握SPSSClementine分布图、散点图、网络图的创建方法。3、掌握决策树C5.0决策方法。实验内容1、创建散点图。2、创建分布图。3、创建网络图。假设你是一位正在汇总研究数据的医学研究员。已收集了一组患有同一疾病的患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。的任务就是通过数据挖掘找出适合治疗此疾病的药物。此实验使用名为druglearn.str的流,此流引用名为DRUG1n的数据文件。可以从任何ClementineClient安装软件的Demos目录下找到这些文件,也可以通过从Windows的“开始”菜单选择Start[All]ProgramsSPSSClementine11.1Demos访问这些文件。文件druglearn.str位于Classification_Module目录中。此demo中使用的数据字段包括:年龄(数值)性别M或FBP血压:高、正常或低胆固醇血液中的胆固醇含量:正常或高Na血液中钠的浓度K血液中钾的浓度药品对患者有效的处方药实验步骤9一,打开spass软件,单击收藏夹或数据源选项卡选择可变文件节点,双击节点,讲解点添加到流工作区中,也可以世界拖拽到流工作区中。二,双击添加到流工作区的可变文件节点,打开可变文件对话框,选择源文件,打开系统的安装目录,然后打开demo文件夹,打开DRUG1n,吃屎可变文件对话框出现响应的数据。如图:三,单击“可变文件最下面的“数据“选项卡,在数据对话框中勾选勾选某个字段后金可对该字段进行覆盖和更改操作,单击过滤选项卡,进入对话框中我们可以根据需要对不需要的字段进行过滤处理,单击类型选项卡,可以了解每个字段的类型,值,缺失,等信息。四,在输出处选项卡中选择表,将表添加到工作流中,选中可变文件节点,右键单击选择连接,将可变文件与表节点连接,要查看表可单击工具栏上的绿色箭头执行流或右击表选择执行流,执行完后在表对话框中,可以得到表的7个字段,200条记录斌企鹅可以看到各个记录的详细参数。四,创建散点图,1,在图形选项卡中选中分布节点并双击,将其添加到流工作区中,按住alt建,点击可变文件源文件与分布节点,将源文件与分布节点连接。102,点击执行如图:4,分析:从图中可以看出60岁以上的男性胆固醇的含量较女性多,在20到30岁胆固醇含量的男女比例差不多,但女性稍微比男性多一些。二),分布图1,选择源文件,打开可变文件,选择DRUG1n文件。2,选择图形面板中的分布图。3,设置分布图,如下:114,点击执行,结果如下:5,分析,从图形对比中可以看出在实验中男性总数比女性要多,同时女性血压正常的比例比男性要多,男性的血压低的比例明显高于女性。三),网络图1,打开源节点面板,找到可变文件节点,双击节点图标,将其添加到流工作区中,然后打开文件DRUG1n。2,选择图形面板的图形,设置如下123,点击执行,结果图如下4,分析:从图中可以看出男性的胆固醇含量明显比女性要高,高与正常的指数分别为,54,50.13实验总结:实验评价(教师):14实验名称:关联规则挖掘指导教师:实验日期:成绩:实验目的age=24[模式:T]fish=T[模式:T]=Tfish=F[模式:F]=Fage24[模式:F]=F1、熟悉C5.0规则归纳2、掌握购物篮分析的方法。实验内容1、字段和记录的筛选。2、规则归纳(C5.0)分类。3、购物篮分析。4、本实验处理描述超级市场购物篮内容(即,所购买的全部商品的集合)的虚构数据,以及购买者的相关个人数据(可通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。实验步骤1,在源节点面板中找到可变文件,双击节点图标,将可变文件添加到流工作区中,双击节点图标进入节点编辑界面,然后选项源文件,代开demo文件夹,源文件选择,$CLEO_DEMOS/BASKETS1n2,在字段选项节点面板,将类型添加到面板中,按住alt键点击可变文件与类型节点,将可变文件与类型节点进行连接,然后双击类型节点图标,对源文件进行输入输出处理,设置如图,fruitveg为输出字段,值,性别等不参与建模153,打开输出节点面板,双击表节点,将表节点添加到工作流中,然后点击执行,可以初步查看,字段的信息。4在节点工具箱的建模中选择C5.0,与类型连接5执行Fruitveg,得到,fruitveg模型6,点击fruitveg模型执行,结果如下:167,模型结果图如下:age=24[模式:T]fish=T[模式:T]=Tfish=F[模式:
本文标题:数据挖掘技术与应用实验报告yf
链接地址:https://www.777doc.com/doc-6406068 .html