您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘实验(实验四-七)
实验四决策树模型1.实验目标•使用SSAS进行决策树模型挖掘实验。2.实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。3.实验内容根据游戏三国志4武将数据,利用决策树分析,找出三国武将特性分布。其中变量包含名称,统御、武力、智慧、政治、魅力、忠诚、国别,出身及身份。(ch10-6.xls)利用adventureworksdw的vtargetmail表中顾客基本情况分析顾客购买自行车的特征分布4.实验步骤见教材及参考视频5.实验结果及问题讨论(1)对实验结果进行分析,并对预测结果的准确性进行评价。(2)决策树方法的基本思想是什么?实验五线性回归模型1.实验目标•使用SSAS进行线性回归挖掘实验。2.实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。3.实验内容某超市对来店顾客是否受到广告促销费用、店面面积以及超市所在位置的影响进行分析(对应sql文件ch15-6.xls)。4.实验步骤一、将EXCEL文件导入SQLServer(1)打开SQLServerManagementStudio,新建数据库“regression”。(2)右击“regression”,指向“任务”,然后选择“导入数据”,将ch15-6.xls文件数据导入到“regression”数据库中,导入的表名称为“sheet1”。二、线性回归挖掘分析(1)打开BusinessIntelligenceDevelopmentStudio,创建AnalysisServices项目。(2)创建数据源:在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”,系统将打开数据源向导。在“选择或输入数据库名称”步骤中,选择“regression”,再单击“确定”按钮。(3)创建数据源视图:在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。步骤二“数据源视图向导”设置如下图所示:步骤三“选择表和视图”,将在“regression”数据库中导入数据创建的表加入到“包含的对象中”。(4)新建挖掘结构1.在解决方案资源管理器中,右键单击“挖掘结构”,选择“新建挖掘结构”。2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。3.在“选择定义方法”页上选中“从现有关系数据库或数据仓库”,单击“下一步”。4.在“选择数据挖掘技术”页上选择“Microsoft线性回归”,单击“下一步”。5.打开“选择数据源视图”页,选择“regression”,单击“下一步”。6.打开“指定表类型”页,单击“下一步”。如下图所示:7.打开“指定定型数据”页,将“促销费用(万元)”、“店面面积(百平方米)”,“所处位置”字段作为输入,“顾客数(千人)”字段作为输出,如下图所示,单击“下一步”。8.打开“指定列的内容和数据类型”页,保证三个自变量字段和一个因变量字段内容类型为“Continuous”,单击“下一步”。9.打开“完成向导”页,如下图所示,单击“完成”。(5)部署项目。(6)点击“模型查看器”标签屏幕截图如下:写出线性回归方程。(7)点击“挖掘准确性图表”标签,设置列映射如下:点击“提升图”,挖掘结构数据散点图如下:(8)点击“挖掘模型预测”标签,设置预测显示内容,如下图所示:查看预测结果,比较预测值和实际值差别,如下图所示。5.实验结果及问题讨论(1)根据自己的理解,请简述什么是回归分析,其分类以及基本步骤。(2)什么是线性回归?(3)回归分析中,回归变量的选择依据是什么?实验六关联规则1.实验目标•使用SSAS进行关联规则挖掘实验2.实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。3.实验内容生成市场篮方案。AdventureWorks的市场部希望改进公司的网站以促进越区销售。在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。4.实验步骤(1)创建市场篮挖掘模型结构1.在BusinessIntelligenceDevelopmentStudio的解决方案资源管理器中,右键单击“挖掘结构”,再选择“新建挖掘结构”。此时,系统将打开数据挖掘向导。2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft关联规则”,再单击“下一步”。“选择数据源视图”页随即显示。默认情况下,“可用数据源视图”下的AdventureWorksDW为选中状态。5.单击“下一步”。6.在“指定表类型”页上,选中vAssocSeqOrders表旁的“事例”复选框,选中vAssocSeqLineItems表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两个表之间的关联)。7.在“指定定型数据”页上,依次清除CustomerKey旁边的“键”复选框和LineNumber旁边的“键”和“输入”复选框。8.选中Model列旁边的“键”和“可预测”复选框。然后,系统也将自动选中“输入”复选框。9.单击“下一步”。10.在“指定列的内容和数据类型”页上,单击“下一步”。11.在“完成向导”页的“挖掘结构名称”中,键入Association。12.在“挖掘模型名称”中,键入Association,再单击“完成”。(2)调整关联模型的参数和处理关联模型在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前,必须更改以下两个参数的默认值:Support和Probability。Support定义规则被视为有效前必须存在的事例百分比。Probability定义关联被视为有效前必须存在的可能性。调整关联模型的参数步骤如下:1.打开数据挖掘设计器的“挖掘模型”选项卡。2.右键单击设计器网格中的“关联”列,然后选择“设置算法参数”。系统将打开“算法参数”对话框。3.在“算法参数”对话框的“值”列中,设置以下参数:MINIMUM_PROBABILITY=0.1MINIMUM_SUPPORT=0.014.单击“确定”。处理关联模型步骤如下:1.在BusinessIntelligenceDevelopmentStudio的“挖掘模型”菜单上,选择“处理挖掘结构和所有模型”。系统将打开“处理挖掘结构-关联”对话框。2.单击“运行”。系统将打开“处理进度”对话框,以显示有关模型处理的信息。模型处理可能需要一些时间,具体时间取决于您的计算机。3.处理完成之后,在“处理进度”和“处理挖掘结构-关联”对话框中,单击“关闭”。(3)浏览市场篮模型使用数据挖掘设计器的“挖掘模型查看器”选项卡中的Microsoft关联查看器浏览该模型。浏览模型时,可以轻松地查看可能同时出现的产品,并可浏览项之间的关系。还可以筛选出较弱的关联,并对新浮现的模式有一个总体的概念。Microsoft关联查看器包含三个选项卡:“项集”、“规则”和“依赖关系网络”。“项集”选项卡“项集”选项卡显示与Microsoft关联算法发现的项集相关的三种重要信息:支持度(发生项集的事务的数量)、大小(项集中项的数量)以及项集的实际构成。根据算法参数的设置方式,算法可以生成大量的项集。使用“项集”选项卡顶部的控件,可以筛选查看器,使其仅显示包含指定的最小支持度和项集大小的项集。也可以使用“筛选项集”框来筛选查看器中显示的项集。例如,若要仅查看包含有关Mountain-200自行车信息的项集,可在“筛选项集”中输入Mountain-200。您将在查看器中看到,只有包含“Mountain-200”字样的项集被显示。查看器中返回的每个项集都包含有关销售Mountain-200自行车事务的信息。例如,在“支持度”列中包含值710的项集表示:在所有事务中,710个购买Mountain-200自行车的人也购买了Sport-100自行车。“规则”选项卡“规则”选项卡显示与算法发现的规则相关的以下信息。概率规则发生的可能性。重要性用于度量规则的有用性,值越高则意味着规则越有用。只看概率可能会产生误解。例如,如果每个事务都包含一个x项,规则y预测x发生的概率为1,即x一定会发生。即使规则的准确性很高,但这并未传达很多信息,因为不管y如何,每个事务都会包含x。规则规则的定义。像使用“项集”选项卡一样,可以筛选规则,以便仅显示最关心的规则。例如,如果只想查看包含Mountain-200自行车的规则,可在“筛选规则”框中输入Mountain-200。查看器将仅显示包含“Mountain-200”字样的规则。每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。例如,由第一个规则可知:如果一个人购买了Mountain-200自行车和水壶,则此人还会购买Mountain水壶套的概率为1。“相关性网络”选项卡使用“相关性网络”选项卡,可以研究模型中不同项的交互。查看器中的每个节点表示一个项;例如,Mountain-200=Existing节点表示事务中存在Mountain-200。通过选择节点,可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。滑块与规则的概率关联。上下移动滑块可以筛选出弱关联。例如,在“显示”框中,选择“仅显示属性名称”,再单击MountainBottleCage节点。查看器显示,Mountain水壶套预测了水壶和Mountain-200自行车,而水壶和Mountain-200自行车也预测了Mountain水壶套。这意味着,这些项有可能同时在事务中出现。也就是说,如果某个客户购买了自行车,则他也可能会购买水壶套和水壶。5.实验结果及问题讨论(1)根据实验结果给出市场部统一放置在网站的一个位置上的可能被集中购买的项的建议。(2)写出自己对关联规则的理解。实验七贝叶斯分类1.实验目标•使用SSAS进行贝叶斯分类挖掘实验2.实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。3.实验内容生成目标邮件方案,AdventureWorks的市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。公司的数据库AdventureWorksDW包含一个现有客户列表和一个潜在的新客户列表。创建一个目标邮件方案,包含决策树和贝叶斯分类挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。4.实验步骤创建用于目标邮件方案的挖掘结构(1)创建决策树模型1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”。系统将打开数据挖掘向导。2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。在在“模型名称”中,键入TM_DecisionTree。3.在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft决策树”。5.单击“下一步”。6.在“选择数据源视图”页上,请注意已默认选中AdventureWorksDW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。7.单击“下一步”。8.在“指定表类型”页上,选中vTargetMail表旁边“事例”列中的复选框,再单击“下一步”。9.在“指定定型数据”页上,确保已选中CustomerKey列旁边Key列中的复选框。如果数据源
本文标题:数据挖掘实验(实验四-七)
链接地址:https://www.777doc.com/doc-5118822 .html