您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > _SQL Server 之数据挖掘分析全集4
使用SQLServer进行数据挖掘本章将回顾AnalysisServices工具集,同时介绍有效创建挖掘模型和分析挖掘模型的技巧。在学习本章之前,读者应该已经熟悉了第3章介绍的模型构建的概念,而且对挖掘结构、挖掘模型、挖掘模型列、事例表和嵌套表的概念也有了较深入的理解。对于初学者来说,本章可以帮助他们入门,对于有一定SQLServer数据挖掘经验的用户来说,本章可以为他们提供一些技术,以帮助他们最有效地发挥该工具集的作用。但是这并不意味着本章可以取代产品的帮助文档中优秀的帮助和教程。更确切地说,本章讲述如何使用AnalysisServices提供的通用工具,特别是用于数据挖掘的工具。本章将通过用户界面来讲述如何使用AnalysisServices的功能,并提供详细的操作步骤来示范如何创建一组挖掘模型。本章还将穿插介绍相关的一些概念。如果您偏离这些操作太远,则可以重新开始操作,也可以从本书的Web站点()上获得完整的项目文件,以便随时使用。本章将会使用附录A描述的MovieClick数据库来举例说明工具的用法。本章将学习:●使用BusinessIntelligenceDevelopmentStudio(BIDevStudio)●理解即时模式和脱机模式●创建及修改数据源、数据源视图和数据挖掘对象●浏览数据和评估模型4.1BIDevStudio介绍在使用SQLServer数据挖掘功能的过程中,大部分时间将会花费在商业智能应用程序开发工具集(BusinessIntelligenceDevelopmentStudio,BIDevStudio)上。BIDevStudio环境已经集成到MicrosoftVisualStudio(VS)框架中,为商业智能操作提供了完整的开发环境。在使用VisualStudio时,数据挖掘项目是一组项目中的一部分,这组项目也称为解决方案。数据挖掘项目与应用程序所要求的其他项目可以组合到一个解决方案中。例如,数据库管理员(DatabaseAdministrator,DBA)可能创建一个IntegrationServices项目,这个项目从联机事务处理(OLTP)系统中提取数据,并且把这些数据转换为适合于数第章4数据挖掘原理与应用(第2版)——SQLServer2008数据库100据挖掘的形式。然后,分析员可以创建一个AnalysisServices项目,这个项目包含浏览事务数据和分析事务数据的模型。最后,应用程序开发人员可以创建一个Web服务和Web站点,在终端用户应用程序和商业化的服务中嵌入这些模型。所有这些项目都可以包含在一个解决方案中,这个解决方案包含所有相互合作完成的工作。而且,这些工作的所有方面都可以通过源控制系统中完整的版本历史来获得。4.1.1用户界面BIDevStudio主要是为应用程序开发人员设计的,有一个实现解决方案的非结构化方法,该方法与传统的数据挖掘工具完全不一样。该方法和BIDevStudio开发环境的复杂性,使得那些熟悉其他数据挖掘工具集的用户感到害怕。然而,开始使用这个工具时,要处理VisualStudio中内置的无数选项和窗口,一旦经历这一段的磨练之后,要创建和分析一个挖掘模型就是非常简单的事。熟悉BIDevStudio的第一步是理解用户界面各个部分中哪些部分是重要的,并且理解各个部分的作用。图4-1列出了BIDevStudio的典型窗口布局,其中对各个重要的元素做了标注。窗口选项卡BI菜单设计选项卡解决方案资源管理器输出窗口属性窗口设计窗口图4-1BIDevStudio第4章使用SQLServer进行数据挖掘101BIDevStudio最重要的部分如下所示。●解决方案资源管理器:解决方案资源管理器窗口用于管理解决方案和项目。在这个窗口中可以创建和管理所有的对象。要在项目中增加一个对象,可以右击项目名,然后选择“添加新项”,或者右击一个特定文件夹,然后选择“新建”。进行上述操作之后,将会启动一个对话框或向导,创建特定的对象了。●窗口选项卡:通过窗口选项卡可以在设计器窗口之间快速切换。每一个当前打开的文件或者对象都有一个选项卡。如果打开的对象的数目超过了选项卡区域能够容纳的数目,则可以使用选项卡右边的滑动条来浏览其他的窗口。●设计窗口:设计窗口是编辑和分析对象的地方。创建一个新的对象或者在解决方案资源管理器中双击一个对象,将会打开该对象的特定设计窗口,以修改该对象,与该对象交互。●设计选项卡:许多对象都有不同的方面,可以对它们进行编辑或者与它们交互。这些方面在设计器窗口中是通过选项卡来给出的。●属性窗口:属性窗口是一个上下文相关的窗口,它显示当前选择项的属性。属性窗口在VisualStudio中很常见,适用于该开发环境中所执行的任何类型的操作。例如,如果在解决方案资源管理器中选择一个对象,则在属性窗口中将会显示所选对象的属性(比如对象ID、文件名等等)。如果在数据挖掘设计器窗口中选择某一列,则在属性窗口中将会显示列的属性(比如名称和数据类型)。如果所选的项没有属性,则属性窗口将是空的。●BI菜单:BI菜单位于主菜单栏的“调试”菜单和“工具”菜单之间,从中可以找到特定于AnalysisServices对象的上下文相关的菜单。例如,如果打开数据源视图(DataSourceView,DSV)编辑器,则“格式”菜单和DSV菜单将会在这个区域中显示。●输出窗口:当构建和部署项目时,输出窗口将显示相关的信息。如果项目有错误,则可以在输出窗口中查看关于该错误的描述。注意:要使操作环境更适合自己的数据挖掘任务,可以按照所喜欢的形式重新组织工作空间。单击并且拖动任何窗口的标题栏,可以显示窗口悬浮的图标,以帮助悬浮和停靠窗口。甚至可以将这些窗口彼此叠放,这样,可选择的选项卡将会显示在窗口的下面。在集成开发环境中选择不同的选项时,可能会显示额外的窗口。可以关掉当前不再使用的窗口——不要担心,如果需要它们,总是可以从视图菜单中打开它们。如果想使那些窗口易于使用,而且在屏幕空间上运行短暂时间,则可以在窗口的标题栏中单击图钉图标,这样,当不使用这个窗口时,该窗口将会自动隐藏。数据挖掘原理与应用(第2版)——SQLServer2008数据库1024.1.2脱机模式和即时模式BIDevStudio有两种工作模式:脱机模式和即时模式。具体使用哪一种工作模式有时基于个人的爱好,有时基于个人的需要。每一种模式都有各自的优点和缺点,重要的是,在使用BIDevStudio时需要理解这两种模式的区别。1.即时模式对数据挖掘用户来说,工作在即时模式下是很自然的。在即时模式下工作时,就直接并持续地连接到AnalysisServices服务器。当打开一个对象(比如挖掘结构)时,是从服务器中打开该对象。当改变了对象并且要保存它时,该对象将直接在服务器上改变。在即时模式下,BIDevStudio项目是一个到服务器上的数据库的链接。在解决方案资源管理器中,可以看到数据库中的当前所有对象。如果关闭这个项目,然后重新打开它,将会自动重新连接到该数据库。如果上次打开该项目时数据库中的对象已经改变了,则再一次打开它时,还能够看到这些改变。虽然这种模式很直观,也很容易理解,但是在使用时有一些因素还是应该注意的。最重要的是,它是真正的“即时”。如果有一个现成的工作模型,需要修改并保存该模型,那么,这种改变立即进行,并且该模型会变成是未处理的,任何针对该模型的查询都无法执行。除此之外,如果已经打开一个对象,其他用户也可以修改它。如果已经修改了一个对象并且试图保存它,将会看到一个警告,因为保存对象时会覆盖其他用户已经做出的修改。只有关闭对象并且重新打开它时,在服务器上的对象改变才能在项目中反映出来。在数据库中新建或者删除一个对象后,只有在关闭项目并且重新打开它时才能看得到所进行的改变。即时模式相对于脱机模式来说,一个最大的优点是安全性高。如果在即时模式下工作,则该模式允许在单一数据库限定的范围工作,同时允许拥有数据库管理员权限的用户创建和修改对象。下一节将会讲述为什么使用脱机模式要求用户是服务器管理员。2.在即时模式下使用BIDevStudio要在即时模式下开始使用BIDevStudio,则按照下面步骤进行操作:(1)启动BIDevStudio。(2)在“文件”菜单中选择“打开”,然后选择AnalysisServices数据库,如图4-2所示的对话框将会出现。(3)在对话框的相应输入框中输入要连接的服务器名和数据库名。(4)单击“确定”按钮。如果有服务器管理员的权限,则也可以在服务器上创建新的数据库,所需的操作是选择“创建新数据库”单选按钮,然后指定服务器名和数据库名。第4章使用SQLServer进行数据挖掘103图4-2即时模式下连接到数据库的对话框3.脱机模式在脱机模式下工作时,项目包含的文件存储在客户机上。在这种环境下修改对象时,所作的修改以XML文档的格式存储在硬盘上。在将一个模型或者对象部署到目标服务器之前,所创建的模型和其他对象不会存储在服务器上,而是存储在客户机上。这样就允许数据挖掘开发人员或者分析员在将模型部署到真正的服务器之前进行一些操作,设计和测试该模型。也可以将这些文件放到源控制系统中,以便跟踪对象元数据的改变,并且在一个开发团队中实现共享。在解决方案资源管理器中右击一个对象,然后选择“查看代码”,就可以查看和编辑这些文件的源代码。当部署一个项目时,BIDevStudio会对项目中的对象进行验证,并且会创建一个部署脚本,将脚本发送到服务器。部署的基本单位是整个项目,代表整个AnalysisServices数据库。当部署一个项目时,这些工具能够部署增量更改。然而,如果在服务器上有一个与项目设置中的数据库同名的数据库,或者如果要部署来自不同计算机的项目,则该部署将会完全覆盖已有的数据库。幸运的是,在覆盖已有数据库之前会弹出一个警告对话框。因为数据库是在部署时创建的,所以,只有服务器管理员才能将脱机模式下的项目部署到服务器上。4.在脱机模式下使用BIDevStudio要在BIDevStudio中开始使用脱机模式,按照下面步骤进行操作:(1)启动BIDevStudio。(2)首先从“文件”菜单中选择“新建”菜单,然后选择“项目”,将会显示如图4-3所示的“新建项目”对话框。数据挖掘原理与应用(第2版)——SQLServer2008数据库104(3)在“项目类型”窗格中打开“其他语言”节点。(4)选择“商业智能项目”。(5)从“模板”窗格中选择AnalysisServices项目。(6)指定项目的名称,然后单击“确定”按钮。(7)首先选择“生成”菜单,然后选择“部署”,将项目部署到服务器,创建数据库。图4-3“新建项目”对话框默认情况下,项目会部署在localhost服务器,也就是说,该服务器与工具在同一台计算机上。为了改变目标服务器,首先选择“项目”,然后选择“属性”,以启动“配置属性管理器”对话框。在这个对话框中,可以创建不同的部署配置,还可以为每一个可能的配置指定目标服务器和数据库的名称,如图4-4所示。图4-4项目属性对话框在部署的过程中需要注意的其他重要属性是处理选项和部署模式。默认情况下,部署功能自动处理已经创建的对象,或者由于项目的改变而变得无效的对象。处理选项属性控第4章使用SQLServer进行数据挖掘105制处理行为。同样,默认情况下只将来自这些工具的增量更改部署到服务器上。如果其他客户已经改变了该数据库,或者在服务器上有一个同名数据库,则默认的部署方式会导致错误。部署模式属性可以控制这种行为。注意:可以设置一个属性来改变默认的部署服务器,默认的部署服务器是每次创建一个新的脱机项目时设置的。如果要改变默认的部署服务器,则需要选择“工具”菜单上的“选项”选项,进入“选项”对话框。在“选项”对话框中,依次选择“商业智能设计器”|“AnalysisService设计器”|“常规”,然后将默认的目标服务器属性设置为选定的服务器。这个设置只对
本文标题:_SQL Server 之数据挖掘分析全集4
链接地址:https://www.777doc.com/doc-6357809 .html