您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 理学 > 9-14_建模节点_KNN模型
IBMSPSSModeler帮助建模节点最近相邻元素模型目录KNN节点KNN模型块IBMSPSSModeler帮助建模节点最近相邻元素模型上一个下一个KNN节点“最近相邻元素分析”是根据观测值与其他观测值的类似程度分类观测值的方法。在机器学习中,将其开发为识别数据模式的一种方法,而不需要与任何存储模式或观测值完全匹配。相似个案相互邻近,非相似个案则相互远离。因此,两个观测值之间的距离是其不相似性的测量。将靠近彼此的个案视为“相邻元素。”当提出新的观测值(保留观测值)时,计算其到模型中每个观测值的距离。计算最相似观测值–最近相邻元素–的分类并将新观测值放在包含最多最近相邻元素的类别中。您可以规定需要检验的最近相邻元素的数量;此值叫做k。图片显示如何使用两个不同的k值分类新观测值。当k=5时,新观测值将被置于类别1中,因为大多数最近相邻元素属于类别1。但当k=9时,新观测值将被置于类别0中,因为大多数最近相邻元素属于类别0。更改k对分类的影响最近相邻元素分析也可用于计算连续目标的值。在此情况下,最近相邻元素的平均值或中间目标值用于获得新观测值的预测值。©CopyrightIntegralSolutionsLimited1994,2010IBMSPSSModeler帮助建模节点最近相邻元素模型KNN节点上一个下一个KNN节点目标选项显示详细信息KNN节点目标选项您可以在“对象”选项卡输入数据中根据最近相邻元素的值选择构建预测目标字段值的模型,或者只是查找特定感兴趣个案的最近相邻元素。您要执行哪种类型的分析?预测目标字段。如果您想根据最近相邻元素的值预测目标字段的值,请选择此选项。只识别最近相邻元素。如果您只想看到特定字段的最近相邻元素,请选择此选项。如果您选择只识别最近相邻元素,在此选项卡上与准确性和速度相关的剩余选项将被禁用,因为其只与预测目标相关。您的目标是什么?此组选项让您决定当预测目标字段时,速度、准确性或二者是否是最重要的因素。或者您可以选择自己自定义设置。如果您选择平衡、速度或准确性选项,则算法预先选择该选项的最合适设置组合。高级用户可能希望覆盖这些选择;可在“设置”选项卡上的各个窗格上进行此操作。均衡速度和精确度。选择小范围内相邻元素的最佳数量。速度。查找固定数量的相邻元素。准确性。选择较大范围内的相邻元素的最佳数量,并在计算距离时使用预测变量重要性。自定义分析。选择该选项以微调“设置”选项卡上的算法。注意:所得KNN模型的大小与多数其他模型不同,随着训练数据量的增加呈线性增加。如果在尝试构建KNN模型时看到报告“内存溢出”错误的出错信息,则尝试增加IBM®SPSS®Modeler所使用的最大系统内存。要进行此操作,请选择工具选项系统选项并在最大内存字段中输入新大小。“系统选项”对话框中所作的更改要在重新启动SPSSModeler之后才能生效。©CopyrightIntegralSolutionsLimited1994,2010IBMSPSSModeler帮助建模节点最近相邻元素模型KNN节点上一个下一个KNN节点设置在“设置”选项卡上您可以指定最近相邻元素分析特有的选项。屏幕左侧的侧栏列出了用于指定选项的面板。相关主题相邻元素特征选择交叉验证分析©CopyrightIntegralSolutionsLimited1994,2010IBMSPSSModeler帮助建模节点最近相邻元素模型KNN节点KNN节点设置上一个下一个模型显示详细信息KNN节点模型选项“模型”窗格提供控制如何构建模型的选项,例如是否使用分区或分割模型、是否变换数值输入字段以使其落入相同范围内和如何管理感兴趣个案。您也可以给模型选择一个自定义名称。模型名称。用户可根据目标或ID字段自动生成模型名称(未指定此类字段时自动生成模型类型)或指定一个自定义的名称。使用分区数据。如果定义了分区字段,则此选项可确保仅训练分区的数据用于构建模型。请参阅主题分区节点详细信息。创建分割模型。给指定为分割字段的输入字段的每个可能值构建一个单独模型。请参阅主题构建分割模型详细信息。手动选择字段...默认情况下,节点使用来自“类型”节点的分区与分割字段设置(如果存在),但此处您可以覆盖这些设置。要激活分区与分割字段,请选择字段选项卡,并选择使用定制设置,然后返回此处。•分区字段。该字段允许您使用指定字段将数据分割为几个不同的样本,分别用于模型构建过程中的训练、测试和验证阶段。通过用某个样本生成模型并用另一个样本对模型进行测试,您可以预判出此模型对类似于当前数据的大型数据集的拟合优劣。如果已使用类型或分区节点定义了多个分区字段,则必须在每个用于分区的建模节点的“字段”选项卡中选择一个分区字段。(如果仅有一个分区字段,则将在启用分区后自动引入此字段。)请参阅主题分区节点详细信息。同时请注意,要在分析时应用选定分区,同样必须启用节点“模型选项”选项卡中的分区功能。(取消此选项,则可以在不更改字段设置的条件下禁用分区功能。)•分割。对于分割模型,选择分割字段或字段。此操作与在“类型”节点中将字段的角色设置为分割类似。您可以仅将类型为标志、名义或有序的字段指定为分割字段。选为分割字段的字段无法用作目标、输入、分区、频率或权重字段。请参阅主题构建分割模型详细信息。标准化范围输入。选中此复选框为连续输入字段标准化值。标准化特征具有相同的值范围,这可改进估计算法的性能。使用经调整后的标准化[2*(x−min)/(max−min)]−1。调整后的标准化值介于−1和1之间。使用个案标签。选中此复选框以启用下拉列表,从这里您可以选择字段并将其值用作标签,以在“模型浏览器”中标识在预测变量空间图表、对等图表和象限图中所需的个案。您可以选择测量级别为名义、有序或标志的任何字段用作标签字段。如果您不在这里选择字段,则用以源数据中行号标识的最近相邻元素在“模型浏览器”图表中显示记录。如果您在构建模型之后要操作数据,可使用个案标签,以避免每次需要参考源数据在显示中标识个案。识别焦点记录。选中此复选框启用下拉列表,允许您标记感兴趣的输入字段(仅针对标志字段)。如果在此处指定了一个字段,则当构建模型时会在模型浏览器中初始选中代表该字段的点。在此处选择焦点记录是可选的;任何点都可以暂时成为焦点记录,只要在“模型浏览器”中手动选中它。相关主题相邻元素特征选择交叉验证分析©CopyrightIntegralSolutionsLimited1994,2010IBMSPSSModeler帮助建模节点最近相邻元素模型KNN节点KNN节点设置上一个下一个相邻元素显示详细信息KNN节点相邻元素选项“相邻元素”窗格具有一组控制如何计算最近相邻元素数量的选项。最近邻元素的数目(k)。指定特定个案的最近相邻元素数量。注意,使用大量的邻元素不一定会得到更准确的模型。如果目标是预测目标,则您具有两个选择:•指定固定值k。如果您希望指定要查找的最近相邻元素的固定数量,则使用该选项。•自动选择k。您也可以使用最小值和最大值字段以指定一个数值范围,并允许该过程选择该范围内相邻元素的“最佳”数量。确定最近相邻元素数目的方法依赖于“特征选择”窗格上要求的特征选择。如果特征选择有效,则针对请求范围中每个k值执行特征选择,并选择具有最低误差率(如果目标为连续,则为最低平方和误差)的k值和特征集。如果特征选择无效,则使用V折交叉验证来选择“最佳”的邻元素数目。请参阅“交叉验证”窗格以控制折叠指定。距离计算。该度规用于指定在测量个案相似性中使用的距离度规。•Euclidean度规。两个个案x和y之间的距离,为个案值之间的平方差在所有维度上之和的平方根。•城市街区度规。两个个案之间的距离是个案值之间绝对差在所有维度上之和。又称为Manhattan距离。或者,如果目标是预测目标,您可以选择在计算距离时按照其标准化重要性计算特征权重。预测变量的特征重要性的计算方法为:不含预测变量的模型的误差率或平方和误差与完整模型的误差率或平方和误差之比。通过重新对特征重要性值指定权重,来计算标准化的重要性,因此其总和为1。计算距离时按照重要性计算特征权重。(只有当目标是预测目标时才显示。)选中此复选框,当计算相邻元素之间距离时,使用预测变量重要性。预测变量重要性将在模型块中显示,并用于预测(因此影响记分)。请参阅主题预测变量重要性详细信息。范围目标预测。(只有当目标是预测目标时才显示。)如果指定了连续(数值范围)目标,这可指定预测值是基于最近相邻元素的均值还是中值来计算的。相关主题特征选择交叉验证分析©CopyrightIntegralSolutionsLimited1994,2010IBMSPSSModeler帮助建模节点最近相邻元素模型KNN节点KNN节点设置上一个下一个特征选择显示详细信息KNN节点特征选择选项只有在目标是预测目标时才激活此窗格。使您能够为特征选择请求和指定选项。默认情况下,特征选择会考虑所有特征,但可以选择特征子集以强制纳入模型。执行特征选择。选中此复选框启用特征选择选项。•强制输入。单击此框旁的字段选择按钮并选择一个或多个特征以强制纳入模型。中止准则。在每一步上,如果添加特征可以使误差最小(计算为分类目标的误差率和连续目标的平方和误差),则考虑将其纳入模型中。继续向前选择,直到满足指定的条件。•当已选择指定数量的特征时停止。除了那些强制纳入模型的特征外,算法还会添加固定数目的特征。指定一个正整数。减少所选择的数目值可以创建更简约的模型,但存在缺失重要特征的风险。增加所选择的数目值可以涵盖所有重要特征,但又存在因特征添加而增加模型误差的风险。•当绝对误差比率变化小于或等于最小值时停止。当绝对误差比率变化表明无法通过添加更多特征来进一步改进模型时,算法会停止。指定一个正数。减少最小变化值将倾向于包含更多特征,但存在包含对模型价值不大的特征的风险。增加最小变化值将倾向于排除更多特征,但存在丢失对模型较重要的特征的风险。最小变化的“最佳”值将取决于您的数据和具体应用。请参阅输出中的“特征选择误差日志”,以帮助您评估哪些特征最重要。请参阅主题预测变量选择错误日志(最近邻元素分析)详细信息。相关主题相邻元素交叉验证分析©CopyrightIntegralSolutionsLimited1994,2010IBMSPSSModeler帮助建模节点最近相邻元素模型KNN节点KNN节点设置上一个下一个交叉验证显示详细信息KNN节点交叉验证选项只有在目标是预测目标时才激活此窗格。该窗格上的选项控制计算最近相邻元素时是否使用交叉验证。交叉验证将样本划分为许多子样本,或折叠。然后,生成最近邻元素模型,并依次排除每个子样本中的数据。第一个模型基于第一个样本折的个案之外的所有个案,第二个模型基于第二个样本折的个案之外的所有个案,依此类推。对于每个模型,估计其错误的方法是将模型应用于生成它时所排除的子样本。“最佳”最近邻元素数为在折中产生最小误差的数量。交叉验证折叠。V折交叉验证用于确定“最佳”邻元素数目。因性能原因,它无法与特征选择结合使用。•随机分配个案到折。指定应当用于交叉验证的折数。该过程将个案随机分配到折,从1编号到V(折数)。•设置随机数种子。根据随机百分比估计模型准确性时,此选项可用于在另一会话中复制相同结果。通过指定随机数生成器所使用的起始值,可以确保在每次执行节点时都会分配相同的记录。输入所需的种子值。如果未选中该选项,则每次执行节点时会生成不同的抽样。•使用字段分配个案。指定一个将活动数据集中的每个个案分配到折中的数值字段。字段必须为数值,其值为从1到V的数字。如果此范围中的任何值缺失,且位于任何分割字段上(如果分割模型有效),这将导致误差。相关主题
本文标题:9-14_建模节点_KNN模型
链接地址:https://www.777doc.com/doc-4383184 .html