您好,欢迎访问三七文档
统计分析、数据挖掘与商业智能应用研究小组神经网络模型节点NeuralNetworksNode报告人:魏博指导教师:谢邦昌日期:2007年11月15日统计分析、数据挖掘与商业智能应用研究小组什么是神经网络模型?定义一:神经网络,有时也称作多层感知器(MLPs),本质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元工作,这些处理单元好像神经元的抽象化版本。定义二:神经网络是指用大量的简单计算单元(即神经元)构成的非线性系统,它在一定程度上模仿了人脑神经系统的信息处理、存储及检索功能。定义三:一个神经网络是一个由简单处理元构成的规模宏大的并行分布式处理器。天然具有存储知识和使之可用的特性。神经网络在两个方面与人脑相似:1.神经网络获得的知识是从外界环境中学习得到的。2.互连神经元的连接强度,即突触权值,用于储存获取的知识。统计分析、数据挖掘与商业智能应用研究小组神经网络模型节点•神经网络模型的种类感知器径向基网络概率神经网络广义回归神经网络Hopfield网络Elman网络自组织特征映射网络自适应共振理论网络统计分析、数据挖掘与商业智能应用研究小组神经网络模型节点•多层感知器模型的结构输入层:代表输入字段隐含层:可以有多个子层输出层:代表输出字段*权值:连接各层单元的连接强度。它会随着网络的不断训练而不断变化。统计分析、数据挖掘与商业智能应用研究小组神经网络模型节点•RBF神经网络模型的拓扑结构1、隐含层只有一层2、隐含层和输出层的神经元模型不同3、隐含层是非线性,而输出层为线性•参考:《神经网络原理》SimonHaykin著.叶世伟译.机械工业出版社统计分析、数据挖掘与商业智能应用研究小组神经网络模型节点•神经网络模型的学习过程(A)模型的特点1、有指导的学习2、前馈网络3、反向传播算法(B)可变参数1、隐含层的数目2、学习效率3、动态常量4、停止准则统计分析、数据挖掘与商业智能应用研究小组神经网络模型节点•神经网络的主要特点并行分布处理——并行结构和并行实现,适于实时和动态处理非线性映射——可以处理非线性问题适应和集成——适用于复杂、大规模和多变量系统,可以在线运行和定性定量分析自学习训练——可以解决数学模型和规则难以解决的问题•Clementine中神经网络的特有功能:敏感度分析:以辅助解释神经网络结果修剪和验证:以避免过度训练动态网络:自动找出合适的网络结构设计统计分析、数据挖掘与商业智能应用研究小组神经网络模型节点•神经网络模型的主要功能分类(Cl)预测(Pr)控制(Ct)函数拟合(Ft)•神经网络的不足:模型为黑匣子,得到的结果不易解释模型可能会出现过拟合的情况结果可能是局部最小值,而非全局最优值统计分析、数据挖掘与商业智能应用研究小组神经网络节点建模节点字段选项•使用类型节点的设置(UseTypenodesettings)•使用使用者自定义设置(UseCustomsettings)•目标字段(Target(s))•输入字段(Inputs)统计分析、数据挖掘与商业智能应用研究小组神经网络节点建模节点字段选项•UseTypenodesettings(使用类型节点的设置)。这一选项告诉节点从上游的Type节点获取字段信息。这是预设设置。•UseCustomsettings(使用使用者自定义设置)。这一选项告诉节点使用本节点指定的字段信息而不是来自上游节点的设置。在选择了该选项后,需要指定以下字段元。•目标字段(Target(s)):对于需要至少一个目标字段元的模型,选择目标字段。这类似于在Type节点中把字段方向设置为“OUT”。•输入字段(Inputs):选择输入字段。这类似于在Type节点中把字段方向设置为“IN”。•使用频率字段(Usefrequencyfield):这一选项允许使用者选择一个字段作为频率权值。如果训练数据集中的每个记录代表不止一个单元——例如使用汇总数据时,就可以使用该选项。字段值是每个记录所代表的单元数。频率字段的值应当是正整数。频率权值会影响C&RT模型分支案例(branchinstances)的计算。频率权值为零或者负值的记录将不参与分析。非整数频率权值取整为最相邻的整数。•使用权数字段(Useweightfield):这一选项允许选择某一字段作为案例权值。案例权值用于解释输出字段各水平之间的方差。这些权值用于模型估计但是并不影响C&RT模型分支案例(branchinstances)的计算。个案权值必须为正,但是可以不是整数。权值为零或者负值的记录将不参与分析。•结果(Consequents):在关联规则节点(Apriori和GRI)中,选择用作结论规则集中的结果的字段。(这对应于Type节点中类型为Out或者Both的字段)。•前提(Antecedents):在关联规则节点(Apriori和GRI)中,选择用作结论规则集中的前提的字段。(这对应于Type节点中类型为In或者Both的字段)。•交易型数据格式(Transactionaldataformat,仅在Apriori节点中出现):Apriori节点既可以处理交易数据格式,也可以处理表格数据格式。交易型数据有两个字段:一个用于存储ID号,一个用于存储交易内容。每个记录代表一项交易,相关交易通过相同的ID号关联起来。统计分析、数据挖掘与商业智能应用研究小组神经网络节点模型选项•模型命名:使用已分割的数据(Usepartitioneddata)•建模方法快速(Quick)动态(Dynamic)多元(Multiple)修剪(Prune)径向基(RBFN)穷尽算法(ExhaustivePrune)防止过分拟合(Preventovertrianing)设定随机种子(Setrandomseed)•停止标准默认(Default)精确度(Accuracy):90%循环次数(Cycles):250时间(Times):5分钟•最优化方法(Optimize)速度(Speed)记忆(Memory)统计分析、数据挖掘与商业智能应用研究小组神经网络节点模型选项•Clementine为建立神经网络模型提供六种训练方法:快速(Quick):这种方法采用粗略估计方法,根据数据特征选择神经网络的合适类型(拓扑结构)。需要注意的是计算隐藏层预设规模的方法已经与Clementine以前的版本不同。新的方法通常会生成更小规模的隐藏层,训练起来更快,生成的模型更好。如果发现采用预设规模的隐藏层得到的模型精确度较低,使用者可以尝试通过Expert项目提高隐藏层规模或者使用别的训练方法。动态(Dynamic):这种方法首先创建一个初始拓扑结构,然后随着训练的进展添加或剔除隐藏单元以修改拓扑结构。多重(Multiple):这种方法创建拓扑结构不同的几个神经网络(具体的数目取决于训练数据的情况)。随后这些网络以伪平行方式训练。在训练结束时,RMS错误最小的模型代表最终的模型。修剪(Prune):这种方法以一个大型神经网络开始,随着训练的进行剔除(修剪)隐藏层和输入层的最差单元。这种方法通常很慢,但是常常生成比其它方法更好的结果。径向基函数网络(RBFN):径向基函数网络(RBFN)使用类似于k-means聚类的方法,根据目标字段值拆分数据。彻底修建(Exhaustiveprune):这种方法与Prune方法有关。这种方法以一个大型神经网络开始,随着训练的进行剔除(修剪)隐藏层和输入层的最差单元。由于是彻底修剪,神经网络训练参数的选择要确保对可能模型空间进行彻底的搜索以选出最好的模型。这种方法通常是最慢的,但是常常生成最好的结果。需要注意的是这种方法会花很长的时间训练数据,特别是训练大型数据集。统计分析、数据挖掘与商业智能应用研究小组神经网络节点模型选项•避免过度训练(Preventovertraining):选择该选项后数据随机被拆分成训练集和验证集。网络在训练集中训练,而精确度则根据验证集估计。可以在Sample%框中指定用于训练的数据比率。(数据集中的其余部分用于验证)•设置随机数子((Setrandomseed):如果没有设置随机数子,则用于初始化神经网络权值的随机数序列在每次执行节点时各不相同。这样,即使神经网络设置和数据值完全一样,节点也会在各次执行生成不同的模型。选择该选项后,可以把随机数子设置成某一具体值,这样结果模型就完全可再现现。一个确定的随机数子总是生成相同的随机数序列值,这样执行该节点总是生成同样的模型。•按……停止(Stopon)。可以从以下终止准则中选择一个:•Defaut(预设):在这一设置下,网络将在其看起来达到最佳训练状态时停止训练。如果该设置与Multiple训练方法一起使用,训练不好的神经网络在训练过程中将被舍弃。•Accuracy(%)(精确度%):选择该选项后,训练将一直持续直到达到指定精确度。也许永远不能达到指定精确度,但是可以在任意点终止训练并保存目前达到的最高精确度。•Cycles(循环数):选择该选项后,训练将持续指定的循环数(通过数据的循环数)。•Time(mins)(以分钟计算的训练时间):选择该选项后,训练将持续到指定的时间(以分钟计算)。注意:为了完成目前循环,训练时间可能会略微超出指定的训练时间。统计分析、数据挖掘与商业智能应用研究小组神经网络节点的附加选项•继续训练存在的模型(Continuetrainingexistingmodel)。•使用二进制元集合编码(Usebinarysetencoding)。•显示反馈图(Showfeedbackgraph)。•模型选择(Modelselection)•使用最优模型(Usebestnetwork)•采用最终模型(Usefinalnetwork)•敏感度分析(Sensitivityanalysis)•生成日志文件(Generatelogfile)。统计分析、数据挖掘与商业智能应用研究小组神经网络节点的附加选项•继续训练存在的模型(Continuetrainingexistingmodel):在预设设置下,每次执行神经网络节点时,会创建一个全新的网络。如果选择了该选项,训练继续使用上次节点成功产生的网络。节点可以正确处理各次执行间训练方法的不同,但是RBFN网络不能用于其它类型的网络。因此,当训练方法改成RBFN或者从RBFN改成其它方法时,节点的执行总是会创建新的神经网络。•使用二进制元集合编码(Usebinarysetencoding):如果选择了该选项,Clementine会对集合字段元使用压缩性二进制编码。在使用带有大量值的集合字段元作为输入字段时,该选项使建立神经网络模型更加容易。但是,如果使用该选项,可能需要提高网络结构的复杂性(通过添加更多的隐藏单元或者隐藏层)以使网络正确使用二进制元编码集合字段元中的压缩信息。•显示反馈图(Showfeedbackgraph):如果选择了该选项,使用者会看到一张显示神经网络一段时间内学习过程中的精确度。此外,如果选择了Generatelogfile(生成日志文件),会看到另一张图,显示训练集合和检验集度量(在下面定义)。•注意:该部分会减慢训练时间。要加快训练,取消该选项。统计分析、数据挖掘与商业智能应用研究小组神经网络节点的附加选项•模型选择(Modelselection):在预设设置下,如果训练被中断,节点会返回最好的神经网络作为生成网络节点。也可以要求节点返回最终模型。•敏感度分析(Sensitivityanalysis):选择该选项后,在网络训练结束后,节点会执行输入字段的敏感度分析。敏感度分析提供哪些输入字段对于预测输出字段是更重要的信息。(这些结果是模型信息的一部分,可以在模型结果浏览器中获得)。•生成日志文件(Generatelogfile):如果选择了该选项,有关训练进展的信息会被写入指定的日志文件。要改变日志文件,可以输入一个日志文件名或者使用FileChooser按钮定位。(如果选择了一个已经存在的文件,新的信息将被附加到
本文标题:神经网络
链接地址:https://www.777doc.com/doc-5022021 .html