您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 基于RBF和Elman混合神经网络的数据挖掘技术研究
学士学位论文题目基于RBF和Elman混合神经网络的数据挖掘技术研究学生王欢指导教师于延年级2006级专业计算机科学与技术系别计算机科学系学院计算机科学与信息技术学院哈尔滨师范大学2010年5月2目录第1章数据挖掘的概念……………………………………………………………………….11.1数据挖掘发展概述…………………………………………………………………………11.1.1数据丰富与知识匮乏……………………………………………………………………11.1.2从数据到知识……………………………………………………………………………21.1.3数据挖掘的产生…………………………………………………………………………31.2数据挖掘的基本知识………………………………………………………………………41.2.1数据挖掘的定义…………………………………………………………………………41.2.2数据挖掘方法论…………………………………………………………………………51.2.3数据挖掘与数据仓库的关系……………………………………………………………51.2.4数据挖掘的任务…………………………………………………………………………51.2.5数据挖掘的对象………………………………………….……………………….……..61.2.6数据挖掘的流程…………………………………………………………………………61.3数据挖掘的方法和技术……………………………………………………………………61.3.1归纳学习法…………………………………………………………………….………....61.3.1.1信息论方法(决策树方法)………………………………………………….………61.3.1.2集合论方法…………………………………………………………………….……...61.3.2仿生物技术………………………………………………………………………………61.3.3公式发现………………………………………………………..………………………..71.3.4统计分析方法…………………………………………………………...……………….71.3.5模糊数学方法………………………………………………………………..….……….71.3.6可视化技术…………………………………………………………………...….……….71.4数据挖掘结果的评估……………………………………………………………….……...81.5数据挖掘实际应用…………………..…………………………………………….……….9第2章神经网络与遗传算法……………………………………………………………………102.1人工神经网络概述……………………………………………………………...102.1.1人工神经网络的发展…………………………………………………..102.1.2神经元的工作原理及神经网络特点……...……………………………………………..122.1.3应用状况及研究方向..…………………………………………………………….152.2.遗传算法……………………………………………………………………………...152.2.1遗传算法的形成与发展………………………………………………………………....152.2.2遗传算法的研究现状与方向………………………………………………………...162.2.3遗传算法和神经网络的结合…………………………………………………………....182.2.3.1两种技术结合的可能性………………………………………………………………...182.2.3.2基于遗传算法的神经网络计算………………………………..……………………….18第3章RBF神经网络与Elamn神经网络概述…………………………………………….…..183.1RBF神经网络概述……………...183.1.1前向型神经网络及相关定义…………....183.1.2RBF神经网路工作原理…………....183.1.3RBF神经网络的特点及应用领域………………………………………………………...193.2Elman神经网络结构………………………………………………………22第4章混合神经网络概述……………………………………………………………..……….224.1.混合神经网络研究意义……………………………………………………………..…….2234.2混合神经网络的研究现状……………..……………………………………………….224.3B样条神经网络的发展现状……………………………………………………………..224.4利用串/井联混合神经网络建模………………………………………...22第5章基于RBF和Elman混合神经网络的数据挖掘技术研究…………………………...235.1混合神经网络数据挖掘方法中的数据准备………………………………………………...245.1.1数据清洗与选择…………………………………………………………...265.1.2数据预处理………………………………………………………………265.1.2.1计算属性…………………………………………………………………275.1.2.2比例变换……………………………………………………………275.1.2.3正则化……………………………………………………………………………...325.1.2.4符号映射和类层次………………………………………………………………….325.1.2.5符号数据向数值数据的转换……………………………………………………325.1.3数据表示及其对训练时间的影响………………………………………………………335.1.3.1数值数据的表示………………………………………………………………335.1.3.2符号数据的表示……………………………………………………...355.2基于混合神经网络的分类决策树构造…………………………………………………..35第6章数据挖掘未来研究方向及热点…………………………………………………..356.1数据挖掘未来研究方向…………………………………………..356.2数据挖掘热点…………………………………………………………...366.2.1网站的数据挖掘(Websitedatamining)……………………………………………....366.2.2生物信息或基因的数据挖掘……………………………………………………376.2.3文本的数据挖掘(Textualmining)……………………………………………………..38英文摘要………………………………………………………………………………………..39参考文献………………………………………………………………………………………..39致谢………………………………………………………………………………………..404基于RBF和Elman混合神经网络的数据挖掘技术研究王欢摘要:基于神经网络的数据挖掘技术是将神经网络中隐含的知识以一种易于理解的方式明确地表示出来。该技术综合了并行直观性和串行逻辑性两个侧面,通过对已知信息的学习来寻求未知信息,适合非线性数据和含噪声数据,由于单一的神经网络难以应对一些复杂的问题,于是我们就设法将RBF和Elman两种神经网络结合在一起形成一种混合神经网络来应对一些复杂的问题。关键词:RBFElman混合神经网络数据挖掘第一章数据挖掘的概念1.1数据挖掘发展简述1.1.1数据丰富与知识匮乏计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。在支配人类社会三大要素(能源、材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩展,生活节奏的加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。早在20世纪八十年代,据粗略估算,全球信息量每隔20个月就增加一倍。而进入九十年代,全世界所拥有的数据库及其所存储的数据规模增长更快。一个中等规模企业每天要产生100MB以上来自各生产经营等多方面的商业数据。美国政府部门的一个典型大数据库每天要接收约5TB数据量,在15秒到1分钟时间里,要维持的数据量达到300TB,存档数据达15-100PB。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达3-4TB之多;而为了研究的需要,这些数据要保存七年之久。九十年代互联网(Internet)的出现与发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPN:VirtuePrivateNetwork)的产生和应用,使整个世界互联形成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。据估计,1993年全球数据存贮容量约为二千TB,到2000年增加到三百万TB,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间”(InformationChaoticSpace)和“数据过剩”(DataGlut)的巨大压力。然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧,需要经过分析加工处理精炼的过程。如图1.1所示,数据是原材料,它只是描述发生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能做为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,方能获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。在大量知识积累基础上,总结出原理和法则,就形成所谓智慧(Wisdom)。事实上,一部人类文明发展史,就是在各种活动中,知识的创造、交流,再创造不断积累的螺旋式上升的历史。51.1.2从数据到知识早在八十年代,人们在“物竞天择,适者生存”的大原则下,就认识到“谁最先从外部世界获得有用信息并加以利用,谁就可能成为赢家”。而今置身市场经济且面向全球性剧烈竞争的环境下,任何商家的优势不单纯地取决于如产品、服务、地区等方面因素,而在于创新。用知识作为创新的原动力,就能使商家长期持续地保持竞争优势。因此要能及时迅速地从日积月累庞大的数据库中,以及互联网上获取与经营决策相关的知识,自然而然就成为满足易变的客户需求以及因市场快速变化而引起激烈竞争局面的唯一武器。因此,如何对数据与信息快速有效地进行分析加工提炼以获取所需知识,就成为计算机及信息技术领域的重要研究课题。事实上计算机及信息技术发展的历史,也是数据和信息加工手段不断更新和改善的历史。早年受技术条件限制,一般用人工方法进行统计分析和用批处理程序进行汇总和提出报告。在当时市场情况下,月度和季度报告已能满足决策所需信息要求。随着数据量的增长,多数据源所带来的各种数据格式不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是形成了数据仓库(datawarehousing)。数据仓库不同于管理日常工作数据的数据库,它是为了便于分析针对特定主题(subject-oriented)的集成化的、时变的(time-varant)即提供存贮5-10年或更长时间的数据,这些数据一旦存入就不再发生变化。数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速了人们提出了能进行实时分析和产生相应报表的在线分析工具OLAP(onlineanalyticalprocessing)。OLAP能允许用户以交互方式浏览数据仓库内容,并对其中数据进行多维分析,
本文标题:基于RBF和Elman混合神经网络的数据挖掘技术研究
链接地址:https://www.777doc.com/doc-4988020 .html