您好,欢迎访问三七文档
I摘要随着信息科技的高速发展,人们对于积累的海量数据量的处理工作也日益增重,需求是发明之母,数据挖掘技术就是为了顺应这种需求而发展起来的一种数据处理技术。数据挖掘技术又称数据库中的知识发现,是从一个大规模的数据库的数据中有效地、隐含的、以前未知的、有潜在使用价值的信息的过程。决策树算法是数据挖掘中重要的分类方法,基于决策树的各种算法在执行速度、可扩展性、输出结果的可理解性、分类预测的准确性等方面各有千秋,在各个领域广泛应用且已经有了许多成熟的系统,如语音识别、模式识别和专家系统等。本文着重研究和比较了几种典型的决策树算法,并对决策树算法的应用进行举例。关键词:数据挖掘;决策树;比较IIAbstractWiththerapiddevelopmentofInformationTechnology,peoplearefacingmuchmoreworkloadindealingwiththeaccumulatedmassdata.Dataminingtechnologyisalsocalledtheknowledgediscoveryindatabase,datafromalargedatabaseofeffectively,implicit,previouslyunknownandpotentiallyusevalueofinformationprocess.Algorithmofdecisiontreeindataminingisanimportantmethodofclassificationbasedondecisiontreealgorithms,inexecutionspeed,scalability,outputresultcomprehensibility,classificationaccuracy,eachhasitsownmerits.,extensiveapplicationinvariousfieldsandhavemanymaturesystem,suchasspeechrecognition,patternrecognitionandexpertsystemandsoon.Thispaperstudiesandcomparesseveralkindsoftypicaldecisiontreealgorithm,andthealgorithmofdecisiontreeapplicationexamples.Keywords:Datamining;decisiontree;CompareIII目录第一章绪论....................................4第二章文献综述................................42.1数据挖掘简述..................................................................................................................42.2决策树算法背景知识及研究现状..................................................................................52.2.1决策树算法描述...................................................................................................52.2.2关联分析决策树算法研究现状............................................................................6第三章决策树算法...............................63.1CLS算法..........................................................................................................................63.2ID3算法...........................................................................................................................83.2.1信息量大小的度量...............................................................................................83.2.2ID3决策树应用举例.............................................................................................93.3C4.5算法......................................................................................................................113.3.1用信息增益率选择属性...................................................................................123.3.2处理连续属性值...............................................................................................123.3树剪枝..........................................................................................................................133.4weka平台的简述.........................................................................................................13第四章决策树在学生成绩中的应用...错误!未定义书签。4.1数据的预处理......................................................................................错误!未定义书签。4.2数据的训练集处理..............................................................................错误!未定义书签。4.3数据的校验和成绩分析......................................................................错误!未定义书签。第五章结论...................................14参考文献......................................I5第一章绪论无论在企业应用领域,还是在科学领域,数据挖掘技术有着广泛的应用价值。在企业应用领域,用于制定好的市场策略以及企业的关键性决策。在商业面,数据挖掘技术可以增强企业的竞争优势,缩短销售周期,降低生产成本,有助制定市场计划和销售策略,并已经成为电子商务中的关键技术。近年来,随着我国高等教育的飞速发展,高校的教学管理信息不断增多。教学工作信息化有了很大的进步,好多高校在管理学生和教师信息方面有了很好的方式。比如我校的教务系统,这些系统为老师和学生提供了很好的帮助。这些系统中积累了大量的数据。目前的这些数据库系统虽然基本上都可以实现数据的录入、修改、统计、查询等功能,但是这些数据所隐藏的价值并没有被充分的挖掘和利用,信息资源的浪费还是比较严重的。为了提高教学质量,将数据挖掘技术引入到高校学生成绩分析中,对这些数据进行深入的挖掘和合理的分析,从而挖掘出传统的分析方法所无法得出的结论。进而利用分析结果引导教学的开展,从而有利于提高教学质量。第二章文献综述数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。2.1数据挖掘简述数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。5数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。决策树是判定给定样本与某种属性相关联的决策过程的一种表示方法,从数据中生成分类器的一个特别有效的方法是生成一棵决策树,该方法广泛应用与数据挖掘和机器学习等领域,用来解释用分类相关的问题,决策树表示法是应用最广泛的逻辑方法之一。目前生成决策树方法的算法主要有三种:CART算法、ID3算法和C4.5算法。其中C4.5算法具有分类速度快且精度高的特点,是发展比较完善的一种决策树算法。2.2决策树算法背景知识及研究现状2.2.1决策树算法描述决策树,顾名思义就是一个类似于流程图的树型结构。—个决策树由根结点、分支和叶结点构成。树的最高层节点称为根结点,是整个决策树的开始。与根结点相连的不同分支,对应这个属性的不同取值,根据不同的回答转向相应的分支,在新到达的结点处做同样的分支判断,持续这一过程直到到达某个叶结点。在决策树中,每个内部结点表示一个测试,该结点的每个分支表示该测试的一个结果,每个叶结点表示一个类别。例如公司需要预测某位客人是否要买计算机,图2.1就是为了解决这个问题而建立的一颗决策树,从中可以看到决策树的基本组成部分:根结点、分支和叶结点。图2.1决策树年龄学生信誉买买不买不买买中青老否是优良62.2.2关联分析决策树算法研究现状决策树算法广泛应用于各个领域,已经有了广泛的应用并且有许多成熟的系统,如语音识别、医疗诊断、模式识别和专家系统等。目前,决策树技术面临的挑战表现在以下几个方面:(1)可扩展性亟待提高。在大型数据集中,能从中快速而准确地发现隐藏于其中的主要分类规则,即认为算法具有良好的可扩展性。数据挖掘面临的数据往往是海量的,对实时性要求较高的决策场所,数据挖掘方法的主动性和快速性显得日益重要。(2)适应多数据类型和容噪性。随着计算机网络和信息的社会化,数据挖掘的对象已不单是关系数据库模型,而是分布、异构的多类型数据库,数据的非结构化程度、噪声等现象越来越突出,这也是决策树技术面临的困难问题。(3)决策树方法的递增性。数据挖掘出来的知识,只是相对于某一时间的某些数据,新的数据可能使发现的新知识与原来的知识冲突。因此,设计具有递增性决策树挖掘方法,也是实用化的基本要求之一。第三章决策树算法3.1CLS算法CLS算法是早期的决策树学习算法,是许多决策树学习算法的基础。CLS基本思想:从一棵空决策树开始,选择某一属性作为测试属性。该测试属性对应决策树中的决策结点。根据该属性的值的不同,可将训练样本分成相应的子集,如果该子集为空,或
本文标题:决策树算法研究
链接地址:https://www.777doc.com/doc-5730856 .html