您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 一种基于属性贡献度的决策树学习算法
一种基于属性贡献度的决策树学习算法作者:孙淮宁,胡学钢,SUNHuai-ning,HUXue-gang作者单位:孙淮宁,SUNHuai-ning(合肥工业大学,计算机与信息学院,安徽,合肥,230009;淮南师范学院,计算机与信息工程系,安徽,淮南,232001),胡学钢,HUXue-gang(合肥工业大学,计算机与信息学院,安徽,合肥,230009)刊名:合肥工业大学学报(自然科学版)英文刊名:JOURNALOFHEFEIUNIVERSITYOFTECHNOLOGY(NATURALSCIENCE)年,卷(期):2009,32(8)被引用次数:0次参考文献(22条)1.ChenM.HanJ.YuPDatamining:anoverviewfromdatabaseperspective1996(06)2.HuntEB.MarinJ.StonePTExperimentsininductions19663.QuinlanJRDiscoveringrulesfromlargecollectionsofexamples:acasestudy19794.QuinlanJRInductionofdecisiontrees1986(01)5.BreimanL.FriedmanJH.OlshenRAClassificationandregressiontrees19846.QuinlanJRC4.5:programsformachinelearning19937.MehtaM.AgrawalR.RissanenJSLIQ:afastscalableclassierfordatamining19968.ShaferJ.ArawalR.MehtaMSPRINT:ascableparallelclassifierfordatamining19969.RastogiR.ShimKPUBLIC:adecisiontreeclassifierthatintegratesbuildingandpruning199810.GehrkeJ.RamakrishnanR.GantiVRainForest:aframeworkforfastdecisiontreeconstructionoflargedatasets199811.AlsabtiKA.RankaS.SinghVCLOUDS:adecisiontreeclassifierforlargedatasets199812.刘小虎.李生决策树的优化算法[期刊论文]-软件学报1998(10)13.曲开社.成文丽.王俊红ID3算法的一种改进算法[期刊论文]-计算机工程与应用2003(25)14.谢竞博.王熙照基于属性间交互信息的ID3算法[期刊论文]-计算机工程与应用2004(30)15.韩松来.张辉.周华平基于关联度函数的决策树分类算法[期刊论文]-计算机应用2005(11)16.屈志毅.周海波决策树算法的一种改进算法[期刊论文]-计算机应用2008(06)17.胡学钢.张冬艳基于粗集的混合变量决策树构造算法研究[期刊论文]-合肥工业大学学报(自然科学版)2007(03)18.胡学钢.李楠基于属性重要度的随机决策树学习算法[期刊论文]-合肥工业大学学报(自然科学版)2007(06)19.HongJRAE1:anextensionmatrixapproximatemethodforgeneralcoveringproblem1985(06)20.傅祖云.赵建中信息论与编码200621.洪家荣.丁明峰一种新的决策树归纳学习算法[期刊论文]-计算机学报1995(06)22.JensenDAdjustingformultipletestingindecisiontreepruning1997相似文献(10条)1.学位论文杨晨晓分支合并对决策树归纳学习的影响2007决策树归纳学习算法是目前商业数据挖掘工具中使用最为广泛的算法之一,因其形状像树且应用于决策而得名。它是一种逼近离散值目标函数的归纳推理方法,在这种方法中学习到的函数被表示为一棵决策树。这个决策树模型能够表示发现描述类别的模式,用于完成预测任务。决策树是目前用于预测和分类的主要技术,特别是商用领域,已经被成功地应用到从学习医疗诊断到学习评估贷款申请的信用风险的广阔领域。简而言之,决策树能够将数据转换成知识。br 传统的决策树构建方法,由于其选择扩展属性时的归纳偏置,导致属性值较多的属性总会被优先选择,从而导致树的规模过大,并且泛化能力下降,因此需对其进行简化。剪枝是简化的一种,主要分为预剪枝和后剪枝。本文针对预剪枝中的分支合并进行研究。分支合并就是在树的产生过程中,将当前扩展属性的两个(或多个)属性值所在分支合并成一个分支,然后继续树的的生长。本文中提出了两种分支合并算法,基于正例比的分支合并算法(SSID)和基于SVM中MARGIN的分支合并算法(MID)。随后又基于信息增益讨论了分支合并的可行性,提出了基于最大信息补偿的分支合并算法(MCID)。实验结果表明,几种分支合并算法在树的规模、泛化能力等方面要优于利用See5构建的决策树。2.期刊论文王熙照.哈明虎.WANGXi-Zhao.HAMing-hu不确定信息处理及在归纳学习中的应用-模糊系统与数学2004,18(z1)信息的不确定性是由于模糊性、随机性、不完全性、不精确性等因素造成的,不确定性信息在现实世界中广泛存在.关于这方面的研究主要集中在模糊性这种不确定性上.我们课题组在此领域的研究已经持续20余年,概括起来讲,早期的研究兴趣在于模糊(非可加)测度与积分的理论建立,主要研究了传统的可加测度与积分理论到非可加情况的推广;尔后的兴趣转向为如何用数值方法确定非可加测度;近期的研究兴趣在于从已有数据中获取模糊控制规则以及具有模糊表示的归纳学习问题.近10年的研究曾得到了多项基金项目资助,出版专著3部,发表学术论文100余篇,30余篇被SCI收录,20余篇被EI收录,省级以上奖励3项.以下是我们近期研究工作的一个总结,主要包括:模糊决策树归纳;基于模糊信息的决策表简化;产生模糊规则的扩张矩阵算法;模糊归纳学习在其他领域中的应用;基于示例学习的模糊控制等.3.学位论文赵明华模糊决策树产生过程中参数的敏感性分析2003基于ID3算法的决策树归纳学习是归纳学习的一个重要分支,可用于知识的自动获取过程。随着归纳学习研究的深入,具有精确描述特征的示例学习已不能适应一个系统中不精确知识自动获取的要求,研究不确定环境中的示例学习已非常必要,进而产生了传统ID3算法的模糊推广——模糊ID3算法。在模糊决策树的产生过程中,用模糊熵选择的扩展属性不能像经典决策树那样将类清晰的分开,而是属性术语所覆盖的例子之间有一定的重叠,因此树的整个产生过程在给定的显著性水平α的基础上进行,参数α的引入能在一定程度上减少这种重叠,从而减少分类的不确定性,提高模糊决策树的分类结果。而它一般由领域专家根据经验或需要直接给出,这种人为的参与过分依赖于专家知识,从而可能使实际分类结果在规则数、准确率方面达不到最优。本文在VisualC++软件开发平台及模糊ID3算法的基础上,从解析的角度出发,通过分析参数α与模糊熵之间的函数关系式,讨论了随着α的增加,模糊熵函数的变化趋势,进一步分析了参数α对模糊决策树的分类结果在训练准确率、测试准确率、规则数等方面所表现出的敏感性,探讨了得到最优参数α的实验方法。4.会议论文钱国良.王熙照.陈彬手写汉字特征抽取的模糊归纳学习处理1998如何从每个汉字的不同样本中抽取准确一致的特征是手写汉字识别极其重要的基础工作,该文从模糊归纳学习的角度,针对手写汉字特征抽取的不确定性,提出了模糊决策树算法FID。它可以处理连续值属性及分类不确定的情况。将FID应用于脱机手写汉字识别的特征抽取过程并与传统方法进行比较,实验结果表明FID抽取的特征类内重码率高,类间重码率低,识别率高。5.学位论文李学俊基于归纳学习和范例推理的智能决策支持系统的研究2005人工智能技术和决策支持系统有机地结合起来,形成智能决策支持系统(IntelligentDecisionSupportSystems,IDSS)。IDSS有效地解决了系统中定量与定性相结合以及半结构化、非结构化的问题,扩大了决策支持系统处理的范围,提高了决策能力。IDSS已经广泛地应用于防洪决策、商务决策等领域。归纳学习、范例推理(Case-BasedReasoning,CBR)是机器学习中发展较为成熟的技术,已经被广泛地研究和应用。随着IDSS的应用,知识获取“瓶颈”问题逐渐显现出来,并在一定程度上阻碍了它的发展;然而归纳学习和范例推理可以应用于IDSS中,有效地解决该问题,以更好地支持决策。本文首先讨论了IDSS的基本原理、体系结构、功能、研究现状和存在问题,针对IDSS应用中的知识获取“瓶颈”问题,研究了机器学习在IDSS中的应用。介绍了归纳学习中的决策树学习算法如ID3、C4.5和特征子集选择问题。接着介绍了范例推理的基本技术,即范例表示、范例检索、CBR修正、CBR维护等。根据上述理论,本文提出了归纳学习在CBR中的新应用。决策树学习算法,主要是C4.5在范例检索、CBR修正、CBR维护中的应用。特征子集选择算法FSS,特别是基于信息熵和拉普拉斯错误估计的容忍噪音的FSS在范例库的范例属性约简中的应用。最后,结合防洪决策,研究了归纳学习和范例推理在IDSS中的应用,提出了基于归纳学习和范例推理的IDSS集成系统的原型,以及集成系统的系统构成和关键技术,从而为IDSS的应用研究提供了更加广阔的空间。6.期刊论文王熙照.杨晨晓.WANGXi-Zhao.YANGChen-Xiao分支合并对决策树归纳学习的影响-计算机学报2007,30(8)传统的决策树构建方法,由于其选择扩展属性时的归纳偏置,导致属性值较多的属性总会被优先选择,从而导致树的规模过大,并且泛化能力下降,因此需对其进行简化.剪枝是简化的一种,分为预剪枝和后剪枝.该文主要针对预剪枝中的分支合并进行研究.文中研究了分支合并对决策树归纳学习的影响;具体讨论了在决策树的产生过程中,选择适当的分支合并策略对决策树进行分钟合并处理后,能否增强树的可理解性,减少树的复杂程度以及提高树的泛化精度;基于信息增益,分析了分支合并后决策树的复杂程度,设计实现了一种基于正例比的分支合并算法SSID和一种基于最大增益补偿的分支合并算法MCID.实验结果显示:SSID和MCID所得到的决策树在可理解性和泛化精度方面均明显优于See5.7.学位论文林忠会基于归纳学习的数据挖掘技术在高校教学研究中的应用2008人类社会已经进入信息时代,随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长,数据挖掘(DataMining)技术现在已经成为信息技术应用领域研究的焦点。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。由于高校招生人数的扩大,导致学生的能力参差不齐。努力提高学生学习成绩是每一所高校的目标,影响学生的学习成绩的因素很多。传统的学生学习成绩分析无非是得到均值、方差、区别显著性检验、信度、效度等,往往还是基于教学本身来考虑。其实在教学中还有一些不易察觉的因素隐含其中,何况还有教学以外的因素影响学生学习成绩,这些都是需要进一步分析。本文列举了经典的决策树算法-ID3算法的应用实例,并结合属性选择标准等知识提出了改进的ID3算法。并将该方法应用到了高校学生成绩的数据挖掘中,通过此方法对学生某门课的成绩进行了情况分类,并对得到的结果进行分析,得出了影响学生成绩的内部原因以及其它一些原因。通过将改进的ID3算法与经典ID3算法构造的决策树进行比较,我们发现改进算法的决策树更加简洁、更接近于理想的决策树。根据决策树中反映的信息来制定相应的措施,保证学生能够更加轻
本文标题:一种基于属性贡献度的决策树学习算法
链接地址:https://www.777doc.com/doc-611077 .html