您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 数据挖掘算法及其应用研究
单位代码:10293密级:专业学位硕士论文论文题目:数据挖掘算法及其应用研究1210042804黄雯李玲娟教授工程硕士申请全日制申请计算机技术2013年2月学号姓名导师专业学位类别类型专业(领域)论文提交日期ResearchandApplicationofDataMiningAlgorithmThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByHuangWenSupervisor:Prof.LiLingjuanFebruary2013南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。南京邮电大学学位论文使用授权声明本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名:_____________日期:____________研究生签名:____________导师签名:____________日期:_____________I摘要随着全球信息技术的迅速发展和互联网的快速普及,现代信息系统进入了大数据时代,人们日常工作和生活都面对着数据过量和信息爆炸的情况,迫切需要一种有效的技术手段帮助人们从这些海量数据中挖掘出真正需要的、有价值的知识,因此数据挖掘算法成为了研究热点。本文以提高数据挖掘算法的时间效率和应用性为目的,进行了经典数据挖掘算法及其应用方面的研究。论文从课题的研究背景和意义展开,介绍了数据挖掘的相关概念、意义与基本技术;主要研究了基于密度的聚类算法DBSCAN、粗糙集属性约简算法和BP神经网络算法。针对聚类,以减少算法执行时间为目的,通过对DBSCAN算法加以改进,设计了一种基于网格的快速密度聚类算法GF-DBSCAN,并通过仿真实验验证了该算法的性能。本文也综合运用多种数据挖掘算法,提出了一种基于多种数据挖掘技术的短期电力负荷预测策略,该策略包括预测模型和各层方法。第一层利用DBSCAN算法来有效地进行数据的聚类和离群数据的识别与修正;第二层利用粗糙集属性约简算法有效地筛选出与决策相关的最小属性集从而保障挖掘效率;第三层用BP神经网络算法的复杂的多层多节点的网络结构及其不断反向修正误差的的能力获得预测值。在真实数据上所做的实例计算与分析结果表明,所提出的短期电力负荷预测策略对预测结果精确度较高。本文还设计了一种适用于电子商务运营平台的基于GF-DBSCAN算法的个性化推送服务技术方案。该方案使用GF-DBSCAN算法挖掘用户基本信息从而将用户分类,再对每类用户使用top-k排序算法进行兴趣分析,从而将所得结果进行推送。以购书网站为例的应用效果表明了GF-DBSCAN算法的实用性。本文在数据挖掘算法及应用方面做了有益的研究工作。关键词:数据挖掘,DBSCAN,粗糙集,BP神经网络,短期电力负荷预测,个性化推送IIAbstractWiththerapiddevelopmentoftheglobalITandtherapidspreadoftheInternet,moderninformationsystementersaneraofbigdata.Facedwithexcessivedataandinformationexplosioninthedailyworkandlife,peopleurgentneedaneffectivemeanstohelpthemminingreallyneededandvaluableknowledgefromthemassivedata.Therefore,dataminingalgorithmshasbecomeahotresearchtopic.Forthepurposetoimprovethetimeefficiencyandapplicabilityofdataminingalgorithms,theclassicaldataminingalgorithmsandtheirapplicationsareresearchedinthisthesis.Startingwithstudyingtheresearchbackgroundandsignificanceofresearchtopics,thisthesisintroducesrelatedconcepts,meaningsandbasictechniquesofdatamining;mainlystudiesthedensity-basedclusteringalgorithmDBSCAN,roughsetattributereductionalgorithmandBPneuralnetworkalgorithm.Forclustering,inordertoreducethealgorithmexecutiontimeofDBSCANalgorithm,agrid-basedfastDBSCANalgorithmnamedGF-DBSCANisproposedthroughimprovingDBSCANalgorithm,anditsgoodperformanceisverifiedbysimulationexperiment.Inthisthesis,ashort-termpowerloadforecastingstrategybasedonavarietyofdataminingtechnologyisalsoproposed;thestrategyincludesahierarchicalpredictionmodelandthemethodsusedbyeachlayer.ThefirstlayerusesDBSCANalgorithmtoclusterdata,identifytheoutliersandthenmodifythemeffectively.Thesecondlayereffectivelyselectstheminimumsetofattributeswhichassociatewithdecision-makingbyusingattributereductionalgorithmbasedonroughsetstoguaranteetheefficiencyofmining.ThethirdlayerusesBPneuralnetworkalgorithmtogetthepredictivevaluebyusingitscomplexmulti-layer,multi-nodenetworkstructureanderrorsback-propagationfixedability.Theresultsofdoingcomputationandanalysisonactualdatahavedemonstratedthesuperiorityoftheproposedstrategyinimprovingtheaccuracyofshort-termpowerloadforecasting.Inaddition,thisthesisproposesapersonalizedpushservicetechnologyschemebasedonGF-DBSCANalgorithm,whichcanbeappliedtoe-commerceoperationplatform.Firstly,itusesGF-DBSCANalgorithmtomineusers’basicinformationforclassifyingtheusersintocertainclusters.Secondly,itusestop-ksortingalgorithmtoanalyzeusers’interestofeachcluster.Finally,itpushestheanalysisresultstothecorrespondingusers.TheappliedeffectofanonlinebookstoreIIIhasshownthepracticalityofGF-DBSCANalgorithm.Thethesishasdonebeneficialresearchworkondataminingalgorithmsandtheirapplications.Keywords:datamining,DBSCAN,roughset,BPneuralnetwork,short-termpowerloadforecasting,personalizedpushIII目录专用术语注释表.......................................................................................................................................................1第一章引言.............................................................................................................................................................21.1研究背景与意义........................................................................................................................................21.2论文所做的工作........................................................................................................................................31.3论文内容的组织........................................................................................................................................3第二章数据挖掘技术及方法概述与分析.............................................................................................................52.1数据挖掘的定义、过程及分类................................................................................................................52.1.1数据挖掘的定义..............................................................
本文标题:数据挖掘算法及其应用研究
链接地址:https://www.777doc.com/doc-3400100 .html