您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 数据挖掘技术在煤矿企业的应用
XXXX大学研究生课程论文报告1课程名称:数据挖掘与数据仓库技术课程编号:SZ0051F06课程类型:非学位课考核方式:考试、考查学科专业:计算机技术年级:2012级研一姓名:XXX学号:XXX河北工程大学2012~2013学年第二学期研究生课程论文报告课程论文评语:成绩评阅教师签名评阅日期年月日XXXX大学研究生课程论文报告2数据挖掘技术在煤矿企业的应用XXX摘要:数据挖掘是数据库研究中一个很有应用价值的课题,它融合了数据库、人工智能、机器学习等多个领域的理论和技术。文章首先阐述了数据挖掘的相关概念,同时对数据挖掘的过程和方法进行了简要介绍,然后就数据挖掘在煤矿企业中的应用进行了综述。关键字:数据挖掘;数据仓库;煤矿企业1引言数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘是一个新兴的多学科交叉领域,这其中主要涉及:数据库系统、数据仓库、统计学、数据可视化、信息检索和高性能计算等,其它学科还包括:人工神经网络模式识别、空间数据分析、图像数据库信号处理和归纳逻辑编程。作为数据挖掘的数据源不一定必须是数据仓库,它可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据,这个预处理过程占用数据挖掘全过程工作量的很大比重。数据挖掘是计算机技术的核心构成,其能够对计算机数据库资源深层次的挖掘处理,从而提炼出更有价值的信息。早期煤矿企业在制定生产模式时,仅注重于现实人员的调配控制,对于计算机自动化生产模式缺乏深刻的认识,自国内煤矿生产技术不断发展后,计算机及其系统开始成为煤矿行业的主要构成,数据挖掘技术也开始在煤矿行业得到多方面的运用。2数据挖掘的过程和方法2.1数据挖掘过程根据跨行业数据挖掘过程标准(Cross-industryStandardProcessforDataMining,CRISP–DM)将数据挖掘项目的生命周期描述为以下的几个阶段[2]。⑴确定业务对象数据挖掘的基础是理解数据和实际的业务需求,在这个基础之上提出问题,对目标有明确的定义。数据挖掘的重要一步是认清数据挖掘的目的。因此必须清晰地定义出业务问题。挖掘的最后结果是不可预测的,但对要探索的问题必须是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。⑵数据准备数据准备是保证数据挖掘得以成功的先决条件,数据准备在整个数据挖掘过程中占有大量的工作量,大约是整个数据挖掘工作量的60%。数据准备包括数据选择、数据预处理和数据的转换。数据的选择就是搜索所有与业务对象有关的内部和外部的数据信息,获取原始的数据,从中选择出适用于数据挖掘应用的数据,建立挖掘数据库。数据预处理就要对数据进行初步的整理,清洗不完全的数据、不确定属性,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。数据的转换是根据数据挖掘的目标和数据的特征,选择合适的模型。这个模型是针对挖掘算法建立的。数据挖掘成功与否的关键是建立一个真正适合挖掘算法的分析模型。XXXX大学研究生课程论文报告3⑶数据挖掘(模式评估)数据挖掘就是对所得到的数据预处理后的数据进行挖掘,除了选择合适的挖掘算法外,其余工作应该能自动地完成。选择实现算法有两个考虑因素:一是不同的数据有不同的特征,因此需要用与之相关的算法来挖掘;二是根据用户或实际系统的需求选取知识的表达方式。有的用户希望用获取描述性的容易理解的知识,而有的用户知识获取预测准确度尽可能高的预测性的知识。根据选定的挖掘工具和算法,在数据预处理后的数据集上进行数据挖掘。⑷结果分析对数据挖掘阶段构建出来的模型的有效性和可靠性进行解释和评估,经过评估对可能存在冗余或无关的模型,这时需要将其剔除;也有可能模型不满足用户要求,这时则需要整个发现过程回退到前一阶段,重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法。另外,数据挖掘是面向最终用户的,因此发现的模型进行可视化,或者需要将结果转换为用户易懂的表示。⑸知识的同化知识的同化就是将分析所得到的知识集成到业务信息系统的组织结构中去,便于决策者根据这些领域知识进行决策2.2数据挖掘方法为了完成挖掘任务,人们从统计学、人工智能和数据库等领域借用基础研究成果和工具,提出了多种方法。主要的数据挖掘方法及其要点如下所述:⑴关联规则也称作亲和力分析或关联分析,是当前数据挖掘研究的热点,主要是发现大数据集中项之间的关联性或相关性的一项数据挖掘任务。关联规则所研究的数据项之间的关系在数据中没有明显、直接的联系,通过用户给定的最小支持度与最小置信度找出数据集中数据隐含的规则,关联规则是可以识别出特殊类型的数据关联模型。国际上最早最具影响力的关联规则挖掘算法是Agrawal等人提出的Apriori算法。目前关于关联规则的研究主要是基于Apriori算法的改进,这些算法大都从两方面进行改进:一是尽量减少对数据库的扫描次数,二是避免产生大量的频繁项目集。关联规则的用户一定要注意关联规则并不是因果关系。关联规则不代表实际数据或现实世界中的内在因果关系,并且也不能保证挖掘出来的这种关联性在将来也成立。⑵神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性,非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分三大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络建立在自学习的数学模型基础之上,它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。⑶遗传算法遗传算法是一种基于生物进化论和分子遗传学的搜索优化算法。遗传算法由三个基本过程组成:繁殖(选择)是从一个种群(父代)迭选出生命力强的个体,产生新种群(后代)的过程;交叉(重组)选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。遗传算法已在分类机器学习和优化计算方面显示了明显的优势。在数据挖掘中,可以被作为评估其它算法的适合度。⑷决策树方法决策树,又称为判定树,是一种常用于预测模型的算法,是建立在信息论基础之上,对数据进XXXX大学研究生课程论文报告4行分类的一种方法。首先,通过一批已知的训练数据建立一棵决策树。然后,利用建好的决策树对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。它的主要优点是描述简单,分类速度快,主要用在数据挖掘的分类方面。在国际上最具影响的决策树挖掘方法是Quiulan提出的ID3方法,目前许多关于分类挖掘技术的研究算法都是基于对ID3算法的改进。⑸贝叶斯网络贝叶斯网络是用来表示变量集合的连续概率分布的图形模式,它提供了一种自然地表示因果信息的方法,用来发现数据间的潜在关系。贝叶斯网络的学习就是要找出一个能够最真实反映现有数据库中各数据变量之间相互依赖关系的贝叶斯网络模型。贝叶斯网络模型在处理不定性问题上具有许多优势,这是因为它把图形理论的表达和计算能力与概率理论有机地结合在一起。贝叶斯网络模型成为当前人工智能领域中不定性知识表达和推理的一个研究热点。⑹模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型-云模型,并形成了云理论。此外,还有规则归纳、公式推理、粗糙集等许多其它用于数据挖掘的技术和方法。复杂的数据挖掘系统通常采用多种数据挖掘技术,或是综合各种方法技术优点的有效的、集成的技术。3数据挖掘在煤矿企业的应用为解决煤矿企业各个部门之间数据库“信息孤岛”的现象,煤矿企业可将各分立的业务数据库及所需要的其它外部数据源以特定主题的形式加以集成,建立起企业的数据仓库,并在此基础上利用数据挖掘等多种技术为企业经营管理工作提供决策支持,这对于提高决策质量、提升管理水平和管理效率,杜绝安全事故,确保安全生产意义重大。3.1数据挖掘在煤矿安全监测中的应用在煤矿企业中利用现代信息技术,将各独立子系统中的数据进行采集,挖掘煤矿生产中隐藏的信息,对提升煤矿安全生产管理和监测水平,实现煤矿安全生产的实时监控和监测,以及对煤矿安全生产的状态进行预测与决策具有重要的意义。文献[2]中,对经典的关联规则Apriori算法进行了改进,提出了一种对数据项目集进行编码,通过项目编码的“与”运算来产生频繁项目集的改进算法。神华集团公司大柳塔煤矿对预处理后的安全监测数据库中的数据采用改进后的Apriori算法进行了关联规则挖掘,分析煤矿生产中自然灾害之间的关系,对系统存在的具体安全隐患与安全状况进行预测,分析了产生关联规则数量的相关因素,得到了多条感兴趣的规则,对于提升煤矿安全状态有一定的指导意义,为煤矿的安全生产决策提供有价值的参考信息。文献[3]中,同样采用的是改进的Apriori算法对煤矿生产过程中的实时监控数据进行关联规则挖掘得到分析结果:瓦斯浓度、CH4浓度、CO浓度具有很高的关联性;顶板压力、温度、CH4有着较高的置信度;采区温度、粉尘浓度、CO浓度与通风有很大的关联;粉尘浓度与通风量为负相关关系。3.2数据挖掘技术在矿井瓦斯灾害预测中应用文献[4]中,在煤炭数据的挖掘技术中嵌入DBSCAN聚类算法让预测系统在煤矿瓦斯遇到危险前进行预测报警,减少事故的发生次数和伤害程度,提高煤矿的安全性能。文献[5]、[6]中探讨了用数据挖掘方法进行煤与瓦斯突出预测。文献[7]、[8]中学者提出了用支持向量机方法进行煤与瓦斯突XXXX大学研究生课程论文报告5出预测。文献[9]在传统BP神经网络模型的基础上采用遗传算法对网络拓扑结构等参数进行优化,并对矿井工作环境瓦斯浓度进行预测。这些研究工作都对数据挖掘技术在矿井瓦斯灾害预测中的成功应用奠定了基础。3.3数据挖掘在煤矿电网综合管理系统中的应用计算机、网络和通信技术的发展使煤矿电网远程监控成为可能,使过去只能在局、矿调度室显示的监控数据能够在煤矿企业内部信息网上传输,并在本地服务器上利用数据仓库技术保存有效数据。文献[10]中,针对传统的煤矿电网不能及时获取足够的井下信息,对存在的安全隐患无法预警的问题,提出了一种基于数据挖掘的煤矿电网管理模型的设计方案。该系统结合数据仓库技术,采用分类、聚类、关联、时序搜索等多种挖掘模式,对多方面的数据进行分析、建模,达到预测报警的目的,大大提高了数据分析的效率和深度,解决了许多困扰煤矿生产现场多年的井下供电监控技术难点与安全运行中的重大隐患问题,增强了矿井的抗灾和安全生产能力。3.4数据挖掘在煤炭企业ERP的应用煤炭企业是资源密集型行业,并且资源分布地域分散,业务活动环节多。因此,企业的ERP系统需要存储大量的数据,通过对不同时段,不同地域的数据分析,找出生产和产品之间的合理的对应关系,提高管理效果。由于煤炭企业的特殊性和复杂性,完全套用传统的ERP技术已不能满足需求,因此必须利用当前流行的数据仓库、数据挖掘技术等,以数据仓库作为企业数据源,再配合以各种数据挖掘技术进而建成适宜煤炭企业的管理模式和管理方法的支持系统。文献[11]中提出了一种融合了数据仓库与数
本文标题:数据挖掘技术在煤矿企业的应用
链接地址:https://www.777doc.com/doc-2333539 .html