您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘研究现状综述
数据挖掘引言数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。所谓的数据挖掘(DataMining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。目录引言......................................................................................................................................1第一章绪论.........................................................................................................................31.1数据挖掘技术的任务........................................................................................................31.2数据挖掘技术的研究现状及发展方向............................................................................3第二章数据挖掘理论与相关技术........................................................................................52.1数据挖掘的基本流程.........................................................................................................52.2.1关联规则挖掘.........................................................................................................62.2.2.Apriori算法:使用候选项集找频繁项集............................................................72.2.3.FP-树频集算法......................................................................................................72.2.4.基于划分的算法.....................................................................................................72.3聚类分析............................................................................................................................72.3.1聚类算法的任务.....................................................................................................72.3.3COBWEB算法..........................................................................................................92.3.4模糊聚类算法..........................................................................................................92.3.5聚类分析的应用...................................................................................................10第三章数据分析................................................................................................................11第四章结论与心得..........................................................................................................144.1结果分析..........................................................................................................................144.2问题分析..........................................................................................................................144.2.1数据挖掘面临的问题............................................................................................144.2.2实验心得及实验过程中遇到的问题分析...........................................................14参考文献.............................................................................................................................14第一章绪论1.1数据挖掘技术的任务数据挖掘技术并不是仅仅面向特定数据库的简单检索查询,而是对大量的数据从宏观、微观的角度进行统计、分析、综合和推理,进而来指导现实生活中实际问题的解决,有时还要根据已有的数据展开推理预测。数据挖掘的主要任务是分类、聚类、关联、序列等。分类就是在数据中找出一个类别的概念描述,这个概念代表了这类数据的基本信息,即该类概念的内涵描述,然后根据这种描述建立模型。常用的分类构造方法主要有统计方法、机器学习方法、神经网络方法等。其中统计方法包括贝叶斯法和非参数法,机器学习方法包括决策树法和规则归纳法,神经网络法主要是以BP算法为主。聚类就是把具有相似性的数据归纳成若干类别,同一类别的数据相似,不同类别的数据相异,聚类分析可以在分类的基础上进一步建立宏观的概念,进而发现数据的分布模式。当两个或者两个以上变量的取值直接存在某种规律性时,我们就可以称之为关联。序列和关联类似,只是把关联中一起发生的项目间关系扩展成一段时间的项目集间的关系,因此,序列常常被看作由时间变量连起来的关联。序列的主要作用是分析长时间的相关记录,进而发现经常发生的模式。1.2数据挖掘技术的研究现状及发展方向近年来,随着计算机科学领域的快速发展,数据挖掘技术作为一种新兴的学科,其研究热度正在逐渐升温,研究的水平也在逐步提高,同时由于国家政府的政策支持与资金支持,越来越多的数据专业研究者被吸引加入其中。在数据挖掘技术未来的研究过程中,其主要方向应包括以下几点:(1)参照于SQL语言的标准化的研究成果,对数据挖掘技术进行形式化的描述,即发现数据语言。(2)为实现关于数据额挖掘技术人机交互工作的顺利开展,应满足用户对知识发现过程的可视化进程。(3)研究在计算机领域的数据挖掘技术的发展,可以通过数据挖掘服务器的有效配合的方式实现。数据挖掘技术是面向应用的。数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。在当今,数据的信息量是非常的庞大的,因为我们所获得的大量的实验数据的观测如果仅仅是去依靠一些比较传统的分析数据的工具,是非常的不靠谱的。所以,对一些具有强大功能且具有自动化的工具的需要就越来越迫切了,这很显然的推动了数据挖掘技术的发展,并还在一定的程度之上取得了重要的成果。随着研究的深入,数据挖掘技术的应用越来越广泛。主要集中在以下几方面:(1)医学领域,随着医院信息系统和健康网站的发展,医疗活动、医学研究和健康信息行为中的数据被存储下来,形成了海量的健康医疗大数据。这类数据的数据量大,存储形式多样,难以用传统数据处理方法进行处理数据挖掘由于能够分析海量异构数据,越来越多地被应用于健康医疗领域。针对相关的生物医学与DNA的数据所分析的数据进行挖掘。数据挖掘技术在基因工程中的染色体、基因序列的识别分析、基因表达路径分析、基因表达相似性分析、以及制药、生物信息和科学研究等方面都有广泛应用。(2)金融领域,针对其金融的分析因为一些金融的投资一般都存在着很大的风险,所以我们在进行投资和决策的时候,就需要去对各种各样的投资方向相关的数据进行分析,我们现在不但可以对所获取的一些信息进行加工和处理,还可以对市场进行预测。此外,数据挖掘技术广泛应用于银行的存款贷款趋势预测,优化存款贷款策略和投资组合。(3)零售业,在零售业当中,运用数据挖掘技术不但可以在一定的程度之上了解相关消费者的消费倾向,从而迎合消费者的口味,制定出更加接地气的市场政策,以提高销售额。当然,还可以适当的预测行业状况。例如,数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品组合和促销时间商业活动。(4)保险业,当中数据挖掘的应用我们知道,保险业是一种风险性十分巨大的业务。相关的研究表明,数据挖掘技术的运用不但可以预测相关风险性,还可以在一定的程度之上为保险业务工作者提供正确的方向。很明显,这是非常的有利于保险业的持续性发展的。(5)商务管理,数据挖掘技术被用于分析客户的行为,分类客户,以此进一步针对客户流失、客户利润、客户响应等方面进行分析,最终改善客户关系管理。第二章数据挖掘理论与相关技术2.1数据挖掘的基本流程在数据挖掘领域中使用率较高的是跨行业标准数据挖掘流程CRISP-DM(Cross-IndustryStandardProcessforDataMining),它是欧盟机构于1999年联合起草的。CRISP-DM流程可以简单分为如图2-2所示的围绕被挖掘数据展开的六个步骤:1.商业理解理解数据来源业务的目标,也就是说通过数据想要挖掘到什么信息,想要达到或者实现什么样的结果。这一步骤是通过CRISP-DM基本流程进行数据知识获取的“目标和方向”。2.数据理解了解可以进行数据挖掘的数据概况,包括数据源、数据内容、数据类型、数据完整性等等。这一步骤与上一步骤是一个迭代关系,在进行数据理解的时候要结合商业理解来判断和检查数据,筛选出与商业理解有关联的可用数据,剔除掉无关和无用的数据。同时在进行数据理解的时候也是对商业理解的融会贯通和横纵扩展
本文标题:数据挖掘研究现状综述
链接地址:https://www.777doc.com/doc-7167105 .html