您好,欢迎访问三七文档
我眼中的数据挖掘12302010033何锐进入21世纪,随着计算机和Internet技术的迅速发展,人类社会正在进入一个信息爆炸的时代。计算机硬件的稳定进步为人们提供了大量数据收集和存储的介质,数据库技术的成熟和普及使人们积累的数据量呈指数增长,Internet技术的完善将偌大的地球穿越时空浓缩为一个小村落。随着大数据时代的到来,掌握了信息就掌握了一切,人们需要从浩如烟海的结构化或是非结构化的数据中获取有用且真实的信息,挖掘出数据之间的关联为自己所用,数据挖掘就在这一背景下应运而生了。以我现在的水平,写出一篇数据挖掘的文章难度还是很大的。所以,我只能查阅很多资料来帮助我更深认识数据挖掘,于是有了我眼中的数据挖掘。数据挖掘的历史较短,并且从20世纪90年代出现以来,它的发展速度很快,加之它是多学科综合的产物,所以目前还没有一个完整的定义,人们提出了多种数据挖掘的定义。首先,在百科上查询了数据挖掘:数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。在一本书中看到了数据挖掘的定义:DM(数据挖掘)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词,但该领域对商业、工业及科学研究都有极大的影响,且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄今为止大部分的数据挖掘方法都不是产生于统计学科。数据挖掘是20世纪80年代末开始逐步发展起来的一个新的研究领域,它是多个学科和技术相结合的产物。其实,在很多文章中都提到过数据挖掘,但是个人认为数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义:①在大量相关数据基础之上进行数据数据探索和建立相关模型的先进方法。——SAS研究所.②数据挖掘是一个确定数据中有效的、新的、可能有用的并且最终能被理解的模式的重要过程。——Fayyad.③使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程。——Bhavani.④数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。——Zekulin.⑤数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程。——Hand等人.⑥数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。——Ferruzza⑦数据挖掘是发现数据中有益模式的过程。——Jonn⑧数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。——Parsaye⑨数据挖掘是决策树、神经网络、规则推断、最近邻方法、遗传算法——Mehta.根据大量的资料,我认为从技术上定义,数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。从商业角度而言,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等领域,超级市场中的交易数据、加油站里的汽油销售数据、旅行社的旅游信息等等,均构成了数据库系统的信心来源。近年来,数据库所管理的数据量急剧增大,人们积累的数据越来越多。例如,美国NASA的地球观测系统(EOS)每小时向地面发回约50GB的图像数据;美国沃尔玛零售系统每天会产生约2亿条交易数据。人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。激增的数据背后隐藏着许多重要的信息,目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据富有但知识贫乏”的现象。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个企业的资源,只有充分利用它为企业自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。正是由于实际工作的需要和相关技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,这些思想的结合最终形成了备受人们关注的研究领域:数据库中的知识挖掘。数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,数据挖掘的过程大致分为:问题定义、数据收集与预处理、数据挖掘实施,以及挖掘结果的解释与评估。(1)问题定义数据挖掘是为了从大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。在这个过程中,必须明确数据挖掘任务的具体需求,同时也确定数据挖掘所需要采用的具体方法。(2)数据收集与预处理这个过程主要包括:数据选择、数据预处理和数据转换。数据选择的目的就是确定数据挖掘任务所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体需求,从相关数据源中抽取出与挖掘任务相关的数据集。数据预处理通常包括消除噪声、遗漏数据处理、消除重复数据、数据类型转换等处理。数据转换的主要目的就是消减数据集合的特征维数(简称降维),即从初始特征中筛选出真正与挖掘任务相关的特征,以便有效提高数据挖掘效率。(3)数据挖掘实施跟进挖掘任务定义及已有的方法(分类、聚类、关联等)选择数据挖掘实施算法。其间主要考虑:数据特点和结果知识描述方式。(4)结果解释与评估实施数据挖掘所获得的挖掘结果,需要进行评估分析,以便有效发现有意义的知识模式。因为数据挖掘所获得的初始结果中可能存在冗余或无意义的模式,也可能所获得的模式不满足挖掘任务的需要,这时就需要退回到前面的挖掘阶段,重新选择数据、采用新的数据变换方法、设定新的参数值,甚至换一种数据挖掘算法等。此外还需要对所发现的模式进行可视化,表示将挖掘结果转换为用户易懂的另一种表示方法。上面说了这么多,感觉数据挖掘是个离我们很遥远的名词,实际上它与每个人的生活都息息相关。超市的经营者会根据对大量顾客消费习惯的分析结果合理摆放商品的位置或者实施捆绑、促销等销售策略;银行、保险公司会根据对大量客户财务情况的分析结果推出盈利更高的险种或是金融、理财产品;教育机构会根据对大量学生犯错误、遗忘的情况推出更加科学合理的学习记忆方法;医院会根据对大量病例的分析确认一种疾病的特征以及治疗办法;城市交通部门会根据对城市各个路段、各个时段流量的分析对交通系统进行更加科学的优化;体育训练中可以根据对大量运动员动作的分析寻找出最科学的训练方法和比赛动作,等等。这一切,都离不开数据挖掘这一强大的工具。当然,数据挖掘的内容还很多,我只能慢慢深入了解它。很高兴,能够在小学期全新认识一门学科,虽然讲座的时间很短,只是大概介绍了下大数据时代背景下的数据挖掘,但因为兴趣,我会花更多时间来认识它,来深入了解它。也感谢老师上课的精彩内容,辛苦了!
本文标题:我眼中的数据挖掘
链接地址:https://www.777doc.com/doc-4140288 .html