您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 其它相关文档 > 数据挖掘概念及国内外现状
计算机光盘软件与应用2012年第20期ComputerCDSoftwareandApplications本刊约稿—13—数据挖掘概念及国内外现状肖天灿,陈志刚(中南大学信息科学与工程学院,长沙410000)摘要:随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。其主要任务是关联分析、分类、预测时序模式和偏差分析等。是知识发现(knowledgediscoveryindatabase)的关键步骤。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。关键词:DataMining;数据仓库;OLAP;K均值算法;K中心点算法中图分类号:TP311文献标识码:A文章编号:1007-9599(2012)20-0013-031基本概念对于技术人员来说,DataMining[1]指的是由许多看似没有规则并且混乱不完整的现实数据中,提炼出其深层次并且不易为人所知的,却具有潜在价值的数据信息和资料的过程。对于商业人员而言,DataMining则可以帮助他们合理整理商业数据的好方法,因为它可以对这些Database里将大部分的业务数据执行提炼、变换、剖析以及一些模型化操作,之后得到可以帮助商业决策的信息,比如牛奶和婴儿尿布的关联性信息。总的来说,DataMining的工作就是对数据进行关联性分析,提炼出规则。它有以下几个重要的元素[2]:1.1知识人类通过不断的实战而得到的宝贵经验;被检测的相关数据状态的变化规则;从数据中提取得到的不具体事物。知识的形式可能为数据模板、关联规则、数据变动、数据异常或者其他具实际用途的结构。1.2模式针对集合(Collection)F里的所有元素,能够使用语言(Language)L来展示这些元素本质上的特征,然后整理得到一个表达式(Expression)E,E里所说的元素是F中的某个子集FE。仅仅在E比FE里所有数据的展示方法更加简单的时候,E会成为模式。1.3概念/类别描述指对数据集构建一个简洁的总体性描述并/或描述它与某一对照数据集的差别。1.4关联分析从一个项目集中发现关联规则(AssociationRules),该Rules表现了被挖掘的数据综合起来会得到的属性-值条件这样的元组。1.5分类与估值分类指通过分析一个类别已知的Database的特点来建立一组模型M,M能够被用来预测类别未知的以后的数据。该分类模型可以表现为多种形式:分类规则(IFTHEN−),决策树或者数学公式,甚至是神经网络。估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。1.6时间序列分析也就是预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。2OW与OLAP数据仓库(OW或OWH)[3]指的是在公司管理和决策里面向主题的(Subject-oriented)、集成的(Integrated)、与时间有关的(Time-related)、不能被改动的数据集合,所谓面向应用,指的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视;OW里的数据来源于很多不同的Database,由于历史的原因,每个Database的组织结构通常是不同的,当这些不同结构的数据还没输入到OW的时候,必须经历一个集成过程;OW以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度,并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据;面向应用的事务Database应该不断的执行数据插入(Insert)、更新(Update)操作,而对于OW里的数据只是做初始的导入和记录查询操作。OW的组成如图1-1所示。数据查询CLAP工具CLAP工具经营数据外部数据详细信息集合信息元数据仓库管理器加载管理器查询管理器信息数据决策图1-1OW组成图计算机光盘软件与应用本刊约稿ComputerCDSoftwareandApplications2012年第20期—14—OW的管理器包含三个[4]:(1)加载管理器,即LoadManager,执行提炼与Load程序;(2)仓库管理器,即WarehouseManager,执行数据的Arrange与Convert程序、Backup与Kept程序;(3)查询管理器,即QueryManager,执行Query和Manage程序。OLAP,即On-LineAnalysisProcessing,是OW的分析展示工具,它创建的基础是数据的多维视图(MultidimensionalViews,即MV),其特点包含以下两个:一是On-Line,表现在其对User的请求信息可以快速的Response以及交互式(interactive)操作;二是Multi-Analysis,是OLAP的核心。OLAP与OLTP的区别如表1-1所示。表1-1OLAP与OLTP的区别OLTPOLTP用户职员、IT人员知识工作人员功能日常操作决策支持数据库设计Application-orientedSubject-oriented数据特点当前的,更新的;详细的,关系型的;孤立的历史的;汇总的,多维的;集成的使用repetitivead-hoc存取方式读/写;索引大量的扫描工作单元简单的事务办理复杂的查询记录访问量几十上百万用户数量数以千计数以百计数据库规模100MB-GB100GB-TB按照数据的集成方式,OLAP可以分为两种:基于多维Database的OLAP(MD-OLAP)和基于关系Database的OLAP(ROLAP)。MD-OLAP响应速度快、执行效率高,但源于结构的局限,灵活性不高;比较而言,ROLAP因为是建立于很多现存Database(或者OW)的基础上,它的可变性和扩展性会更好,而且其所能承受的数据量会更大、对于多维数据的操作性更强。因此,ROLAP尽管在Response速度、操作的效率上没MD-OLAP好,却还是被很多人使用。现有的OLAP工具大多基于ROLAP。OLAP对OW中数据的操作是针对MV(又被称为超立方体)开展的。基于MV的经典操作为:切片、切块以及旋转等。切片就是说在一个多维数组(MA)上裁剪出某个二维的子集;切块是指在一个MA上裁剪出某个三维的子集;旋转指的是随意转动MV展示的方位,使得人们能够根据不同视角更加清楚和直观地观测数据信息。将OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,即OLAM(On-LineAnalyticalMining)将更能满足需要。3基本算法本文主要是对重要资料进行聚类(Clustering)和整理(Arrange),而经典的两个Clustering算法是:K均值算法和K中心点算法[5]。3.1K均值算法(KMA)KMA是一种简便、实用的不受监督的Clustering算法。它在已知簇的个数时,能够很好地对数据信息进行聚类并分析。其基本思想为:首先,在所有数据元素中任意选择k个成为聚类的中心点;然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止。该算法的大致流程如图1-2所示:图1-2算法流程算法如下:输入:n个数据的数据集合和已知有k个簇输出:n个数据所属的k个簇中的哪个的信息算法步骤:1)随机从n个数据中选择k个当作初始的簇中心CC;2)将剩余的n-k个数据按照一定的距离函数DF划分到昀相近的簇;3)repeat;4)按一定的DF得出所有簇里的数据所有属性的平均值,并且把它当作新的CC;5)重新将n个数据按照一定的距离函数划分到昀相近的簇;6)直到簇的中心不会变动为止。3.2K中心点算法(KCA)KCA是KMA的一个改进,它的基本思想为:一开始给每个簇任意的给予某个样本(Sample)作为中心点(Center),而剩下来的这些点根据距离的大小进行划分;随后用其它的非Center数据作为Center,并查看聚类情况。如果替换的聚类总代价小于零,那么就执行替换直到中心点不再发生变化,也就是说达到代价昀小值时停止算法。KCA流程跟KMA类似,如图1-3所示。图1-3算法流程(下转第17页)计算机光盘软件与应用2012年第20期ComputerCDSoftwareandApplications本刊约稿—17—其中,MEMBRAN表示局部薄膜应力,BENDING表示弯曲应力,MEMBRANEPLUSBENDING表示局部薄膜加弯曲应力,PEAK表示峰值应力,TOTAL表示总应力。3强度校核3.1条件及公式说明由应力强度图可知壳程无危险区域,可不做强度校核。由于各类应力对失效的危害程度不同,所以对它们的限制条件也各不相同。在分析设计中,一次应力的的许用值是由极限分析确定,主要目的是防止韧性断裂或塑性失稳;二次应力的许用值是由安定性分析确定,目的在于防止塑性疲劳或过度塑性变形;而峰值应力的许用值是由疲劳分析确定的,目的在于防止由大小或方向改变的载荷引起的疲劳。查文献[1]知,许用应力:Sm=min{bssnnnbtsts,,σσσ}(4)其中σs=210MPa,ns=1.5,tsσ1=107MPa,tsn=1.5,σb=520MPa,nb=2.7,将数据代入公式(4),得到Sm1=71.3MPa,Sm2=86.7K值取为1。由下面五种应力强度校核公式进行强度校核[1]:(1)一次总体薄膜应力强度:SⅠ≤KSm(5)SⅠ=σθ(6)其中,σθ为接管与筒体连接处的周向应力,MPA由文献[1]知周向应力:σθ==pD/2t(7)p—内压,p=1.7MpaD—接管中径,D=1267mmt—接管壁厚,t=42mm(2)一次局部薄膜应力强度:SⅡ≤1.5KSm(8)(3)一次薄膜(总体或局部)加一次弯曲应力强度:SⅢ≤1.5KSm(9)(4)一次加二次应力强度:SⅣ≤3Sm(10)由线性化处理的结果可知PL=147.1Mpa,Pb=65.75MPa,Q=67.75MPa,F=16.49MPa。其中PL为局部薄膜应力,Pb为弯曲应力,Q为二次应力,F为峰值应力。3.2强度计算及校核通过计算得:(1)一次总体薄膜应力强度SⅠ=σθ1=25.64<KSm=1×=86.7MPa,满足强度要求。(2)一次局部薄膜应力强度SⅡ1=PL=147.2>1.5×1×71.3=130.05MPa,不满足强度要求。(3)一次薄膜(总体或局部)加一次弯曲应力强度SⅢ1=PL+Q=217.85>1.5×1×86,。7=130.05Mpa,不满足强度要求。(4)一次加二次应力强度SⅣ1=PL+Pb+Q=282.6>3×71.3=260.1MPa,不满足要求。4结论由上述计算,分析可知,壳程在设计压力0.9Mpa,设计温度410℃下,处于安全状态。夹套在设计压力1.7MPa,设计温度200℃下,一次总体薄膜应力强度满足要求,但一次局部薄膜应力强度SⅡ、一次薄膜(总体或局部)加一次弯曲应力强度SⅢ、一次加二次应力强度SⅣ、峰值应力强度SⅤ均不符合强度要求,设备在该处处于不安全状态。故可知大开口变径处容易产生大的应力集中使设备处于不安全状态。参考文献:[1]郑津洋,董其伍,桑芝富.过程设备设计[M].北京:化学工业出版社,2010,6.[2]JB4732—95.刚制压力容器—分析设计标准[S][3]莫维尼.ANSYS理论与应用[M].北京:电子工业出版社,2008,1.[作者简介]张仲奇(1990-),男,福建人,本科生,福州大学过程装备与控制工程专业学生,研究方向为材料力学、有限元分析等。(上接第
本文标题:数据挖掘概念及国内外现状
链接地址:https://www.777doc.com/doc-3986450 .html