您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 大数据时代的数据挖掘与商务智能(四)
1大数据时代的数据挖掘与商务智能2第四部分数据管理与数据挖掘概论3数据挖掘概况从20世纪80年代中后期,知识发现的方法、技术和系统,从不同角度、不同领域和不同学科进行了研究和实践,主要的学科有数据库、统计学和机器学习。1989年在底特律第11届IJCAI会议上的KDD研讨会。1991年MIT出版社出版了一本书“KnowledgeDiscoveryinDatabases”。1994年召开了一个国际会议(KDD94),并于1996年由MIT出版社又出版了一本书“AdvancesinKnowledgeDiscoveryandDataMining”。4数据挖掘概况1995年在加拿大的蒙特利尔召开KDD95,作为第一届国际KDD会议,以后每年一次,原为AAAI组织,1999年由ACM组织,改为SIGKDD。2006年、第12届在美国费城(Philadelphia)。2007年在美国加州圣何塞(SIGKDD07)2008年在美国LASVEGAS(SIGKDD08)。“DataMiningandKnowledgeDiscovery”1997年创刊。(Springer,1997,2006)。国外相应的研究小组的建立,接着数据挖掘公司风起云涌。一些大公司建立数据挖掘小组和开发各种产品。国内研究小组的建立,一些公司也开始了数据挖掘项目。5数据挖掘概况数据挖掘是20世纪80年代后期发展起来的一种新兴技术。它是商业、企业竞争和技术发展的需求的结果,数据挖掘技术是多种学科的交叉的产物。数据挖掘6数据挖掘任务数据挖掘任务技术分类–预测(Predication):用历史预测未来–描述(Description):了解数据中潜在的规律数据挖掘的具体任务–关联分析–序列模式–分类(预测)–聚集–异常检测7数据挖掘任务描述性分析–聚类分析–关联分析–异常点分析、可视化–……预测性分析–分类(离散)–回归分析(连续)–时间序列分析–……8数据挖掘概况数据挖掘技术基本内容框架数据预处理(1)数据清理(2)数据变换(3)数据集成(4)数据归约(5)数据离散化数据挖掘基本方法(1)关联规则(2)分类与预测(3)聚类数据挖掘的深入内容(1)时间序列和序列(2)空间数据挖掘(3)文本挖掘(4)Web挖掘(5)多媒体挖掘(6)可视化9数据挖掘概况由于任务不同,要求不同,数据不同,没有单一的数据挖掘软件可适用所有的情形。造成了各种方法都在快速发展,各种数据挖掘软件不断增多。但商家近年来有逐渐减少的趋势,大公司的介入,一些大的有实力的公司开始更多占领市场。基本方法如上所述。软件功能和性能有很大差异。选软件应考虑的因素很多。10数据挖掘概况从问题回答的角度:1.有些问题可明确和准确回答(要求这样)2.有些问题是给出可能的回答3.有些问题可能给出不太明确的回答4.有些问题可能给出可能错误的回答。这些回答从数据的角度:有些是查询,有些是统计,有些是归纳,有些是推断,有些预测,有些是分析。数据挖掘要回答那些不是简单查询和统计回答问题。11数据挖掘概况无法准确回答的问题信贷中信用评估,信用卡评级,信用卡欺诈销售一个产品广告材料邮寄给谁保留客户,争取客户交叉销售违规操作,欺诈行为发现,异常发现货架货物的摆放国民经济各指标间的关系疾病,症状,药物,疗效之间的关系DNA序列的相似分析导致各种疾病的特定基因序列模式凭理论,经验,群体分析,凭数据分析,挖掘12数据挖掘概况各种部门都面临不同的挑战一些面临竞争的部门与企业:银行,电信,保险,证券,商场,各种企业。这些企业关心的问题:争取客户,增大销售,提高利润。一些垄断部门与企业:电力,税务,社保。面对抱怨,面对抗争,面对欺诈。政府和企业面临科学决策13数据挖掘概况数据仓库和数据挖掘项目提到日程数据分析、决策支持系统、商业智能(BI)、知识管理、客户关系管理(CRM)、物流与供应链管理(SCM)、企业资源计划(ERP)、各种预测。政府、科技部门、大型企业(工厂,公司,商场),经济部门、金融机构(银行、证券、保险)、电子商务、电子政务、各种“金”工程。14数据挖掘概况数据仓库将不同数据源、多年的数据经“整合”成一个有组织的便于分析的结构化的数据环境。组织数据方法。数据挖掘:从数据中找出(推出,归纳出,预测、挖掘)有用的信息,规律,知识。分析数据方法。15数据库集成:–数据仓库技术»所有的数据在物理上集中在一起–虚拟数据库技术»数据表面上或者在逻辑上是集成在一起,然而它们的物理存贮则是分散在Internet不同的数据服务器上数据挖掘概况16从两种数据库集成技术来看:–数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的情况。–虚拟数据库技术实用于数据更新速度快、数据类型和使用方法完全不一样的情况。数据挖掘概况17联机分析处理60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。OLTP数据OLAP数据原始数据导出数据细节性数据综合性和提炼性数据当前值数据历史数据可更新不可更新,但周期性刷新一次处理的数据量小一次处理的数据量大面向应用,事务驱动面向分析,分析驱动面向操作人员,支持日常操作面向决策人员,支持管理需要18OLAP定义OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。19数据仓库与数据挖掘所处地位决策支持系统OLAP数据挖掘数据仓库数据库各种信息系统各种管理系统搜索、抽取过滤万维网信息发布信息检索ACRMCRM20数据挖掘发现知识类型广义型知识:反映同类事物共同性质的知识特征型知识:反映事物各方面特征的的知识差异型知识:反映不同事物之间属性差别的知识关联型知识:反映事物之间依赖和关联的知识偏差型知识:揭示事物偏离常规的异常现象的知识预测型知识:根据历史与当前数据推测未来数据21(B)DataInformation(A)Knowledge(Arrangement)(Transmit)(A)Knowledgetransmittedbycharacter,sign,voice,etc.(B)DataarrangedtobeusefulfordecisionmakingINFORMATION(Recognition)(C)Knowledge(C)Recognitionmemorizedpersonallyorsocially(D)JudgmentorasystemofjudgmentwhichhasobjectivevalidityKNOWLEDGE(D)Knowledge(Judgment)(D)Knowledge(Judgment)Whatistheenergytobringsuchtransformation?(E)Computers’abilitytojudgethingsautomatically(F)People’sabilitytounderstandandlearnthingsINTELLIGENCEInformationScienceManagementScienceKnowledgeScience+Information,Knowledge,andIntelligence22Atheoryoforganizationalknowledgecreation,whichsuggeststhatnewknowledgeiscreatedbytheinteractionbetweenexplicitandtacitknowledgethroughthespiralofSocialization,Externalization,Combination,andInternalization.Sharedmentalmodelsortechnicalskills1Metaphors,analogies,concepts,hypotheses,ormodels2Linkingexplicitknowledge3Learningbydoing4I.NonakaandH.TakeuchiTheKnowledge-CreatingCompany.HowJapaneseCompaniesCreatetheDynamicsofInnovation.OxfordUniversityPress,1995.GroupexplicitknowledgeIndividualexplicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExternalizationKeyFactorinEstablishingtheSchoolProf.Nonaka23应用市场分析、预测和管理•行销策略,客户关系管理(CRM),购货篮分析,市场分割风险分析、预测和管理•风险预警,客户挽留,改进的保险业,质量控制,竞争分析欺诈检测和管理•证券违规操作,税务偷漏,瞒报,信用卡欺诈行为判断信用评估•银行信贷评估,信用卡评估24应用宏观经济(指标之间关联,经济指标的预测,预警)电信(客户细分,客户流失,客户挽留)金融(信用评估,洗钱,欺诈…)情报(文本挖掘,新闻组,电子邮件,文档)Web挖掘(信息过滤,个性化服务,异常行为,…)DNA数据分析(一些引起疾病的DNA序列,…)人力资源配置(如何有效进行人力分配)医疗诊断中药配伍规律零售业科学(天气预报,灾难预测…25KDnuggets对数据挖掘各种情况进行了调查从应用领域使用工具使用方法数据挖掘组的地位数据库的大小(10G以上,100-1000G)数据格式(文本和工具特定格式居多)26银行17%生物/基因8%E商务/Web15%欺诈检测8%保险6%投资/股票4%药品5%零售业6%科学数据8%电信11%其他11%应用领域情况(2001)27应用领域情况200628应用领域情况(2008)[170voters]29数据挖掘软件(May2008)[347voters]30数据挖掘软件(May2008)2012年R以30.7%的得票率荣登榜首3132从技术看数据挖掘使用技术情况[784votestotal](Feb2005)DecisionTrees/Rules(107)决策树14%Clustering(101)聚类13%Regression(90)回归11%Statistics(80)统计10%Visualization(63)可视化8%NeuralNets(61)神经网络8%Associationrules(54)关联规则7%NearestNeighbor(34)最近邻4%SVM(Supportvectormachine)(31)支持向量机4%Bayesian(30)贝叶斯4%Sequence/Timeseriesanalysis(26)序列/时间序列分析3%Boosting(25)增强3%Hybridmethods(23)混合方法3%Bagging(20)袋装3%Geneticalgorithms(19)遗传算法2%
本文标题:大数据时代的数据挖掘与商务智能(四)
链接地址:https://www.777doc.com/doc-1668 .html