您好,欢迎访问三七文档
DataMining:ConceptsandTechniques数据挖掘DataMiningDataMining:ConceptsandTechniques第1章.引言什么是数据挖掘?数据挖掘的功能数据挖掘系统的分类有关的几个问题总结DataMining:ConceptsandTechniques什么是数据挖掘?数据挖掘(数据库中的知识发现KDD):从存放在数据库、数据仓库或其它类型信息库中的大量数据中提取或挖掘有趣知识的过程。(重要的,暗含的,预先未知的以及潜在有用的)其它相关术语Datamining:用词不当?Knowledgediscovery(mining)indatabases(KDD),知识提取(knowledgeextraction),模式分析(data/patternanalysis),数据考古(dataarcheology),数据捕捞(datadredging),信息收割(informationharvesting),商业智能(businessintelligence),等等DataMining:ConceptsandTechniques为什么进行数据挖掘?—潜在的应用数据库分析以及决策支持市场分析和管理目标市场,客户关系管理(customerrelationmanagement),菜篮子分析,交叉销售,市场划分风险分析和管理预测,客户保持,改善保险业务,质量控制,竞争分析欺诈行为探查及管理,异常监测其它应用文本挖掘(新闻组,email,documents)andWeb分析.智能查询应答DataMining:ConceptsandTechniques市场分析和管理(1)哪些数据需要分析?信用卡事务,优惠券,客户投诉,生活方式研究等等目标市场发现具有相同特征(兴趣,收入水平,消费习惯等)的客户群。.确定客户购买模式随时间变化情况交叉市场分析不同产品销售间的关联基于关联信息的预测DataMining:ConceptsandTechniques市场分析和管理(2)客户分析数据挖掘能指出哪种类型的客户灰购买什么产品(分类,聚类)确定客户需求为不同客户确定最好产品利用预测技术发现能够吸引新客户的因素。提供概要信息各种多维综合报告统计汇总信息(主要的数据的趋势和变化)DataMining:ConceptsandTechniques风险分析和管理财政计划和资产评估现金流分析和预测时间序列分析(financial-ratio,trendanalysis,etc.)资源计划:资源与耗费汇总及比较竞争:竞争监控和市场方向各户分类及基于类别的定价在高竞争力市场设置价格策略DataMining:ConceptsandTechniques欺诈检测与管理(1)应用广泛应用于医疗保险,零售业,信用卡服务,电信领域(phonecardfraud),etc.方法利用历史数据建立欺诈行为模型,使用datamining技术来确定相关实例。例子汽车保险:detectagroupofpeoplewhostage(策划)accidentstocollectoninsurance(骗保)洗钱:监测可疑现金交易医疗保险:detectprofessionalpatientsandringofdoctorsandringofreferencesDataMining:ConceptsandTechniques欺诈检测与管理(2)监测不适当医学检查电话欺诈Telephonecallmodel:接受方,持续时间,每周或天的次数.分析与期望标准相偏离的模式.BritishTelecomidentifieddiscretegroupsofcallerswithfrequentintra-groupcalls,特别是移动电话,经常有打破数百万美元的欺诈。零售估计有38%的零售亏损来自不诚实的雇员.DataMining:ConceptsandTechniquesOtherApplications运动IBMAdvancedScoutanalyzedNBAgamestatistics(shotsblocked,assists,andfouls)togaincompetitiveadvantageforNewYorkKnicksandMiamiHeat天文学类星体Web应用通过分析web访问日志,发现客户的偏好和行为模式,分析网上市场的效果,改进网站的组织。DataMining:ConceptsandTechniques一些具体例子DataMining:ConceptsandTechniques一些具体例子例1:医生给一个病人看病(模式识别的完整过程)。测量病人的体温和血压,化验血沉,询问临床表现;通过综合分析,抓住主要病症;医生运用自己的知识,根据主要病症,作出正确的诊断。DataMining:ConceptsandTechniques一些具体例子选取做家具的松木。怎样区分它的类型?观察:颜色、花纹、亮度、密度(样本测量值),得到样本模式综合分析:提取、选择主要特征根据主要区别:区分各单一样本(松木、桦木)DataMining:ConceptsandTechniques具体过程DataMining:ConceptsandTechniques常见的模式识别系统DataMining:ConceptsandTechniques知识发现的步骤:学习应用领域:相关先验知识和应用目标创建目标数据集:数据选择数据清理和预处理:(maytake60%ofeffort!)数据约简和转化:发现有用特征,维和变量约简.转化成适合挖掘的形式数据挖掘功能选择摘要,分类,regression(回归),关联,聚类.选择挖掘算法数据挖掘:查找感兴趣的模式模式评估及知识表达可视化,转化,删除冗余模式等等发现知识的使用DataMining:ConceptsandTechniques有些人将数据挖掘视为数据库中知识发现的一个基本步骤,如图Datamining:知识发现过程的核心过程.DataCleaningDataIntegrationDatabasesDataWarehouseTask-relevantDataSelectionDataMiningPatternEvaluationDataMining:ConceptsandTechniques典型数据挖掘系统的结构DataWarehouseDatacleaning&dataintegrationFilteringDatabasesDatabaseordatawarehouseserverDataminingenginePatternevaluationGraphicaluserinterfaceKnowledge-baseDataMining:ConceptsandTechniques1.预处理模式空间里,针对具体的研究对象,往往需要进行适当的预处理。去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原具体地说,预处理的功能包括:清除或减少模式采集中的噪声及其它干扰,提高信噪比。消除或减少数据图像的模糊及几何失真,提高清晰度。转变模式的结构,以便后续处理(如非线性模式转为线性模式)。预处理的方法:滤波、变换、编码、标准化等。(这些内容在“数字信号处理”、“数字图像处理”等课程中学过)为了便于计算机处理,往往需要将模拟量转化为数字量,也就是进行A/D转换。在此过程中必须考虑2个问题,采样间隔与量化等级。采样间隔(采样频率),表示单位时间内(秒),要求多少个采样值。量化级,表示每个采样值要有多少个量化级,才能满足要求。2.特征提取/选择特征提取/选择的必要性和原则。一般的情况,人们对客观世界里的具体物体或事件进行模式采集时,总是尽可能多的采集测量数据,造成样本在模式空间里的维数很大。模式维数很大首先带来的问题是处理的困难,处理时间很长,费用很高,有时甚至直接用于分类是不可能的,即所谓“维数灾难”。另外,在过多的数据坐标中,有些对刻划事物的本质贡献不大,甚至很小。因此,特征提取/选择十分必要。特征提取/选择的目的目标:就是要压缩模式的维数,使之便于处理,减少消耗。特征提取往往以在分类中使用的某种判决规则为准则,所提取的特征使在某种准则下的分类错误最小。为此,必须考虑特征之间的统计关系,选用适当的正交变换,才能提取最有效的特征。特征提取的分类准则:在该准则下,选择对分类贡献较大的特征,删除贡献甚微的特征。3.分类分类目标:把特征空间划分成类型空间。把未知类别属性的样本确定为类型空间的某一个类型。在给定条件下,可以否定样本属于某种类型。实际分类过程中,对于预先给定的条件,分类中出现错误是不可避免的。因此,分类过程只能以某种错误率来完成。显然,错误率越小越好。但是,分类错误率又受很多条件的制约:分类方法、分类器设计、选用的样本及提取的特征等。因此,分类错误率不能任意小。此外,分类错误率的分析、计算也很困难,只有在较简单的情况下才能有解析的解。分类错误率是分类过程中的重要问题。DataMining:ConceptsandTechniques数据挖掘和商务智能IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBAMakingDecisionsDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationOLAP,MDAStatisticalAnalysis,QueryingandReportingDataWarehouses/DataMartsDataSourcesPaper,Files,InformationProviders,DatabaseSystems,OLTPDataMining:ConceptsandTechniques数据挖掘功能(1)概念描述:特征化和区分特征化:汇总相应概念的数据,描述这些数据的特征例如:研究上一年销售增加10%的软件产品的特征。产生一年内在AllElectronics花费$1000以上顾客特征描述。结果可能是:年龄在40-50,有工作,有很好的信用等级。数据区分:将目标概念数据的特征与其它概念数据的特征进行比较。例如:上年销售增加10%的软件与同时期销售至少下降30%的软件进行比较。比较两组AllElectronics顾客,如定期购买计算机产品的顾客和偶(每年少于3次)购买这种产品的顾客。可能结果是常购买者80%在20-40岁之间,受过大学教育。偶尔购买者60%太老或太年轻,没有大学学位。DataMining:ConceptsandTechniques数据挖掘功能(1)关联(相关和因果关系)关联规则:形如X=Y,满足X中条件的记录多半也满足Y中条件。多维和单维关联age(X,“20..29”)^income(X,“20..29K”)=buys(X,“PC”)[support=2%,confidence=60%]所有顾客的2%在20-29岁,年收入20K-29K,并且在AllElectronics购买PC。而这个年龄和收入组的顾客购买PC的可能性为60%contains(T,“computer”)=contains(x,“software”)[1%,75%]DataMining:ConceptsandTechniques数据挖掘功能(2)分类和预测找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象。例如:按气候分类国家,按油耗分类汽车。分类模式的表示方法:决策树,分类规则,神经网络预测:预测某些未知或空缺数据值。聚类分析类标记未知:
本文标题:数据挖掘课件汇总
链接地址:https://www.777doc.com/doc-3400116 .html