您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文档 > 华中科技大学谭毅华_数据挖掘1-引言
DataMiningYihuaTan2020/5/28数据挖掘:引言谭毅华Yihua.tan@263.net华中科技大学图像识别与人工智能研究所DataMiningYihuaTanIPRAI-HUST2020/5/28p2内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p3教材范明,孟小峰等译.数据挖掘:概念与技术.北京:机械工业出版社.2001.邵峰晶,于忠清.数据挖掘-原理与算法.北京:中国水利水电出版社.2003IanH.Witten,EibeFrank.数据挖掘:实用机器学习技术及Java实现(英文版).北京:机械工业出版社,2003相关网址JiaweiHan:~hanj时间安排W5:Tue,引言Fri,国庆假W6:Tue,数据及其加工处理Fri,关联规则分析W7:Tue,分类分析Fri,聚类分析W8:Tue:文本和多媒体挖掘Fri:交作业,考试1-2节DataMiningYihuaTanIPRAI-HUST2020/5/28p5学习评价及联系方式评价结果作业30%考试70%联系方式E-Mail:yihua.tan@263.netTel:027-87556301Cel:13886021197DataMiningYihuaTanIPRAI-HUST2020/5/28p6内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p7Motivation:数据挖掘的产生知识海洋自动数据搜集工具数据库技术,数据仓库全民资源贡献(Web)获取有用知识商业结论科学假设和规律发现获取的方式人工数据仓库数据挖掘DataMiningYihuaTanIPRAI-HUST2020/5/28p8Why:数据挖掘的作用知识爆炸的苦恼:何处是真谛?如何痛下决断?模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择货架商品搭配销售的地理位置NBA布阵金融经济政府POS.人口统计生命周期体育比赛数据决策信息决策DataMiningYihuaTanIPRAI-HUST2020/5/28p9数据库技术的发展1960s:数据搜集,数据库建立,IMS和网络DBMS1970s:关系数据模型,关系DBMS实现1980s:关系DBMS,先进数据模型(扩展关系模型,面向对象,推理,etc.),面向应用DBMS(空间,科学,工程,etc.)1990s:数据挖掘,数据仓库,多媒体数据库,Web数据库2000s流数据管理和挖掘数据挖掘及应用网络技术(XML,数据集成),全球信息系统DataMiningYihuaTanIPRAI-HUST2020/5/28p10内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p11内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p12What:什么是数据挖掘定义从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。从数据中抽取未知的隐含的有用知识。应用自动或半自动的方法,对大规模的数据进行调查和分析发现有意义的模式。别名知识发现商业智能datadredginginformationharvestingdataarcheologyDataMiningYihuaTanIPRAI-HUST2020/5/28p13什么是(或不是)数据挖掘不是数据挖掘的简单的搜索和查询文件查找电话号码查找网络搜索引擎查询与”华中科技大学“相关的信息专家系统是数据挖掘的有加工信息的搜索和查询查询百家姓的人数排名关键字搜索学术文章,返回带有”相关度“信息根据上下文信息”华中科技大学“,将相似网页组织在一起DataMiningYihuaTanIPRAI-HUST2020/5/28p14数据挖掘的过程数据搜集数据预处理DataMining模式解释和评估问题定义DataMiningYihuaTanIPRAI-HUST2020/5/28p15数据挖掘步骤问题定义(和领域知识专家一道)挖掘何种知识?明确要求确定可用算法数据搜集确定需要用到的数据库和数据集数据预处理去噪、缺失值处理、数据类型转换、数据简化等数据挖掘算法(分类、聚类和序列模式发现等)数据特点结果表示:描述性或预测性知识结果解释和评估去除冗余可视化DataMiningYihuaTanIPRAI-HUST2020/5/28p16数据挖掘:多学科的交叉DataMiningDatabaseTechnologyStatisticsML/AIPatternRecognitionAlgorithmOtherDisciplinesVisualizationDataMiningYihuaTanIPRAI-HUST2020/5/28p17数据挖掘的多面性数据面关系型,流式,数据仓库,事务,面向对象,空间数据,时间序列,文本,多媒体,异构数据库,知识面特征,识别,关联,分类,聚类,趋势等.集成功能,多级挖掘技术面数据库技术,数据仓库(OLAP),机器学习,统计学,可视化,模式识别等应用面零售业,电信,银行保险,诈骗分析,生物数据挖掘,股票市场分析,文本挖掘,web挖掘,上网行为分析等.DataMiningYihuaTanIPRAI-HUST2020/5/28p18内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p19数据挖掘处理的数据类型RelationalDatabaseDatawarehousesTransactionaldatabasesAdvancedDBandinformationrepositoriesObject-orientedandobject-relationaldatabasesSpatialdatabasesTime-seriesdataandtemporaldataTextdatabasesandmultimediadatabasesHeterogeneousandlegacydatabases数据仓库从一个或多个数据源搜集到的信息储存库,存放在一个一致的模式下,通常驻留在单个站点。数据清理数据变换数据集成数据装入定期刷新过程数据汇总组织特定主题:顾客、商品和活动等用多维数据库结构建模适合于OLAP清理变换集成装入刷新数据仓库查询与分析工具客户客户异地数据源DataMiningYihuaTanIPRAI-HUST2020/5/28p21事务数据库每个记录代表一个事务:包括事务的唯一标识号和组成该事务的项例:TIDItems1Bread,Milk2Bread,Diaper,Beer,Eggs3Milk,Diaper,Beer,Coke4Bread,Milk,Diaper,Beer5Bread,Milk,Diaper,CokeDataMiningYihuaTanIPRAI-HUST2020/5/28p22空间数据库包含涉及空间的信息地图数据库VLSI集成电路蛋白质分子3D空间排列DataMiningYihuaTanIPRAI-HUST2020/5/28p23时空数据库数据在空间上分布,并随时间变化changeswithtimeEx:森林火灾,运动目标,飓风和地震DataMiningYihuaTanIPRAI-HUST2020/5/28p24多媒体数据库图像、视频和音频数据。(image/videoretrieval)DataMiningYihuaTanIPRAI-HUST2020/5/28p25Web数据Title:CNN.comInternationalH1:IAEA:IranhadsecretnukeagendaH3:EXPLOSIONSROCKBAGHDAD…TEXTBODY(withpositionandfonttype):TheInternationalAtomicEnergyAgencyhasconcludedthatIranhassecretlyproducedsmallamountsofnuclearmaterialsincludinglowenricheduraniumandplutoniumthatcouldbeusedtodevelopnuclearweaponsaccordingtoaconfidentialreportobtainedbyCNN…Hyperlink:•URL:•AnchorText:AIoaeda…Image:•URL:•Alt&Caption:Irannuclear…AnchorText:CNNHomepageNews…DataMiningYihuaTanIPRAI-HUST2020/5/28p26内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p27数据挖掘分类:知识面描述性数据挖掘:找出用于人解释的数据描述模式预测式数据挖掘:用一些变量预测其它变量的未知或将来值描述性预测式聚类分析关联分析序列分析回归分析偏差检测分类DataMiningYihuaTanIPRAI-HUST2020/5/28p28数据挖掘的功能(1):分类ClassificationAnalysis基于训练集构建模型(函数)目标:给新的记录尽可能准确地赋以某个类属以测试集描述模型的分类精度ExampleTidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundMaritalStatusTaxableIncomeCheatNoSingle75K?YesMarried50K?NoMarried150K?YesDi
本文标题:华中科技大学谭毅华_数据挖掘1-引言
链接地址:https://www.777doc.com/doc-5591611 .html