您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 数据挖掘与统计决策--学科概述-聚类分析-因子分析
课程名称:数据挖掘与统计决策教师:廖芹Email:maqliao@qq.com课程简介参考教材和资料:1、《数据挖掘与数学建模》,廖芹,郝志峰编著,国防工业出版社,2010年2月2、《大数据分析:方法与应用,》,王星等编著,清华大学出版社3、《数据挖掘教程》,郭崇慧等翻译,清华大学出版社4、数据挖掘软件Clementine11.0的教学资料(word形式、视频形式)。3、神经网络模型建立及应用二、数据挖掘方法及原理5、关联分析分类/时序关联及应用6、遗传算法的优化控制及应用2、主成分/因子分析的变量提取及应用4、决策树分类推理及应用教学提纲一、数据挖掘学科概述三、数据挖掘方法应用案例分析1、聚类分析的数据特征发现及应用4、神经网络:模仿大脑神经功能和结构而建立的一种信息处理与建模的分类或预测方法。1、聚类分析:根据对象的属性,以对象的相似性进行度量,把对象归类,使类间相似性尽量少,类内相似性尽量大的一种分类方法。6、关联分析:对多个数据项(研究对象)同时或时序出现的规律知识模式进行分析的方法。7、遗传算法:一种基于生物自然选择与遗传机理(优胜劣汰)的寻求满意解的算法。3、回归/逻辑回归分析:基于一组相关数据建立自变量与因变量的确定性关系,并以此研究统计意义下实变量与随机变量的不确定性关系的方法。2、主成分/因子分析:对多维变量进行降维,以选择适合建模变量的方法。5、决策树:通过原因对结果影响程度的树结构分析,提取原因判别结果的规则方法。教学内容教学安排教学要求(3学分,48学时):笔试(闭卷考试)占70%,作业及考勤占30%.课程设计(2学分,2周):数据挖掘方法软件的设计、应用及实践教学安排作业题:借助数据挖掘软件Clementine(12.0),对上市公司股票的财务数据进行数据挖掘,建立“证券收益的预测、分类与控制”。分为五个作业:1、聚类分析;2、主成分/因子分析;3、神经网络;决策树分析;关联分析。作业要求:按课程进度上交相应的作业,作业word文件表示,内容包括:1、数据处理与分析;2、数学建模过程论述;3、Clementine(12.0)辅助过程(选项描述、参数选择、数据项属性设置等,附界面);4、Clementine(12.0)辅助结果分析(结果图形表示、结果数据分析)。教学安排课程设计题目:遗传优化与神经网络结合在统计决策支持的应用设计(包括输入、建模、决策、输出相应页面及功能设计),题目待定.课程设计要求:1、以2-5人为一小组在上述七个方法中选一题进行设计并编程实现;2、上交的课程设计报告用A4纸(不少于10页)打印,并附课程设计报告的word文件、可运行的遗传程序光盘。期末课程考试时上交。一、数据挖掘学科概述数据挖掘定义(DataMining,简记DM)对数据库中潜在的、不明显的数据关系进行分析与建模的算法。一、数据挖掘学科概述1、信息化发展与数据挖掘五十年代初:产生数据处理系统(DataProcessingSystems,简记DPS)或电子数据处理系统(ElectronicDataProcessingSystems,简记EDP)七十年代初:产生MIS;七十年代末:产生DSS八十年代中:产生专家系统(ES)、智能决策支持系统(IDSS)、智能管理系统(IMS)九十年代中:产生综合决策支持系统(SyntheticDecisionSupportingSystems,简记SDSS,SDSS=IDSS+数据仓库+数据挖掘。1、企业信息化建设:各类管理信息系统、决策支持系统等,如MRP(MaterialRequirementsPlanning,物料需求计划系统)、MRPII(ManufacturingResourcePlanning,制造资源计划系统)、ERP(EnterpriseResourcePlanning,企业资源计划系统)、ERPII(协同商务与智能商务的ERP)。2、电子商务建设:信息流、资金流、物流、商务智能、协同商务的模式与技术。3、电子政务建设:利用互联网实现法律、法规、政策等的宣传、引导和监控。4、教育信息化建设:利用计算机和网络技术实现教学方法改革和教育资源共享,如网络课程、网络试题库、网络资源库等。一、数据挖掘学科概述——信息化发展与数据挖掘当前研究热点:1)大数据“科学、工程、技术与应用”2)信息资源的云集成一、数据挖掘学科概述——信息化发展与数据挖掘数据输入信息输出数据处理数据模型数学模型数据存储信息化发展需要解决的问题:如何在海量数据中,获取有价值的决策信息?获取过程需要应用哪些大数据处理的方法?应用那些模型?一、数据挖掘学科概述——信息化发展与数据挖掘管理信息系统定义(ManagementInformationSystems,简记MIS)MIS是一种集成化的人机系统.它能为组织机构的作业,管理和决策职能提供信息支持.信息系统“MRP、MRPII、ERP、ERPII”特点主生产计划物料需求计划能力需求计划销售管理采购管理库存管理生产管理财务管理人事管理质量管理信息管理供应链管理客户管理协同商务商务智能BOM管理注:BOM即BillofMeterial,物料清单,一种产品组成结构的树型表示。供应链管理即SCM系统,客户管理,即CRM系统(客户关系管理系统)。一、数据挖掘学科概述——信息化发展与数据挖掘一、数据挖掘学科概述——信息化发展与数据挖掘决策支持系统定义(DecisionSupportingSystems,简记DSS)指能够综合利用各种数据、信息知识、人工智能和模型技术,辅助高级决策者解决半结构化或非结构化决策问题的人机交互信息系统.1、数据仓库(DataWarehouse,简记DW):是一种管理技术,旨在通过通畅、合理、全面的信息管理达到有效的决策支持。一、数据挖掘学科概述——信息化发展与数据挖掘支持数据仓库的两种必要数据处理功能:1)OLAP(在线分析处理):针对确定的数据关系建立数据模型,包括切片、切块、钻取、旋转等多维数据模型。2)数据挖掘(DM):针对潜在的、不明显的数据关系建立数据模型辅助决策。结构化决策:指能建立适当的模型产生决策方案,并能从多个方案中得到问题解的、可程序化的决策。非结构化决策:指不易用确定的数学模型来描述其决策过程,只能得到一定假设条件下问题近似解的、通过规则推理可转换为程序化的决策.结构化决策问题之一:在已知成本的条件下,求使利润最大的销量与售价。非结构化决策问题之一:确定最优的销售策略。一、数据挖掘学科概述——信息化发展与数据挖掘应用案例——地下燃气管道安全状况评价系统主页面一、数据挖掘学科概述——信息化发展与数据挖掘应用案例——地下燃气管道安全状况评价模型建立页面一、数据挖掘学科概述——信息化发展与数据挖掘应用案例——食品安全风险推理系统页面一、数据挖掘学科概述——信息化发展与数据挖掘应用案例——食品安全风险推理系统页面一、数据挖掘学科概述——信息化发展与数据挖掘1、规划问题2、控制问题规划:预测未来、确立目标、决定政策、选择方案的一系列过程的结果。主要预测问题:市场预测、销量预测、成本预测、投资预测、筹资预测、利润预测、效益预测、人才流动预测等。控制:预定(计划)指标与实际指标的差异监督与改正。形式:事前控制、过程控制、事后控制。主要控制问题:质量控制,成本控制,生产控制、资源控制等。一、数据挖掘学科概述——信息化发展与数据挖掘信息化发展中的四类主要决策问题4、评价问题3、优化问题1、优化:在多个可选择方案中选择使目标最好(如利润最大、成本最少,效益/效率最高)的方案。2、主要优化问题:资源配置优化,生产工艺参数优化、产品结构优化,投资/筹资组合优化等。1、评价:通过建立评价指标与影响因素之间的模型关系,对获取因素的测评数据计算指标数值,达到对指标的综合评价。2、主要评价问题:安全评价、质量评价、能力评价、素质评价、发展水平评价等。一、数据挖掘学科概述——信息化发展与数据挖掘教育部资产资源的投入产出绩效综合评价与优化配置1、高校投入产出绩效综合评价(投入产出模型+神经网络+遗传算法)2、根据高校投入产出绩效优化配置未来的资源(神经网络+遗传算法)3、对高校配置资源结果进行风险预测(神经网络+遗传算法+统计方法)4、对高校配置资源进行效益预测(模糊评价+遗传算法)一、数据挖掘学科概述——信息化发展与数据挖掘1、结构化决策辅助:模型的自适应变化2、非结构化决策辅助:包括智能化辅助过程的知识规则提取不确定知识推理随机信息模糊信息其中,结构化决策:指能建立适当的模型产生决策方案,并能从多个方案中得到问题解的、可程序化的决策。其中,非结构化决策:指不易用确定的数学模型来描述其决策过程,只能得到一定假设条件下问题近似解的、通过规则推理可转换为程序化的决策.一、数据挖掘学科概述——信息化发展与数据挖掘当前决策中的主要问题:一、数据挖掘学科概述——统计学科与数据挖掘经典统计局限问题:大样本,少变量,多输入,单输出,随机性;现代统计面临问题:大数据量,少样本,多变量,多输出,混合模糊与随机性;数据挖掘方法的特点:1、高维数据特征分析2、模型自适应变化3、多输入多输出的非线性关系建立4、混合随机与模糊不确定性的分类与预测5、多目标多维数据的优化与控制因此,数据挖掘是现代统计学科分支,既属于统计学科,也属于计算机科学学科。CRISP-DM(CRoss-IndustryStandardProcessforDataMining):各企业中被广泛采用的数据挖掘标准流程。包括6个步骤:商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。数据挖掘软件:Clementine12.0:SPSS公司推出的企业级数据挖掘软件产品二、数据挖掘及其软件概述一、数据挖掘学科概述——数据挖掘流程一、数据挖掘学科概述——数据挖掘及其软件一、数据挖掘学科概述——数据类型的一致化方法要点:建立数学模型时,需要把不同数据类型转换为相同的数据类型一、数据挖掘学科概述——数据类型的一致化方法为了使不同量纲的数据能够进行可加与可比,需要对数据进行无量纲处理。常用处理方法为:一、数据挖掘学科概述——数据无量纲化方法一、数据挖掘学科概述——数据无量纲化方法样本病人数医生数工作人员数门诊所数死亡率医疗能力评价上海0.51.51.51.5-1.51.5北京-0.51.51.51.50.51.5沈阳-1.5-1.5-1.5-0.50.5-1.5武汉0.50.50.5-0.5-1.5-0.5哈尔滨1.50.5-0.5-1.5-0.5-0.5重庆0.50.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.5兰州1.50.5-0.50.51.51.5青岛0.5-1.51.51.5-0.50.5鞍山0.5-0.5-0.5-1.51.50.5问题:上述六个变量如何转换为【0,1】无量纲数据?取四个值中的最大M=1.5,最小m=-1.5,由公式y=(x-m)/(M-m)=(x+1.5)/(1.5+1.5),分别把x转换为如下y:X=1.5,y=1,X=-1.5,y=0,X=0.5,y=0.63,X=-0.5,y=0.37一、数据挖掘学科概述——数据无量纲化方法聚类:根据事物的某些属性,定义相似度表示事物的相似性,把相似事物聚集成类,使类间相似性尽量少,类内元素相似性尽量大的数据划分方法。特点:已知类别变量属性对样本数据进行划分,称为分类,未知类别变量(没有先验知识)而按相似度大小对样本数据进行划分,称为聚类。二、数据挖掘方法——聚类分析问题:1)如何从海量的数据中寻找有代表性的、有建模价值的数据?2)对于多维数据,如何了解数据变化特点?引入例:1)100个学生按语文成绩分类,如何分?2)100个学生按语文成绩、数学成绩、英语成绩分类,应该如何分?主要问题:(1)如何定义两类之间的相似度?(2)如何按相似度进行聚类?(3)如何表出谱系图?(4)聚类分析的应用?问题1)思路:1)定义两元素相似度量(一般可用距离、变量相关系数等定义)绝对值定义两元素相似度欧式距离定义两元素相
本文标题:数据挖掘与统计决策--学科概述-聚类分析-因子分析
链接地址:https://www.777doc.com/doc-4936554 .html