您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 数据挖掘算法及软件介绍
数据挖掘功能简介Page1Page2主要内容一、数据挖掘概念及流程二、数据挖掘方法分类介绍二-1、分类算法及案例二-2、聚类分析及案例二-3、关联规则及案例二-4、时间序列分析及案例二-5、回归分析及案例二-6、异常分析及案例二-7、文本挖掘二-8、推荐系统三、常用数据挖掘软件介绍四:数据挖掘和分析应避免的误区误区Page3一、数据挖掘概念及流程数据挖掘(DataMining)就是对观测到的数据集(经常是庞大的、不完全的、有噪声的、模糊的、随机的)进行分析,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。数据清理筛选数据目标数据预处理及变换变换后的数据数据挖掘解释/评估一、数据挖掘概念及流程Page4二:数据挖掘方法分类介绍数据挖掘聚类分析预测K-meansK-中心点算法分类分析KNN算法Bayes算法时间序列统计回归分类算法决策树神经网络相关性分析回归分析关联规则Apriori算法线性回归逻辑回归序列模式挖掘异常分析非时间序列SLIQC4.5CARTCHAID概率回归统计分析方差、极差、偏度等统计特征值异常点分析Page5时间序列决策树算法Page6•挖掘模式–预测型(Predictive)–描述型(Descriptive)•实际功能分为以下几种模式:分类:对没有分类的数据进行分类;预测:用历史来预测未来;关联分析:关联规则;聚类:物以类聚;序列模式:在多个数据序列中发现共同的行为模式;异常分析:从数据分析中发现异常情况。文本数据挖掘:从大量文字中寻找共性进行分析。二:数据挖掘方法分类介绍Page7二-1:分类算法及案例分析分类:–预测种类字段–基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类预测:–对连续性字段进行建模和预测。典型应用–信用评分–DirectMarketing–医疗诊断–性用卡欺诈判断客户ID年龄学历是否有房是否结婚变量5变量6变量7……是否欺诈训练数据119中专无11230大学有00328高中有01测试数据440大学有10518中专无11633大学无11客户ID年龄学历是否有房是否结婚变量5变量6变量7……是否欺诈需要判断的新数据727高中有0?848高中无1?934大学有1?需要的历史数据表需要判断的新业务数据表结论:可以得出ID为7的客户卡属于欺诈的可能性为90%,ID为8和9的客户不是欺诈的可能性为95%。二-1:分类算法及案例分析Page8二-1:分类算法及案例分析Page9年龄overcast学历?是否结婚?010118=2230-351001023-30决策树结论规则:第一类:年龄在18-35岁之间,学历是高中,还没有住房的人群,可能发生信用卡欺诈的概率是97%.第二类:年龄在23-45岁之间,学历是本科,有住房的人群,可能发生信用卡欺诈的概率是1%.第三类:年龄在30-55岁之间,学历是小学,无住房的人群,可能发生信用卡欺诈的概率是80%.根据规则去执行相应的措施和政策方针:一:第一类和第三类人群,不通过信用卡审批或者降低信用卡额度,增加调查力度。二:信用卡用户的营销策略,按使用情况和年限增加额度.业务主要针对此类人群宣传或者增加第二类信用卡用户的比率。二-1:分类算法及案例分析Page10行业应用:•1)城市综合环境质量评价•2)保险、医疗、信用卡等等反欺诈模型•3)客户、企业信用评级模型•4)公安犯罪预警预测•5)气候分类、农业区划、土地类型划分中有着广泛的应用二-1:分类算法及案例分析Page11Page12二-2:聚类分析及案例•簇(Cluster):一个数据对象的集合•聚类分析–把一个给定的数据对象集合分成不同的簇;–在同一个簇(或类)中,对象之间具有相似性;–不同簇(或类)的对象之间是相异的。•聚类是一种无监督分类法:没有预先指定的类别;•典型的应用–作为一个独立的分析工具,用于了解数据的分布;–聚类之后分析异常数据;–作为其它算法的一个数据预处理步骤;Page13二-2:聚类分析及案例聚类方法也常用于进行异常数据鉴别。Page14二-2:聚类分析及案例案例背景随着现代人力资源管理理论的迅速发展,绩效考评技术水平也在不断提高。绩效的多因性、多维性,要求对绩效实施多标准大样本科学有效的评价。对企业来说,对上千人进行多达50~60个标准的考核是很常见的现象。但是,目前多标准大样本大型企业绩效考评问题仍然困扰着许多人力资源管理从业人员。本案例将列举某企业的具体情况确定适当的考核标准,采用主成分分析以及聚类分析方法,比较出各员工绩效水平,从而为企业绩效管理提供一定的科学依据。Page15二-2:聚类分析及案例职工代号工作产量工作质量工作出勤工砟损耗工作态度工作能力19.689.628.378.639.869.7428.098.839.389.799.989.7337.468.736.745.598.838.4646.088.255.045.928.338.2956.618.366.677.468.388.1467.698.856.447.458.198.177.468.935.77.068.588.3687.69.286.758.038.688.2297.68.267.57.638.797.63107.168.625.727.118.198.18116.048.173.958.088.248.65126.277.9434.527.167.81136.618.54.345.618.528.36147.398.445.925.378.837.47157.838.793.855.358.588.03167.368.535.397.098.238.04177.248.614.693.989.048.07186.498.034.567.188.548.57195.437.674.223.878.417.6204.577.42.963.028.747.97216.438.384.874.878.788.37225.887.893.876.348.378.19233.946.912.976.778.178.16244.827.33.075.876.326.01254.027.262.285.639.669.07263.876.962.794.925.326.23274.157.51.564.818.448.38284.997.522.116.238.38.14表——某企业28位职工绩效考评结果Page16二-2:聚类分析及案例聚类分析结论:表中可以看到第一类别的样本的工作绩效成绩得分最高,其次是第二类别、第三类别,得分最低的是第四类别,因此,根据我们可以把最终的分类结果和计划分类结合起来,即:(1)“优秀”为第一类,包括职工1、2;(2)“良好”为第二类,包括职工3、4、5、6、7、8、9、10、11、13、14、15、16、17、18、21、22;(3)“及格”为第三类,包括职工12、19、20、23、25、27、28;(4)“不及格”为第四类,包括职工24、26。决策建议:1、针对不同的员工决定绩效工资、奖金等。2、针对不同的员工类别安排不同性质的工作。注释:数据挖据方法经常混合使用,比如这里先进行聚类分析,得出了员工绩效判别的4种方式,然后新进员工绩效考核则可以在此基础上进行分类分析,判别此员工属于哪一类型。Page17二-2:聚类分析及案例•零售业–将经常同时购买的数据项聚类到一起有利于改善商品的布置,提高销售利润。将具有相似的购买模式的顾客聚类到一起,分析每一类顾客的特征,有利于对特定的顾客群进行特定商品的宣传和销售•保险对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;•医疗分析–对一组新型疾病聚类,得到每类疾病的特征描述,一些特定的症状的聚集可能预示一个特定的疾病分类。•城市规划-根据类型、价格、地理位置等来划分不同类型的住宅;•传统制造业-成本控制社保行业中如:1、具有什么样特征的人群医疗欺诈的几率大?然后应该怎么样制定政策去应对此类人群?2、具有什么样特征的人群医疗费用高,高多少?然后制定什么样的政策去降低医疗费用高的人群的自费负担?比如当前的55岁以上人群的医保个人账户划入比例是55岁以下的高,这个年龄间隔的判断依据就是分群的分类。二-3:关联规则及案例Page18•关联规则挖掘:–在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。•应用:–购物篮分析、交叉销售、产品目录设计、赔本销售分析(loss-leaderanalysis)、聚集、分类等。•举例:–规则形式:“Bodyead[support,confidence]”.–buys(x,“diapers”)buys(x,“beers”)[0.5%,60%]–major(x,“CS”)^takes(x,“DB”)grade(x,“A”)[1%,75%]二-3:关联规则及案例沃尔玛现有五种商品的交易记录表,用关联分析方法试找出三种商品关联销售情况,最小支持度=50%。交易号商品代码代码名称1B、C、D、EA牛奶2A、B、C、EB面包3A、C、EC矿泉水4C、D、ED啤酒5A、C、D、EE尿布Page19买尿布的客户二者都买的客户买啤酒的客户二-3:关联规则及案例算法结论:第一类:30%的人群同时购买了牛奶,矿泉水和笔;第二类:20%的人群同时买了尿布、啤酒;而在买尿布的人群中40%的人同时买了啤酒。业务调查和分析:1、第一类不合理。牛奶和矿泉水本身都属于饮品类,功能不同,给消费者的感受也不同,当需求不同时,买矿泉水的人可能不会再去买牛奶,因为矿泉水比牛奶更能达到解渴的效果。2、按常规思维,尿布与啤酒风马牛不相及,产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而他们中有30%到40%的人同时也为自己买一些啤酒。决策建议:把啤酒和尿布放在靠近的位置出售,达到的效果:此后两者的销售额都提高了2-3倍。Page20二-3:关联规则及案例行业案例:1)超市产品组合分析(产品的互相摆放和针对性销售);2)读者行为分析,书籍推荐(如互联网京东、淘宝上的各种产品的推荐);3)保险行业的保险产品推荐。Page21二-4:时间序列分析及案例时间序列分析:描述时间序列数据随时间变化的数据的规律或趋势,并对其建模。包括时间序列趋势分析、周期模式匹配等。例如:通过对交易数据的演变分析,可能会得到89%情况股票X上涨一周左右后,股票Y会上涨这样一条序列知识。历史往往是重复过去的故事加上一定的变化规律。应用场景:预测未来。Page22一次指数平滑(例题分析)Page23一次指数平滑(例题分析)二-4:时间序列分析及案例案例:某企业1992年~2006年的销售收入时间序列如下表所示.试用时间序列算法预测2008年的销售收入,并计算预测的标准误差。时间19921994199619982000200220042006销售收入(万元)50000.860574.687306.9120649.8139241153772201816231892.7Page24二-4:时间序列分析及案例050000100000150000200000250000300000350000400000929496980002040608ZZTZZTSM06结论:2008年的预测值为261840万元,公司可以根据预测收入来进行下一年政策的调整和各种财务预算的调整工作。Page25二-4:时间序列分析及案例行业案例:可用于任何行业时间序列数据。各种保险基金收支结的预测股票价格和波动预测厂家的材料、成本、销售额等预测航班旅客成行率的预测中国年底总人口预测中国城镇人口预测中国GDP的预测(不变价格)中国航空运输年度总周转量的预测中国航空运输月度总周转量的预测Page26二-5:回归分析及案例Page27回归分析是对具有因果关系的影响因素(自变量)
本文标题:数据挖掘算法及软件介绍
链接地址:https://www.777doc.com/doc-2333583 .html