您好,欢迎访问三七文档
数据挖掘:概述什么是数据挖掘?数据挖掘是近年来[1]从统计学和计算机科学(机器学习和数据库技术)交叉而来的新词汇,应用于科学、工程和商业领域中的大型数据库数据挖掘处正在变动和发展过程中,有很多数据挖掘的定义,也有很多关于数据挖掘是什么和不是什么的讨论。本课用的术语并不是标准的,例如:偏差、分类、预测、特征=自变量、目标=因变量、事例=范本=行[1]第一次关于数据挖掘和知识发现的国际会议于1995年召开广义和狭义的数据挖掘定义广义的数据挖掘定义包括传统的统计学方法;狭义的定义则强调自动和启发式方法数据挖掘、数据捕捞、无特定目标的搜索数据库中知识发现(KDD)我喜欢的(定义)“大规模和快速的统计学”——DarrylPregibon本人对上述定义的扩展:“大规模、快速的、简明的(统计学)”Gartner小组(的定义)“数据挖掘是用模式识别、统计学、数学等方法过滤存储在数据库中大量的数据来发现新的、有意义的关系、模式和趋势的过程。”(数据挖掘产生的)驱动力市场因素:从关注产品/服务到关注客户信息技术:从关注最新的收支差额到关注交易模式-数据仓库(DW)-联机分析处理(OLAP)存储费用大幅度下降:(因此产生了)巨大的数据库。例如,沃尔玛2千万交易/天,10万亿字节的数据库;BlockBuster(全球最大的音像制品连锁租赁公司):(有)3千6百万家庭(的数据);交易数据可自动获取。例如:条形码、POS机、鼠标点击、位置数据(GPS、移动电话)因特网:个性化的交互、纵向的数据核心学科统计学(随着21世纪数据规模和处理速度的要求而改变)。例如:-描述上:可视化-模型:回归、聚类分析机器学习。例如:神经网络数据库检索。例如:关联规则平行的发展:决策树、k-最近邻、OLAP-EDA(联机分析-电子数据交换)数据挖掘过程1、理解应用和目标;2、得到研究用的数据集(通常来自数据仓库);3、数据清洗和预处理;4、数据降维和投影;5、选择数据挖掘任务;6、选择数据挖掘算法;7、用算法完成任务;8、解释结果,如果需要重复步骤1-7;9、配置:集成进运作的系统。数据挖掘SEMMA方法论(SAS)S:从数据集中抽取样本,分成训练集、验证集和测试集E:通过统计及图示等方法探究数据集(隐含的规律)M:修正:变量转换、填补数据缺省值M:模型:建立合适的模型,如回归、分类树、神经网络A:评估:用验证、测试数据集来检验模型应用示例客户关系管理财务分析电子商务和互联网客户关系管理目标市场流失预测/流失分析欺诈检测信用评分目标市场商业问题:使用潜在客户列表进行直邮活动解决方案:人口、地理数据结合过去购买行为数据,用数据挖掘识别确定最有希望的回应者收益:更高的回应率、节约活动费用例子:Fleet金融集团重新设计客户服务结构,包括在数据仓库和营销自动化方面投资了3千8百万美元从1千5百万客户中抽取的2万个样本,并用Logistic回归去预测对房屋资产贷款(home-equity)产品回应的概率用CART方法去预测有利可图的客户,和及时响应也无利可图的客户;流失分析:Telcos公司商业问题:防止客户流失,避免增加倾向于流失的客户解决方法:用神经网络、时间序列分析方法确定典型的易于流失和背叛的顾客的电话使用模式收益:保持并更有效的促进客户例子:法国电信建设流失/客户档案系统作为主要客户的数据仓库解决方案的一部分基于客户特征的预防性的CPS(客户流失预防系统),是从已知的易于流失和非易于流失的客户的例子来确定易于流失的客户的重要特征早期的CPS系统用与已知的、易流失的客户的例子相匹配的模式欺诈检测商业问题:欺诈增加成本,或减少收益解决方法:用神经网络、Logistic回归去确定欺诈性例子的特征,以便将来防止(类似事情发生)或更有力的检举收益:通过减少不理想的客户来增加收益;例子:马萨诸塞州汽车保险局通过专家细察过去的、关于保险理赔的报告去确定欺诈的例子;关于原告、事故类型、伤害类型/处理措施的一些特征(超过60)都编入数据库;用降维方法去获得带有权重的变量。多元回归分步子集选择方法去识别和欺骗强关联的特征;风险分析商业问题:降低由于客户的过失而造成的贷款风险解决方法:用判别分析方法于信用评分模型去构造可以区分有风险的客户的评分函数收益:减少呆帐费用财务商业问题:公司债券的定价依赖于几个因素:公司的风险情况、债务时间的长短、红利、以前的历史等解决方法:通过数据挖掘方法找出更准确的价格预测模型电子商务与因特网协同过滤从点击率到客户推荐系统商业机会:在网络上的用户评级(Amazon.com,CDNOW.com,MovieFinder.com)。怎样用其它的客户的信息来评价一个特殊的用户解决方案:用一种协同过滤的技术收益:增加横向销售、进阶销售等的收入用户点击商业问题:50%的Dell计算机订单是在网上下达的,然而,保持率是0.5%,也就是0.5%Web页面的浏览者成为了客户解决方法:通过一系列的点击,聚类用户并设计网站,使最终购买的客户数量最大化收益:增加收入正在形成的主要的数据挖掘应用垃圾邮件生物信息学/基因组学医疗的历史数据——保险索赔电子商务的个性化服务射频标签:Gillette安全:-集装箱运输-网络入侵检测核心概念数据类型:-数值型:连续的,包括比率和区间型离散的需要分箱的-类别的有序的名义的-二值的过拟合与泛化正则化:对模型复杂性的惩罚距离度量维数灾难随机和分层抽样、再抽样损失函数过拟合的回归例子数据挖掘的典型特征标准的格式是电子数据表:-行:观察单元;列:变量许多行和列许多行有适度的列,如电话记录许多列有适度的行,如基因组学机会主义(通常是交易处理的副产品)-不是来自设计的实验-经常有异常点和缺失数据;课程中讨论的题目有指导的技术:-分类:k-最近邻、朴素贝叶斯、分类树;判别分析、Logistic回归、神经网络-预测(估计):回归、回归树、k-最近邻无指导技术:-聚类分析、主成分分析-关联规则、协同过滤
本文标题:数据挖掘概述
链接地址:https://www.777doc.com/doc-5325896 .html