您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 金融行业数据挖掘技术
金融行业数据挖掘技术应用论坛数据挖掘讨论组朱建秋zhujianqiu@hotmail.com一、一、简介“金融行业数据挖掘技术应用论坛”由中国电子信息产业发展研究院(CCID)和其旗下赛迪集团战略数据资源管理中心主办,北京赛迪数据有限公司负责具体承办,2002年11月25日在北京新世纪饭店召开。二、二、会议纪要1.1.会议内容1)1)数据挖掘技术与金融分析内容数据仓库结构与技术数据挖掘技术评分系统在金融决策中的应用数据挖掘用于评分系统主要观点:(1)(1)数据仓库是适合知识发现的过程的结构。数据仓库的处理过程是从“数据清理/整合——数据仓库——数据选择——数据挖掘——模式评价——知识”不断循环的过程(注:类似Fayyad96年提出的数据挖掘过程模型)。(2)(2)将数据仓库和挖掘的结构划分为四个层次:第一层是数据层,第二层是多维数据库层MDDB,第三层是OLAP和OLAM,第四层是用户界面。(注:类似HanJiawei的OLAM体系结构)(3)(3)数据挖掘过程包括:数据选择,数据转换,数据挖掘,数据解释。(4)(4)数据挖掘的方法:联想,划分,聚类,预测,顺序模式,相似时间序列。(5)(5)数据挖掘的科学方法数学工具:统计学,决策树,神经网络,模糊逻辑,线性规划。(6)(6)个人信用评分系统是将个人信用的历史(六个月以上)经过45至65个因素的刻划后表述的决策模型。通常个人信用评分为350至850之间。每人从850分起,有坏帐记录,即扣去不同比例的分数。经过评分模型的分析,最后得到决策评分。(850为最好)(7)(7)评分因素:过去的付帐历史、信用欠帐量、信用卡使用时间、新信用卡的申请、信用卡的类、信用卡交易情况、现金提取情况(8)(8)应用前景:银行各类信贷风险分析,企业和个人信用风险分析2)2)如何利用数据挖掘工具协助进行市场营销内容数据挖掘的定义IBM数据挖掘的解决方案在金融行业的应用主要观点:(1)(1)强调了数据挖掘过程,首先必须明确需要解决的商业问题。(2)(2)IBM有从数据库到最上层的挖掘工具的一整套商业智能解决方案。(3)(3)在银行应用的层次:信用评分,购物篮分析,区隔分析,交叉营销/向上营销,客户流失,客户价值。(4)(4)讲解了LiftChart图的含义3)3)数据挖掘在金融行业的应用趋势分析内容数据管理技术的挑战结构化数据挖掘应用非结构化数据挖掘应用金融行业数据挖掘应用趋势主要观点:(1)(1)八十年代初,银行自动化建设,九十年代初银行网络化建设阶段,九五末期,数据大集中。(2)(2)2002年上半年金融行业IT应用特点:数据大集中平稳进行,“银联”改善信用卡环境,电视会议扩大应用,个人理财系统成为新焦点,农信社信息化市场升温,无线局域网开始应用。(3)(3)结构化挖掘原理:从现有业务系统中抽取数据(业务数据、客户数据),建立深层次的分析体系(数据仓库、数据集市、业务分析模型),以信息驱动业务的管理、新一代电子商务企业(市场触觉敏感、以客户为中心、以信息驱动)。(4)(4)一个比喻:数据仓库和数据挖掘好比一个大的厨师烧菜,开始需要选择原料,然后,将各种原料加工完毕(洗、切、剁等等),分门别类的放在厨房,这时候厨房就象数据仓库。厨师根据这些原料做出菜肴,就象数据挖掘得出有意义的知识。(5)(5)结构化数据挖掘内容:(6)(6)非结构化数据挖掘的意义:企业战略规划的制定和战术方案的实施离不开对于海量非结构化数据的挖掘和现有知识的管理!(7)(7)非结构化数据挖掘在企业竞争情报系统的应用,企业竞争情报系统将成为下一个数据挖掘应用的热点。(8)(8)金融行业数据挖掘应用趋势,在数据集中的平台上,结合结构化和非结构化数据挖掘技术,部署企业的商业智能、客户关系管理、市场销售分析、竞争对手分析、市场需求动向等。4)4)用友金融行业财务管理解决方案黄伟先生一上来演示了一个FLASH游戏,在多张不同花色的牌中,让观众记住一张牌,说明他能够知道所有人记住的是什么牌。然后,他抽去一张牌,再打开其他的牌,观众所记住的牌已经都不在了。原因很简单,他换去了所有牌的花色,造成一种错觉。黄伟先生用这个游戏说明,错觉往往带来错误的决策,引申开来,数据挖掘需要有正确的数据,才能进行深入的挖掘。介绍了用友集中式的财务管理解决方案,说明必须先收集这些重要的财务数据,才能进行更深入的挖掘。5)5)CA数据管理技术行业应用解决方案讲解了CA公司的情况,以及CA的商业智能解决方案,特出了CA自己研制的一种预测技术。6)6)透过数据挖掘改善客户服务中心的管理讲解了一些数据挖掘概念性的东西,并举出了那个经典的“啤酒-尿布”的案例。人事、财务生产、销售客户资料数据仓库抽取过滤转换市场需求客户忠诚度客户等级客户销售模型分析7)7)金融信用决策的技术突破——数据挖掘的应用引言信用周期一般介绍信用决策的简化流程信用决策技术解析信用决策技术的几个例子信用决策技术带来的利益中国运用信用技术的可行方案主要观点:(1)(1)抵押贷款有很多缺点,信用贷款都能弥补,所以信用贷款是好的,是趋势。(2)(2)信用周期(CreditLifeCycle):(3)(3)信用决策简化流程招商AccountAcquisition立户AccountOrigination信用决策管理CRM信用风险,市场管理(Risk&Marketing)付帐管理(Billing&Remittance)信用量管理(LineIncrease&LineDecrease)超支管理(Overlimit)离走管理(Attrition)促销管理(Promotions)定价管理(Pricing)再授信(Reissue)……资信金融Securitization收帐Collection&Recoverary(4)(4)传统的决策制定中心是主观制定决策(JUDGEMENT),主观决策存在一些不足,数据挖掘给决策技术带来了突破。数据挖掘是从广义的角度讲的,包括统计、机器学习、神经网络等等。(5)(5)预测解析(PredictiveAnalytics):信用评分技术(CreditScoring)。内在理解分析(ExploratoryAnalysis/KDD):模块识别和相关性分析。决策建模(DecisionModeling):通过图论方法建立模型,对于给定的一个或多个决策建立数学关系。策略优化(StrategyOptimization):在给定的一些限制条件下,寻找改进利润的最优策略解。策略精调(StrategyRefinement):精调最优策略解,使其稳定可靠,易理解、易执行。(6)(6)预测解析:针对不同的信用周期阶段和不同的商业目标,建立模型招商:依据风险的招商模型,申请模型,价值模型和响应模型。立户:风险(坏帐,破产等),离走和利润定量等。用户管理:分档系统,风险预测系统,坏帐、破产预警系统,债量预测模型,利润预测模型,欺诈预测模型等。收帐:前期收帐,后期收帐等。总体:损失预测,营利预测,最优组合建立,阶梯变坏率预测,等外部内部数据管理DataMGMT执行系统StrategyExecution顾客或潜在顾客作用于Action反馈及信息收集Reaction数据挖掘预测解析内在理解决策建模策略优化策略精调外部内部数据管理DataMGMT决策制定中心执行系统StrategyExecution顾客或潜在顾客作用于Action反馈及信息收集Reaction等。(7)(7)内在理解分析一般理解分析:变量的相互关系。工具——因子分析、主成分分析、聚类分析、关联规则等。特殊理解分析:对给定目标,寻找贡献或影响的变量。工具——FISHER显著性检验、参数估计、线性/非线性/LOGISTIC回归、神经网络、决策树等。(8)(8)决策建模:对于1个或几个决策建立图论模型。从而建立起他们之间的数学关系。如下图所示:假设,β、Φ、μ分别记作利率、信用量、债务,则R(收入)=F(X1,…,Xn,β,Φ,μ)L(损失)=F’(X1,…,Xn,β,Φ,μ)C(费用)=F’’(X1,…,Xn,β,Φ,μ)最大利润=R(收入)max(β,Φ,μ)-L(损失)min(β,Φ,μ)-C(费用)min(β,Φ,μ)(9)(9)优化决策和决策精调:坏帐模型离走模型当前债务利率调整信用量调整债务转移收入利润损失和费用(10)(10)信用评数技术:例子——对偶模型(11)(11)信用决策技术利益:减少坏帐;增加利润;效率提升,开销缩小;策略的公平性和一贯性得以保障。(12)(12)中国的可行方案逐步建立完整的数据库人员培训(预测建模技术,决策建模技术,策略设计技术)逐步建立决策系统这篇演讲是非常有价值的,所以我将其详细的整理出来。无论对于研究数据挖掘或金融模型的学者/学生,还是从事实际项目设计的工程人员,都有非常高的参考价值。三、三、结语在短短的三个半小时内,能够组织这样一个规模大、内容丰富、偏重应用的论坛,赛迪是功不可没高中低高中低高中-2%$1000.00$2000.00-2%$2500.00$3000.000%$0.00$0.002%$-2000.00$0.00坏帐分数离走分数当前债务利率调整信用量调整债务转移优化决策和决策精调数据人工神经网络统计模型信用分数合成输出的。一些可以探讨的概念和思路:1.1.数据挖掘的定义在提到数据挖掘的时候,一些书或者文献都要强调它与统计和OLAP的区别。我觉得应该从更广义的概念上来理解数据挖掘,它是一门跨越多个学科的技术,只要能够从数据发现有意义的模式,都可以称为数据挖掘。2.2.数据仓库和数据挖掘的关系很多人一讲数据挖掘,首先必须讲数据仓库。数据挖掘是从大量的数据中发现有意义的模式。大量的数据并不一定是来源于数据仓库。因为,这样会造成一种误解,进行数据挖掘项目,一定要先建立数据仓库。另一方面,数据仓库的结构,其实并适合进行数据挖掘分析,因为我们都看到,大部分数据仓库的结构采用星型或雪花型数据模型,这些数据仓库其实是为OLAP建立的,更适合进行OLAP的多维分析,而要从事数据挖掘项目还需要将数据转换成数据挖掘算法能够识别的数据结构。数据仓库为数据挖掘所做的,应该从数据整合和清洗的角度来理解。也就是说,数据仓库将不同操作源的数据存放到一个集中的环境中,并且进行适当的清洗和转换。这点上面李峻博士所举的厨房的例子是一个贴切的比喻。数据挖掘所需要的数据,能够直接从数据仓库获得,但是获得后还是需要进行转换,如果没有数据仓库,就需要直接从操作型数据源中获取,并且要进行ECTL(抽取、清洗、转换、装载)的操作。因此,没有数据仓库也是能够进行数据挖掘项目,数据仓库的结构不是为数据挖掘设计的,它更适合OLAP操作。3.3.国内的数据挖掘项目现状国内的金融行业真正从事数据挖掘项目的不多,这从论坛的国内报告能够看出。报告的内容主要还是“看——想——说”的步骤。也就是说,看一些资料/文献/书,再从目前的情况中展开联想,最后将这些整理的想法形成方案,并报告(说)出来。我们非常希望,在以后的应用论坛上,能够象林博士举国外的信用决策的例子一样,来讲国内的数据挖掘案例。从而作到“看——想——做——说”。4.4.金融行业如何从事数据挖掘项目林博士的“中国信用决策的可行方案”是比较贴切的,除了信用决策,对于其他已经积累了很多业务数据的系统,都可以参考。利用数据挖掘技术,构建决策系统,使得决策来源于数据,而不仅仅是主观判断(JUDGEMENT)。金融行业的数据挖掘研究,需要多方面的人员的共同参与,包括领域专家、数据管理员、数据分析人员、业务分析人员、数据挖掘专家,形成一个团队,从某一个实际的问题出发,摸索适合自己企业的一套研究和开发方法,逐步建立起企业的模型库。因此,这些需要得到最高决策管理层的认可和参与,因为模型的结果需要报告给决策管理层,并且使得他们能够理解,从而作出相应的决策。Gartner的调查报告预
本文标题:金融行业数据挖掘技术
链接地址:https://www.777doc.com/doc-252184 .html