您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 保险行业大数据应用系统建设
保险行业大数据应用系统建设贾旸提要:分析大数据在保险领域的关键应用场景,结合大数据技术对传统数据服务架构带来的影响变化,提出系统架构的改造设计,并对保险领域的大数据系统建设方法提供建议和思考,以促进保险公司在客户洞察、市场洞察、运营洞察等方面的能力提升。关键词:大数据,应用场景,系统架构,建设方法一、引言随着互联网发展,自2009年开始全球数据每年增长50%,每两年就会增长一倍,目前世界上90%以上的数据是在最近几年产生,海量数据的快速产生和积累使“大数据”成为当下最流行的IT词汇。大数据概念的不断深入正在对商业领域引发出一系列的营销、管理和思维变革,在互联网行业、金融行业、电信行业、政府等越来越多的领域中逐渐得到应用,比如亚马逊利用用户行为分析推出个性化营销,百度和腾讯分别依托搜索和社交数据分析实现精准营销,阿里巴巴根据用户信用分析实现自动小额信贷服务,等等。大数据应用的快速发展,给保险行业发展带来了很多启发和契机,同时也给各家保险公司带来更大的竞争压力,需要我们尽快加入到这场现代科技竞赛中,只有跑得更快才能创造更多赢得对手的机会。二、大数据概念及技术研究机构Gartner对大数据的定义是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。百度对“大数据”的定义是巨量资料,所涉及的资料规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的主要特征体现在四个方面:海量化,目前全球数据总量应经达到ZB级,企业级数据正在从TB级发展至PB级,数据容量的增速远远超过摩尔定律;多样化,数据类型已从传统的结构化数据概念拓展到半结构化和非结构化数据,后者开始占据主流地位,如文本,音频,视频,点击流量,记录文件等,占全球数据总量的80%以上;快速化,数据分析和处理速度快,如1秒定律,一般要在秒级时间范围内给出分析结果,时间太长就会失去价值;价值化,价值密度低但商业价值高,以视频为例,连续不间断监控过程中可能有用的数据仅仅有一两秒,但此类信息大量汇集分析后所带来的经济价值将是巨大的。面对大数据的出现,传统数据仓库处理技术遇到问题,比如:1、数据移动代价高。传统的数据仓库构建需要经过四个过程,数据源经过ETL工具(抽取、转换、装载工具)抽取到数据仓库,再按照星型模型或雪花型组织数据,之后由OLAP工具将数据生成多维立方体,最终立方体的数据或仓库的数据供查询分析应用使用。随着数据规模的增大,数据在各阶段的移动时间将可能呈数量级增长,无法适应大规模数据处理。2、快速适应变化难。传统的数据仓库需要相对稳定的数据模型,任何模型的变化都需要重新加载和计算数据,导致处理周期长、适应变化慢。但在大数据时代,数据分析将广泛应用到各个业务场景中,时刻面临着新的业务,传统模式将难以适应需求的不断变化。3、数据类型支撑有限。目前关系型数据库主要支持的是结构化数据,对于半结构化和非结构化数据不能进行有效使用,大大限制了可利用和挖掘的数据范围。4、投入成本较大。由于数据量迅猛增加,需要传统数据库具有良好的线性扩展性和MPP架构,而提供该种能力的数据仓库产品价格高昂,当服务器节点随数据量不断增多时,将导致成本的急剧上升。针对上述问题,新的技术开始涌现。最具代表性的是Hadoop技术,是由Apache基金会所开发的一个分布式系统架构,具有线性扩展能力、高可靠性、高容错性等特点,能够在低廉硬件上支撑海量数据。Hadoop技术包括诸多元素,其中几个主要元素包括:HDFS,是分布式文件系统(HadoopDistributedFileSystem),用于存储数据,提供高容错性、高传输率访问数据,适合超大数据集应用;MapReduce,是一种计算模型,用于大数据量计算,通过Map和Reduce两个步骤实现对数据的处理;Hbase,是针对结构化数据、面向列的动态模式数据库,提供对大规模数据的随机、实时读写访问;Hive,是建立在Hadoop之上的数据仓库架构,提供ETL、数据存储管理和大型数据集的查询和分析能力;Pig,是对大型数据集进行分析、处理和评估的工具,类似于传统数据库中的执行计划步骤内容。三、大数据应用场景分析大数据主要应用于客户洞察、市场洞察、运营洞察等方面。在客户洞察方面,可以通过对海量客户服务信息流数据的捕捉及分析,提高服务质量,同时可利用各种服务交付渠道的客户数据开发新的预测分析模型,实现对客户消费行为模式分析,提高客户转化率。在市场洞察方面,大数据可以帮助分析历史数据,寻找其中的创新机会。在运营方面,大数据可协助提高风险透明度,加强风险的可审性和管理力度,同时也能帮助优化业务流程、提高业务效率、降低业务成本。结合对行业大数据应用的分析,提出如下几个应用场景供参考和启发。1、客户发现。运用大数据分析全面了解客户保险需求,发现更多的营销机会和更准确的目标客户。客户保险需求主要受四方面影响:一是客户面临的风险,通过客户年龄、职业、爱好、习惯、家庭结构、医疗、养老、子女教育基金储备等信息,分析客户面临的风险及风险程度,形成客户风险数据集;二是客户的风险偏好,通过客户对待风险的态度、行为等信息,分析客户的风险偏好,形成客户风险偏好数据集;三是客户的收入水平,通过客户的网络交易、消费行为等信息,分析客户的收入水平,形成客户收入水平数据集;四是客户的保险认知程度,通过客户的职业、学历、教育背景、爱好、保险状况等数据,形成客户的保险认知度数据集。每个数据集背后都有未被发现的潜在价值,数据集间的交集情况反映了客户对保险需求的需要程度,有助于更准确锁定目标客户群。在上述过程中,客户数据获取是难度较大、复杂性较高的部分,需要公司拓宽客户接触渠道和机会,为大数据应用创造数据基础。2、产品定价。利用对客户风险等级的大数据分析,实现产品价格的细分,使风险级别低的客户支付较低保费,风险级别高的客户支付较高保费,通过差异化的产品定价,一方面可提高保险产品在市场上的吸引力和竞争力,使低风险人员避免为高风险人员分担不必要的保费,另一方面将有助于提高公司的盈利水平。比如淘宝的运费保险,起初采用统一定价亏损严重,之后将定价改为根据每笔交易的买家习惯、卖家习惯、商品品种、商品价值、促销活动等信息来相应确定保费价格,使风险和保费相匹配,亏损局面得到扭转。3、理赔加速。通过大数据的预测分析,增强欺诈监测能力,实现理赔的快速处理。保险公司为预防欺诈带来的损失,一般需要至少数天时间来进行理赔处理,使信誉良好的客户无法获得快速理赔服务。通过大数预测据分析,可以对不同赔案的理赔风险等级进行识别,从而使低风险赔案得到快速处理,使高风险赔案被有效识别降低诈骗损失。目前南非最大的短期保险提供商Santam成功利用该技术将理赔时效从3天降低到一小时内完成,并及时发现了保险诈骗团伙的索赔欺诈。4、语音服务。呼叫中心的录音数据是典型的非结构化数据,也是典型的“大数据”。除了存储备用和人工质检调听外,海量数据几乎成为沉没数据。目前通过语音识别技术和大数据技术结合,对海量语音数据的处理和分析正在为呼叫中心的录音自动质检、话务量结构分析、话务异常原因分析、客户流失原因分析、业务热点趋势分析等提供全面支撑。四、大数据应用系统架构目前保险公司在支持结构化数据的分析应用方面,基本已建立起一套数据服务架构。为支持半结构化和非结构化数据类型、支撑海量数据分析,还需要结合大数据相关技术,对现有技术架构进行改造调整。下图b是经分析后提出的调整后架构示意图,图a是传统的数据服务系统架构简图。数据源核心业务系统MIS系统财务系统呼叫中心语音文档数据社交数据数据ETL处理SSIS工具等传统数据仓库ETL工具数据仓库存储传统关系型数据库HDFS文件系统\Hbase数据库数据应用客户分析风险分析运营分析市场分析即席查询数据源核心业务系统MIS系统财务系统数据ETL处理SSIS工具等传统数据仓库ETL工具数据仓库存储传统关系型数据库数据应用客户分析风险分析运营分析市场分析即席查询数据分析OLAP多维数据库\多层汇总关系型数据库MapReduce\Hive\Pig数据分析OLAP多维数据库\多层汇总关系型数据库调整前后的架构主要区别在于引入了Hadoop大数据处理技术,在数据存储方面增加了HDFS对分布式文件数据的存储管理以及Hbase对海量结构化数据图a现有数据服务架构图b调整后数据服务架构的存储管理,在数据分析方面增加了MapReduce、Hive和Pig等对上述存储数据的计算和分析。架构具体变化体现在三个方面:一是数据源范围扩充,增加了半结构和非结构化数据来源,包括呼叫中心记录的语音数据、客户社交数据、各类文档数据等,尽可能充分利用公司各类数据产生商业价值;二是数据存储增加了HDFS、Hbase等工具管理海量数据,实现管理随数据增长的线性扩展能力;三是数据分析过程发生了变化,采用MapReduce、Hive、Pig等技术对Hadoop数据进行分析计算。调整后的架构将采用Hadoop与传统数据库技术相结合的方式共同支撑公司数据应用,结合模式可视实际需要灵活掌握,如根据数据类型不同进行分工合作,由传统技术处理结构化数据,hadoop技术处理其他类型数据;或者两种技术混合使用,将传统数据库数据导入Hadoop中进行处理,借助Hadoop提升对大规模数据的处理能力等。五、大数据建设方法思考保险公司拥有大规模数据,结构化数据可达数百TB,再加上语音、文档、网站等各类数据以及每日不断产生的新数据,数据规模将会快速向PB级演变。面对大量的数据资产,保险公司需要紧跟技术发展步伐,充分挖掘数据中蕴涵的商业价值,应对日益严峻的市场竞争。对于保险公司的大数据应用建设方法,提出以下几方面思考:1、大数据应用不仅需要具有大数据处理技术,更需要公司整体布局,建立数据生态。在大数据时代,大数据不仅是一种驾驭数据的能力、一类处理数据的技术,更是一种看待数据的思维意识、思维方式,数据正在成为重要的生产资料、巨大的经济资产、新世界的矿产与石油。保险公司需要顺应趋势转变思维,建立大数据驱动发展的思维模式,从战略高度关注大数据布局,建立从数据获取、数据整合到数据使用的完整链路,这需要业务、数据、服务三者的协同配合,通过扩大业务范围搜集更多的客户数据;通过提升数据组织和处理能力整合更多的可用数据;通过充分运用到服务中促进提升客户体验、为公司业务创造更大价值,发挥数据的巨大能量。因此,大数据布局需要将业务、数据、服务三者结合起来统筹考虑、整体规划,打造数据生态圈。2、大数据应用作为新兴技术,从研究到使用需要经历一个过程,应按照循序渐进方式开展相关工作。根据IBM研究,大数据应用建设分为四个阶段:一是教育,需要让大数据的重要性和必须性得到充分认识;二是探索,主要探索大数据到底怎么应用;三是接触,从实际的角度去思考怎么应用大数据;四是执行,真正把大数据结合到业务流程里去。大数据的建设不是一蹴而就,重在实践和迭代发展,在起步阶段可以结合具体痛点问题展开,在不断积累经验后逐步扩大应用范围。3、大数据建设的关键是高质量的数据基础,没有数据质量就没有一切,只有高质量的数据才能为企业带来价值。面对数据来源广、信息种类杂、质量参差不齐的情况,需要在建设大数据的同时关注数据治理,一是建立数据规范化标准、数据分类标准、数据定义标准、质量衡量标准等;二是建立用于监控数据从获取、存储、分析、到运用的质量监控体系;三是建立数据问题从检查、反馈到修改的质量改进流程,使问题能够得到及时发现和根本解决。4、大数据应用从数据获取、挖掘到运用是一个复杂的、跨部门、跨领域的过程,需要各类专业人员共同协作完成,可考虑组建由多个部门联合参与的大数据研究团队,专门研究大数据带来的销售创新和服务创新,提供大数据应用服务。另外在人才队伍建设方面,一是要加快现有人员的培养,拓展在业务、大数据技术、统计方法上的技能;二是加强与大数据技术领先的互联网公司合作,借鉴先进经验加快人员经验积累;三是加快人才引进,吸引市场上高端的数据
本文标题:保险行业大数据应用系统建设
链接地址:https://www.777doc.com/doc-5469774 .html