您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 大数据时代应急数据质量治理研究
●郭路生,刘春年(南昌大学管理学院,江西南昌330031)大数据时代应急数据质量治理研究Researchonqualitygovernanceofemergencydatainthebigdataera摘要:[目的/意义]为了解决大数据时代应急数据质量问题,支撑基于大数据的应急管理和智能决策。[方法/过程]首先定义了应急数据质量维度,然后分析了应急数据质量的现状和原因;重点探讨了应急数据治理的措施。[结果/结论]应急信息环境是一种复杂的大数据环境,数据质量低下,需要采用与大数据特点相适应的治理措施。在管理上,需要提高战略认识,建立大数据治理的组织、机制和标准,采用全生命周期的质量管控方法;在技术上,采用适应大数据的EA管控、元数据管理、主数据管理和数据质量监控等手段。关键字:数据质量;数据治理;大数据;EA;元数据管理;主数据管理Abstract:[Purpose/Significance]Tosolvetheproblemofemergencydataqualityinbigdataera,supporttheemergencymanagementandintelligentdecisionbasedonbigdata.[Method/Process]First,Dimensionofemergencydataqualityisdefined,thenthepresentsituationandcauseofemergencydataqualityareanalyzed,andthemeasuresofemergencydatagovernancearediscussed.[Result/Conclusion]Theemergencyinformationisacomplexbigdataenvironment,thedataqualityislow,anditneedstoadoptthemeasuresofdatagovernancewhichfitthecharacteristicsofbigdata.Inmanagement,needtoimprovedataqualityconsciousness,toestablishtheorganization,mechanismandstandardofbigdatagovernance,andtousethequalitycontrolmethodinwholedatalifecycle;intechnology,needtouseEAcontrol,metadatamanagement,MDM,dataqualitymonitoringandothermeanswhichfittothebigdataenvironment.Keywords:dataquality;datagovernance;bigdata;EA;metadatamanage;MDM;本文系国家自然科学基金项目“农业数字防灾减灾资源规划机理分析与系统实现:基于EA和Ontology的研究”的研究成果,项目编号:71363044。1引言应急信息环境是一种跨部门、复杂的信息环境。随着计算机技术和网络技术在应急领域的广泛使用,产生了海量的监测与监控信息、事件信息、交互信息、地理信息,这些数据已达到PB级别;同时具有突发性、异构性、分布式、动态性、及时性、不完全性等特点,符合大数据的特征,是一种典型的大数据。大数据技术的兴起为基于大数据的应急管理和智能决策提供了可能[1,2],然而数据质量问题却成了大数据应用的“拦路虎”。没有高质量的大数据将对决策产生误导,甚至产生有害结果。据估算,数据错误每年造成美国工业界经济损失约占GDP的6%,98000名患者丧生,50%的数据仓库因数据质量而取消或延迟[3]。高亮认为:“数据治理是保证数据质量的必需手段,从全球范围来看,加强数据治理提升数据质量已成为企业提升管理能力的重要任务[4]”。因此研究大数据时代应急数据质量治理具有重要的意义。宗威认为数据质量是有效分析和利用大数据的前提,大数据时代给数据质量的保证提出了新的挑战[5]。王宏志认为由于大数据具有规模大、速度快和多样性的特点,现有的方法难以适用于大数据质量治理,并提出大数据清洗的技术方案[3]。胡志伟[6]和王伟[7]均认为应建立一套大数据质量的治理机制,建立规范的数据标准和数据质量控制机制才能提高数据的质量。这些研究对大数据的数据质量治理进行了有益的探究,但总体来说研究较少,特别还没有看到针对应急领域的大数据质量方面的文献。本文将对大数据时代应急领域的数据质量的现状与问题进行分析,探索应急数据质量治理的措施,为基于大数据的应急决策提供支撑。2大数据时代应急数据质量的挑战与原因2.1数据质量与数据质量的评估维度的定义“数据质量”是指数据资源满足用户使用要求的程度,即“fitforuse”[8]。用户需求不同,数据质量的要求也不同。应急管理需要跨部门、跨警种的业务协同,需要跨部门的信息集成共享,为了实现信息的集成共享,对数据质量的规范性、一致性、唯一性和完整性有较高的要求;突发事件具有突发性和动态性,要求及时决策和响应,对数据质量的及时性和可用性有要求;突发事件具有危险性,错误的或不准确的数据将导致错误的决策,甚至带来更大的灾难,因此对数据质量的正确性和准确性有要求。综合应急信息的需求,参考Dinette的数据质量十二个维度[9],应急数据质量的评估维度定义为:数据规范性、唯一性、完整性、一致性、准确性、集成共享性、及时性和可用性。2.2应急数据质量的挑战与原因2.2.1应急数据质量的挑战政府是信息资源的主要拥有者,约80%的信息掌握在政府手中。我国的应急管理采用分灾种、分部门的应急模式,各个部门以自己为中心建设了大量的信息系统,产生和收集了大量的数据,但同时也存在着大量的数据质量问题,主要表现在:⑴存在大量的信息孤岛,难以共享,难以跨部门访问;⑵各部门重复采集,信息系统中的数据大量重复,且不一致、不完整现象明显。⑶应急数据的真实性、准确性不高。⑷业务操作人员对数据质量缺乏足够重视,重建设,轻管理现象明显。2.2.2应急数据质量问题产生的原因影响数据质量的原因有多种,既有技术因素,又有管理因素[10]。一般说来,影响应急数据质量的因素主要有:⑴缺乏总体规划,没有统一的数据标准。我国应急管理是一种“分部门、分灾种”的应急模式,缺乏跨部门的信息资源的总体规划,各部门各自为政,重复建设。由于采用了不同的元数据、分类和编码标准,形成了大量的信息孤岛和不一致数据,严重影响数据质量的集成共享性、唯一性、一致性和完整性。⑵数据质量意识不高,没有建立数据质量治理的机制。目前,应急管理建设了大量信息系统,采集了大量的数据,但普通缺乏数据质量的管理,大部分机构还没有建立数据质量治理的组织、制度、标准和技术手段。即使有机构意识到数据质量的重要性,上马了数据质量项目,购买了数据质量管理软件,但往往被看成是IT项目,业务部门参与不够,还没有把数据治理提到与财务管理、人力资源管理同等重要的战略高度。⑶突发事件的特点决定的应急数据质量不可能太高。突发事件具有突发性、不确认性、危险性、动态性、及时响应性等特点。大量的应急信息在短时间瞬时爆发,且不断变化,信息采集的任务紧、时间紧迫、条件恶劣,数据质量不可能太高。⑷应急大数据环境给数据质量带来严重挑战。随着计算机技术和网络技术在应急领域的广泛使用,产生了海量的监测与监控信息、交互信息、地理信息,这些数据已达到PB级别,体量(Volume)巨大。这些数据既有结构化的数据,又有大量的视频、音频、图片、地理位置信息、文本、网页、社交信息等非结构化的数据,具有多样性(Variety)。由于突发事件具有突发性、易变性、危险性等特点,要求大量的信息要在短时间高速处理,即具有高速性(Velocity)。数据价值密度的高低与数据总量的大小成反比,应急数据的大体量决定的相应的价值密度比较低(Value)。因此,应急数据是一种典型的大数据,大数据的特征给应急数据质量带来严重的挑战。表1比较了大数据与传统数据质量计划的差别。表1大数据质量计划与传统数据质量计划的比较[11]维度传统数据质量计划大数据的质量计划处理频率处理是面向批量的实时的和面向批量的数据的多样率大部分是结构化的结构化的、准结构化的和非结构化的置信度数据需要处在原始状态、以方便数据仓库中的分析“噪声”需要被过滤,但数据需要“足够好”。糟糕的数据质量可能会也可能不能阻碍分析工具获得业务洞察数据净化的时间选择在下载到数据仓库前,数据需要净化数据可能被“似是而非地”下载,因为关键数据元素和关系可能未充分理解,数据的体量和速度可能采取流式的、内存中的分析来净化数据,从而降低存储要求关键数据元素评估客户地址等关键数据元素的数据质量可数可能被模糊定义或错误定义,并有待进一步探索,因此,关键数据元素可能反复变化分析位置数据迁移到数据质量和分析引擎数据质量和分析引擎可进入数据中,以保证可接受的处理速度管理工作数据主管可管理大部分数据由于体量大和速度快,数据主管只能管理相对更小的数据3大数据时代应急数据质量治理措施数据质量治理是通过建立数据管理政策,流程和标准,以优化组织的数据资产为回报的决策和管理过程[12]。数据质量治理与财务管理、人力资源管理一样是一项管理业务,而不是IT项目[12],需要从管理层面制订管理措施,并借助技术手段来进行数据质量治理,其总体流程如图1所示。图1应急数据质量治理流程3.1大数据时代应急数据质量治理的管理措施数据质量治理的管理措施可分为认知、制度和方法论三个层面。3.1.1认知层面的管控数据质量治理与财务管理、人力资源管理一样是管理业务,而不是IT项目,需要业务人员的广泛参考。数据质量治理的目的是为了优化和返回更多的数据资产,因此数据质量治理需要提高到与财务管理、人力资源管理同等的战略高度[12]。应急信息是一种典型的大数据,大数据分析技术的兴起为大数据的利用(比如基于大数据的智能应急决策)提供了可能,将产生巨大的业务价值,然而大数据的质量却成了“拦路虎”,因此,应急大数据的质量治理应成为优先方向。数据质量的治理是始于现状和未来的认知,现状和未来状态的认知是科学制订一切数据治理措施和路线图的基础。这种认知通常需要进行成熟度评估。IBM数据治理成熟度模型从业务成果、组织结构和认识、管理人员、数据风险管理、政策、数据质量管理、信息生命周期管理、信息安全与隐私、数据架构、分类和元数据、审计信息日志和报告11个指标进行评估,把数据治理的成熟度分为5个等级[13]。根据数据治理成熟度的评估结果以及与未来目标的差距,列出弥补这些差距所需要关键人员、流程和技术计划并根据计划的优先级制定路线图。随着大数据对组织越来越重要,信息治理计划需要将大数据纳入路线图之中。3.1.2制度层面的管控数据治理组织一般采用三层的组织架构:⑴企业级的应急数据治理委员会。由高级管理人员、业务领导和IT领导组成。委员会负责制订数据治理计划的方向、制度、流程和标准,协调各部门关系[4]。⑵部门级应急数据治理委员会和专项数据专家团队。⑶具体的管理应急数据的业务人员和技术支持人员。针对大数据的质量治理,应该明晰大数据治理的目标和关键流程,识别大数据治理的利益相关者;酌情任命大数据主管;确定新增角色和现有角色的适当组合,确定各个角色应当承担的大数据责任。制度和标准的制订是数据质量管控的基础,数据标准包括元数据标准、分类标准、编码标准,是应急跨部门实现数据集成、应用集成和业务协同的基础。应急数据质量规则一般从数据规范性、唯一性、完整性、一致性、准确性、及时性和可用性等方面来定义。3.1.3方法论层面的管控应急数据治理采用全生命周期的过程管控方法,如图2所示。把数据治理的管理规范和标准体系注入到信息系统生命周期和数据生命周期中去,并通过交付物的评审去落实,通过工具的自动检查去固化。信息系统的建设更关注系统生命周期,而BI、数据仓库和大数据平台更关注数据生命周期,重视数据标准的
本文标题:大数据时代应急数据质量治理研究
链接地址:https://www.777doc.com/doc-7298909 .html