您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 某市档案目录中心数据整合方法初探
1某市档案目录中心数据整合方法初探经过十多年的努力,某市档案信息化工作取得了一定成效,档案管理系统被广泛应用;档案数字化系统日趋成熟;档案数据库建设不断丰富;文件档案管理系统应用取得初步成果。从发展状况看,我市档案信息化建设开始进入集成阶段,“十二五”期间,将建立以某市14个市、区级综合档案馆为中心,覆盖市区各档案室及城市档案馆的档案信息网络体系。系统整合是一项复杂的、耗时长的系统工程,为了给它创造良好的条件,也为了梳理整合共享性档案资源,拓展公共服务功能,建立全市档案目录中心,档案数据的整合,成了当务之急。一、数据整合需求分析由于没有统一的技术标准、业务规划,在过去相当长的一段时间里,市、区档案馆的档案信息资源建设,一直处于“摸着石头过河”的阶段。某市档案信息化发展到今天,“数据孤岛”是比较严重的问题之一,它已经制约了档案信息化的进一步发展,影响了档案管理服务水平的提高,问题表现为:1、档案业务系统和数据分散。我市档案信息化经过多年的发展,已开发了众多的档案信息系统和数据库系统,并积累了大量的基础数据。然而,丰富的数据资源由于建设时期不同,开发使用的软硬件系2统设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,公众往往需要进入众多不同的系统来查询所需档案资料。全市档案管理系统版本众多,系统不统一,市、区档案室使用的是科怡档案管理系统单机版,其中标准版、地方版各占一定比例。市、区综合档案馆使用的是科怡档案管理系统网络版,标准版、地方版也各占一定比例。2008年以后,五个城区综合档案馆开始使用科怡文档集成管理系统(4.0版),区综合档案馆、区直单位因数据标准格式不同,未导入到新系统内,原有数据继续在原系统内使用。档案检索分为2008年以前和2008年以后分别在两个系统内查询,使用极为不便。档案数字化系统版本众多。科怡档案数字化系统采用条码或目录挂接方式,适用于科怡档案管理系统单机版、网络版,而科怡文档集成管理系统(4.0版)档案数据标准格式与档案数字化系统不统一,档案数字化只能采用手动挂接,不能进入批量生产加工线,制约了档案数字化的速度。文件管理系统涵盖于其使用的档案管理系统内,缺乏统一标准,仍处于起步、探索阶段。目前某市档案业务系统和资源共享体系建设落后于国内其它一些信息化水平较高的同类城市,如青岛、深圳等,档案业务系统集成度较低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面都存在较大差距。2、数据标准格式不统一,信息资源利用程度较低。档案数据格式标准不统一,缺乏共享的、网络化的可用度高的信3息资源体系。从某市目录数据整体情况来看,市、区各综合档案馆文书档案数据格式基本统一,地方版、标准版与科怡文档集成管理系统(4.0版)字段名略有不同;科技、音像、资料、民生档案数据格式一致性差,数据多头采集,均有录入错误、录入格式前后不一致、交叉、重复等现象。特别是民生档案数据库,建库工作还处于起步探索阶段,而涉民数据广泛,目前还缺乏统一的数据格式标准,以婚姻档案为例,市馆共采集了十个区档案馆婚姻档案数据,各馆根据本馆数据特点建库,著录项、字段名、字段类型、字段长度均不相同,数据内容也差别较大。例如有的档案馆将职务任免、婚姻档案合并建库,有的档案馆将结婚、离婚档案合并建库,而有的档案馆以上内容则分开建库;著录项各不相同,如有的档案馆分设男、女方姓名字段,有的则合为题名一个字段;字段类型各不相同,如登记日期字段有的档案馆按照8位字符型格式录入(例如19960801),有的按日期型格式录入(例如1996-8-1)等等,数据整合、交流、共享困难。3、支持管理决策能力较低。由于数据格式标准不一致,使实时数据查询不能展现在一个界面上,用户很难看到数据全貌;各馆室之间不能共享数据资源;无法构建完整、系统的档案服务体系,提高服务质量。数据的共享度达不到对信息资源的整体开发利用的要求。数据中蕴藏着巨大信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥。二、数据整合的含义4数据整合的概念在业界比较混乱,比如系统整合、应用整合、主机整合、存储整合、数据库整合、数据大集中等等。这些不同的概念是在不同的层次、不同的角度阐述计算机系统整合的内涵和外延,是在计算机系统整合这一大的概念范畴下,存在着多种整合形式和技术手段,例如国内大型银行和电信业已经开展的全国性数据大集中,应属于数据整合的一种技术方式。其实,整合是一个外来词汇,整合的英文单词是Consolidation,有合并、巩固、加强之意。它本义是指在原来的基础上加以综合建设,并不意味着推倒重来或完全更新。数据整合解决方法主要通过各种不同数据源之间的数据传递、转换、净化、集成等功能实现。它从用户的业务需求和实际应用出发,对现有的数据资源和处理流程进行综合分析,以信息资源规划为标准,通过数据层面的整理提炼,将分散在各个信息孤岛中的有效信息资源,构筑在临时存储空间区域中,并根据临时存储空间区域中的规则库中设定的业务规则将数据进行清洗和转换,这些经过清洗和转换的数据形成完善的数据中心系统,从而能够全面支持数据共享、统一管理和分析决策。由于信息孤岛具有多维度性,因此信息孤岛的消除是一个十分复杂且极具挑战性的工作。所以数据整合技术具有极强的专业性,以及与实际业务的紧密相关性,如若再次缺乏前瞻性的设计规划和整合处理,势必会在消除一部分信息孤岛的过程中衍生出一些更大的信息孤岛。三、数据整合方法为推进资源体系和服务体系建设,建立全市档案目录中心,20105年市档案局下发了《关于做好2010年档案目录年报工作的通知》,开始重点收集十三个区档案馆目录数据。在今后几年内,我们将以民生需求为导向,将目录数据收集工作逐步扩大至各专业档案馆、城市圈档案馆。截止今年5月底,我们共采集文书、现行文件、科技、声像、资料等门类以及包括婚姻、职称、招工、信访等二十多个门类的民生档案数据677万条,其中三个区档案馆民生档案门类较为齐全。数据上报工作得到了各区档案馆、各涉民单位的大力支持,有的区档案馆数据库管理人员往返多次上报数据以保证数据的规范性、可用性;有的区档案馆因使用的是科怡4.0文档集成系统,为配合目录中心工作,将各门类著录项截屏上报给我们,丰富的数据量为目录中心建设奠定了资源基础。采集数据汇集市馆现有馆藏数据231万条,共计908万条。数据量大、来源复杂,一致性程度低,数据整合、检索系统开发工作很困难。数据整合工作应统筹规划、分步实施。1、远期目标:集成系统、统一数据标准格式。数据整合是一项复杂的系统工程,涉及众多的应用系统、数据库管理系统、不同的数据结构、代码结构和业务指标口径,同时还涉及整合技术、整合软硬件环境的选择等,更需统一规划,逐步实施。对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范,无法获得共享通用的数据源,不同的应用系统之间必然会形成彼此隔离的信息孤岛,因此如何彻底的消除信息孤岛,有效的整合现有及未来的业务应用系统的数据资源已成为档案信息化建设的重中之重。6“十二五”期间,我们将着手制定档案目录数据接收标准,为馆室档案数据交换、共享打下基础;集成档案管理软件,推进馆室一体化进程;建立某市档案专网,推行14个市、区级国家综合档案馆的统一查询服务,市区档案馆应通过馆藏档案数字化建立起分布式、规范化、可共享的档案数据库,构筑全市档案信息资源体系与共享体系;建立以某市综合档案馆为中心、城市档案馆为补充的档案信息网络体系,使档案信息资源在一定范围内得到合理有效的配置,实现任意联网的档案馆均可访问8+1城市数字档案资源。新增信息系统和新增数据库系统可以使用数据整合系统实现;原有的信息系统和数据库系统也可以逐渐并入数据整合系统;无须改造升级的信息系统和数据库系统可以通过跨平台的标准数据协议,将必要的数据抽取到数据中心,实现多业务处理以及管理决策层的数据共享。2、近期目标:立足现状,建立虚拟数据表,开发档案信息跨库查询系统。我们从汇集的大量数据分析中,觉得目前情况下,大批量合库不切实际。数据量大、数据结构一致性差,著录项、字段类型、字段名、字段长度千差万别,合库难度大,而且面临的最大问题是,每年新增数据必须重新合库。为避免重复劳动,减少合库的繁琐工作,我们制定了现阶段数据整合目标:建立虚拟数据表,开发跨库查询系统。比较乐观的是,科怡档案管理系统基本统一使用SQLSERVER数据库,目前不需要解决跨数据库平台的问题,直接通过视图建立虚拟数据7表,解决现阶段数据整合问题,跨库查询系统共汇集文书(传统档案、归档文件)、现行文件、电子公文、科技、声像、资料六个门类数据,及二十二个民生档案数据库,包括婚姻(884549条)、公证(218708条)、职称(153849条),人名(723067条)、房产(175203条)、工商(1083条)、计生(4742条)、劳动管理及工资福利(3743条)、人物专家(3739条)、知青(6613条)、招工(5223条)、信访(3802条)、学籍(4361条)、已故干部(6697条)、诉讼(38401条)、土地延包(7257条)、提案(9679条)、物价(7150条)、水文(116条)、环保(12612条)、人口普查(1967条)、古树名木(88条),拓宽了公众服务渠道。采取虚拟数据表技术,可在短时间内,将汇集的大量的档案信息,快速提供利用。四、对数据库管理工作的几点启发1、加强数据录入规范化的相关培训,建立数据抽检验收制度,改善数据质量。数据管理工作是一项基础工作,档案数据录入人员往往流动性较大,没有相关档案业务知识,只有进行相关培训才能保证录入数据的规范性、正确性,对新的数据录入人员一定要定向培训,实行不培训不上岗;建立数据抽检验收制度,对于录入目录数据质量进行抽检,对抽检比率、抽检合格率做出相关要求,确保录入数据质量。2、保证数据的规范性,数据合库须慎重。各综合档案馆数据来源渠道广泛,采集的数据质量、数据结构区别很大,对于这部分采集数据的处理要慎重,只有经过专业人员的仔细核对、检查,确保数据8格式一致、数据规范后才能合库,对未经专业人员核对的数据采取先单独建库的方式暂时不予合库。3、保证数据结构的一致性,门类增设须慎重。尽可能只增加类别字段,少增设模块。增设模块尤其要慎重,因为进行增设操作的计算机专业人员往往缺乏档案业务知识,新建模块时随意性较大,没有进行统一的规划。以房产档案为例,普通房交易、抵押交易、标准房交易、经济适用房等,如果分设模块,可能因为计算机操作人员的随意性,几个模块所设的著录项、字段名、字段类型、字段长度都不相同,而如果只设一个房产模块,以类别字段来标识,则增加了数据的一致性,有利于未来系统升级、集成和数据整合。档案信息基础数据库建设工程是一项系统性、基础性、长期性的工作。目前我市档案业务系统集成、数据标准建设、数据整合工作还处在起步探索阶段,必须统筹规划,分布实施,扎实推进,才能确保档案信息资源建设顺利实施。我们在“十二五”期间,将坚持“统一标准,方便快捷,便于利用”的原则,加强档案信息资源建设,着力解决各数据库的合库,让大量的档案信息的整理、存储、检索、传递、保管、利用、鉴定、统计标准化、规范化,为建设数字档案馆打下坚实的基础。
本文标题:某市档案目录中心数据整合方法初探
链接地址:https://www.777doc.com/doc-2290802 .html