您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据基础平台建设方法
大数据基础平台建设方法目录大数据建设目的及建设方式大数据方案解读产品运行效果展示企业内部的各种应用系统相互独立,企业应用系统没有统一的入口,一名员工拥有多个账户个人业务相关信息缺乏集中展现的地方,员工需要不断在各种系统之间频繁切换企业中的基础数据和主要数据有在不同的系统中都是重复,混乱的,没有统一的入口企业无法快速,准确的获取下属企业的信息,并对下属企业进行有效管理信息化建设障碍社会化编码库大数据管理平台组织管理编码规则访问服务编码库编码历史编码审批访问权限高速缓存企业统一元数据资产管理NC-ERP项目管理其他系统GIS大数据:指系统间共享数据(例如,客户、供应商、物资和组织部门相关数据),与记录业务活动,波动较大的交易数据相比,大数据(也称基准数据)变化缓慢要点:唯一性、共享属性、运营属性、管理流程、变更流程、质量检查、数据清理大数据管理大数据管理所解决的问题一物一码同一个对象(人、物、单位等)在不同系统中的统一标识核心信息的权威化专门的维护点、审核点创建流程、变更流程的记录扩展信息的完善管理机制企业规范的合法化为IT部门进行整合提供技术基础大数据管理的实质大数据基本档案可根据需要挂接审批流程的可供多个异构系统共享的可通过封装服务访问的目录大数据建设目的及建设方式大数据方案解读产品运行效果展示大数据标准解决方案组成编码规则企业服务规范数据清理方案接入系统改造方案管哪些东西,都是什么样子的东西都有谁要用这些数据,怎么用以前遗留下的数据怎么按编码规则迁移过来要用这些数据的人怎么样才能拿到想要的东西第一部分编码规范编码规范的内容管理对象编码体系管理对象的定义方式基于各信息系统信息处理的需要,以减少对信息的重复采集、加工和存储为目的,进行管理对象的选择。最直接特征:需要在多个系统中出现管理者与使用者分离常见需要大数据管理的对象有组织机构、人员、用户客商、物料(货品)项目等关联型业务数据其它用户所需要管理的核心数据编码体系常用编码形式分类码、顺序码、组合码单维度分类码与多维度复合编码编码体系差异及选择单维度分类码10000601344薄膜衣片西药多维度复合码编码部分:A000001567A:西药后9位为顺序码属性部分:血液系统用药物通用名*剂型*药品批号*类型甲钴胺片薄膜衣片国药准字H20051440血液系统用药物缺陷:弹性较差,个别类目上的代码改变时会影响其他编码;层次较多时,代码位数较长;扩展性差,不利于增加新的描述分类;编码总长度过长。编码体系构成编码、属性属性包括:唯一性、共享分类属性填写要求序号名称定义1原料药按照集团统一编码系统的相关约定设置该分类。2片剂(非包衣片、素片、压制片),浸膏片按照集团统一编码系统的相关约定设置该分类。3糖衣片按照集团统一编码系统的相关约定设置该分类。4咀嚼片,糖片,异型片,糖胶片按照集团统一编码系统的相关约定设置该分类。5肠溶片(肠衣片)按照集团统一编码系统的相关约定设置该分类。6调释片,缓释片,控释片,长效片按照集团统一编码系统的相关约定设置该分类。7泡腾片按照集团统一编码系统的相关约定设置该分类。8舌下片按照集团统一编码系统的相关约定设置该分类。9含片,漱口片(含漱片),喉症片(喉片),口腔粘附片按照集团统一编码系统的相关约定设置该分类。第二部分企业服务规范企业服务规范的内容大数据平台接入业务系统企业服务总线ESB提供各类服务(查询、申报、变更等)触发各类事件(审核完成、数据调整等)调用平台所提供的各类服务响应平台所触发各类事件影响因素:是否存在需要进行主观判断的填写标准。影响因素:是否有新增、删除、修改数据的权利使用大数据管理对象的系统=接入业务系统对于大数据管理平台与接入业务系统之间进行数据交换方式的规定,就是企业服务规范制定企业服务规范的步骤分析系统数据交换形式及流程根据分析结果确定服务及事件清单综合编码规范确定服务及事件的输入输出内容场景样例1某集团,下属200多家分子公司,其中包括子集团集团总公司对于子公司无法全权控制,系统形态较多,信息化供应商情况复杂集团在进行整体BI分析,部分企业直接通过ETL挖掘数据,部分企业使用手工上报平台进行上报分子公司多业态,业务开展相对独立。业务系统偏重点不同。集团设置质量部负责货品以及客商的有效性集团设置运营部负责货品及客商统计维度类别划分特征分析分子公司存在异构系统,不可统一允许分子公司直接增加数据分子公司增加的数据需要集团进行核准集团对于数据的核准不能影响分子公司业务的开展常见数据交换形式1:多点维护、统一认证分子公司ERP系统一集团大数据管理系统服务提供组件事件触发组件客商信息管理人客商信息使用人大数据编码库分子公司ERP系统二分子公司ERP系统三常见数据交换形式1:多点维护、统一认证分子公司ERP系统一集团大数据管理系统服务提供组件事件触发组件客商信息管理人客商信息使用人大数据编码库分子公司ERP系统二分子公司ERP系统三数据交换形式1数据流程分析业务系统主数据服务总线主数据流程管理平台申报请求申报请求处理申报请求响应反馈信息处理流程启动请求提交唯一性及正确性属性接收处理返回编码,保存至本系统数据库。使用唯一性属性在正式数据中检索若不存在,则生成临时码,并想流程管理平台提交申报请求。若存在,则获取正式码及当前相关属性。将正式码作为申报请求响应返回。比较当前正确性属性与申报请求中的正确性属性,若存在差异则向流程管理平台提交变更请求。流程请求响应申报审批流程审批完成后,如审批通过,返回正式码;如审批打回,返回打回意见。服务总线根据系统注册信息向相关系统进行推送。接收数据后,若为正常通过,则将本系统临时码更新为正式码;若为审批打回,则将打回意见通知操作者,根据打回意见修改数据后重新进行申报提交。场景样例2某集团,下属20家分公司,10余家控股子公司集团总公司对于分公司完全集中控制,管理系统均为统一采购,生产系统独立采购企业所有人员由人力部门统一管理客商、存货数据由生产、营销部门进行录入,信息部门进行审核特征分析整个集团中,同一功能使用相同系统人员信息在单一HR系统中进行维护,数据的增加由集团统一完成客商、货品信息在大数据平台中维护,需要多级审批,数据的增加可由下级单位进行在数据没有通过审核时,不允许使用常见数据交换形式2:统一维护、多点使用分子公司ERP系统一集团大数据管理系统服务提供组件事件触发组件员工数据管理人员工数据使用人大数据编码库分子公司ERP系统二分子公司ERP系统三制定企业服务规范的步骤分析系统数据交换形式及流程根据分析结果确定服务及事件清单综合编码规范确定服务及事件的输入输出内容样例服务列表常见服务种类查询全量、增量申报启动审批流程直接加入数据变更启动审批流程直接修改数据封存启动审批流程直接修改数据常见事件种类推送申报、变更、封存序号服务编码服务名称服务描述PT_M_001GetMediTypesSrv获取药品分类清单。PT_M_002GetMediCountByTypeSrv获取指定类别药品数量。PT_M_003GetMediByTypeSrv获取指定类别药品数据。PT_M_004GetNewMediByTypeSrv获取指定类别药品增量数据。返回指定药品类别某时点后更新过的药品数据。PT_M_005GetMediByCodeSrv根据药品编码获取药品数据。PT_C_001GetCustTypesSrv获取客商分类清单PT_C_002GetCustCountByTypeSrv获取指定类别客商数量。PT_C_003GetCustByTypeSrv获取指定类别客商数据PT_C_004GetNewCustByTypeSrv获取指定类别客商增量数据PT_C_005GetCustByCodeSrv根据客商编码获取客商数据PT_G_001GetCorpsSrv获取公司数据PT_G_002GetNewCorpsSrv获取公司增量数据PT_G_003GetCorpByCodeSrv根据公司编码获取公司数据PT_D_001GetDeptsSrv获取部门数据PT_D_002GetNewDeptsSrv获取部门增量数据PT_D_003GetDeptByCodeSrv根据部门编号获取部门数据PT_D_004GetDeptsByCorpSrv获取指定公司部门数据PT_D_005GetNewDeptsByCorpSrv获取指定公司部门增量数据PT_P_001GetPersonsCountSrv获取人员数量PT_P_002GetPersonsSrv获取人员数据PT_P_003GetNewPersonsSrv获取人员增量数据PT_P_004GetPersonByCodeSrv根据人员编码获取人员数据PT_P_005GetPersonsByCorpSrv获取指定公司人员数据PT_P_006GetNewPersonsByCorpSrv获取指定公司人员增量数据RQ_001ReqMediByTypeSrv指定类别药品申报RQ_002ReqCustByTypeSrv指定类别客商申报RQ_003ReqCorpSrv公司申报RQ_004ReqDeptSrv部门申报制定企业服务规范的步骤分析系统数据交换形式及流程根据分析结果确定服务及事件清单综合编码规范确定服务及事件的输入输出内容样例服务定义服务标识PT_C_003服务名称获取指定类别客商数据(GetCustByTypeSrv)服务描述获取指定类别客商数据。与PT_C_002配合使用获取批量数据时使用。根据客商类别,返回对应类别的客商数据。采用分页形式进行获取,调用方根据通过PT_C_002服务获取的客商数量,确定调用本服务的次数。为防止一次性传输数据量过大,本服务内置限定一个对于返回数据集合的数量限制。现约定此限制为1000。根据输入的不同客商类别,返回所对应的客商数据格式,具体格式见客商数据描述。序号数据项名称数据项类型备注1Type客商类别字符在客商类别清单中存在的客商类别编码2Start开始记录数数字3Count返回数量数字序号数据项名称数据项类型备注1success成功标志位数字1:成功;0:失败2errcode错误代码字符成功时为空3message错误信息字符成功时为空4count数据数量数字客商数据集合中的记录数量5datas客商数据复杂类型输入输出第三部分数据清理方案数据清理方案对于原始数据的处理由于数据规则改变导致的修改对于不符合规范数据的清理对于重复记录的清理原始数据数据量及清理方式一般采用线下工具完成使用Excel作为数据采集工具药品数据量类别数量医疗器械15974西药33660中成药20197中药材2927中药饮片17789食品322日用品714包材58生物制品634其它556化妆品964化学试剂3保健品2102合计95900客商数据量类别数量药店16351个人1302医院21644其他单位2171生产商5300经销商13893合计60661清理流程图用友方用户方1。整理《新旧大小类对照关系表》5。全角字符筛选,提交:《全角字符替换确认表》18。基于《重复记录分析表》,确认重复记录处理方式,并进行数据调整14。核对药监局网站做数据清理,完成后提交Excel文件13。问题讨论,整理数据清理规则12。对排重的数据,合并并做新数据分配11。分工进行数据排重,完成后提交Excel文件10。试清理—》讨论并制定信息属性和分类9。数据清理培训8。生成对应数据清理用的Excel文件3。统计《大小类数据量分析表》4。提交《数据清理分工表》2。大小类对照:系统数据后台处理7。全角字符替换:系统数据后台处理15。将清理过的Excel文件导入到系统中,替换原有数据16。总结清理经验—》整理、完善数据清理方案17。基于清理过的数据,提交《重复记录分析表》6。确认《全角字符替换确认表》数据清理工作流程适用于:期初数据清理,日常使用中的数据合并
本文标题:大数据基础平台建设方法
链接地址:https://www.777doc.com/doc-26693 .html