您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库和数据挖掘在医院信息系统中的应用
摘要随着信息化的迅猛发展,各医院都在建立自己的信息系统,数据库规模不断扩大,复杂程度日益增加,从大量的数据中提取有用的信息供医院的决策服务就显得尤为重要。目前医院信息系统(HIS)的实现,绝大部分采用的是传统数据库技术,数据处理以操作型处理为主,即联机事务处理(OLTP)。尽管产生了大量的业务数据,但真正对决策有用的信息却很少,而且也造成了历史数据和当前数据、操作数据和分析数据的利用与管理的冲突。为了解决这一问题,数据仓库技术应运而生。北京肿瘤医院有其自身的特殊性,治疗上不同于其它医院,因此对于信息统计、分析和管理决策上有其特殊要求。本论文以『F在建设的肿瘤医院数据仓库为例,首先介绍了数据仓库(Dw)和数据挖掘(DM)在肿瘤医院应用课题的来源;其次,阐述了数据仓库和数据挖掘的基本概念,数据挖掘的方法、算法,还有数据挖掘、在线分析(OLAP)和决策支持(DSS)的差异。最后,介绍了肿瘤医院数据仓库建立和应用的全过程。包括阐述了医院信息系统(HIS)的基本概念、医院分析数据的历史方法及医院信息管理中存在的问题。肿瘤医院HIS数据库的结构设计,数据仓库建立过程中的数据准备,数据仓库的架构、存储,维度和粒度设计,主题抽取和确定,建立多维数据模型及多维数据分析,数据仓库和数据挖掘的主要功能及医院实际应用。关键词:医院信息系统;数据仓库;数据挖掘AbstractWiththefastdevelopmentofinformationtechnology,hospitalshaveestablishedtheirowninformationsystems.Andthescaleofdatabasehasbeencontinuouslyextendingandthecomplexitybeendramaticallyincreasingsincethedaythesystemwasbuilt.Underthiscircumstance,toselecttherightinformationfromamassofdataforthehospital’Sdecision—makingisofutterimportance.Thesedaysthetraditionaltechnique,namelyOn—lineTransactionProcessing(OUTP),istheprimarywaytorealizetheHospitalInformationSystem(HIS).Althou曲alotofdatacanbeacquiredbythisway,fewofthemareusefulformakingdecisions.What’Smore,intermsofutilizationandmanagement,itcausestheconfusionbetweenhistoricaldataandcurrentdataandtheconflictbetweenoperationdataandanalysisdata.Tosolvethisproblem,thetechnologyofDataWarehouse(DW)emergesasthetimesrequire.Comparedwithotherhospitals,BeijingCancerHospitalhasitsownparticularity,adoptingdifferentmethodsintreatments.Forthisreason,ithassomespecificrequirementsonthestatistic,analysisandmanagementofinformation.ThispapertakesthedatawarehouseofBeijingCancerHospital,whichisbeingestablished,asanexampletointroduce:firstly,theoriginofDataWarehouse(DW)andDataMining(DM)intheapplicationsubjectsofthecancerhospital;Secondly,thefundamentalconceptofDWandDM,themethodandarithmeticofDM,andthedifferenceamongDM,OLAPandDSS;lastly,theentirecourseabouthowthewarehousewasestablishedandused,includingthebasicconceptofHIS,thehistoricalmethodofanalyzingdata,theproblemsinvolvedinthemanagementofinformation,thestructuredesignofthewarehouse,datapreparationdudngtheestablishingperiod,theframeworkandstorageoftheDW,designofdimensionalityandgranularity,abstractingandconfirmingsubjects,buildingmultidimensionaldatamodelandanalyzingmultidimensionaldata,themainfunctionofDWandDMandsomepracticalusesinhospitals.KeyWords:HospitalInformationSystem;DataWarehouse;DataMining图2.1多维立方体………………………………………………………………9图2.2企业中数据仓库结构……………………………………………………10图2‘3大肠癌的决策树示意图…………………………………………………13图3.1医院信息化的层次………………………………………………………20图3.2医院HIS中四个表的关系图……………………………………………25图3‘3数据仓库所需要的4个表的关系………………………………………27图3.4费用随时间变化的过程图………………………………………………28图3.5医院数据仓库的架构……………………………………………………29图3.6星型模型…………………………………………………………………30图3.7肿瘤医院多维立方体的关系图…………………………………………33图3.8多维数据分析……………………………………………………………33图3.9费用分布图………………………………………………………………36图3.10胃癌病人外科手术的术前准备天数……………………………………36图3,112001—2004病人数量的分析图…………………………………………38图3.12多维立方体结构图……………………………………………………38图3.13所有诊断的费用分布…………………………………………………39图3.14树形显示的效果………………………………………………………39图3.15饼图显示效果…………………………………………………………40图3.16病人职业构成…………………………………………………………40图3.17AnalysisServices中的聚集…………………………………………41图3.18决策树的树形表示方法………………………………………………42图3.19决策树的公式表示方法………………………………………………42图3.20大肠癌术后决策树部分图……………………………………………451.1引言本章主要是文献综述,并介绍了数据仓库、数据挖掘技术应用于肿瘤医院进行的研究工作,最后给出论文的内容安排。1.1.1文献综述随着计算机应用的网络计算的发展,计算正向两个不同的方向拓展:一个是广度计算,二是深度计算…。广度计算是把计算机的应用范围尽量扩大,同时实现广泛的数据交流。深度计算是人们对以往计算机的简单数据操作。目前,深度操作己提出了更高的要求,希望计算机能够更多的参与数据分析与制定决策的工作。传统的数据库技术是单一的数据库资源,它适合操作型事务处理,但分析型处理(或信息型处理)能力较弱【2】。数据仓库(DataWarehouse。DW)的出现,将操作型环境和分析型环境进行了分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种以数据仓库为中心的新的体系化环境【3】。近十几年,随着科学技术飞速的发展,社会和经济都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中的信息非常的丰富,如何处理这些数据得到有价值的信息,人们进行了有益的探索。[4】计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加的如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次的问题:能不能从海量数据中提取信息或者知识为决策服务。仅就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临着极大的挑战【51。这就急需有新的手段、新的技术来处理这些巨量数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘(DataMining,DM)来解决这一难题【6]。1.1.1.1国内外现状在国外,数据挖掘已经有不少成功案例。数据挖掘首先在金融、证券、电信、零售业等数据密集型行业实施,因为这些行业信息化程度比较高,数据库中已经保留了大量数据资源。例如,总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛(WalMart)的”尿布与啤酒”的故事。沃尔玛拥有世界上最大的数据仓库系统,通过数据挖掘工具,得到了一个意外发现:跟尿布一起购买最多的商品竟然是啤酒。进一步的分析,揭示了隐藏在”数据关联”背后的行为模式,”啤酒与尿布”的著名故事,可谓是数据挖掘产生巨大价值的经典案例。当企业拥有大量的数据之后,如何从这些数据中”攥出油水”,才是企业信息化价值体现的最终目的。有数据表明,进入二十世纪90年代,人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。数据挖掘的前景被人们普遍看好。国际知名调查机构GartnerGroup在高级技术调查报告中,将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位【”。Gartner的调查报告预计:到2010年,数据挖掘在相关市场的应用将从目前少于5%增加到超过80%。美国银行家协会预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。与国外相比,国内对知识发现的研究较晚,而且较为分散,没有形成整体力量。90年代,国家自然科学基金曾支持过对该领域项目的研究,但实际应用不多。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等【81。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学、北京理工大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。虽然国内有很多大学和研究机构从事数据仓库技术的研究,但到目前为止,国内基本上没有成熟的数据仓库解决方案。在医疗行业的应用更是少之又少。目前提供数据挖掘产品的厂商非常多,如著名的产品有SASEnterpriseMiner、NCRTeradataWarehouseMiner、SPSSClementine7.0、IBMDB2IntelligentM
本文标题:数据仓库和数据挖掘在医院信息系统中的应用
链接地址:https://www.777doc.com/doc-27113 .html