您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 第十二章 卫生信息分析
第一节卫生信息分析概述第二节卫生信息分析方法第三节卫生信息分析应用:症状监测信息分析的概念◦信息分析(informationanalysis)的定义:信息分析是一种以信息为研究对象,根据拟解决的特定问题的需要,收集与之有关的信息进行分析研究,旨在得出有助于解决问题的新信息的科学劳动过程。信息分析的步骤◦课题选择◦制订课题研究计划◦信息收集◦信息整理、鉴别与分析◦报告编写一、时间序列分析二、关联规则挖掘三、聚类分析(一)时间序列分析概述1.时间序列数据时间序列(timeseries)又称动态数列或时间数列,就是把所研究的事物在各个不同时间的统计指标的数值,按其发生时间先后顺序排列起来所形成的数列。全球霍乱发病例数报告[摘自GlobalHealthObservatoryDataRepository,=2250]2.时间序列数据的种类倾向变动/趋势变动,用T(Trend)表示,统计数据在长时间内表现出的变化倾向,它按照某种规律持续上升或持续下降,或保持在某一水平上;周期变动,用C(Cyclical)表示,指若干年为周期的变化,周期长短不等,上下波动大小也不一致,但明显地呈现起伏变化;季节变动,用S(Seasonal)表示,指每年重复出现的周期变化,一般以月或季度为一个周期;不规则变动/随机变动,用I(Irregular)表示,指由各种偶然事件或影响因素引起的上述三类变化以外的任何变化。3.时间序列分析的概念与原理时间序列分析(timeseriesanalysis)就是根据系统观测得到的时间序列数据,应用数理统计方法(曲线拟合和参数估计)来建立数学模型,对时间序列数据加以分析处理,以预测未来事物的发展。时间序列分析的基本依据是:(1)承认事物发展的延续性。(2)考虑到事物发展的随机性。4.时间序列分析主要用途①系统描述。②系统分析。③预测未来。④决策和控制。(二)时间序列分析方法的种类(三)时间序列分析的基本步骤收集数据:用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。整理数据:根据动态数据作相关图。分析数据:对动态数据进行拟合或者修正。(四)时间序列数据的修正算术平均法分段平均法移动平均法指数平滑法(五)时间序列数据的拟合多项式曲线法指数曲线法生长曲线法(一)关联规则挖掘概述1.关联规则及关联规则挖掘的定义关联规则(associationrule)是指在同一个事件中出现的不同项的相关性,如顾客在商场购物可以看作是一个事件,所购买各种的商品就是其中的项,在这里的关联规则就是指在一次购物中所购商品的相关性。关联规则反映了一个事件和其他事件之间依赖或依存的关系,如果我们确定两项或多项属性之间存在着关联,那么我们就可以根据其中一项的属性值来预测其他属性的值。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系有价值的知识。2.关联规则挖掘的意义购物篮分析3.关联规则的表现类型关联规则是一种形如XY的规则,其中X和Y是项目的集合。它说明如果X在数据库中发生,那么Y也会以一定的概率发生。根据规则中所处理的值类型:布尔关联规则(Booleanassociationrule):性别=“女”职业=“秘书”量化关联规则(quantitativeassociationrule):性别=“女”avg(收入)=2300根据规则中涉及的数据维:单维关联规则(singledimensionalassociationrule):啤酒尿布多维关联规则(multidimensionalassociationrule):性别=“女”职业=“秘书”根据规则集所涉及的抽象层:多层关联规则(multilevelassociationrule):台式机Sony打印机单层次关联规则(single-levelassociationrule):IBM台式机Sony打印机(二)关联规则挖掘的基本过程1.找出所有频繁项集根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样。2.由频繁项集产生强关联规则根据定义,这些规则必须满足最小支持度和最小置信度。支持度:P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。置信度:P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。支持度描述一个规则的重要性,而可信度描述规则发生的可能性。一般,我们用0%和100%之间的值表示支持度和置信度。(三)关联规则挖掘的Apriori算法Apriori算法由Agrawal等人于1993年提出,它是挖掘频繁项集的基本算法。其核心方法是基于频集理论的递归方法,针对的是在单维单层次布尔关联规则的挖掘,这是关联分析中最简单形式的关联规则挖掘。具体做法就是:首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁K-项集为止。每挖掘一层LK就需要扫描整个数据库一遍。(三)关联规则挖掘的Apriori算法下面以超市商品的数据库为例来说明Apriori算法的基本操作。假设有5位顾客购买商品的清单如下表。某超市5位顾客购买商品清单(三)关联规则挖掘的Apriori算法候选1-项集面包4牛奶4尿布4啤酒3鸡蛋1可乐1频繁1-项集面包4牛奶4尿布4啤酒3候选2-项集面包牛奶3面包尿布3面包啤酒2牛奶尿布3牛奶啤酒2尿布啤酒3候选1-项集面包尿布牛奶2面包尿布啤酒2牛奶尿布啤酒2频繁2-项集面包牛奶3面包尿布3牛奶尿布3尿布啤酒3Apriori算法的基本操作步骤举例(四)关联规则的生成同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。对于给定的一个事务集D,挖掘关联规则就是支持度和可信度分别大于用户给定的最小支持度和最小可信度的强关联规则。(五)关联规则挖掘在卫生信息分析中的实例(一)聚类分析的定义聚类分析(clusteranalysis)是将一组物理的或抽象的对象,根据它们之间的相似程度,分为若干组,使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象是不相似的。聚类分析与分类不同:◦对于分类问题,事先了解训练样本的分类属性,将数据对象分到不同的已知类中,如在人口统计中将每个调查对象分类到老年组、中年组等;而聚类分析,则是在划分的分类体系未知的情况下,将数据对象分组成不同类,需在训练样本中找到这个分类属性。(二)聚类分析的基本步骤1.计算对象间的相似性2.将聚类对象分到各个类别1.计算对象间的相似性通常就是利用(各对象间)距离来表示相似性。常用距离度量公式有欧几里得(Euclidean)距离公式。1.计算对象间的相似性上述的数据矩阵经过计算对象间的欧几里得距离之后,得到的是对象间的相似矩阵。0...)2,()1,(:::)2,3()...ndnd0dd(3,10d(2,1)0相似矩阵2.将聚类对象分到各个类别层次方法(hierarchicalmethod)就是通过分解所给定的数据对象集来创建一个层次,直到满足某种条件为止。自底向上(凝聚):从每个对象均作为一个单独的组开始,逐步将这些(对象)组进行合并,直到组合并在层次顶端或满足终止条件为止;自顶向下(分裂):从所有对象均属于一个组开始,每一次循环将其组分解为更小的组,直到每个对象构成一组或满足终止条件为止。2.将聚类对象分到各个类别四个广泛使用的计算聚类间距离的度量方法如下:其中|P-P’|为两个数据对象或点P和P’之间的距离,mi是聚类Ci的平均值,ni是聚类Ci中的对象个数。3.聚类分析在卫生信息分析中的实例某市各县区8类疾病的发病率指标输入到SPSS中的数据矩阵3.聚类分析在卫生信息分析中的实例一、症状监测及相关概念二、症状监测的基本步骤与方法三、重要疾病爆发与流行监测系统症状监测的概念◦目前,症状监测(syndromicsurveillance)被广为接受的定义是美国CDC给出的定义,即“症状监测是对临床确诊前的健康相关数据和疾病可能暴发的信号进行监测,以利于作出进一步公共卫生反应”。◦该定义体现了症状监测与疾病监测的区别,它是以监测诊断前的非特异性的症状和现象为基础的。症状监测的基本步骤与方法◦①症状群定义和数据来源;◦②症状监测数据的采集;◦③症状监测数据的分析;◦④对异常信号的调查。重要疾病爆发与流行监测系统◦社区疾病流行早期报告电子监测系统(ElectronicSurveillanceSystemfortheEarlyNotificationofCommunity-basedEpidemics,ESSENCE)◦实时暴发与疾病监测系统(Real-timeOutbreakandDiseaseSurveillance,RODS)
本文标题:第十二章 卫生信息分析
链接地址:https://www.777doc.com/doc-3710906 .html