您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 2018大数据在动物疫病防控中的应用与展望-中国动物卫生与流行病学
66大数据在动物疫病防控中的应用与展望高 璐1,康京丽1,徐全刚1,刘 平1,曾 恒1,李 娟2,孙向东1(1.中国动物卫生与流行病学中心,山东青岛 266032;2.山西大学,山西太原 030006)摘 要:本文介绍了动物疫病防控大数据挖掘技术框架,包括数据采集、数据集成存储和数据挖掘分析,阐述了大数据对于动物疫病防控工作的重要意义,如提供动物疫病暴发预警、辅助监测、应急处置和科学决策等。提示应该对数据获取平台和技术提出更高要求,规范关键词选取和结构化数据,构建大型智能模型系统,以及完善数据的存储和安全工作。关键词:动物疫病;大数据;数据挖掘;网络爬虫;集成存储;动物疫情监测;预警中图分类号:S851.1 文献标识码:B 文章编号:1005-944X(2018)04-0066-05DOI:10.3969/j.issn.1005-944X.2018.04.018ApplicationandProspectofBigDatainAnimalDiseasePreventionandControlGaoLu1,KangJingli1,XuQuangang1,LiuPing1,ZengHeng1,LiJuan2,SunXiangdong1(1.ChinaAnimalHealthandEpidemiologyCenter,Qingdao,Shandong 266032,China;2.ShanxiUniversity,Taiyuan,Shanxi 030006,China)Abstract:Inthispaper,theframeworkofbigdataminingtechnologyinanimaldiseasepreventionandcontrolwasintroduced,whichincludeddataacquisition,dataintegrationandstorageanddatamininganalysis.Theimportanceofbigdatainanimaldiseasepreventionandcontrolwasanalyzed,suchasearlywarningofanimaldiseaseoutbreaks,diseasesurveillance,emergencyresponseandscientificdecision-making,etc.Itwassuggestedtoproposehigherrequirementsonthedataacquisitionplatformandtechnology,standardizingselectionofkeywords,realizingdatastructuralization,buildingalarge-scaleintelligentmodelsystem,aswellasimprovingdatastorageandsecurity.Keywords:animaldisease;bigdata;datamining;webcrawler;integrationandstorage;animaldiseasesurveillance;earlywarning随着动物疫病防控工作不断深入,数据资源更加丰富。从监测对象来看,包括动物疫病数据和对动物造成健康危害的风险因素数据。从数据产生方式来看,包括流行病学调查流调信息,实验室获取的生物学信息,动物疫病的有关社会舆论信息等。从信息形式上看,包括便于处理的结构化数据和目前难以开发利用的非结构化信息,如视频、音频和图片等。这些信息具备典型的大数据特征,即体量大、数据类型繁多、产生速度快和价值密度低。随着计算机和网络技术的快速发展,各领域的数据呈现爆炸性增长,单纯依靠传统的数据分析方法,已经无法应对大量数据的分析要求[1-2]。大数据的开发对于深入认识疫病风险因素、加强疫病监测和提高预测预警能力,以及促进动物健康具有重要作用[3]。利用大数据,最重要的就是挖掘数据,将传统动物疫病数据分析方法与处理大量数据的复杂算法相结合。本文对国内外大数据开发技术在兽医领域的应用情况进行了综述,以期为进一步探索大数据在我国动物疫病防控中的应用与开发提供思路。1 动物疫病防控大数据挖掘技术框架动物疫病防控数据库是数据挖掘的基础,基于数据库的分析挖掘流程包括3个步骤,即数据采集、数据集成存储和数据分析应用[4]。基金项目:国家重点研发计划项目(2017YFC1200500,2016YFC1201300);农业科研杰出人才及其创新团队项目通信作者:孙向东671.1 数据采集动物疫病相关数据,包括传染病监测数据(了解疫病流行情况和病毒变异情况)、宠物就诊电子病历数据、医学检验数据、医学影像数据和通过现场调查获取的健康风险因素数据等,大部分来自各级动物疫病预防控制中心、动物卫生监督所、诊断实验室和宠物医院等。另外与动物疫病防控相关的数据还涉及自然环境数据、地理信息数据和文献等。该类数据一般借助自然环境、地理信息研究相关科研院所或大型网络数据库获取。动物疫病相关的舆情信息往往借助网络爬虫获取。网络爬虫是当前获取泛网络信息的主流搜索技术,是按照一定规则,自动抓取万维网信息的程序或者脚本,有广度优先和深度优先两种策略[2]。借助面向动物疫病的智能聚焦网络爬虫算法,有选择地搜索网络,定向抓取与动物疫病时空信息相关的网页资源,可为动物疫病防控提供切实可用的信息。1.2 数据集成存储数据集成是将多个数据源中的数据结合起来,存放到一致的数据存储(如数据仓库)中的过程[4]。通过清洗、集成、转换和消减等预处理技术,可以提高数据质量。数据集成是将多模式的数据源组合在一起,为下一步数据挖掘分析做准备。在后续挖掘分析中,需要确定挖掘任务,制定挖掘计划,提取数据库中的相关数据子集,并将数据变换成适合挖掘的形式[5]。1.3 数据挖掘分析数据挖掘的目的是从数据中提取有用、信息,面向用户提供目标导向知识或分析服务[6]。大数据属于全样本和非实验观察数据,与传统抽样统计方式有所不同,大数据可能不满足正态性、独立性和方差齐性的模型分析前提条件,存在高噪声现象,因此大数据挖掘是对统计分析方法的延伸和扩展,其分析产生的结果可能比“统计显著”更接近真实意义的“显著”[7]。大数据分析技术没有固定的算法和模型,必须结合具体业务和需求,有针对性地研发适合业务本身的算法和模型。常见的大数据挖掘方法主要有神经网络分析、关联分析、决策树、最近邻分类器、贝叶斯分类器、随机森林、传统的统计分析方法和可视化分析等[8-10]。数据可视化分析以图形、图像和虚拟现实,等方式展现原始数据间的复杂关系、潜在信息及发展趋势,从而使数据呈现方式直观有效,包括报表、图形、地图等,可帮助动物疫病防控工作者更好地利用掌握的资源信息,如动物调运路线、疫病分布范围、时空变化趋势和聚集性等,为病因探索提供帮助,也可更通俗易懂地为公众展现分析结果[11]。机器学习方法是近几年人工智能领域的热门课题,是让计算机模拟人类的学习过程。机器通过学习获得智能分析能力,可以搜集舆情信息、计算模型参数,甚至是进行疫病诊断。以机器学习为代表的人工智能方法可为大数据挖掘提供有力支持[10-13]。2 大数据在动物疫病防控中的应用2.1 提供动物疫病暴发预警大数据本身是一种潜在的战略性资源,具有小规模数据无法匹及的趋势预测潜力。只有大数据的分析和应用,才能将这些资源的效益真正释放出来[14-16]。基于大数据构建的预警功能能够全面调查和评估动物疫病流行病学信息,为及时发现新发病及其症状,尽早防控疫病提供便利。目前,根据传染病的发生和发展规律,利用各种模型或算法对传染病的发生和发展作出预测,进而对传染病的流行趋势及影响范围进行预警,是疫病预防控制中的一项重要工作[6]。美国区域性流感大暴发,当地疾控中心根据哨点监测数形成的分析报告存在1~2周的滞后期,而谷歌公司运用搜索词条和统计建模相结合的方法,在流感暴发1d后就形成了疫情报告,具有显著的时间优势。与此同时,谷歌的监测和预测分析还曾成功预测了H1N1事件和几内亚等地的埃博拉流行情况。基于网络的监测系统可以更快地锁定流行区域的发病热点,预测结果具有更好的时效性[17-18]。知晓疫情后,大数据分析可以及时帮助政府作出决策,提供更好的防控措施与政策。例如,Vanina等[19]筛选出与伴侣动物祛蜱相关的热度最高的网络搜索词,并据此为当地政府制定了更有针68对性的蜱虫病防控策略。“祛除蜱虫”这个词条关联性最高,因此在宣传干预防控政策中,指导宠物饲养人群如何有效祛除蜱虫和更有针对性地分配发放驱虫工具就被列为干预重点。2.2 辅助监测与疫病应急处置大数据挖掘出的有效信息可以应用于监测工作[20]。美国现行宠物疫病症状实时监测系统涵盖了当地700多家宠物医院,其系统数据挖掘功能可以及时发现动物疫病异常事件的时空分布,结合暴露信息数据,还可以进行后续疫病病因学研究[15]。针对重大疫病应急防控信息化管理需要,白维生等[21]创建了基于地理信息系统(GIS)的北京市动物疫病应急指挥平台,解决了疫源分析、划定疫点、疫区、受威胁区、路口封锁、疫情监测、无害化处理及解除封锁等一系列应急处置中的关键问题,实现了北京市重大动物疫病信息化和一体化的应急指挥。二手数据挖掘在疾病监测中也发挥着重要作用。中国动物卫生与流行病学中心构建了动物疫病防控舆情平台,利用网络爬虫,对定点网站、论坛和博客中涉及的大众对动物疫病,特别是热点病种的舆论信息,进行动态监测和定向采集,每月出一期舆情简报,客观汇总当月大众对热点疫病的态度[22]。BioCaster[23]也根据网络语言信息建立了挖掘传染病暴发情况,追踪传染病分布情况的系统,包括话题分类、实体识别命名、疾病和位置挖掘和疾病事件识别。2014年,该系统通过新闻报道甄别出了几内亚的异常发热情况,比官方发布的西非埃博拉疫情早了9d。加拿大全球公共卫生情报网络(GPHIN)最早监测到了广东的SARS疫情,比WHO公布的SARS疫情早了两个月[24]。可见,大数据监测和挖掘对传统监测方法起到了补充和辅助作用[25],且时效性更强。兽药是预防、治疗和诊断动物疫病的特殊商品,为做好安全监管,我国建立了兽药产品监测系统,首次实现了兽药产品流向可追溯和来源可查询,提高了监管效率,遏制了造假售假行为,保障了动物安全[26]。利物浦大学搭建了小动物兽医监测网(SAVSNET),其功能之一就是监测猫和狗的抗生素应用情况及其耐药性[27-29]。2.3 辅助临床医生作出科学决策将动物疫病防控领域的研究成果和数据信息整合成数据库,可以为探究更多的疫病风险因素及其关联提供基础数据,弥补知识缺陷,提供更全面的动物健康保护措施。诊断方案和接种建议等临床决策和研究重点可以从资源整合系统中找到证据支持[30-31]。由于当前收集的高质量数据有限,一些兽医临床诊断结论都是基于案例研究、个人经验、人类医学和同行建议制定的,存在一定程度的不确定性和主观性。大数据挖掘技术促进了兽医循证医学的发展,帮助临床医生作出有科学依据的决策。英国皇家兽医学院开发的VetCompass平台,能够提供伴侣动物的外科学、病原学、微生物学、病毒学和寄生虫学等多方面证据,帮助临床医生做出更科学的疫病诊断、治疗和防控决策[32]。未来通过VetCompass这类资源整合系统,结合数据智能分析,可以形成动物疫病防控的个性化定制服务,实现用户通过网络平台实时为畜禽寻医问诊[33]。现在部分大型养殖场正在探索视频图像分析技术,利用人工智能系统,监测畜禽的体温、咳嗽、体重、进食情况和运动强度,一旦出现异常,就在第一时间做出疫情预警,以达到控制疫病的目的[34]。3 大数据时代动物疫病防控面临的挑战及展望3.1 对数据获取平台和技术提出更高要求在大数据时代,想要获取更多有效信息,帮助临床决策、防控决策和科研工作,对数据获取平台和技术就有更高要求。数据获取平台应该有广泛的覆盖范围,如英国的VetCompass系统涵
本文标题:2018大数据在动物疫病防控中的应用与展望-中国动物卫生与流行病学
链接地址:https://www.777doc.com/doc-5257954 .html