您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 基于深度学习的军事智能决策支持系统
基于深度学习的军事智能决策支持系统DOI:10.3969/j.issn.1673?3819.2018.02.001摘要:AlphaGo的出现使得深度学习模型受到广泛关注。深度学习以其出色的特征提取、多层学习和表达能力,为军事智能决策支持系统的研究提供了新的思路。介绍了深度学习关键技术,通过回顾国内外军事智能决策支持系统的发展历程,介绍了深度学习在军事领域的应用,分析了智能辅助决策技术的发展趋势以及面临的挑战,并进行了总结和展望。关键词:军事;人工智能;深度学习;决策支持系统;神经网络近年来,AlphaGo、AlphaGoZero在深度学习方面取得突破性成果,令世人惊叹,深度学习已被广泛关注并应用到众多领域,尤其在识别、推荐、决策等方面展现出了巨大优势。为推进我军智能化建设,2016年3月,《中国军事科学》编辑部组织举办了“围棋人机大战与军事指挥决策智能化”研讨会[1]。会议广泛探讨了AlphaGo对于指挥决策智能化的启示,深入研究了推动我军走向智能化建设的措施。2017年9月,“赛诸葛”全国兵棋推演大赛隆重举行,中科院自动化所研发的AI系统“CASIA?先知V1??0”首次战胜了人类选手,展示出深度学习等人工智能技术在对抗博弈领域的强大能力。众所周知,军事决策是军事领域中最复杂、最具挑战的活动,并由此促进了军事辅助决策支持技术的产生和发展。可以预见,深度学习技术的不断进步必将对军事智能辅助决策领域产生深刻而重大的影响。本文回顾了深度学习与军事智能决策支持系统的发展历程,探讨了深度学习在智能决策应用中的重难点问题,展望了基于深度学习的军事智能决策支持系统的建设和发展前景。1深度学习1.1基本原理深度学习是由人工神经网络发展而来。Hinton[2]等人在2006年首次提出了基于深度置信网络的无监督概率生成模型,阐述了深度学习的基本原理。深度学习以数据和算力为支撑,通过搭建含有多个隐层的神经网络,对外部输入数据进行特征提取,进而从中获取所需信息。这样的模型具有很高的存储效率,而线性增加的神经元数目可以使其表达按指数级增加大量信息。随着大数据时代的到来以及计算能力的不断发展,人工神经网络在近十年间取得了长足进步,促进了深度学习的快速发展,由此也使得人工智能从之前必须借助人类的阶段向前迈出了一步。1.2深度学习发展沿革深度学习的发展大致可分为三个阶段。第一阶段,以20世纪80年代出现的BP算法[3]为起点。直到现在,BP算法都是神经网络模型中很常用的参数学习方法。然而,由于当时的计算性能有限,且样本数据较为匮乏,仅仅使用BP算法并不能有效解决局部极值和梯度弥散等问题,这使得神经网络的研究发展缓慢,一度被学界抛弃。2006年,Hinton提出了无监督深度置信网络训练方法,以此为标志,深度学习进入了第二阶段。Hinton的主要思想是先通过自学习方法进行训练,然后在自动编码器上进行有监督训练,实现对参数的微调。这一时期,随着硬件技术不断更新和数据规模不断增大,深度神经网络模型开始受到业界的普遍关注,进而在多个领域中得到了发展。2012年,Hinton课题组构建的CNN网络AlexNet[4]在ImageNet图像识别比赛中一举夺冠,其分类性能远远超过第二名,使得CNN吸引了众多研究者的关注。以这一年为界限,深度学习进入第三阶段。卷积神经网络、循环神经网络、进化神经网络等模型的优势逐渐显现,打开了人工智能新世界的大门。具有良好的大数据处理能力的深度学习模型,不仅在模式识别、信息检索、自然语言处理等多个人工智能领域都取得了重大突破,还可以对复杂模式进行分类,从而在决策问题中产生了巨大影响。1.3经典模型深度学习发展至今取得了令人惊叹的成就,得益于以深度置信网络、卷积神经网络、递归神经网络等为主流的深度学习模型的深入发展。下面对这些经典模型进行简要介绍。1)深度置信网络(DeepBeliefNetwork,DBN)是由多层随机因变量组成的概率生成模型,能够更加有效地使用未经标注的数据,并通过产生式预训练,有效解决深度神经网络中的过拟合和欠拟合等问题[5],如图1所示。该模型具有很好的灵活性和可扩展性,受到广大研究者们的热切关注。2)卷积神经网络[6](ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络模型,且输入端不再需要特殊处理,这些特点让它更多被应用在大型图像处理任务中,如图2所示。Hinton团队的AlexNet利用Dropout、激活函数等方法,结合GPU并行处理技术,使得算法性能大大超过了传统模型;KaimingHe[7?9]的相关研究解决了计算层次训练问题,实现了对目标像素级别的识别,使准确率达到了新高。3)递归神经网络[10](RecursiveNeuralNetwork)在循环过程中可以记住此前已经处理过的数据信息,如图3所示。这一模型更加适合文本、语音识别等序列数据的建模问题。然而,传统的递归神经网络由于梯度弥散和梯度爆炸等问题,很难捕捉长时相关性。LSTM模型[11]引入了自循环的思想,解决了长时依赖的训练问题,之后出现的GRU[12]等改进模型,在预测文本和语音识别中也表现出了很好的效果。1.4深度强化学习上述经典模型从本质上讲是分类和识别算法,难以解决决策和控制问题,由此,深度强化学习等新算法便应运而生。深度强化学习[13](DeepReinforcementLearning,DRL)是在训练中进行试错,通过奖励和惩罚反馈神经网络,从而得到更好的策略模型。需注意的是,价值网络和策略网络是相互依赖的,给定其中一个函数都会导致另一个函数的变化。引入Q?Learning算法的DQN[13]很好地结合了两者,实现了从感知到动作的端对端学习,比如让AI玩游戏,在看到遮蔽物时立即做出避让动作等。同时,它在更新网络时,随机抽取过去的学习经历,这使其不仅能够学习到当前的经历,还能学习到过去的经历,甚至是别人的经历。AlphaGo就采取了DQN算法,在自我博弈中实现奖励积累的最大化,由此得出在各个状态下最好的走法选择。这一算法更加符合人类在现实世界中的决策思维,被广泛应用在智能机器人的控制、棋类对弈、游戏通关、汽车自动驾驶等多类决策和控制问题中。2017年12月,DeepMind公布了Alpha系列的最新成果AlphaZero[14],它采取了简化算法的策略,拥有了比AlphaGoZero更好的泛化能力,可使用完全相同的算法和超参数,在不需要人类知识的情况下,完全依靠自我博弈,在国际象棋、日本将棋、围棋三种不同的棋类游戏中,均只需几小时进行模型训练,便可战胜各自领域的顶尖AI程序;Ruslan在2017年NIPS研讨会中提出了将记忆引入深度强化学习的思想,利用位置感知记忆方法,防止过多的记忆重写,从而提高记忆效率,这让学习模型在不同环境下都能够拥有优异的表现。以上两者,不论是AlphaZero的算法简化,还是Ruslan引入记忆的策略,都反映出DRL的前沿研究主要集中于模型的泛化能力和性能上的提升上。2军事智能决策支持系统发展现状2.1军事智能决策支持系统智能决策支持系统(IntelligentDecisionSupportSystems,IDSS)是指在计算机的辅助下,综合运用现代决策理论和人工智能技术,结合了管理决策科学、信息科学与运筹学等学科,依托人类知识库,通过逻辑推理来帮助解决现实问题的决策支持系统,如图4所示。在军事领域,主要应用于辅助决策,实现对情报处理、态势分析、方案确定和计划拟制的辅助支持。下面分别对美军和我国国内相关情况进行简要介绍。2.2美军相关研究军事决策支持系统这一概念最先由美军提出,旨在通过各种技术的实现,辅助指挥员做出及时和正确的判断并实施决策控制。比如,美国防空混成旅射击指挥辅助决策系统[15]可通过捕捉图像、控制管理传感器,实现分析战场态势、制定计划、作战模拟等功能,具有决策快速、准确客观的特点;美军于2004年开展的实时作战智能决策制定计划(Real-timeAdversarialIn?telligenceandDecisionmaking,RAID)[16],希望能够实时根据战场态势自动生成可行的行动方案;2007年,美国防部DARPA机构启动了“深绿”计划(DeepGreen,DG)[17],致力于对未来可能发生的各种情况做出预测,为指挥决策提供支持。“深绿”起初的目标是用于旅级作战,其核心技术是实时态势仿真,而战场复杂态势的不确定性所导致的组合爆炸问题则成了难以攻克的瓶颈,该项目于2011年暂停。2009年至2014年,DARPA启动了一系列面向作战的研究项目,如Mind??sEye计划研发一种根据视觉信息进行态势认知和推理系统;TRACE计划采用智能算法解决对抗条件下态势目标的识别判断;DBM则面向空中战场的辅助决策,主要解决战场态势认知、行动决策生成以及僚机的无人驾驶等现实难题;TEAM-US利用机器的优势帮助人类做出最佳选择,从而大大提升认知的速度和精度。2016年6月,美国辛辛那提大学开发的人工智能系统“阿尔法”,在空战模拟对抗中,战胜了经验丰富的空军上校。该系统从传感器的信息搜集、分析处理到做出正确的判断和选择,整个过程不到1毫秒,这使其在战斗中大大提高了战斗机的生存能力和指挥协调能力。2016年底,美军启动Commander??sVirtualStaff项目,用以应对大数据和复杂战场态势,从而为指挥员提供作战全过程的辅助决策。“深绿”失败的主要原因是由于当时的数据处理能力不足,从而导致传统人工智能方法在解决态势认知问题时存在瓶颈。而阿尔法的成功,则证明了以深度学习为代表的现代人工智能技术,在面对大数据和复杂的战场环境时,可以突破瓶颈。2.3国内相关研究长期以来,国内在该领域也取得了不少成果,较为成熟的主要以专家系统、多智能体系统(MAS)等为主。专家系统是基于专业知识进行推理分析,用以解决特定领域问题的智能系统。如战术导弹方案设计智能优化系统可以通过专家知识,判别方案的优劣,实现对战术导弹方案的有效评估;解放军理工大学研制的军事运筹辅助决策系统[18],可自动生成作战方案,演示战斗过程,评估战场效果等;军事科学院研发的“进攻一号”军事专家支持系统[19],建立了4000多条规则和一个定性与定量相结合的高效推理机制,能够自动生成作战决心的参考方案,辅助指挥员定下决心。近些年来,MAS由于在处理复杂系统问题方面具有显著优势,因此在决策支持系统中也被普遍应用。杨萍[20]等提出的基于MAS的导弹机动方案辅助决策系统,通过加入人机交互模块,能够根据任务要求和战场态势规划行动方案,并对方案进行评估、修正;陈华东[21]等提出的网络中心战中基于MAS的分布式辅助决策研究方法,采用合同网协议对武器目标分配的流程进行研究,取得了很好的效果;空中军事打击智能决策支持系统[22]利用多智能体技术,辅助生成空中军事打击行动决策方案,并进行仿真和评估。然而,战场环境的瞬息万变和难以量化的各类因素成为智能决策的最大障碍,专家系统和传统的机器学习方法难以应对战争中的不确定性以及非线性问题,处理高纬度大数据的能力也非常有限。比如在专家系统中,规则与规则之间的相互关系并不突出,规则的使用不够灵活,系统更加依赖于规则的完整性和准确性。当规则库膨胀到一定规模后,每增加一条新规则都可能会与先前的规则库产生冲突,规则库的维护难度也将大幅提高,这让基于规则的专家系统很难处理现今所面临的复杂战场态势。虽然基于传统机器学习方法以及基于MAS等方法的决策支持系统,在一定程度上能解决专家系统遇到的瓶颈,但这类系统普遍存在以下问题:1)知识处理能力差。根据应用领域的不同,其知识的表示方式和获取策略具有很大差异,且预处理过程对最终结果影响很大;2)协调统一性差。传统的机器学习方法通常将复杂问题拆分成若干子问题,各个子系统之间的沟通协调将直接影响到系统的正确决策;3)适应能力差。以往研究成果中,系统的推理机制是静态的,是针对各自领域预先设定好的搜索策略和推理策略进行决策,因而难以应对实际战场环境的
本文标题:基于深度学习的军事智能决策支持系统
链接地址:https://www.777doc.com/doc-5100487 .html