您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第4章动态决策分析.
决策理论与方法(DecisionMakingTheoryandMethods)《决策理论与方法》第2页第2页第四章动态决策分析《决策理论与方法》第3页第3页学习目的了解多阶段决策、序贯决策的概念及特点;掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。《决策理论与方法》第4页第4页本讲内容4.1动态决策的基本原理4.1.1动态规划4.1.2决策树4.2多阶段决策4.2.1多阶段决策过程的基本概念4.2.2多阶段决策问题的决策方法4.3序贯决策4.3.1序贯决策的基本概念4.3.2序贯决策的决策方法《决策理论与方法》第5页第5页4.1动态决策的基本原理4.1.1动态规划动态规划(dynamicProgramming,DP)是解决多阶段决策过程最优化的一种方法,其基本思路是将多阶段决策过程转化为一系列相互关联的单阶段问题,并依次求解。DP是离散系统最优化的一种有效工具,目前动态规划已广泛用于工业、农业、工程技术、资源、环境、经济、社会等领域。《决策理论与方法》第6页第6页4.1动态决策的基本原理4.1.1动态规划例4-1-1最优线路问题。由水源地向城市的输水线路需通过3个控制点,每个控制点均有两个可选方案,每段线路的输水费用如下图所示。选出一条输水线路,使得总输水费用最小。616344542354AE1E2F1F2G1G2BS1k=1S2k=2S3k=3S4k=4S5《决策理论与方法》第7页第7页4.1动态决策的基本原理4.1.1动态规划最优性原理(theprincipleofoptimality)也称为Bellman原理,是R.Bellman提出的DP的基本原理,其表述为:“一个过程的最优策略具有这样的性质,即无论初始状态和初始决策如何,对于由前面的决策所形成的状态来说,其后各阶段的决策序列必定构成相应子过程的最优策略”。《决策理论与方法》第8页第8页4.1动态决策的基本原理4.1.2决策树决策树(decisiontree)就是将决策过程各个阶段之间的结构绘制成一张箭线图,每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果。决策树的构成有四个要素:1)决策结点;2)方案枝;3)状态结点;4)概率枝。《决策理论与方法》第9页第9页4.1动态决策的基本原理4.1.2决策树方案枝方案枝决策结点概率枝概率枝状态结点概率枝概率枝概率枝状态结点概率枝《决策理论与方法》第10页第10页4.1动态决策的基本原理4.1.2决策树决策树法的决策程序如下:1)绘制树状图,根据已知条件排列出各个方案和每一方案的各种自然状态。2)将各状态概率及损益值标于概率枝上。3)计算各方案期望值并将其标于该方案对应的状态结点上。4)进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望值小的(即劣等方案剪掉)所剩的最后方案为最佳方案。《决策理论与方法》第11页第11页4.2多阶段决策多阶段决策有以下三个特点,第一,决策者需要做出时间上有先后之别的多个决策;第二,前一次决策的选择将直接影响到后一次决策,后一次决策的状态取决于前一次决策的结果;第三,决策者关心的是多次决策的总结果,而不是各次决策的即时后果。《决策理论与方法》第12页第12页4.2多阶段决策4.2.1多阶段决策过程的基本概念(1)阶段-表示研究对象在发展过程中所处的时段或步骤。(2)状态-系统在发展过程中某个阶段所有可能发生的情况,称为该阶段的状态。(3)决策与策略-某阶段状态给定以后,从该状态演变到下一阶段某个状态的选择称为决策;策略是一个决策序列。(4)指标函数与目标函数-对于多阶段决策过程的某一阶段,从初始状态做出决策而转移到下一状态时所产生的效应的衡量指标,称为该阶段的指标函数;目标函数是全过程指标函数的最优值。(5)多阶段决策过程-对整个过程进行分阶段决策,得到一个最优策略,使系统总体指标函数达到最优值。《决策理论与方法》第13页第13页4.2多阶段决策4.2.2多阶段决策问题的决策方法主要方法是决策树法和动态规划法。分析步骤1、根据具体问题适当划分阶段2、确定各阶段的状态变量,寻找各阶段间的联系3、由后到前用逆序归纳法进行决策分析《决策理论与方法》第14页第14页4.2多阶段决策4.2.2多阶段决策问题的决策方法多阶段决策问题包括确定型与随机型两大类,在确定型多阶段决策中,目标值都是确定值,在风险型多阶段决策中,目标值用期望值作为评价的标准。下面分别以两个例子说明其决策方法。《决策理论与方法》第15页第15页4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-1决策图736045845元1012152025736045846元1213162024736045847元1414161818736045848元1615151414《决策理论与方法》第16页第16页4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-1某公司考虑为某新产品定价,该产品的单价拟从每件5元、6元、7元、8元这四个价格中选取其中之一,每年年初允许变动价格,但幅度不能超过1元。该公司预计该产品畅销只有五年,五年后将被淘汰,另据销售情况的预测,在价格不同的情况下各年的预计利润额见右表。单价第1年第2年第3年第4年第5年5元10121520256元12131620247元14141618188元1615151414《决策理论与方法》第17页第17页4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-2某公司考虑是否花10000元从某科研机关购买某项技术,然后产销新产品。如果卖技术,可以进行大批生产,可能出现的市场情况也分为畅销、一般或滞销三种,其收益矩阵见下表左。为了更准确地了解市场情况,正式投产前可进行产品试销,但需是消费500元。试销状态可分为受欢迎、一般或不受欢迎三种,其条件概率分别见下表右。如不买此项技术,把这笔经费应用在其他地方,在同样的时期内,可获利15000元,那么公司应如何决策?公司要确定:1)是否卖技术?2)如果买技术,是否采取试销方式?3)如果不试销,应大批、中批还是小批生产?如果试销又如何根据试销状态决定其行动。3a2a1a3H1H2H《决策理论与方法》第18页第18页4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-2的表格a12(0.6)(0.3)(0.1)4000020000-300003000030000-20000100001000010000123(0.6)(0.3)(0.1)0.60.20.20.30.60.30.10.20.51a2a3a1H2H3H《决策理论与方法》第19页第19页4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-的决策树买不试试不买10.620.3830.110.620000300003406041a2a20.136910.81830.046300003000020000340603a1000031(0.44)H520.46210.46230.076400002000030000340601a2a20.46210.46230.076300003000020000340603a1000010112(0.39)H620.35310.35330.294400002000030000340601a2a20.35310.35330.294300003000020000340603a1000012133(0.17)H720.310.630.1400002000030000340601a2a20.310.630.1300003000020000340603a10000141521150002780527305500100017305《决策理论与方法》第20页第20页4.3序贯决策4.3.1序贯决策的基本概念上面的多阶段决策,阶段数是确定的。除这种决策外,还有一些决策的阶段数不是事先确定的,它依赖于执行决策过程中出现的情况。这种决策问题称为序贯决策(sequentialdecisionproblem)。序列决策在进行决策后又产生一些新的情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策……,这就构成一个序列。《决策理论与方法》第21页第21页4.3序贯决策4.3.1序贯决策的基本概念序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是:1)所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;2)决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值);3)系统下一步(或未来)可能出现的状态是随机的或不确定的。《决策理论与方法》第22页第22页4.3序贯决策4.3.1序贯决策的基本概念系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:1)系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。2)系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。《决策理论与方法》第23页第23页4.3序贯决策4.3.2序贯决策的决策方法序贯决策的过程是:从初始状态开始,每个时刻做出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再做出新的最优决策,反复进行直至最后。解决序贯决策问题的有效办法仍然是决策树,解决序贯决策的关键是确定一个决策序列终止的原则。在下例中,这个原则就是:不管到决策的哪个阶段,只要有一个非经抽样的后悔期望值小于进行一次抽样的费用,决策序列便可终止。《决策理论与方法》第24页第24页4.3序贯决策4.3.2序贯决策的决策方法例4-3-1某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01,0.40,0.90三种可能,其概率分别为0.2,0.6,0.2。现在的问题是:出厂前是否要对产品进行严格检验,将次品挑出。可以选择的行动有两个:①整箱检验,检验费为每箱100元;②整箱不检验,但如果顾客在使用中发现次品,每件次品除条换为合格品外还要赔偿0.25元损失费。为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它,然后根据这件产品是都次品再决定该箱是否要检验,抽样成本为4.2元。进行第一次抽样后,除选择检验还是不检验外,还可以根据前面抽样的结果,考虑再进行一次抽样检验如此形成一个决策序列。该厂应该如何决策。《决策理论与方法》第25页第25页4.3序贯决策4.3.2序贯决策的决策方法解(1)假设为整箱检验;为整箱不检验;而表示次品率分别0.01,0.40,0.90的三种自然状态;表示抽取一件样品的行动,表示抽取第二件样品的行动;,为抽样时次品和合格品的两个结果。12123,,1S2S1x0x《决策理论与方法》第26页第26页4.3序贯决策4.3.2序贯决策的决策方法(2)计算益损值和后悔值矩阵。产品检验问题的收益矩阵见表4-3-1。由表4-3-1的收益矩阵可得到各行动方案的后悔值矩阵,见表4-3-2。表4-3-1:收益矩阵表表4-3-2:后悔矩阵表A123()E1a(0.2)(0.6)(0.2)-100-100-100-100-2.5-100-100-105A1232a2a(0.2)(0.6)(0.2)97.500001251aEa《决策理论与方法》第27页第27页4.3序贯决策4.3.2序贯决策的决策方法(3)抽取一件样品的抽样分布见表4-3-3。计算各有关概率。表4-3-3:抽样结果条件概率分布表矩阵表A1
本文标题:第4章动态决策分析.
链接地址:https://www.777doc.com/doc-2156474 .html