1 第一章 1.1 如计划用六个鸡蛋煎蛋饼,已向碗里打了五个好蛋,准备打第六鸡蛋时,有三种不同的方案可供选择,即 方案1a :打入 方案2a :单打 方案3a :丢弃 由于第六个蛋事前不知是好是坏,每种方案均面对两种不确定的结果,即 状态1 :第六个蛋是好蛋 状态2 :第六个蛋是坏蛋 如用)2,1;3,2,1(jioij分别表示方案ia 在状态j 下的决策结果 好蛋(1 ) 坏蛋(2 ) 打入(1a ) 11o 12o 单打(2a ) 21o 22o 丢弃(3a ) 31o 32o 收益函数 1. 设决策问题的收益值为q,状态变量为 ,决策变量(方案或策略)为a
当决策变量a 和状态变量 确定后,收益值q随之确定
q是a 和 的函数,称为收益函数,记作 ),( aQq,如决策变量和状态变量均为离散的,即),
,2,1(miaai,),
,2,1(njj ,则收益函数可表示为),
,2,1;,
,2,1(),,(njmiaQqjiij 2 这可以用矩阵表示,称为收益矩阵,既mnmmnnnmijqqqqqqqqqqQ
)(212222111211 2.损失函数 损失值(遗憾值),表示没有采取最满意方案或策略时造成的损失,当决策变量a 和状态变量 确定后,损失值r是a 和 的函数,称为损失函数,记着),( aRr ,如决策变量和状态变量均为离散的,即),
,2,1(miaai,),
,2,1(njj ,则损失函数可表示为 ),(jiijaRr ),
,2,1;,
,2,1(njmi,损失函数也可表示为损失矩阵
损失值可以通过收益值计算出来,公式为mkijkjijqqr1max
损失值表示在给定状态下,没有采取收