作者:未知作者 笔记数:12 条
多智能体学习过程中的非平稳性
观测历史o0,o1,…,ot,以推断可能的当前环境状态st
折扣因子理解之一
折扣因子有两种等价的解释。一种解释是,(1-γ)是马尔可夫决策过程在每个时间步之后终止的概率。因此,在经过总共T>0个时间步后终止的概率是γT-1(1-γ)
折扣因子理解之二
要注意折扣率是学习目标的一部分,而不是一个可调的算法参数
如果在一回合中达到了终止状态或最大时间步,则我们将此时的最终状态定义为吸收状态,即在该状态下的任何后续动作都将以1的概率转移到马尔可夫决策过程的同一状态,并给智能体带来0的奖励
在零和博弈中,所有智能体的奖励之和始终为0,即对于所有的a∈A,i∈I,有[插图]
在共享奖励博弈中,所有智能体都获得相同的奖励,即对于所有的i,j∈I,有ℛi=ℛj。
在一般和博弈中,奖励函数之间的关系没有限制。
矩阵博弈
每个智能体的策略都是对其他智能体策略的最佳响应