多智能体强化学习：基础与现代方法

作者：未知作者笔记数：12 条

第1章引言

多智能体学习过程中的非平稳性

观测历史o0，o1，…，ot，以推断可能的当前环境状态st

折扣因子理解之一

折扣因子有两种等价的解释。一种解释是，(1-γ)是马尔可夫决策过程在每个时间步之后终止的概率。因此，在经过总共T＞0个时间步后终止的概率是γT-1(1-γ)

折扣因子理解之二

要注意折扣率是学习目标的一部分，而不是一个可调的算法参数

如果在一回合中达到了终止状态或最大时间步，则我们将此时的最终状态定义为吸收状态，即在该状态下的任何后续动作都将以1的概率转移到马尔可夫决策过程的同一状态，并给智能体带来0的奖励

在零和博弈中，所有智能体的奖励之和始终为0，即对于所有的a∈A，i∈I，有[插图]

在共享奖励博弈中，所有智能体都获得相同的奖励，即对于所有的i，j∈I，有ℛi=ℛj。

在一般和博弈中，奖励函数之间的关系没有限制。

矩阵博弈

每个智能体的策略都是对其他智能体策略的最佳响应