DAD 与贝叶斯强化学习

Posted on Thu, Apr 20, 2023 📖Note RL 🧪BOED

这篇文章讨论了深度适应性设计(Deep Adaptive Design, DAD)与贝叶斯强化学习领域的关联。对于 DAD 方法的高层评价暗示了这种联系的存在:它解决了一个优化某个目标函数的序列决策问题,决策最优性依赖于一个状态,这个状态是已经收集到的实验数据,自动化决策制定者是一个设计策略网络。我们首先展示由 DAD 解序列贝叶斯实验设计问题是如何被视为一个贝叶斯适应性马尔可夫决策过程(Bayes Adaptive Markov Decision Process, BAMDP)的,使这个联系理论上精准。在 DAD 解决的问题和传统的贝叶斯 RL 问题间也有关键的不同,特别是 DAD 中的奖励是难解的。

有了这个联系,问题“我们能用它做什么?”出现了。首先,DAD 可以很自然地扩展到更一般的目标函数。其次,应该有可能将标准的 RL 技术,如 Q-learning策略优化应用于序列贝叶斯实验设计问题,这可能对长或无穷视野问题特别有用。

更新

这篇文章最初是作者在 2021 年 9 月写的博士论文的一部分。从那以后,令作者兴奋的是,社区似乎已经在作者所知道的三篇论文中抓住了 DAD-RL 的联系:Lim 等人Blau 等人Asano,以及高度相关的 Shen 等人。作者希望在以后的文章中更详细地挖掘这些论文。

贝叶斯背景

强化学习

马尔可夫决策过程

马尔可夫决策过程(Markov Decision Process, MDP)是一个用于在已知环境中的序列决策问题的非常成功的数学框架。正式地说,一个 MDP 由一个状态空间 SS,一个动作空间 AA,一个转移模型 P\mathcal{P},一个奖励分布 RR,一个折扣因子 0γ10\le\gamma\le1 和一个可能无穷的时间视野 TT 组成。智能体通过在离散时间内在不同状态间转移来在 MDP 中运行。例如,如果智能体在 tt 时刻处于状态 sts_t 并选择了执行动作 ata_t,那么下一个状态 st+1s_{t+1} 会根据转移模型 st+1P(sst,at)s_{t+1}\sim\mathcal{P}(s|s_t,a_t) 随机采样。由于下一个状态上的分布仅依赖于 sts_tata_t,转移是马尔可夫的。最后,通过进行转移 statst+1s_t\xrightarrow{a_t} s_{t+1},智能体收到一个随机奖励 rtR(rst,at,st+1)Rr_t\sim R(r|s_t,a_t,s_{t+1})\in\mathbb{R}。智能体的目标是要最大化奖励的折扣和 t=0Tγtrt\sum_{t=0}^T\gamma^tr_t。考虑到问题的马尔可夫性,根据某个策略 π\pi 选择行动就足够了,其中 at=π(st)a_t=\pi(s_t)。对于一个策略的最优条件是 π=arg maxπJ(π)\pi^*=\argmax_\pi\mathcal{J}(\pi),其中

J(π)=Es0p(s0)t=0Tat=π(st),st+1P(sst,at),rtR(rst,at,st+1)[t=0Tγtrt].\mathcal{J}(\pi)=\mathbb{E}_{s_0\sim p(s_0)\prod_{t=0}^Ta_t=\pi(s_t),s_{t+1}\sim\mathcal{P}(s|s_t,a_t),r_t\sim R(r|s_t,a_t,s_{t+1})}\left[\sum_{t=0}^T\gamma^tr_t\right].

在经典 MDP 中,我们假定 P\mathcal{P}RR 在规划阶段是已知的,当智能体设计它们的策略 π\pi 时。在规划策略时特别有用的是价值函数,定义为

Vπ(s)=EsP(s,π(s)),rR(rs,π(s),s)[r+γVπ(s)]V^\pi(s)=\mathbb{E}_{s'\sim\mathcal{P}(\cdot|s,\pi(s)),r\sim R(r|s,\pi(s),s')}[r+\gamma V^\pi(s')]

QQ 函数

Qπ(s,a)=EsP(s,a),rR(rs,a,s)[r+γVπ(s)].Q^\pi(s,a)=\mathbb{E}_{s'\sim\mathcal{P}(\cdot|s,a),r\sim R(r|s,a,s')}[r+\gamma V^\pi(s')].

T=T=\infin 时这些公式是有效的,对于有限时间视野我们还要在状态评估中考虑时间 tt

贝叶斯适应性马尔可夫决策过程

BAMDP 是一种将 MDP 泛化以解决未知转移模型的方法。在 BAMDP 中,智能体保存一个转移模型上的显式的后验分布,称为信念状态。这允许一种形式上优雅的方法来处理不确定性下的行为,这种方法可以权衡探索(学习转移模型)和利用(执行获得高奖励的行为)。

为了使用 Guez 等人的符号正式地建立起这个概念,我们首先考虑一个更外一层的在先验为 P(P)P(\mathcal{P}) 的转移概率上的概率模型。给定状态、动作和奖励的历史 ht=s0a0rt1at1sth_t=s_0a_0\dots r_{t-1}a_{t-1}s_t,我们可以计算一个 P\mathcal{P} 上的后验分布通过

P(Pht)P(P)P(htP)=P(P)τ=0tP(sτ+1sτ,aτ).P(\mathcal{P}|h_t)\propto P(\mathcal{P})P(h_t|\mathcal{P})=P(\mathcal{P})\prod_{\tau=0}^t\mathcal{P}(s_{\tau+1}|s_\tau,a_\tau).

为了把这个带回 MDP 形式化,我们考虑一个增强状态空间 S+S^+,包含整个历史,封装了当前状态和我们对于转移模型的信念。在增强状态空间 S+S^+ 中的转移由对当前的信念在 P\mathcal{P} 上进行积分得到

P+(ht+1ht,at)=P(Pht)P(st+1st,at)dP.\mathcal{P}^+(h_{t+1}|h_t,a_t)=\int P(\mathcal{P}|h_t)\mathcal{P}(s_{t+1}|s_t,a_t)d\mathcal{P}.

BAMDP 也有可能包含未知的奖励分布(如见此文),其中更外一层的奖励分布上模型在 hth_t 的基础上以和转移概率相同的方式更新。具体来说,如果我们有一个奖励分布上的先验 P(R)P(R),那么在增强状态 hth_t 中进行行动 ata_t 的奖励函数是

R+(rht,at,ht+1)=P(Rht+1)R(rst,at,st+1)dR.R^+(r|h_t,a_t,h_{t+1})=\int P(R|h_{t+1})R(r|s_t,a_t,s_{t+1})dR.

将这些合并起来得到一个新的 MDP,有历史的状态空间 S+S^+,没有改变的动作空间 AA,增强的转移模型 P+\mathcal{P}^+,增强的奖励分布 R+R^+,折扣因子 γ\gamma 和时间视野 TT。在这个新的 MDP 中的最优动作给出了探索与利用间最优的权衡。

DAD 的贝叶斯 RL 形式化

DAD 中,我们选择一系列设计 ξ1,,ξT\xi_1,\dots,\xi_T 目的是最大化关于感兴趣的潜在参数 θ\theta 的期望信息增益。为了把 DAD 放入贝叶斯 RL 的设定下,我们首先将在观察到结果前选择的设计 ξt\xi_t 和动作 at1a_{t-1} 联系在一起。时间标签的差异是必要的,因为 ξt\xi_t 是在 yty_t 被观测到之前被选择的。由于观测分布 p(yξ,θ)p(y|\xi,\theta) 依赖于未知的 θ\theta,我们不是处在一个 MDP 中,而是一个 BAMDP 中。如前面小节所述,将 DAD 的状态空间视为历史 ht=ξ1y1ξtyth_t=\xi_1y_1\dots\xi_ty_t 空间似乎是明智的。DAD 转移模型上的不确定性体现在 θ\theta 的不确定性上。具体来说,我们有下面的历史状态的转移分布

p(ht+1ht,ξt+1)=p(θht)p(yt+1ξt+1,θ)dθp(h_{t+1}|h_t,\xi_{t+1})=\int p(\theta|h_t)p(y_{t+1}|\xi_{t+1},\theta)d\theta

类似于 BAMDP 转移概率,但现在用实验设计的符号进行表示。不像标准强化学习设定,DAD 中没有外部奖励。相反,奖励是按照收集到的关于 θ\theta 的信息来定义的。具体来说,我们可以取增强后的状态上的奖励分布 R+(rht,at,ht+1)R^+(r|h_t,a_t,h_{t+1}) 为一个表示从 hth_t 移动到 ht+1h_{t+1} 得到的关于 θ\theta 的信息增益的 ht+1h_{t+1} 的确定性函数。这个函数有熵减给出

R+(ht,at,ht+1)=H[p(θht)]H[p(θht+1)].R^+(h_t,a_t,h_{t+1})=H[p(\theta|h_t)]-H[p(\theta|h_{t+1})].

为了使 BAMDP 规范更完整,我们取 γ=1\gamma=1 并使用 TT 的时间视野。这给出策略的目标函数

J(π)=E[t=1Trt]=Ep(θ)p(hTθ,π)[t=1TH[p(θht1)]H[p(θht)]].\mathcal{J}(\pi)=\mathbb{E}\left[\sum_{t=1}^Tr_t\right]=\mathbb{E}_{p(\theta)p(h_T|\theta,\pi)}\left[\sum_{t=1}^TH[p(\theta|h_{t-1})]-H[p(\theta|h_t)]\right].

为了把这个目标函数与 DAD 中使用的目标联系起来,我们使用 DAD 论文中的定理 1,得出

J(π)=Ep(θ)p(hTθ,π)[t=1TH[p(θht1)]H[p(θht)]]=Theorem  1IT(π)\mathcal{J}(\pi)=\mathbb{E}_{p(\theta)p(h_T|\theta,\pi)}\left[\sum_{t=1}^TH[p(\theta|h_{t-1})]-H[p(\theta|h_t)]\right]\xlongequal{\mathrm{Theorem\;1}}\mathcal{I}_T(\pi)

其中

IT(π)=Ep(θ)p(hTθ,π)[logp(hTθ,π)Ep(θ)p(hTθ,π)].\mathcal{I}_T(\pi)=\mathbb{E}_{p(\theta)p(h_T|\theta,\pi)}\left[\log\frac{p(h_T|\theta,\pi)}{\mathbb{E}_{p(\theta')}p(h_T|\theta',\pi)}\right].

总之,我们可以把 DAD 解决的问题投射为一个 BAMDP。我们将设计识别为动作,实验历史识别为增强后的状态,我们使用概率模型给出一个在这些状态上的自然的转移分布,我们引入了非随机的一步信息增益的奖励,我们设定 γ=1\gamma=1 并通常假定有限次实验迭代 TT

什么使实验设计问题不同?

在建立了序列贝叶斯实验设计和贝叶斯 RL 间的理论联系之后,有人可能自然要问当通用的贝叶斯强化学习算法适用时,是否有理由开发专门的实验设计算法。首先,我们关注贝叶斯实验设计问题的奖励结构。奖励 rt=H[p(θht1)]H[p(θht)]r_t=H[p(\theta|h_{t-1})]-H[p(\theta|h_t)] 通常是难解的,需要 θ\theta 上的贝叶斯推断。不是尝试去估计这个奖励,DAD 提出了策略 π\pi 下的总期望信息增益的 sPCE 下界,即

IT(π)LT(π,L)=Ep(θ0)p(hTθ0,π)p(θ1:L)[logp(hTθ0,π)1L+1=0Lp(hTθ,π)].\mathcal{I}_T(\pi)\ge\mathcal{L}_T(\pi,L)=\mathbb{E}_{p(\theta_0)p(h_T|\theta_0,\pi)p(\theta_{1:L})}\left[\log\cfrac{p(h_T|\theta_0,\pi)}{\frac{1}{L+1}\sum_{\ell=0}^Lp(h_T|\theta_\ell,\pi)}\right].

有趣的是,有一个在 RL 框架下解释 sPCE 目标的方式。首先,我们使用根采样(root sampling)来一起采样 θ0\theta_0hTh_T。我们也固定对照量 θ1:L\theta_{1:L}。最后,我们使用替代奖励

r~t=logp(htθ0,π)1L+1=0Lp(htθ,π)logp(ht1θ0,π)1L+1=0Lp(ht1θ,π).\tilde{r}_t=\log\cfrac{p(h_t|\theta_0,\pi)}{\frac{1}{L+1}\sum_{\ell=0}^Lp(h_t|\theta_\ell,\pi)}-\log\cfrac{p(h_{t-1}|\theta_0,\pi)}{\frac{1}{L+1}\sum_{\ell=0}^Lp(h_{t-1}|\theta_\ell,\pi)}.

由于这些奖励依赖于 θ0\theta_0,如果我们只以 hth_t 为条件的话我们可以把它们当作随机化的奖励。

这些奖励的一个重要特征是,尽管不可解,替代的 LT(π,L)\mathcal{L}_T(\pi,L) 是关于设计 (ξt)t=1T(\xi_t)_{t=1}^T 和观测 (yt)t=1T(y_t)_{t=1}^T 可微分的。在 DAD 的最简单形式中,我们进一步假设 yty_tξt\xi_t 之间的以一种可重参数化的方式封装的可微分关系来采样 p(yθ,ξ)p(y|\theta,\xi)。具体来说,例如我们可能有 yθ,ξ=μ(θ,ξ)+σ(θ,ξ)ϵy|\theta,\xi=\mu(\theta,\xi)+\sigma(\theta,\xi)\epsilon 其中 ϵN(0,1)\epsilon\sim N(0,1)μ\muσ\sigma 都是可微分函数。这些假设的结果是我们可以直接关于根据公式 ξt=πϕ(ht1)\xi_t=\pi_\phi(h_{t-1}) 生成设计 (ξt)t=1T(\xi_t)_{t=1}^T 的策略网络 πϕ\pi_\phi 的参数 ϕ\phi 求替代目标 LT(π,L)\mathcal{L}_T(\pi,L) 微分。DAD 直接通过在 LT(π,L)\mathcal{L}_T(\pi,L) 上的梯度下降优化策略 πϕ\pi_\phi

因此,DAD 可以用 RL 的语言描述为一个直接策略优化方法。尽管直接策略优化方法在 RL 中被使用,它们与标准相去甚远,Q-learningactor-critic 等方法更占主导地位。这也许是因为 RL 通常不假设奖励函数是可微分的:例如,一个真实环境中的奖励很少有梯度信息。也可能是因为离散动作问题更是关注的焦点。

DAD 也不同于贝叶斯 RL 的许多方法在于它不去估计后验 p(θht,π)p(\theta|h_t,\pi)。在贝叶斯 RL 中,这些后验分布被称为信念状态。许多解决贝叶斯 RL 问题的方法使用信念状态的估计。相反,DAD依赖于一种更接近与根采样的方法。这也是 DAD 和之前的非贪婪的序列贝叶斯实验设计间的不同。

DAD 的新的目标函数

在贝叶斯 RL 的框架中理解 DAD 自然会引发一个问题,即一般的 DAD 方法是否可以应用于非信息增益的目标函数(奖励)。前面的讨论表明,使用根采样所以对于 θ\theta 的依赖是可能的,我们可以考虑这个形式的奖励

rtgeneral=R(θ,ht,ϵt)r_t^{\mathrm{general}}=R(\theta,h_t,\epsilon_t)

其中 RR 是一个一致的可微分函数,ϵt\epsilon_t 是一个独立的噪声随机变量。显然,信息增益奖励 rtr_t 满足这个模式,只是 hth_t 的函数。将这个可微分奖励函数与重参数化假设合并起来意味着一般的奖励

Jgeneral(π)=Ep(θ)p(hT)p(ϵ1:T)[t=1Trtgeneral]\mathcal{J}^{\mathrm{general}}(\pi)=\mathbb{E}_{p(\theta)p(h_T)p(\epsilon_{1:T})}\left[\sum_{t=1}^Tr_t^{\mathrm{general}}\right]

可以通过直接策略梯度关于 π\pi 直接被优化。在实验设计情境中,这就为 DAD 的两个相对简单的扩展打开了大门。例如,我们可以给每个设计分配一个(可微分的)开销。假设我们用负的设计开销的和增强原始的期望信息增益目标。使用 λ\lambda 来权衡开销和信息,我们得到

Jcosted(π)=IT(π)λE[t=1TC(ξt)]\mathcal{J}^{\mathrm{costed}}(\pi)=\mathcal{I}_T(\pi)-\lambda\mathbb{E}\left[\sum_{t=1}^TC(\xi_t)\right]

我们可以使用本质上和 DAD 相同的方法解决该问题。第二,我们可以考虑最终后验分布的质量的不同度量。例如,一维的 θ\theta,我们可能比起降低后验熵对于降低后验方差更感兴趣。我们可以取奖励函数为

rtvariance=Varp(θht1)[θ]Varp(θht)[θ].r_t^{\mathrm{variance}}=\mathrm{Var}_{p(\theta|h_{t-1})}[\theta]-\mathrm{Var}_{p(\theta|h_t)}[\theta].

尽管有确定的原因可以解释为什么上方法在理论上更合理,但使用后验分布的不同函数作为奖励信号确实相对自然地符合 DAD 框架。剩下的问题是,是否可以像 DAD 使用 sPCE 来估计信息增益那样有效地估计该函数。对于方差,我们有

Ep(θ)p(hTθ,π)[t=1Trtvariance]Varp(θ)[θ]Ep(θ)p(hTθ,π)[(θfϕ(hT))2]\mathbb{E}_{p(\theta)p(h_T|\theta,\pi)}\left[\sum_{t=1}^Tr_t^{\mathrm{variance}}\right]\ge\mathrm{Var}_{p(\theta)}[\theta]-\mathbb{E}_{p(\theta)p(h_T|\theta,\pi)}[(\theta-f_{\phi'}(h_T))^2]

其中 fϕf_{\phi'} 是一个可学习的函数。注意其与 Barber-Agakov 界 的相似性。

用于贝叶斯实验设计的 RL 算法

总之,在序列贝叶斯实验设计之间建立正式的联系,为利用大量关于贝叶斯 RL 和控制理论的文献来提高我们计划序列实验的能力提供了可能性。虽然 DAD 的直接策略优化方法非常有效,但当这种训练方法开始失效时,理解与 RL 的联系应该会帮助我们。将现有的贝叶斯 RL 算法应用于实验设计是一个令人兴奋的新研究领域。(2022 年更新:事实上,这是最近几篇论文探索的角度。)

对于 DAD 来说,这些见解可能有用的一个可能的困难是在长期实验中。为了有效地规划长期实验,DAD 模拟了数千种可能的实验轨迹。然而,这种模拟的效率有可能会随着 TT 增加而下降。DAD 非常需要数据:它在每个梯度步骤中重新模拟全新的轨迹。这避免了训练数据过时的问题,但也增加了训练成本。

同样可以想象的是,在某些情况下,不可能为未来的所有可能情况作出计划。RL 的类比是一个非常随机的环境,在游戏开始时从一个长列表中随机选择一个游戏。因此,智能体必须首先发现自己在玩哪种游戏,然后才能成功地玩下去。如果所有计划都是预先进行的,那么 RL 智能体必须在开始真实环境之前学习如何玩好每一款游戏。另一种方法是引入一些真实数据,并在进行过程中对策略进行重新训练。在 RL 情境中,这意味着在知道如何玩游戏之前就能发现玩家正在玩哪款游戏,这可以通过更简单的策略实现。一旦有了这个发现,我们就可以重新训练,学会玩那个特定的游戏。在实验设计情境中,我们经常处于“未知游戏”情境中。这是因为,在我们观察到一些数据之前,几乎不可能知道哪些后续实验将是最佳的。DAD 的方法是模拟不同的可能性,并学会在各个方面都“玩”得好。重新训练的替代方案则是标准贪婪方法和 DAD 之间的混合方法,其中使用一些真实数据在进行过程中重新训练策略。