当前位置：首页> 正在进行安全检测...

正在进行安全检测...

时间：2023-12-02 03:45:52 下载该word文档

我在谷歌大脑工作的18个月中，是怎样研究强化学习的？
雷锋网AI科技评论按：在强化学习领域，谷歌大脑的研究内容一直是业界重点关注的对象。MarcG.Bellemare是谷歌大脑的研究员，研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑18个月中研究经历和心得写成了文章并进行发表。雷锋网AI科技评论全文编译如下。雷锋网
时间回溯到2017年夏天，在欧洲一段时间的告别旅行中，我被当时在蒙特利尔新成立的谷歌大脑团队录用（当时我进行远程办公）。我在家里的办公室可以看到伦敦北部贝尔塞斯公园（BelsizePark）的绝美景色，而且还曾招待了谷歌蒙特利尔的整个强化学习团队，这是真的。
从那以后，我搬到了另一个大陆，在AI实习生、学生研究者和全职谷歌员工三重角色中转换。现在，谷歌团队的规模有了相当大的扩展（而且还在继续扩展：MarlosC.Machado也加入了我们）。事后看来，2018年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出，以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作，从而让我们对不远的未来有了一个认识。
分布式强化学习
「它很好。但它如何实现呢?」
在强化学习中，分布式的方法认为我们应该预测随机收益的分布，而不是预测它们的期望值(Bellemare,Dabney,Munos,ICML2017。然而，大多数分布式智能体仍然通过将行动值（actionvalue）分布提取还原为它们各自的期望值，然后选择期望值最高的操作来运行。预测，然后提取。那么，为什么它在实践中表现得如此出色呢?为了回答这个问题，我们开发了一种正式语言来分析分布式强化学习方法，尤其是基于样本的方法（Rowland等，AISTATS2018）。通过这一形式，我们发现原来的分布式算法（称为C51）隐式地最小化了概率分布之间的距离（Cramér距离）。但是我们的一些结果表明，
分布式算法应该最小化分布之间的Wasserstein距离，而不是Cramér距离。我们（我指的是WillDabney）用一种叫做分位数回归（quantileregression,）的技术重新修正了大部分的C51，在一定程度上最小化了Wasserstein距离。由此产生的智能体（这个称为QR-DQN）在Atari2600基准上表现出强大的性能（Dabneyetal.，AAAI2018）。另一个令人兴奋的结果是，MarkRowland最近发现了分布式强化学习中统计量和样本之间的一个有趣的失配，这就解释了为什么这些算法有效，而其他算法注定会失败（Rowlandetal.，2019）。
根据Mark对C51的分析，我们从基本原理推导出了一个分布式算法——在本例中，使用的是更容易处理的Cramér距离。我们的目标是开发出一项能显式地对分配损失执行梯度下降（C51和QR-DQN都没有这样做）的分配算法，而最终开发出来的是一项我们命名为S51的算法（Bellemare等人，AISTATS2019）；「S」代表「有符号的」，因为算法可能会输出有效的负概率。由于其相对简单，我们能够证明，当与线性函数近似（linearfunctionapproximation）结合时，S51能够保证收敛性。在此过程中，我们还收集了一些证据，证明在一些病态的例子中，预测+提取的方法比直接预测期望值的表现更糟糕。这是一位评论者所提到的「更容易出现模型错误识别」所导致的自然而然的结果。
此后，我们也证明了将预测+提取的方法结合到表格表征中实际上是无效的，同时证实了如果将该方法结合到线性表示中，其性能可能比预期的强化学习更差（Lyle,Castro,Bellemare,AAAI2019）。这使我们排除了不依赖于表征选择的常见解释，如「分布式强化学习减少方差」或「平均分布式预测导致更准确的值估计」。这些解释某种程度上错误地引用了Holmes先生的话，一旦你排除了不可能，剩下的一定是真相：分布式强化学习一旦与深层网络结合，似乎就会变得有用。
为了收集这方面的进一步证据，我们在Cartpole域中训练了智能体，要么使用固定的低维表示（一阶傅里叶基），要么使用类似的深

阅读全文