【文献阅读】17年进化算法和DRL结合的文章

tech2022-07-31 232

Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

Brief

目前该文已经有了上百的引用量，还是有点厉害。文章地址链接代码链接 code 作者来自佛罗里达大学和openAI

Abstract

【开篇明义】Evolution strategies (ES) are a family of black-box optimization algorithms able to train deep neural networks roughly as well as Q-learning and policy gradient methods on challenging deep reinforcement learning (RL) problems, but are much faster (e.g. hours vs. days) because they parallelize better. 进化策略(ES)是一个黑盒优化算法系列，能够在具有挑战性的深度强化学习(RL)问题上训练深度神经网络，其效果与Q-learning和策略梯度方法大致相同，但速度要快得多(如几小时与几天)，因为它们的并行化程度更好。【转折】However, many RL problems require directed exploration because they have reward functions that are sparse or deceptive (i.e. contain local optima), and it is not known how to encourage such exploration with ES. 然而，许多RL问题需要定向探索，因为它们的奖赏函数是稀疏的或具有欺骗性的（即包含局部optima），目前还不知道如何用ES鼓励这种探索。

这里给出了问题，就是对奖励稀疏和含有局部最优的RL问题，不知道如何用进化算法来指导这种定向探索。

【我们的方法】Here we show that algorithms that have been invented to promote directed exploration in small-scale evolved neural networks via populations of exploring agents, specifically novelty search (NS) and quality diversity (QD) algorithms, can be hybridized with ES to improve its performance on sparse or deceptive deep RL tasks, while retaining scalability. 在这里，我们表明，已经发明了通过探索代理的群体来促进小规模进化神经网络中的定向探索的算法，特别是新奇搜索（NS）和质量多样性（QD）算法，可以与ES杂交，以提高其在稀疏或欺骗性的深度RL任务上的性能，同时保留可扩展性。

这句话真够长的，信息量也非常大。NS 和 QD 是本文最重要的两个概念。

【实验及结果】Our experiments confirm that the resultant new algorithms, NS-ES and a version of QD we call NSR-ES, avoid local optima encountered by ES to achieve higher performance on tasks ranging from playing Atari to simulated robots learning to walk around a deceptive trap. 我们的实验证实，由此产生的新算法，NS-ES和我们称之为NSR-ES的QD版本，避免了ES遇到的局部optima，在从玩Atari到模拟机器人学习绕着欺骗性陷阱行走的任务上实现了更高的性能。 This paper thus introduces a family of fast, scalable algorithms for reinforcement learning that are capable of directed exploration. It also adds this new family of exploration algorithms to the RL toolbox and raises the interesting possibility that analogous algorithms with multiple simultaneous paths of exploration might also combine well with existing RL algorithms outside ES. 因此，本文介绍了一个用于强化学习的快速、可扩展的算法系列，这些算法能够进行定向探索。它还将这个新的探索算法家族添加到RL工具箱中，并提出了一种有趣的可能性，即具有多条同时探索路径的类似算法也可能与ES之外的现有RL算法很好地结合。

1. Introduction

第一段

在RL中，agent试图学习在一个环境中执行一系列动作，使累积奖励最大化。【转折】然而，奖励函数往往具有欺骗性deceptive，并且单纯的奖励优化而没有一些鼓励智能探索 intelligent exploration 的机制，可能会导致陷入局部最优状态，agent无法正确的学习。【局部最优】与具有深度神经网络（DNNs）的监督学习不同，在神经网络中，局部最优值不被认为是一个问题，RL中的训练数据是由 agent 采取的动作 actions 决定的。如果agent贪婪地采取回报最大化的行动，那么算法的训练数据将是有限的，它可能无法发现具有更大回报的替代策略alternate strategies（即它可能卡在局部最优中。）【稀疏奖励】对于只实现奖励最大化的算法来说，稀疏的奖励信号sparse reward signals 也可能是一个问题，因为优势可能没有奖励梯度可循。奖励信号中存在欺骗性和/或稀疏性的possibility可能性，促使人们需要进行有效的定向探索，在这种情况下，agent 被激励去访问未搜索的状态，以学习积累更高的奖励。【总结问题】虽然深度RL算法近年来表现出了惊人的feats 功绩，但它们大多是依靠简单的，非定向的（aka dithering 也就是摇摆不定）探索策略完成的，在这种策略中，agent希望通过采取随机行动来探索环境中的新区域（如贪婪的探索 epsilon-greedy exploration）。

第二段

【总领】已经提出了很多方法来促进RL中的定向探索，包括最近用DNNs处理高维状态空间的方法。【方法一】一个常见的想法是鼓励agent访问它很少或从未访问过的状态（或在这些状态采取新的novel actions ）。所提出的跟踪状态（或者状态-动作对）访问频率的方法包括（1）基于自动编码的状态潜码[11]或者来自状态空间密度模型的伪计数 pseudo-counts 来逼近状态访问次数，（2）学习一个可以预测未来状态的动态模型（假设对于很少访问的状态/状态-动作对的预测会更差），（3）基于压缩的方法（新的状态应该更难压缩）。

Methods proposed to track (or state-action pair) visitation frequency include (1) approximating state visitation counts based on either auto-encoded latent codes of states or pseudo-counts from state-space density models, (2) learning a dynamics model that predicts future states (assuming predictions will be worse for rarely visited states/state-action pairs), and (3) methods based on compression (novel states should be harder to compress). 这一块的内容居然完全懵逼，每个单词都认识，拼到一起就不知道啥意思了

第三段

【承上启下】这些方法都是分别计算每个状态。【方法二】另一种不同的方法是手工设计（或者学习）一个抽象的abstract，整体性holistic对agent一生行为的描述，然后鼓励agent表现出与之前的行为不同的行为。【起名字】那就是novelty search （NS）新颖性搜索和quality diversity （QD）质量多样性算法的方法，下面详细介绍。【算法特点】这样的算法也有interestingly different 有意思的不同，并且具有不同的能力，因为他们是用一群agents 而不是单个agent 来执行探索的（在SI Sec. 6.2 中讨论）。NS和QD已经在低维输入和输出空间的问题上，用较小的神经网络显示出了希望。【ES】进化策略evolution strategies （ES）最近被证明可以在很短的wall clock time 挂钟时间内，通过对许多分布式计算机的良好扩展，在高维深度RL任务上表现良好。【本文】在本文中，我们首次研究了如何将这两类算法与ES进行杂交hybridized，将其扩展到深度神经网络，从而在不牺牲ES的速度/可扩展性优势的前提下，处理困难的高维深度强化学习问题。【具体内容】我们首先研究NS，它只执行探索（忽略奖励函数），以找到一组信仰的解。然后，我们研究平衡探索和利用的算法，特别是QD算法的新颖实例，它寻求产生一组既新颖又高性能的解。NS和QD在第三节中详细解释。

第四段

【总领句】ES直接在神经网络的参数空间中进行搜索，寻找有效的策略。【举例子】OpenAI 的一个团队最近表明，ES可以在许多强化学习任务上获得具有竞争力的性能，同时与传统的基于梯度的RL方法相比具有一些独特的优势[24]。【例子的最大优点】Most notably 最值得注意的是，ES具有高度的可并行性 ES is highly parallelizable, 这使得运行时的速度在CPU/GPU workers 的作用下接近线性提升。例如，在使用数百个并行CPU的情况下，ES能够在1小时内对相同DNN架构的Atari游戏实现与A3C在24小时内大致相同的性能 [24]。【本文】在本文中，外面研究了仅在ES中添加NS和DQ；在未来的工作中，外面将研究它们如何与Q-learning和策略梯度方法混合。外面从ES开始，因为（1）它的快速wall-clock time 挂壁时间允许快速的实验迭代，（2）NS和QD最初是作为神经进化方法开发的，因此很自然地先用ES来尝试，ES也是一种进化算法。

第五段

【本文任务的凝练版本】在这里外面测试了通过NS和QD鼓励novelty 新颖性是否能提高ES在系数和/或欺骗性控制任务上的性能。【实验】外面的实验证实，NS-ES 和 QD-ES 的两个简单版本（NSR-ES 和 NSRA-ES）避免了ES遇到局部作用并在从模拟机器人学习绕过欺骗性陷阱到玩Atari 游戏的高维像素-到-动作的任务上实现了更高的性能。【贡献】我们的结果将这些新的探索算法家族添加到工具箱中，为研究如何将它们与RL算法（无论是ES还是其它算法）进行最佳结合开辟了一条途径。

2 Background

2.1 Evolution strategies

第一段： ES的定义，原理，本文用到的是NES

进化策略（ES）是一类受自然进化启发的黑盒优化算法[23]：在每一次迭代（generation），参数向量种群（genomes基因组）被扰动（mutated 突变），并，可选地，通过 crossover 重新组合 recombined （merged 合并）。“At every iteration (generation), a population of parameter vectors (genomes) is perturbed (mutated) and, optionally, recombined (merged) via crossover. ” 然后根据一些目标函数objective function （reward）对每个结果后代resultant offspring 的fitness 适应性进行评估，然后通过某种形式的选择确保具有较高奖励的个体倾向于为下一代产生后代。ES 类的许多算法在对种群的表示和重组方法上有所不同；本工作中随后提到的算法属于Natural Evolution Strategies 自然进化策略（NES）类[25,26]。 NES将种群表示为参数向量 $\theta$ 的分布，其特征是参数 $\phi$ : $p_\phi(\theta)$ 。在适应度函数 $f(\theta)$ 下，NES通过随机梯度上升优化 $\phi$ ，寻求种群平均适应度 $\mathbb{E}_{\theta\sim p_{\phi}}[f(\theta)]$ 的最大化。

第二段：参数梯度更新

OpenAI 最近的工作outlines 概述了一个应用于标准RL基准问题的NES版本[24]。我们今后将把这种变体简称为ES，在他们的工作中，一个适应度函数 $f(\theta)$ 代表了在一个完整的agent交互episode中所经历的随机奖励，其中 $\theta$ 参数化了策略 $\pi_\theta$ 。从种群分布 $p_{\phi_t}$ 中，对参数 $\theta_t^i\sim \mathcal{N}(\theta_t, \sigma^2I)$ 进行采样和估计，得到 $f(\theta_t^i)$ 。与REINFORCE [27] 类似，使用预期回报的近似梯度估计更新 $\theta_t$ ：其中 n 是每代评估的样本数。直观地说 intuitively，NES对 $\theta_t$ 附近的参数进行采样，并确定 $\theta_t$ 应该向哪个方向移动以提高预期回报。由于这个梯度估计具有很高的方差，所以NES依靠大的n来降低方差。一般来说generally，NES 也会evolves 演化种群分布的协方差，但为了与[24]公平比较，我们只考虑静态协方差分布，也就是说 $\sigma$ 在整个训练过程中是固定的。

第三段：

为了从种群分布中采样，[24] 将additive Gaussian noise 加性高斯噪声应用于当前参数向量： $\theta_t^i=\theta_t+\sigma\epsilon_i$ ，其中 $\epsilon_i\sim\mathcal{N}(0, I)$ 。虽然 $\theta$ 是高维的，但之前的工作已经表明Gaussian 高斯参数噪声在应用于深度网络是具有beneficial exploration properties 有益的探索特性。然后，通过 taking a sum of sampled parameter perturbations weighted by their reward 取采样参数扰动的综合按其回报加权来估计梯度:

为了确保domains 域间的scale of reward 奖励规模不会对优化过程产生偏差，我们遵循[24]中的方法，在取加权和之前对 $f(\theta_t^i)$ 进行rank-normalize 秩归一化。总的来说，这个NES变体在困难的RL 领域，包括模拟机器人运动和Atari 环境，表现出与当代基于梯度算法相当的性能。

2.2 Novelty search （NS）

【NS定义】受到自然界对多样性的驱动力的启发，NS鼓励encourage 策略采取engage in 与以往明显不同的行为。【NS具体实现方法】该算法通过计算与当前策略相对于之前生成的策略的novelty 新颖性来鼓励不同的行为，然后鼓励鼓励种群分布向具有更高novelty新颖性的参数空间区域移动。【NS应用实例】NS在迷宫maze和双足行走biped walking 领域的表现由于基于奖励的方法，这些领域possess 拥有欺骗性的奖励信号deceptive reward signals，可以吸引agents去local optima 局部最优[3]。【本文】在本文中，我们将NS与ES结合起来，研究DNNs规模的功效。we investigate the efficacy of NS at the scale of DNNs by combining it with ES。【操作】在NS中，一个策略 $\pi$ 被 assigned 分配了一个domain-dependent 域相关的behavior characterization 行为特征 $b(\pi)$ ，描述它的行为。【举例】例如，在人形运动问题的情况下， $b(\pi)$ 可以是简单的二维向量，包含人形的最终位置 {x, y}。【训练过程】在整个训练过程中，每一个被评估的 $\pi_\theta$ 都会以一定的概率将 $b(\pi)$ 添加到一个档案集 archive set $A$ 。然后从A中选出 $b(\pi_\theta)$ 的 k 个近邻 k-nearest neighbors ，计算它们之间的平均距离，计算出某一策略的新颖性 $N(b(\pi_\theta), A)$ 以上，行为特征之间的距离是用 L2-norm 计算的，但可以用任何距离函数来替代。之前，NS 已经用遗传算法实现了 [3]。接下来，我们将解释现在如何将NS 与ES 结合起来，以发挥二者的优势。we next explain how NS can now be combined with ES, to leverage the advantages of both.

Methods

3.1 NS-ES

我们使用ES优化框架，如章节Sec.2.1 所述，计算并跟踪关于 $\theta_t$ 的期望新颖度梯度。给定一个archive A 和采样参数 $\theta_t^i= $\theta_t+\sigma\epsilon_i$ ，可以计算梯度估计值：得到的梯度估计告诉我们如何改变当前策略的参数 $\theta_t$ ，以提高我们参数分布的平均新颖度。我们以A为梯度估计的条件，因为archive 在给定迭代开始时是固定的，只在结束时更新。我们只添加每个 $\theta_t$ 对应的行为特征，因为添加每个样本 $\theta_t^i$ 的行为特征会使archive 膨胀 inflate，并减缓最近邻计算。当更多的行为特征被添加到A中，novelty landscape 新颖性景观会发生变化，导致常见的行为变得“boring” 无聊。对expected novelty 预期新颖性进行优化，会使策略向行为空间的未探索领域发展。 NS-ES可以使用一个单独的agent来操作，该agent因其行为不同于其祖先而获得奖励。然而，为了鼓励额外的多样性additional diversity，并获得第一节中描述的基于种群探索的好处，我们可以创建一个由M个agents组成的群体，我们将它称为meta-population 元群体。每个agent都有一个唯一的 $\theta_m$ ，因为它不同于archive中的所有先前的agents （ancestors，other agents，和其它agents的ancestors ）。在本文中，我们在实验的元种群meta-population 中拥有多个agents （即 M>1），因为我们认为这将会有所帮助，但我们并没有对改变这个超参数如何影响不同领域的性能进行彻底分析。我们假设M的选择是domain dependent 依赖于域的，识别哪些域有利于哪种regime制度是未来研究的一个富有成效的领域。我们初始化M个随机参数向量，在每次迭代时选择一个进行更新。在实验中，我们从一个离散的概率分布中概率地选择哪一个 $\theta_m$ 作为 $\theta_m$ 的新颖度 novelty 的函数进行推进。具体来说specifically，在每次迭代时，对于一组agent参数向量 $\Pi= \{\theta^1, \theta^2, …, \theta^M \}$ ，我们计算每个 $\theta_m$ 的被选择概率 $P(\theta_m)$ ，作为它的novelty 由所有的策略的novelty之和normalized 标准化：

将多个独立的agents表示未独立的Gaussian，是meta-population 元种群分布的简单选择（即元种群分布如何表示）。在未来的工作中，可以尝试更复杂的采样分布，代表元种群参数向量的multi-modal nature 多模态性质。从元种群中选择某个个体m后，我们计算预期新颖度expected novelty 相对于 m 的当前参数向量 $\theta_t^m$ 的梯度，并据此执行更新步骤

其中 n 是对 $\theta_t^m$ 的采样扰动数， $\alpha$ 是stepsize 步长，并且 $\theta_t^{i,m}=\theta_t^m+\sigma\epsilon_i$ ，其中 $\epsilon_i\sim\mathcal{N}(0, I)$ 。一旦当前参数向量被更新， $b(\pi_{t+1}^m)$ 被计算出来，并以概率1加入到共享archive A 中。由于NS没有真正的收敛点 convergence point，整个过程要重复进行pre-specified 预先规定的迭代次数。在这项工作中，算法只是返回找到的性能最高的参数向量。6.3节中的算法1概述了NS-ES的简单，并行实现。需要注意的是，增加archive 存档和用novelty新颖性代替fitness function 适应度函数不会破坏ES优化程序的可扩展性scalability。

3.2. A QD-ES algorithm: NSR-ES

单纯的NS-ES可以使agents 避免奖励函数中的欺骗性局部最优解。然而，奖励信号仍然very informative 信息量很大，完全discarding抛弃它们可能会导致性能受到影响。因此，consequently，我们训练 NS-ES 的一个变体，我们称之为 NSR-ES，该变体结合了针对一组给定策略参数 $\theta$ 计算的奖励（“fitness”）和novelty。与NS-ES 和ES 类似，NSR-ES 对整个episodes 进行操作，因此可以同时simultaneously评估任何采样参数向量的reward 和 novelty ： $\theta_t^{i,m}=\theta_t^m+\sigma\epsilon_i$ 。specifically 具体来说，我们计算 $f(\theta_t^{i,m})$ 和 $N(\theta_t^{i,m}, A)$ ，对这两个值进行平均，并将平均值作为对应 $\epsilon_i$ 的权重。这个平均过程被integrated into 整合到参数更新规则中

直观地讲，该算法在参数哦空间中向着既能表现出novel behavior 新颖行为又能或者高回报的策略hill-climbs爬坡。intuitively，the algorithm hill-climbs in parameter-space towards policies that both exhibit novel behaviors and achieve high rewards. 但通常情况下， $f(\theta)$ 和 $N(\theta, A)$ 的scales 尺度不同。为了将这两个信号有效的结合起来，我们将 $f(\theta_t^{i,m})$ 和 $N(\theta_t^{i,m}, A)$ 独立的进行rank-normalize 秩归一化，然后计算平均值。平均 $f(\theta_t^{i,m})$ 和 $N(\theta_t^{i,m}, A)$ 是鼓励quality 和 diversity 的一种相对简单的方法。将这两个愿望desiderata 结合起来的更复杂的方法，包括简单的加权平均，留待今后的工作。在这里，我们并没有利用整个diverse，高性能的个体集合，而是算法只是返回找到的最佳参数向量。因此，这项工作是将QD算法应用于常见的深度RL benchmarks的第一步preliminary step。进一步的研究可能会调查更复杂的QD方法。6.3 节提供了NSR-ES的伪代码。在未来，我们计划发布所有实验的源代码和超参数配置。

4. Experiments

4.1. Simulated Humanoid Locomotion problem

我们首先对NS-ES和NSR-ES的实现进行了测量，测试的问题是让一个模拟人形学习走路。我们之所以选择这个问题，是因为这是一个具有挑战性的连续控制深度强化学习基准，大多数人会presume预设一个奖励函数来解决这个问题。通过NS-ES，我们测试仅通过novelty 新颖性搜索是否能找到问题的解决方案。对于更小的神经网络（50-100个参数）在更简单的模拟双足动物上已经显示出类似的结果，但这里我们测试NS-ES是否可以在深度神经网络的规模上实现同样的结果。NSR-ES实验测试了在这个困难的连续控制问题上结合探索exploration和奖励压力reward pressures 的有效性effectiveness。具体来说specifically，该领域是OpenAI Gym 中的 MuJoCo Humanoid-V1 环境。在其中，一个人性机器人在每个时间步长中会收到由四个组件components 组成的标量奖励。机器人在positive 正x方向的standing 和 velocity 得到正奖励，地面冲击能量ground impact energy 和 energy expended 消耗的能量。这四个部分components 在一个episode 的每个时间步数相加，得到总奖励total reward。按照 Salimans 2017 概述的神经网络架构，神经网络是一个多层感知器，每个隐藏层包含256个神经元，从而形成一个由166.7K参数的网络。虽然与许多深度RL架构相比，特别是在层数上很小，但这个网络仍然比NS之前尝试的数量级大。我们还用一个1M+参数的网络来测试NS（4.2节）。网络的输入是来自环境的observation space 观察空间，它是代表人行状态（如关节角度，速度）的向量，网络的输出是运动指令的向量。第一个实验在OpenAI Gym的Humanoid-v1 环境的slightly modified version 略微修改版本上比较了ES。NE-ES 和 NSR-ES。因为这个挑战的核心是学习高效的行走，而不是朝某个特定的方向行走，所以我们修改了环境奖励，使之与humanoid 行走的方向无关。specifically 具体来说，修改后的reward function 是各向同性的isotropic （即奖励的速度分量是基于从原点出发的距离，而不是positive x 正x 方向的距离）。如2.2节所述，novelty search 新颖性搜索需要对每个策略 $b(\pi_{\theta_i})$ 。对于 Humanoid Locomotion 人形机器人运动问题，BC是agent的最终位置 {x, y} ，就像在Lehman&Stanley（2011c）中一样。除了behavior characterization 行为特征之外，NS还需要两个行为特征之间的距离函数。按照 Lehman&Stanley（2011c）的说法，距离函数就是两个BC之间欧式距离Euclidean distance 的平方：第一个结果是，ES获得的最终奖励比NS-ES （ $p < 0.05$ ）和NSR-ES （ $p < 0.05$ ；这些和所有未来的p值是通过Mann-Whitney U 检验）。对于较小的计算量，其性能差距更加明显（图2）。然而，很多人会惊讶于NS-ES在忽略了环境的multi-part reward function 多部分奖励函数的情况下，仍然能够稳定地解决这个问题。虽然BS 是 aligned ，在达到新的 {x,y} 位置往往也鼓励步行的问题，在许多部分的奖励功能，BC并没有明显的帮助（如energy-efficient，节能，low-impact locomotion 低影响的运动）。我们假设，如果有一个sophisticated复杂的BC ，鼓励multi-part reward function 多部分奖励函数关心的所有行为的都阳性，就不会有性能差距 performance gap。然而，这样的BC可能很难构建，并且很可能进一步夸大exaggerate NS和ES匹配所需的计算量。由于增加了奖励压力，NSR-ES表现出比NS-ES更快的学习速度，但最终在600 generations 后导致类似的最终性能 (图2)（p>.05）。 Figure 2. 虽然比ES慢，但NS-ES和NSR-ES 平均能得出有竞争力的解决方案。Although slower than ES，NS-ES and NSR-ES arrive at competitive solutions on average. While ES outperforms NS-ES and NSR-ES, it is interesting how well NS-ES does given that it ignores the reward function. reward pressure 奖励压力的加入有助于NSR-ES更早地表现出比NS-ES更好的表现，并以更低的方差做到这一点。总的来说，所有三种算法都能学习到问题的 competitive solutions 竞争性解决方案，即它们能快速学会走路。here and in similar figures below, 在这里和下面类似的图中，per generation 每代 10 runs 次运行的奖励中位数（到目前为止看到的最好的策略）被绘制成粗线，中位数的95% bootstrapped confidence intervals 置信区间（shaded 阴影）。策略性能被衡量为超过30个随机评估的平均性能。

人形Humanoid locomotion 运动问题似乎并不是一个欺骗性 deceptive 的问题，至少对于ES来说是如此。为了测试NS-ES和NSR-ES是否特别有助于欺骗 deception，我们还在我们创建的这个环境的变体上比较ES和这些算法，这个变体增加了一个欺骗性的陷阱 deceptive trap（局部最优 a local optimum），必须避免这个陷阱以获得最大的性能（图1，右）。在这种新的环境中，在人形的起始位置前的短距离处放置一个三面的小围墙 three-sided enclosure ，奖励函数只是在正x方向上行走的距离。图4和表6.7显示了每个算法所获得的奖励，图3显示了算法在这个问题上搜索过程中的质的不同 differ qualitatively 。在每一次运行中 in every run ，ES都会因为跟随奖励进入欺骗性陷阱而卡在局部最优。NS-ES能够避开局部最优，因为它完全忽略奖励，而是寻求彻底thoroughly 探索环境，但这样做也意味着它根据奖励函数进展缓慢 slow progress。NSR-ES表现出优于NS-ES（p＜0.01）和ES（p＜0.01）的性能，因为它既得益于对奖励的优化，也得益于通过对新奇的压力逃离陷阱 as it benefits from both optimizing for reward and escaping the trap via the pressure for novelty。图3还显示了在NS-ES和NSR-ES算法中保持元种群（M=5）的好处。一些系别 lineages 陷入欺骗性陷阱，incentivizing 激励其他策略围绕陷阱进行探索。at that point 这时，NS-ES和NSR-ES开始通过第3.1节所述的概率选择方法 via the probabilistic selection method outlined in Sec.3.1，将更多的计算资源分配allocate 给这个新发现的、更有前途的策略 newly discovered, more promising strategy。因此，新颖性压力和拥有一个元种群似乎都是有用的，但在未来的工作中，我们期待着对两者的相对贡献进行解读。Both the novelty pressure and having a meta-population thus appear to be useful, but in future work we look to disambiguate the relative contribution made by each.

Figure 3. ES gets stuck in the deceptive local optimum while NS-ES & NSR-ES explore to find better solutions. 在NS-ES和NSR-ES探索寻找更好的解决方案时，ES陷入了欺骗性的局部最优状态。在人形运动与欺骗性陷阱问题上，显示了每个算法的代表性运行的俯视图。黑星代表人形的起点。每个菱形代表一代平均政策的最终位置，即 $\pi(\theta_t)$ ，后几代的阴影较深。对于NS-ES &NSR-ES图，元种群中的M=5个 agents 及其后代中的每一个都用不同的颜色表示。在ES中，humanoid 走进了欺骗性的陷阱 deceptive trap，永远也学不会绕过它 navigate around。NS-ES对解空间的探索比ES多得多，并获得了更高的奖励，但在原点左侧的低奖励和负奖励区域探索浪费了大量的计算量 but wastes significant computation exploring in low and negative reward areas to the left of the origin。NSR-ES在所有3种算法中性能最好（图4）。它一般按照奖励函数指示的方向行走，包括走进陷阱，但它的探索压力 exploration pressure 有助于它发现其他更好的解决方案，包括绕过陷阱行走。6.9中提供了每种算法所有10次运行的类似图。 Figure 4. NSR-ES和NS-ES在人形运动与欺骗性陷阱问题上的表现优于ES。ES走进陷阱，由于它没有探索压力，所以会无限期地被困在那里。NS-ES的表现优于ES，因为它避开了局部最优，但由于它完全忽略了奖励，因此需要大量的计算。NSR-ES表现出最佳的性能，证明了奖励探索和性能的价值。

4.2. Atari

我们还在OpenAI Gym中对Atari 2600环境下的众多游戏进行了NS-ES和NSR-ES测试。 (Brockman et al., 2016)。 Arari 游戏由于其高维度的像素输入和复杂的控制动态，可以作为一个信息的基准；每个游戏也需要不同层次的探索来解决。为了证明NS-ES和NSR-ES对于局部选择权回避local optima avoidance和定向探索directed exploration的有效性，我们在12个不同复杂程度的游戏上进行了测试，这些游戏由（Bellemare等人，2016）中的分类法定义。主要Primarily，我们关注的是那些在初步实验中，我们观察到我们的ES实现过早地收敛到局部optima的游戏。然而，我们也包括了一些其他的游戏，在这些游戏中，ES并没有收敛到局部的optima，以了解我们的算法在较少欺骗性的领域的性能。由于我们不确定其他论文是否报告了算法在任何运行中发现的最佳单一策略的平均报酬，还是报告了每个运行中发现的最佳策略在r个独立运行中的中位报酬，我们同时报告了这两种情况（见表1和表2）。 As in Mnih et al. (2016), 数据预处理根据 data preprocessing follows Mnih et al. (2015) and the network architecture is from 网络架构来自 Mnih et al. (2013). 每种算法都要经过5次单独运行评估。在这个领域中，NS-ES和NSR-ES有三个元种群代理（即M = 3），因为每个算法训练的代数比人形运动任务中的代数少。我们降低了M，因为Atari网络要大得多，因此每代的计算成本更高。较低的M可以使训练中出现更多的代数。A lower M enables more generations to occur in training. 对于行为表征 behavior characterization，我们遵循Naddaf（2010）的想法，对一个情节中的每一个时间步长的Atari游戏RAM状态进行串联 concatenate。雅达利2600游戏中的RAM状态是长度为128的整数值向量，范围为[0，255]，它描述了游戏中所有的状态变量（例如 agent 和敌人enemies 的位置）。最终 Ultimately，我们希望直接从像素中自动学习行为特征 behavior characterizations。例如，可以从自动编码器 auto-encoders（Tang et al.，2017；van den Oord et al.，2016）或训练用于预测未来状态的网络（Pathak et al.，2017；Stadie et al.，2015）提取extracted form 状态空间的低维潜在表示 low-dimensional, latent representations of the state space 。然而，在这项工作中，我们专注于使用预先定义的、信息量大的行为表征进行学习 pre-defined, informative behavior characterization，并将联合学习政策和状态的潜伏表示的任务留给未来的工作。实际上 in effect ，基于RAM状态的新颖性novelty提供了一个确认 confirmation，即在有足够信息的行为表征的情况下，原则上什么是可能的。我们还强调 we also emphasize that，虽然在训练过程中NS-ES和NSR-ES使用RAM状态来指导guide novelty search 新颖性搜索，但策略本身 $\pi_{\theta_t}$ ，只对图像输入进行操作，并且可以在没有任何RAM状态信息的情况下进行评估。行为特征之间的距离是每个时间步长k处的L2-距离之和 the distance between behavior characterizations is the sum of L2-distances at each timestep k: 表1和表2比较了算法的性能。虽然NS-ES中的新颖性压力novelty pressure 确实帮助它在某些情况下避免了局部最优值（下文将讨论），但在大多数游戏中，仅对新颖性进行优化并不会带来更高的奖励（尽管在某些游戏中确实如此）。然而，令人惊讶的是，鉴于NS-ES并没有明确地试图增加奖励，它在许多任务中的表现是如此出色。由于NSR-ES将探索与奖励最大化结合起来，所以它能够避免ES遇到的局部optima，同时也能学习好游戏。在我们观察到的5个游戏中，每一个游戏中ES都会收敛到过早的局部最优状态，NSR-ES实现了更高的中位数奖励。在这些游戏中，NS-ES的表现也往往优于ES。在其他游戏中，ES并没有从增加探索压力中获益，NSR-ES的表现更差。预计It is expected that，如果没有局部最优值，奖励最大化足以表现良好，那么鼓励探索的额外成本将损害绩效。我们假设这就是这些游戏的情况。然而，我们注意到，所有的结论都为时过早，因为我们没有在Atari领域收集到足够大的样本量来测试这些算法在每个游戏上的性能差异是否具有统计学意义statistically significant。在游戏《Seaquest》中，局部最优值的避免尤为明显，如图5所示。ES的表现在中位奖励 960 时就早早地趋于平淡 flatlines early，这对应的行为是代理人下到海底，射鱼，从不上来透气。这种策略代表了一个典型的局部最优选择，因为上来换气需要暂时放弃奖励，但从长远来看，可以获得更高的奖励。NS-ES在所有5次跑动中都学会了上前换气，并获得了显著更高的中位数奖励1044.5（P <0.05）。NSR-ES也避免了这种局部的optima，但其额外的奖励信号帮助它更好地玩游戏（例如，它更擅长射击敌人），从而使奖励的中位数更高，达到2329.7（p <0.01）。我们在Seaquest上对ES的实验结果与Salimans等人(2017)的相关博文不同，因为它报告了代理人学习上天的情况(我们的超参数与他们的不同)。然而，我们的观点并不是关于这个特定的局部选择，而是没有探索的ES可能会无限期地卡在一些局部选择上，而新奇驱动的探索可以帮助它摆脱困境。 Atari的结果说明，对于复杂的高维控制任务，只要给定适当的行为特征，NS是一种鼓励定向探索的有效机制。单纯的新奇压力在许多游戏中产生了令人印象深刻的表现，有时甚至能击败ES。将新奇和奖励结合在一起的表现要好得多，并且在ES似乎会卡在局部optima的任务上提高了ES的表现。也就是说，加入新奇压力并不总是有利的，尤其是当单纯的奖励就足够了。 Table 1：在任何运行中，每个算法发现的最高性能策略的ATARI 2600奖励。分数是10次随机策略评估的平均值，每次评估都有最多30个随机的初始不操作行动。表2显示了各运行的平均结果。带y的游戏是那些我们观察到ES过早收敛的游戏，这可能是由于它遇到了局部optima。表2. ATARI 2600各运行的中位数奖励。分数是每个运行的最终最佳策略的平均奖励（超过30次随机评估）的中位数，跨越5个运行。在SI Sec.6.8中可以找到每个算法在每个游戏中随时间推移的性能图，以及中位数的引导置信区间。请注意，在某些情况下，这里报告的ES的奖励低于Salimans等人（2017）报告的奖励，这可能是由于不同的超参数（见SI Sec.6.5）。带！的游戏是我们观察到ES过早收敛的游戏，这可能是由于它遇到了局部的optima。 Figure 5：避免Seaquest中的局部最优值。在我们的超参数配置下，ES收敛到一个它从未逃避的局部最优值，这包括不上浮换气。它从来没有发现，暂时放弃奖励以浮出水面换取空气，最终可以获得更大的奖励。通过对奖励和新奇度的优化，NSR-ES能够避开局部视点，实现比ES高得多的性能。在只有探索性压力的情况下，NS-ES在3/5的运行中表现出更好的性能，并且很可能在所有运行中通过额外的计算超越ES。另外要注意的是，虽然它的中值得分与ES相似，但它并没有停留在相同的局部optima上，因为它在所有运行中都会浮出水面换取空气。NSR-ES在训练结束后也仍在稳步提高，这说明随着训练时间的延长，NSR-ES和ES之间的性能差距会越来越大。

5. Discussion and Conclusion

NS和QD是一类进化算法，旨在避免局部optima，促进强化学习环境中的探索，但之前只被证明对小型神经网络（数百个连接的数量级）有效。最近，ES被证明是一种可行的进化算法，用于训练深度神经网络，可以解决具有挑战性的高维RL任务 [Salimans et al., 2017]。当有许多并行计算机时，它的速度也更快。在这里我们证明，当与ES杂交时，NS和QD不仅保留了ES有吸引力的可扩展性属性，而且还帮助ES在具有欺骗性奖励函数的领域中探索和避免局部最优值。我们在人形运动问题和Atari游戏上的实验结果表明，NS-ES单独可以实现高性能和避免局部最优值。我们引入的一种针对新颖性和奖励进行优化的QD算法，我们称之为NSR-ES，可以实现更好的性能，包括在一些具有挑战性的领域上优于ES的性能。据我们所知，本文报告了首次尝试增强ES以在高维环境中执行定向探索。因此，我们为那些有兴趣利用ES的可扩展性的人提供了一种选择，但他们也希望在奖励函数稀疏或具有局部最优值的领域上获得更高的性能。对于机器学习从业者未来希望解决的大多数具有挑战性的现实世界领域，后一种情况很可能会成立the latter scenario will likely hold。此外 additionally，这项工作突出了在RL领域勘探的备选方案。第一个区别是整体描述代理的行为holistically describe the behavior of an agent，而不是定义每个状态的勘探奖金instead of defining a per-state exploration bonus。第二种方法是鼓励一群代理同时探索环境的不同方面。这些探索样式不同于RL中常见的基于状态的单agent探索样式，包括最近对deep rl 的扩展。因此，这些新的选择为以下方面开辟了新的研究领域：(1)在更多的领域更系统地比较整体探索与基于状态的探索，以及基于群体的探索与单代理的探索，comparing holistic vs. state-based exploration, and population-based vs. single-agent exploration, more systematically and on more domains(2)研究结合所有这些选择的优点的最佳方式，以及investigating the best way to combine the merits of all of these options(3)将整体和/或基于群体的探索与其他在深层RL问题上运行良好的算法，如策略梯度和DQN混合。hybridizing holistic and/or population-based exploration with other algorithms that work well on deep RL problems, such as policy gradients and DQN.将新颖性搜索与政策梯度(NS-PG)结合起来应该是比较直接的。如何最好地将其与Q-learning结合起来以创建NS-Q则不太明显，但它可能是可能的，而且可能是富有成效的。与任何探索方法一样，如果这种探索压力exploration pressure没有必要，鼓励新奇也是要付出代价的。在Atari游戏中，如Alien和Gravitar，以及在没有欺骗性陷阱的人形运动问题中，NS-ES和NSR-ES的表现都比ES差。这些结果促使我们研究如何在需要的时候才最好地鼓励新奇（以及更普遍的探索）。更广泛地讲，在发明更复杂的方法来结合基于群体的探索压力和奖励最大化方面，还有很多工作要做，我们认为这是未来工作的一个令人兴奋的领域。

重点词汇

deceptive (i.e. contain local optima)：这个概念好厉害，欺骗性的，即包含局部最优holistic exploration 整体探索 population-based exploration 基于种群的探索Plots of performance over time, along with bootstrapped confidence intervals of the median, for each algorithm for each game can be found in Sec.6.8。每种游戏的每种算法的性能随时间变化的曲线图以及中位数的自举置信区间可以在第6.8节中找到Here we demonstrate that, when hybridized with ES, NS and QD not only preserve the attractive scalability properties of ES, but also help ES explore and avoid local optima in domains with deceptive reward functions.this work highlights alternate options for exploration in RL domains.More generally, much work remains in terms of inventing more sophisticated methods to combine pressures for exploration and reward maximization within population-based exploration, which we consider an exciting area for future work.更普遍的是，在发明更复杂的方法，在基于群体的探索中结合探索压力和奖励最大化方面，还有很多工作要做，我们认为这是未来工作的一个令人兴奋的领域。pre-defined, informative behavior characterization实际上 in effect新颖性压力novelty pressure

重要的参考文献

Salimans, Tim, Ho, Jonathan, Chen, Xi, and Sutskever, Ilya. Evolution strategies as a scalable alternative to reinforcement learning. arXiv preprint arXiv:1703.03864, 2017. 这篇是证明ES可以用于解决高维

最新回复(0)