Alpha Go和Alpha Go Zero的文献阅读

tech2022-07-07 324

Nature的Alpha Go和Alpha Go Zero原文阅读:

Mastering the game of Go with deep neural networks and tree search 复杂度过高的解决方案： 1.广度：策略p(a|s)是状态s上动作a的概率分布； 2.深度：在状态s处截断搜索树，并用预测状态s的结果的近似值函数v(s)≈v*(s)替换s下的子树的实际情况。

本文工作：

A.训练过程 1.SL（监督学习）策略网络：利用监督学习来预测围棋中专家的动作。最终输出概率分布函数P_sigma(a|s)，此外还提供了速度更快但精确度低一些的小型特征策略网络P_pi(a|s)。前后两个策略的主要区别在于网络的规模不同。 2.RL策略网络：利用刚刚的P_sigma，让它和先前随机某一次迭代后的P_sigma*进行比拼，从而防止网络过度依赖（有点overfitting的意思）。如果P_sigma在t时刻赢了，则z=+1，反而反之。随后在每个时间步长t处，更新权重。 3.此外，利用RL策略网络进行自我博弈，达到了最低过拟合程度。 4.利用刚刚的RL策略网络生成价值网络v（但是好像没有看到是如何生成的）。

B.测试过程 1.MCTS的数据分为三部分：Q(s,a)动作价值，N(s,a)，P(s,a)。其中Q取决于其子树中所有模拟的估值函数V，而V又取决于叶子的价值函数v和结果z。

2.而推理最优的公式为：

解决了如下问题： 1.AlphaGo的推理寻优公式：根据B-2提到的公式。 2.快速走子：A-1中提到的速度更快但精确度低的小型特征策略网络P_pi(a|s)。 3.看完Nature的原著发现，UCB即为上述内容的u(s,a)，且由于本文对MCTS的评价是对原有模型的更好的改进，因此类似的公式（B-2）是同时在被训练和测试时使用的。

Mastering the Game of Go without Human Knowledge 1.新的f_theta：该神经网络将位置及其历史记录的原始棋盘表示作为输入，输出(p,v)，p表示下一步走子的可能性，v表示当前的获胜概率。相当于组合了上文中的策略网络P和价值网络V，但实现起来需要批量归一化技术和非线性整流器（？？？），还有残差（Res.）模块。 2.自走强化学习。程序和自己下T轮棋，每一轮都会根据刚才的网络f_theta指导MCTS运行，然后根据搜索出来的概率得到下一步方案，打完T轮后判胜方。而后根据上述结果继续训练，更新的新模型用于新的自走。这样做可以让新模型更接近MCTS，从而达到更好的效果。 3.MCTS内部仍然是存储P,Q,N三个部分。过程为：从根节点择优下降→扩展节点并求算该状态的预估胜算V→利用V更新祖先链上的Q和N。其中，f_theta的损失函数是特制的：交叉熵和MSE（但没有具体指出其意义）

其中，c是控制过拟合的参数。

一个看起来还不错的介绍本文的博客： https://blog.csdn.net/sinat_31428707/article/details/82218575

最新回复(0)