强化学习对于infinte horizon的方案

tech2022-07-16  163

无非两种方案:

完成这次交互,也就是超过这一次规定的迭代步数直到done,这样做会使每一次迭代更新时的交互step不同,比较不同算法在相同的step性能如何时略显不公平不完成这次交互,这样会使最后一步的step采用gae对adv估值存在近似。 在John Schulman’s 程序中,对V估值采用这种方式: V(s_t+1) = {0 if s_t is terminal {v_s_{t+1} if s_t not terminal and t != T (last step) {v_s if s_t not terminal and t == T

也就是最后一个step如果不是终止状态,则它下一状态的V估值为当前状态的V估值 在有的程序中,也采用V神经网络下一状态的值作为对下一状态的V函数估值。

参考:https://zhuanlan.zhihu.com/p/207435700

最新回复(0)