安全开发 强化学习系列:时序差分、SARSA和Q-learning 1. 回顾上一期我们介绍了两种动态规划的强化学习算法:策略迭代算法和价值迭代算法,并且用它们来解决了悬崖漫步的问题,验证了强化学习理论的有效性。这两种算法虽然简单有效,但是适用的范围有限,要使用它们必... 04月23日8 views评论learning 强化学习 阅读全文