sarsa | CN-SEC 中文网

安全开发

强化学习系列：时序差分、SARSA和Q-learning

1. 回顾上一期我们介绍了两种动态规划的强化学习算法：策略迭代算法和价值迭代算法，并且用它们来解决了悬崖漫步的问题，验证了强化学习理论的有效性。这两种算法虽然简单有效，但是适用的范围有限，要使用它们必...

04月23日18 views评论