强化学习中最有名的算法——Q-Learning

强化学习中最有名的算法——Q-Learning

算法简介

Q-Learning算法,目标是达到目标状态并获取最高收益,一旦到达目标状态,最终收益保持不变。因此,目标状态又称之为吸收态。

强化学习中最有名的算法——Q-Learning

算法核心:

1、设置好 γ 值以及矩阵R

2、初始化矩阵Q全为0

3、For each episode:

  • Select a random initial state
  • Do while the goal state hasn’t been reached.
强化学习中最有名的算法——Q-Learning

  • End Do

4、End For

强化学习中最有名的算法——Q-Learning

代码实现

整个算法就是一直不断更新 Q table 里的值, 然后再根据新的值来判断要在某个 state 采取怎样的 action. Qlearning 是一个 off-policy 的算法, 因为里面的 max action 让 Q table 的更新可以不基于正在经历的经验。

maze_env :环境模块, maze_env 模块我们可以不深入研究, 可以去看看如何使用 python 自带的简单 GUI 模块 tkinter 来编写虚拟环境。

RL_brain: 这个模块是 Reinforment Learning 的大脑部分。

强化学习中最有名的算法——Q-Learning

算法主要内容:

强化学习中最有名的算法——Q-Learning

强化学习中最有名的算法——Q-Learning


分享到:


相關文章: