算法简介
Q-Learning算法,目标是达到目标状态并获取最高收益,一旦到达目标状态,最终收益保持不变。因此,目标状态又称之为吸收态。
算法核心:
1、设置好 γ 值以及矩阵R
2、初始化矩阵Q全为0
3、For each episode:
- Select a random initial state
- Do while the goal state hasn’t been reached.
- End Do
4、End For
代码实现
整个算法就是一直不断更新 Q table 里的值, 然后再根据新的值来判断要在某个 state 采取怎样的 action. Qlearning 是一个 off-policy 的算法, 因为里面的 max action 让 Q table 的更新可以不基于正在经历的经验。
maze_env :环境模块, maze_env 模块我们可以不深入研究, 可以去看看如何使用 python 自带的简单 GUI 模块 tkinter 来编写虚拟环境。
RL_brain: 这个模块是 Reinforment Learning 的大脑部分。
算法主要内容:
閱讀更多 咱小二 的文章