1 设计一个有障碍物的地图,用户可以修改障碍物布局,可以指定起点和终点
2 编程实现Q-learning算法,用于机器人规划最短路径,学习算法参数可以由用户设置
3 使用可视化界面演示Q值变化过程及最短路径探测过程
maze.py:迷宫类
draw.py:迷宫可视化
--draw_maze(ax, my_maze, label):绘制迷宫
--draw_track(ax, my_maze, step):绘制智能体运动轨迹
--draw_qtable(ax, my_maze, Q_table, step):绘制Q-Table变化
main.py:主程序,求解路径规划
--q_value(self, state):求Q(s, *)
--predict(self, state):贪心策略求a = maxQ(s, *)
--train(self, ax1, ax2):迭代更新Q-Table

