Chapter 1. RL Basis
1.RL Introduction
2.Multi-armed Bandits
3.Finite Markov Decision Processes
4.Dynamic Programming
5.Monte Carlo Methods
6.Temporal-Difference Learning
7.n-step Bootstrapping
8.Planning and Learning with Tabular Methods
Chapter 2. Approximate and Deep RL
9.On-policy Prediction with Approximation
10.On-policy Control with Approximation
11.Off-policy Methods with Approximation
12.Eligibility Traces
13.Policy Gradient Methods
Chapter 3. Deeper Research
14.Psychology
15.Neuroscience
16.Applications and Case Studies
Chapter 4. Other RL and Projects
17.Frontiers
18.Project: RL Game Agent
19.Project: Robot Agent
第1章: RL Basis
1 : 强化学习介绍
任务1: text_book.pdf
2 : 井子棋游戏实验
3 : 值函数与多臂赌徒
4 : 多臂赌徒实验
5 : 有限马尔可夫决策过程
6 : 格子游戏实验
7 : 动态规划
8 : 动态规划实验
9 : 蒙特卡罗方法
10 : 黑杰克(21点)游戏实验
11 : 时间差分方法
12 : 攀登者游戏实验
13 : 多时间步差分学习方法
14 : 随机行走环境编写与出租车项目挑战
15 : 基于格子方法的规划与学习
16 : 静态与动态迷宫实验
第2章: Approximate and Deep RL
17 : 近似在线策略计算
18 : Pytorch 实验
19 : 值近似在线策略控制
20 : Gym 基础实验
21 : 并行策略的值估计
22 : DQN论文详解
23 : 实战太空侵略者
24 : 实战DOOM
25 : 对决DQN网络
26 : 带优先级的记忆回放技术
27 : DQN FLappy Bird
28 : Double DQN
29 : 对决网络勇闯死亡回廊 |