-
RL03-OfflineRL现实世界的物理交互太昂贵了,而数据太宝贵了, 具身需要Offline RL!需要充分利用次优数据!
31 min -
RL02*-DDPG-SAC-TD3经典方法补充。
6 min -
RL02-Actor-Critic-Value-Method-and-QSergey Levine CS285 lec 6,7,8。去除了我在本科已经学会的内容关注新的perspective。
29 min -
RL01*-Weighted BC Method-Embodied IL模范学习的本质是更新公式的策略无关性。
17 min -
RL01-BC-AIL-ModelBased来自LAMDA课题组的《模仿学习简明教程》。
42 min -
RL00-XJTU-UnderGraduate-RLXJTU-22级强化学习本科教学内容个人总结-应付面试version
10 min
Back