RL03-OfflineRL
现实世界的物理交互太昂贵了,而数据太宝贵了, 具身需要Offline RL!需要充分利用次优数据!
RL02-Actor-Critic-Value-Method-and-Q
Sergey Levine CS285 lec 6,7,8。去除了我在本科已经学会的内容关注新的perspective。
RL01-BC-AIL-ModelBased
一次闲暇的学习,来自LAMDA课题组的《模仿学习简明教程》。热门工作不过是恰当地使用经典的方法,发掘旧方法的新价值。
RL00-XJTU-UnderGraduate-RL
XJTU-22级强化学习本科教学内容个人总结-应付面试version
Manipulation Paper Reading 02
首先是要可靠有关键的说服力,其次是要通用。
RL Post Training Paper Reading01
这次调研的所有工作,几乎都是在回答这个核心问题:我们如何构建一个能自我改进的“数据飞轮”?






