跳转至

RL Next: Meta-Learning

导言

  • 背景问题:传统RL的算法和奖励都要特殊设计,并且不同领域迁移性很差;
  • 想法: 能不能系统自己迭代产生适合的RL算法
  • 构建一个能够表征广泛强化学习规则的搜索空间,让系统通过多代智能体在复杂环境中的交互经验,元学习(Meta-Learning)出最优的强化学习更新规则。1

参考文献

评论