RL RL Next: Meta-Learning 导言 背景问题:传统RL的算法和奖励都要特殊设计,并且不同领域迁移性很差; 想法: 能不能系统自己迭代产生适合的RL算法 构建一个能够表征广泛强化学习规则的搜索空间,让系统通过多代智能体在复杂环境中的交互经验,元学习(Meta-Learning)出最优的强化学习更新规则。1 参考文献¶ Nature见刊发表!谷歌DeepMind发现了迄今最先进的强化学习算法! ↩ 评论