RL Next: Meta-Learning
导言
- 背景问题:传统RL的算法和奖励都要特殊设计,并且不同领域迁移性很差;
- 想法: 能不能系统自己迭代产生适合的RL算法
- 构建一个能够表征广泛强化学习规则的搜索空间,让系统通过多代智能体在复杂环境中的交互经验,元学习(Meta-Learning)出最优的强化学习更新规则。1
导言
导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:
导言
导言
自动驾驶 VLA(Vision-Language-Action)模型中,VLM 和 DiT 是两个核心组件。但很多人会有一个常见误解:DiT 是用来生成图片的。实际上,在自动驾驶场景中,DiT 更多是作为动作/轨迹生成器,而非图像生成器。
VLM 负责"看懂路况和指令",DiT 负责"生成一段连续、平滑、多模态的驾驶动作/轨迹"。
导言
多模态生成模型的推理速度一直受制于diffusion模型的多步去噪,这也限制了RL的迭代速度。为此DMDR解决了这个问题。可以结合DiffusionNFT+DMDR
导言
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

排行榜: