跳转至

Artificial Intelligence

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:

  • 说实话有点头大
  • 多模态理解模型的主体就是LLM,LLM的RL基本半年后会迁移到多模态理解上,所以我要跟踪LLM RL的文章
  • 多模态生成模型的RL偏向DPO为主的另一条路子;
  • 多模态还涉及agent、具身智能,RL又有些不同;
  • 文章多到看得头大。

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

排行榜:

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

AI Post Traning: DPO + MPO

导言

在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。

  1. 一种是基于强化学习的PPO,它将经典的RL框架引入LLM微调,通过复杂的系统协调实现了强大的性能;
  2. 另一种是DPO,它通过深刻的理论洞见,将对齐问题转化为一个更简洁的监督学习问题,显著提升了训练的稳定性和效率。

鉴于PPO-RLHF的复杂性,研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化(Direct Preference Optimization, DPO)应运而生,它巧妙地绕过了显式的奖励建模和复杂的RL优化循环,为偏好对齐提供了一个优雅的替代方案。

这篇文章介绍DPO, 和Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。

必看好文6

AI Model Visualization

导言

作为一个AI初学者,总是遇到以下场景:

  1. 客户正在基于NV开发一个AI模型,需要同步的做昇腾适配。手上只有NV下的代码。
  2. 往往很难将论文里的AI模型的图,和代码里的每一层以及参数对应起来。

设计期望:

  1. 在模型开发的过程中,能简单插入,来明确当前模块的大致信息。
  2. 名称,类型(卷积层,池化层),输入/输出/参数, 执行的时间(第一次)。
  3. 可视化
  4. 格式兼容cpprinter。
  5. 能体现出TP,CP等并行策略的效果。

大致思路:

  • 还是借助chrome://tracing格式,来设计类似PyPrinter的工具。
  • 早期可以使用VizTracer代替。