跳转至

笔记

Ideas around T2I2V models

导言

理解当下最流行的多模态模型(e.g., 生成text2image, text2video,理解image2text,video2text)

排行榜: Vbench

  • 当前主流的多模态生成模型(如图像生成和视频生成)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。
  • 当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

AI Model Design Effectiveness

导言

作为非AI从业者,而是(即将成为)HPC赋能AI的工作者。我一直在思考,我对AI模型的了解应该止步于什么程度?

从AI模型设计的有效性角度切入,应该是我的学习的Sweet Spot / tradeoff。

意义:明白哪些层和哪些参数是有效的,对于模型压缩(模型裁剪,权重剪枝)来说是必要。远比算子融合等带来的提升大。

有待了解的内容:

  1. 相对于领域的复杂的信息量,一个十层的模型竟然能将其表达,Miracle!
  2. 有研究表明模型的参数大部分都是无用的,如何判断,如何剔除。

困惑:如何证明网络是学习或存储了真实世界的内在关联,而不只是通过增大了训练数据量和参数而存储了问题的答案。(使用测试集的准确度来量化)

AI的现状/困境: 1. AI研究人员,由具体问题场景出发,利用已有的工具或者特殊设计网络来拟合/建模问题,尝试提取不知名的隐含的特征到网络中,来解决这一类问题。 2. 明显的缺陷:就是不可重复性,缺乏一个模型来统一描述世界的问题,每个问题都要单独设计。

对象:transformer, gpt, stable diffusion(先看效果,在看是否成熟到值得学习,之前生成的多指图简直是精神污染), YOLO。

Classical AI Models

导言

机器学习和人工智能模型算法,从一开始模仿神经元设计,到现在根据任务定制或者基于naive的思想构建(例如对抗思想、感受野、注意力机制)。模型的设计可以说是日新月异,截然不同。但是从高性能计算的角度来看,还是离不开求导操作、矩阵操作、激活函数计算这几点。剩下值得考虑的就是寻找现有或者未来模型构成计算操作的最大公约数,来对其进行特殊软硬件设计加速。或者只是对现有模型的适配加速工作。