World Model/UFMs/Omni-Modal: AR vs DiT
导言
- World Model: (e.g., Emu3.5)
- Unified Foundation Models, UFMs,强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
- Omni 强调交互能力的闭环。证明模型能像真人一样,具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)
当前多模态设计中AR和DiT的组合关系,单独学习一下
2511 LongCat-flash-omni (TIA2TA)¶
- 基于2509的LongCat-flash开发的
- 特点:
- Shortcut-connected MoE (ScMoE): 零计算专家机制(Zero-computation Experts):模型引入一类特殊的“零计算专家”,当处理常见词汇、标点符号等低复杂度输入时,该专家直接返回原始输入,跳过复杂的矩阵运算,从而节省算力。简单任务(如文本补全)激活少量专家,复杂任务(如数学推理)则调动更多专家资源。
- 模态分离(Modality-Decoupled Parallelism, MDP)是LongCat-Flash-Omni为解决多模态训练异构性问题提出的核心分布式训练策略。其核心思想是使用(ModalityBridge)将模态编码器(视觉/音频编码器)与LLM主干在分布式层面完全解耦,实现独立优化。
2511 ERNIE-5.0-Preview-1120¶
文心 5.0 采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。LLMarena
2510 Emu3.5 智源 (TIV2TIV)¶
悟界·Emu3.5
- 特点:
- 实现了从“下一Token 预测”(Next-Token Prediction)到“下一状态预测”(Next-State Prediction)的能力跃迁:从预测词元,到预测视频下一帧?实现方式:数据不再是图像文本对,而是连续视频输入。
- “多模态 Scaling”规律(从数据年限、质量、模态交错密度到模型参数/目标的协同扩展):预训练采用 >10 万亿多模态 tokens,主力来自互联网视频及转录文本,累计视频时长约 790 年;这是从此前级别(~15 年)的大跨越。
- 离散扩散适配 (DiDA):复制一份图像噪声来加速推理(感觉类似token的投机推理MTP)
- 强化学习:GRPO + 复合奖励系统: 通用奖励(美学、图文一致性)+任务奖励(OCR 准确率、人脸 ID 保持、布局对齐等)
2509 Qwen3-Omni (TIVA2TA)¶
特点:
- 理解音频:大部分Vision模型只能理解语言、图片和视频,但是Omini能理解音频;
- 生成音频:不仅能生成文字,还能生成音频
- 架构特点: Thinker-Talker结构(简单理解: LLM 30B常规理解+音频生成 3B小模块)
- 应用场景: 能直接理解和生成输出多种语言,这在人机交互时是非常重要的体验提升,不用再繁琐的打字和阅读,可以和人交互样使用。
2507 BAGEL 字节¶
- 采用 MoT(Mixture-of-Transformers-Experts) 架构,包含两个独立专家:
- 理解专家:处理文本和ViT视觉特征(用于图像理解)。
- 生成专家:处理VAE视觉特征(用于图像生成)。
- 共享自注意力机制实现跨模态上下文交互,避免传统模型的信息瓶颈。
2506 Ming-Omni (TIV2TI)¶
xxx
综述¶
UFMs的设计¶
早期¶
外部服务集成建模将大语言模型作为功能核心,通过调用外部 API(如文生图模型)来完成生成任务。2
当前主流分类¶
AR 和 DiT 的区别¶
- Diffusion Transformer(DiT):在采样时间戳的控制下,利用随机潜在噪声初始化,变换器模型迭代地预测多个步骤的潜在输出。最后,由变分自动编码器 (VAE) 的解码器对其进行解码。vLLM不支持。1
- 自回归(Autoregressive):文本的主导生成范式,vLLM支持。它生成令牌的条件在以前的令牌一个接一个。vLLM提供的高效KV缓存管理可以有效地加速推理。
| 特性 | 自回归(AR) | DiT(Diffusion-based Iterative Transformer) |
|---|---|---|
| 场景 | 文本生成 | 多模态生成 |
| 生成方式 | Token-by-token,从左到右 | 连续向量,迭代细化 |
| 主要优势 | 局部一致性好 | 全局一致性、多样性和可控制性强 |
| 效率 | 更高效的 KV 缓存 | 需要反复生成,速度较慢 |
| 误差累积 | 容易累积 | 可在后续迭代中修复 |
| 主要挑战 | 全局规划能力有限,长上下文生成困难 | 全局计算成本巨大 |
| 序列长度 | 可变长度 | 固定长度 |
| 注意力掩码 | 下三角形(因果掩码) | 全双向矩阵 |
| 并行策略 | TP, DP, PP 等 | DP, CP 等 |
| vLLM 支持 | 支持 | 不支持 |
全模态模型的AR和DiT构成¶
广义的理解:AR可以给模型引入理解能力,DiT能给模型带来生成能力。所以两者不同的占比,带来了不同的模型设计:1
DiT作为主要结构,AR作为文本编码器¶
用于图像生成和编辑的流行模型。主要的视觉生成模型与结构相似,如Flux。(例如: qwen-image)
AR作为主要结构,DiT作为多模式生成器¶
一个统一的多模态理解和生成模型。视觉生成可以利用CoT文本生成输出。主要的统一多模态模型与结构相似。 (例如BAGEL)
扩展,multi-AR + DiT¶
多模态输入输出的新模型。它设计了thinker-talker-codec结构,该结构是双AR+DiT格式。(例如qwen-omni)
UFMs vs Omni¶
在多模态(Multimodal)AI 领域,这三个概念其实反映了从“拼凑组合”到“深度融合”再到“全能集成”的技术演进过程。你可以把它们理解为三个不同层级的定义:
1. 多模态模型 (Multimodal Model) —— “基础广义概念”¶
这是最宽泛的概念。只要一个模型能够处理(输入或输出)超过一种类型的数据(如文本+图片、文本+音频),就可以被称为多模态模型。
- 核心特征: 跨模态交互。
- 实现方式: 早期多采用“搭积木”的方式。比如,用一个视觉编码器(如 CLIP)提取图片特征,再喂给一个语言模型(LLM)来理解。
- 局限性: 很多早期的多模态模型是“偏科生”。例如 LLaVA 擅长理解图片并回答问题,但它自己不能生成图片;Stable Diffusion 擅长生成图片,但它不具备复杂的对话逻辑。
2. 生成理解统一模型 (Unified Understanding and Generation) —— “技术架构目标”¶
这是研究界针对“偏科”问题提出的技术方案。在 2024-2025 年的研究中,核心在于打破自回归 (AR)(擅长理解和文本生成)与 扩散模型 (Diffusion)(擅长视觉生成)之间的壁垒。
- 核心特征: “同构化”。同一个模型,既能像人类一样“读懂”图片,又能像画家一样“画出”图片。
- 实现方式:
- 离散化 (Tokenization): 将图片、音频也像文字一样切成一个个“Token”。模型像预测下一个字一样预测下一个像素块(例如 Chameleon, Llama 3.2 视觉版的部分思路)。
-
架构融合: 在同一个 Transformer 架构中,交替进行理解任务和生成任务。
-
意义: 实现了双向流通。理解能力可以辅助生成更符合逻辑的内容,生成任务也能增强模型对细节的感知。
3. Omni 模型 —— “全能、原生、实时”¶
“Omni” 源自拉丁语 omnis(意为“全、总”),由 OpenAI 的 GPT-4o 带火。它不仅是技术上的统一,更强调交互体验的无缝化。
- 核心特征:
- 原生 (Native): 并非先转写文字再理解。模型从头开始就在文本、音频、图像的混合数据上训练,具有“原生感官”。
- 全输入全输出 (Any-to-Any): 任意模态进,任意模态出。你可以对着它说话,它直接用带情感的语音回你,中间不经过文字转写。
-
实时低延迟: 响应速度极快,模拟人类的感官反应(如 300ms 左右的语音反馈)。
-
代表作: GPT-4o, Mini-Omni, Moshi。
核心区别对比表¶
| 概念 | 关注点 | 典型能力 | 举例 |
|---|---|---|---|
| 多模态 (Multimodal) | 数据类型 | 能看图说话,或能根据文字画图。 | CLIP, LLaVA, DALL-E |
| 生成理解统一 (Unified) | 架构融合 | 同一个模型既能 VQA(问答)也能文生图。 | Chameleon, Show-o, SEED-X |
| Omni 模型 | 原生交互 | 毫秒级响应,语音/视觉/文本原生流式处理。 | GPT-4o, Mini-Omni |
总结¶
- 多模态是你的“研究领域”;
- 生成理解统一是你要攻克的“技术难点”(如何让一个模型学会所有技能);
- Omni 是你最终想要达成的“产品形态”(像真人一样对世界进行全方位、实时的感知和表达)。
Omni不支持图片输出?¶
Omni 模型不支持图片输出,是因为目前市面上最火的几个标杆(如早期的 GPT-4o 演示或开源的 Mini-Omni)在输出端的表现各有侧重。
实际上,“Omni” 的终极目标是 Any-to-Any(任意到任意),但在现实落地的过程中,不同模型由于其侧重领域不同,表现出了差异:
1. 为什么你会有“不支持图片输出”的印象?¶
- 初期阶段的割裂: 2024 年 GPT-4o 发布初期,虽然号称是原生多模态,但它生成图片依然通过“调用 DALL-E 3”这个外部工具实现,而不是模型直接吐出像素或图片 Token。
- Omni 模型的“音频优先”倾向: 很多冠以 “Omni” 之名的开源模型(如 Mini-Omni, Moshi)核心突破点在于实时语音交互(Speech-to-Speech)。对这些模型来说,音频流的实时性比图片生成更具“Omni(全感官)”的代表性,因此它们往往放弃了图片输出。
- 计算开销: 在同一个模型里既要处理高频音频流,又要处理复杂的视觉像素生成,对架构设计和显存的要求极高。
2. “Omni” 与 “生成理解统一” 在图片输出上的核心区别¶
虽然两者都在往“全能”发展,但它们的出发点不同:
| 维度 | 生成理解统一模型 (Unified) | Omni 模型 (Omni) |
|---|---|---|
| 首要任务 | 视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。 | 交互能力的闭环。证明模型能像真人一样,具备实时、全感官的反应。 |
| 图片输出方式 | 原生 Token 生成。把图片切成 Token,像写作文一样“写”出一张图(如 Chameleon, Show-o)。 | 端到端流式输出。目标是无需切换模型,直接流式吐出语音、文字甚至视频/图片流(如最新的 GPT-4o 2025 版)。 |
| 典型案例 | Show-o, OmniGen。这类模型能根据指令精准改图、扩图,视觉逻辑极强。 | GPT-4o, Ming-Omni。这类模型更强在“边听、边看、边说”,图片输出是其全能属性的一环。 |
3. 最新的进展:Omni 正在补齐图片输出¶
到 2025 年,这个界限正在模糊,“Omni” 正在收割“生成理解统一”的技术成果:
- GPT-4o (2025版): 已逐步实现在模型内部原生生成图片(Native Image Generation),不再依赖 DALL-E。这让它在生成文字排版、逻辑连贯的连环画上有了质的飞跃。
- OmniGen 2: 这是一个典型的“生成理解统一”模型,它不仅支持图片输出,甚至能把所有的视觉任务(如边缘检测、物体识别)都统一成“图片生成”任务。
- Ming-Omni: 这是一个开源的尝试,它真正做到了在一个模型里同时支持语音、文本和图片的原生输出。
总结¶
- 如果你看到一个模型强调“画图”和“改图”的逻辑统一,它更倾向于被归类为 Unified(统一模型)。
- 如果你看到一个模型强调“实时对话”和“感官共情”,它就是典型的 Omni(全能模型)。
当前的趋势是: Omni 模型正在通过吸纳“生成理解统一”的技术架构(如离散化 Token 方案),从而获得真正的原生图片输出能力。










