The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape
导言
推理采样如何重塑概率地图:在普通监督学习(SFT)中,模型是被“喂饭”——你告诉它正确答案是什么,它去模仿。而在强化学习(RL)中,模型是在“试错”——它自己写几个答案,然后根据好坏来调整自己。
导言
推理采样如何重塑概率地图:在普通监督学习(SFT)中,模型是被“喂饭”——你告诉它正确答案是什么,它去模仿。而在强化学习(RL)中,模型是在“试错”——它自己写几个答案,然后根据好坏来调整自己。
导言
AI浪潮下,一开始是代码补全,之后是Vibe Coding,现在是Agent,后续趋势是Agent Team/Swarm。作为一个程序员,应当以什么姿势拥抱AI时代的代码编程,是需要持续关注的问题。
导言
导言
Agent 概念与 OpenClaw 的爆火,本质上反映了人们对个人数字员工(Digital Worker)能力的期待:它不只是一个对话式 AI,而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。
我真正关心的问题是:如何为自己的具体工作场景配置合适的数字员工,使其在时间与认知两个维度上对个人效率形成倍增效应。
导言
DanceGRPO是25年5月发表的论文,把GRPO的方法引入到了生成领域。(类似的有flowGRPO)。字节客户基于此魔改,故学习。
导言
DiffusionNFT 直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。在GenEval任务上,DiffusionNFT仅用约1.7k步就达到0.94分,而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。
导言
视觉领域的GPT moment要来了吗?4
当前多模态设计中AR和DiT的组合关系,单独学习一下