2026¶
Business Trip: 2601-2602 verl + DanceGRPO
导言
ZJ内部出差,从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL,达成reward快速持续上升。
The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape
导言
推理采样如何重塑概率地图:在普通监督学习(SFT)中,模型是被“喂饭”——你告诉它正确答案是什么,它去模仿。而在强化学习(RL)中,模型是在“试错”——它自己写几个答案,然后根据好坏来调整自己。
My Digital Worker : New Coding Way
导言
AI浪潮下,一开始是代码补全,之后是Vibe Coding,现在是Agent(规范驱动开发(Spec-driven Development)),后续趋势是Agent Team/Swarm。核心LLM上层的 逻辑编排层 愈发的重要。
作为一个程序员,应当以什么姿势拥抱AI时代的代码编程,是需要持续关注的问题。
My Digital Worker : Target 1
导言
- 第一阶段的目标: 接入api模型,完成每日的工作相关基础的信息收集和整理归档。
- 第二阶段的目标: 无监管处理较简单事项;
- 第三阶段的目标: 参与构建复杂系统,和辅助重要决策。
My Digital Worker : Work with AI
导言
26年开年,Agent爆火,我也尝试了OpenClaw、CC等前沿工具和API接口。当前问题还是记忆力不够(即使1M也远远不够),这导致你还是不能将其看作是一个“数字员工”。从技术发展、幻觉和使用成本角度考虑,AI仍然将作为单点技术咨询/单问题解决( 定制prompt )的角色参与到个人的工作中,来增强个人能力,促成“生产力”超高的超级个体的产生。
大部分员工只是按部就班的做事,但是AI时代下,什么有价值,应该做什么(应该要AI帮你做什么)反而是最重要的。
本文将
- 从SE角度:热点跟踪、技术调研、客户交流/筛选规划、按期执行、测试看护、总结汇报。 这些方面来介绍我是怎么利用AI辅助加速的。
- Research发论文角度:AutoResearchInSleep: (调研文献)->(找idea)->(查新验证)->(写代码)->(部署跑实验)->(自动改到能投)-> (大纲)-> (作图)-> (LaTeX+PDF)->(审稿×2 + 格式检查)->(搞定!)
My Digital Worker
导言
Agent 概念与 OpenClaw 的爆火,本质上反映了人们对个人数字员工(Digital Worker)能力的期待:它不只是一个对话式 AI,而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。
我真正关心的问题是:如何为自己的具体工作场景配置合适的数字员工,使其在时间与认知两个维度上对个人效率形成倍增效应。
AI Post Traning: DanceGRPO
导言
DanceGRPO是25年5月发表的论文,把GRPO的方法引入到了生成领域。(类似的有flowGRPO)。字节客户基于此魔改,故学习。
AI Post Traning: DiffusionNFT
导言
DiffusionNFT 直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。在GenEval任务上,DiffusionNFT仅用约1.7k步就达到0.94分,而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。