跳转至

Artificial Intelligence

My Digital Worker : Work with AI

导言

26年开年,Agent爆火,我也尝试了OpenClaw、CC等前沿工具和API接口。当前问题还是记忆力不够(即使1M也远远不够),这导致你还是不能将其看作是一个“数字员工”。从技术发展、幻觉和使用成本角度考虑,AI仍然将作为单点技术咨询/单问题解决( 定制prompt )的角色参与到个人的工作中,来增强个人能力,促成“生产力”超高的超级个体的产生。

大部分员工只是按部就班的做事,但是AI时代下,什么有价值,应该做什么(应该要AI帮你做什么)反而是最重要的。

本文将

  • 从SE角度:热点跟踪、技术调研、客户交流/筛选规划、按期执行、测试看护、总结汇报。 这些方面来介绍我是怎么利用AI辅助加速的。
  • Research发论文角度:AutoResearchInSleep: (调研文献)->(找idea)->(查新验证)->(写代码)->(部署跑实验)->(自动改到能投)-> (大纲)-> (作图)-> (LaTeX+PDF)->(审稿×2 + 格式检查)->(搞定!)

My Digital Worker

导言

Agent 概念与 OpenClaw 的爆火,本质上反映了人们对个人数字员工(Digital Worker)能力的期待:它不只是一个对话式 AI,而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。

我真正关心的问题是:如何为自己的具体工作场景配置合适的数字员工,使其在时间与认知两个维度上对个人效率形成倍增效应。

AI Post Traning: DiffusionNFT

导言

DiffusionNFT 直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。在GenEval任务上,DiffusionNFT仅用约1.7k步就达到0.94分,而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。

World Model/UFMs/Omni-Modal: AR vs DiT

导言

视觉领域的GPT moment要来了吗?4

  • World Model: (e.g., Emu3.5)
  • Unified Foundation Models, UFMs,强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
  • Omni 强调交互能力的闭环。证明模型能像真人一样,具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)

当前多模态设计中AR和DiT的组合关系,单独学习一下