2026¶

2026年3月17日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

Agent & Agentic RL

导言

Agentic RL 和 memory 是2026年的发展方向。本文将调研 Agentic RL 在多模态的发展潜力。

2026年2月27日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Business Trip: 2601-2602 verl + DanceGRPO

导言

ZJ内部出差，从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL，达成reward快速持续上升。

2026年2月5日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

导言

推理采样如何重塑概率地图：在普通监督学习（SFT）中，模型是被“喂饭”——你告诉它正确答案是什么，它去模仿。而在强化学习（RL）中，模型是在“试错”——它自己写几个答案，然后根据好坏来调整自己。

2026年2月2日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

My Digital Worker : New Coding Way

导言

AI浪潮下，一开始是代码补全，之后是Vibe Coding，现在是Agent（规范驱动开发(Spec-driven Development)），后续趋势是Agent Team/Swarm。核心LLM上层的逻辑编排层愈发的重要。

作为一个程序员，应当以什么姿势拥抱AI时代的代码编程，是需要持续关注的问题。

2026年2月2日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

My Digital Worker : Target 1

导言

第一阶段的目标: 接入api模型，完成每日的工作相关基础的信息收集和整理归档。
第二阶段的目标: 无监管处理较简单事项；
第三阶段的目标: 参与构建复杂系统，和辅助重要决策。

2026年2月2日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

My Digital Worker : AutoMoneyMaker - AutoTrader

导言

量化交易一直是最火的自动赚钱的途径：

经过调研，个人量化从技术上是可行的。
加上现在agent coding能力起来了。
原本是自己在写AQTP仓，但是发现了 zvt 这个偏个人的研究策略仓，和更关注实盘高频模拟的 vnpy
现在把精力转移到开源仓的使用
- zvt 仓的使用和二次开发上；（思路、可视化、数据库、策略拓展性都感觉OK）
- QUANTAXIS 通过 Rust 加速；
- AI 向 Qbot 和 microsoft/qlib 方法尝试。Qbot还支持接入飞书。

2026年2月2日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

My Digital Worker : Work with AI

导言

26年开年，Agent爆火，我也尝试了OpenClaw、CC等前沿工具和API接口。当前问题还是记忆力不够（即使1M也远远不够），这导致你还是不能将其看作是一个“数字员工”。从技术发展、幻觉和使用成本角度考虑，AI仍然将作为单点技术咨询/单问题解决（ 定制prompt ）的角色参与到个人的工作中，来增强个人能力，促成“生产力”超高的超级个体的产生。

大部分员工只是按部就班的做事，但是AI时代下，什么有价值，应该做什么（应该要AI帮你做什么）反而是最重要的。

本文将

从SE角度：热点跟踪、技术调研、客户交流/筛选规划、按期执行、测试看护、总结汇报。这些方面来介绍我是怎么利用AI辅助加速的。
Research发论文角度：AutoResearchInSleep： (调研文献)->(找idea)->(查新验证)->(写代码)->(部署跑实验)->(自动改到能投)-> (大纲)-> (作图)-> (LaTeX+PDF)->(审稿×2 + 格式检查)->(搞定!)

2026年2月2日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

My Digital Worker

导言

Agent 概念与 OpenClaw 的爆火，本质上反映了人们对个人数字员工（Digital Worker）能力的期待：它不只是一个对话式 AI，而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。

我真正关心的问题是：如何为自己的具体工作场景配置合适的数字员工，使其在时间与认知两个维度上对个人效率形成倍增效应。

2026年1月27日
分类于 Artificial Intelligence
需要 8 分钟阅读时间

AI Post Traning: DanceGRPO

导言

DanceGRPO是25年5月发表的论文，把GRPO的方法引入到了生成领域。（类似的有flowGRPO）。字节客户基于此魔改，故学习。

2026年1月27日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

AI Post Traning: DiffusionNFT

导言

DiffusionNFT 直接在前向加噪过程（forward process）上进行优化，在彻底摆脱似然估计与特定采样器依赖的同时，显著提升了训练效率与生成质量。在GenEval任务上，DiffusionNFT仅用约1.7k步就达到0.94分，而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。