AI Post Traning: DanceGRPO
导言
DanceGRPO是25年5月发表的论文,把GRPO的方法引入到了生成领域。(类似的有flowGRPO)。字节客户基于此魔改,故学习。
写笔记是为了让自己看懂,写博客是为了让别人看懂,不一样的,认真做好后者对自己各方面能力的提升会非常大(比如表达能力),其实很多时候记笔记就是写几段自己能看懂的表达,很随性,但写博客更像是写一篇论文,需要自己先彻底搞明白一个东西后才能输出1
我一直努力将内容写成博客。但是后来发现,根本没有时间和心思,来为别人解释很多事情。我的想法是最多是解释给多年后忘记一切的自己听,我还能快速看懂。能达到这点,这些内容的意义对于我就已经足够。
从读者的角度,我并不会推荐任何人阅读这个网站的内容:因为你会遇到以下令人烦躁的场景
多级标题维持.导致这种情况,其实和我对知识产出过程的理解有关,我认为过程是 知识是自然聚类和融合的:
而且三者的占比是前面远大于后面,这样看来我这网站大部分的内容岂不是都是笔记的草稿。
我以这样的方式撰写我的正式的毕业论文时,发现这样的处理有利有弊:
总结:知识是自然聚类和融合的思想是没错的,但是在实际生产应用时需要两级的信息筛选过滤体系:区分出正文内的todo内容和未整理的archived信息。通过将罗列的完备信息初步分类归档(有基础的逻辑)以待后续使用,正文精心撰写每一句话保证不需要大量返工。
导言
DanceGRPO是25年5月发表的论文,把GRPO的方法引入到了生成领域。(类似的有flowGRPO)。字节客户基于此魔改,故学习。
简介
最近失眠还蛮多的,对被AI淘汰、被同辈后辈淘汰的担心,即使天天加班,时间还是不够,项目还是来不及,身体也扛不住。
作为SE还要具备领域内的前沿技术能力,但是担心的也不是技术,而是对能力提升有追求,不要过了一年发现还是在吃能力的老本。而且我希望个人能力的增强是持续有效的,不是那种之后用不上或者马上被淘汰的技术能力。
导言
最近发现贡献分配是团队合作的一大难点, 产出的商业价值, 在不同场景下如何分配:
但是注意:贡献分配不是为了“分高下”,而是为了“定义导向”。如果你希望团队更有创新性,就重赏 SE;如果你希望项目交付更稳健,就必须重赏那些默默把“脏活”干得极其漂亮的人。
导言
厚重的 IPD 流程 和 AI 创新,如何平衡?
两种范式的对垒
AI 开发的特殊挑战
AI 研发具有高不确定性、高算力成本和极快的技术更迭周期。这导致传统的 IPD 流程在 AI 领域显得过重,而纯粹的敏捷模式在面对大额算力投资时又显得缺乏战略定力。